Les bases de données de botanique Aublet

L’ORSTOM, puis l’IRD et l'Herbier de l'Université Louis Pasteur, développe depuis une vingtaine d’années des bases de données sur la flore et la végétation. Elles sont toutes construites sur des principes analogues, même si localement des variantes et des compléments sont nécessaires.

Vieillard : Flore de la Nouvelle-Calédonie (20 000 données herbiers et phytosociologie)

Flore de Saül : Développée par la New York Botanical Garden (25 000 données herbiers)

L’information naturaliste de base est très souvent hétérogène. Dans le cas des étiquettes d’herbiers ou des données bibliographiques, les noms des botanistes collecteurs ou des observateurs (ou source), des taxons, des localités, des pays et des habitats sont rarement standardisés. Or tout traitement scientifique et/ou statistique nécessite d’avoir des renseignements normalisés. Dans les bases Aublet, l’information originale est saisie en clair, dans un champ de type texte, mais à cet aspect classique s’ajoute plusieurs champs dans lesquels l’information de base est retranscrite et parfois modifiée de manière codifiée. Cette transcription est objective et motivée à partir de référentiels. Elle est transparente. A tout moment l’utilisateur peut comparer la donnée brute avec sa transcription standardisée (et donc éventuellement la modifier).

Un référentiel taxonomique, élaboré essentiellement à partir de la bibliographie. Il rassemble l’ensemble des données nomenclaturales de la région concernée (nom scientifique du taxon, rang taxonomique, parent, synonyme, référence bibliographique). Il est hiérarchisé et synonymique.

Un référentiel des noms des botanistes, observateurs, collecteurs et déterminateurs, avec les synonymies éventuelles.

Un référentiel des noms de lieux, hiérarchisé (grande localité, bassin de rivière, massif montagneux, etc.) et synonymique (important dans les pays où l’orthographe des toponymes évolue).

Un référentiel des habitats, basée sur la nomenclature CORINE-biotopes, hiérarchisé et synonymique.

Toutes les informations qui sortent de la base Aublet passent par le filtre de ces référentiels et sont donc standardisées, quelle que soit l’information de départ[1]. Ainsi la synonymie nomenclaturale ou taxonomique est réalisée automatiquement, les données sont rassemblées sous un seul nom d’habitat ou selon une seule localité, quel que soit le nom d’origine (comme par exemple Rivière Ouaqui = Rivière Waki ; St.-Elie track = Piste de Saint-Elie).

Les bases Aublet visent à rassembler la totalité des informations botaniques disponibles, c’est-à-dire tous les spécimens d’herbiers d’une région, quel que soit l’herbier de dépôt, toutes les données publiées (listes floristiques, relevés phytosociologiques, données quantitatives, quadrats forestiers, etc.), toutes les données non publiées (rapports internes, inventaires divers, archives des botanistes, etc.). L’origine des données est indiquée sans ambiguïté, afin de pouvoir être discutée lors des traitements scientifiques. Une donnée floristique issue d’un article ancien sera moins fiable que celle obtenue à partir d’un spécimen récent, localisé au GPS et déterminé par le spécialiste de la famille.

Les thesaurus ou référentiels visent également l’exhaustivité, la totalité des noms de lieux, de plantes, d’habitats utilisés dans une région doivent s’y trouver. Pour les noms scientifiques des taxons, le référentiel taxonomique rassemble les variantes orthographiques et la synonymie la plus étendue possible. Le but des référentiels est de permettre la saisie de n’importe quelle base de données botaniques (herbiers, usages, phytosociologie, pharmacologie, sylviculture, etc.). Les référentiels sont ouverts, publiés et peuvent être consultés, corrigés ou complétés à tout moment[2].

L’information enregistrée est au complet, sans abréviation ni lacune. Notamment les noms des lieux sont en entier (Rivière et non pas Riv., R., etc.). Il en est de même pour les noms des botanistes et des auteurs. Ceux-ci sont standardisés en prenant le nom complet comme référence[3]. Toute l’information est saisie d’abord en clair, afin de pouvoir toujours revenir à la donnée de base. La standardisation est une étape distincte, nécessaire pour faire des exploitations statistiques. Ce n’est pas une simple étape technique, elle est sous la responsabilité du scientifique.

Il s’agit de ressortir les données telle qu’elles figurent sur le document de base (étiquette d’herbier, publication, carnet manuscrit). Cette extraction est réservée au gestionnaire de la base, en vue des corrections, des mises à jour, de la vérification de la standardisation, etc.

C’est l’utilisation classique des bases Aublet. Lors d’une demande extérieure, l’extraction sera faite uniquement à partir des données standardisées[4]. Ceci permet, par exemple, de donner une liste univoque de noms de plantes d’une station, quelle que soit l’information de base. Par exemple, une cypéracée s’est appelée successivement Cladium mariscus, Cyperus mariscus, Mariscus ligularis et Cyperus ligularis au cours des 30 dernières années dans l’herbier de Cayenne (CAY). Les spécimens d’herbier (à Cayenne ou dans d’autres herbiers) comme les publications utilisent indifféremment l’un ou l’autre de ces noms. Lors des exploitation de Aublet, toutes les informations relatives à ce taxon se retrouvent sous le nom de Cyperus ligularis, le nom actuellement retenu par le spécialiste de la famille pour « Flora of the Guianas ». De même le demandeur sera certain que toute les données de la station sélectionnée (par exemple une Znieff ou une Réserve naturelle) ou du milieu étudié (marais, forêt, savane, etc.) seront extraites grâce à la standardisation des noms de lieux et des noms des habitats.

Les 4 millions d’informations botaniques actuellement disponibles selon les normes de Aublet peuvent être rassemblées en une seule base de données générales car elles ont toutes :

un référentiel taxonomique construit sur le même modèle hiérarchisé et synonymique ;

un référentiel des habitats (en voie d’évolution par l’usage de la norme Corine-biotopes) ;

un référentiel des pays et des unités administratives (dérivée de la norme ISO) ;

Il est hautement souhaitable que les autres bases de données qui se développent actuellement utilisent des principes similaires afin de conserver l’homogénéité de l’ensemble et permettre d’une part un regroupement de l’ensemble de l’information botanique disponible, et d’autres part de faire des économies d’échelle en mettant à la disposition du scientifique un certain nombre de produits informatiques communs pour la saisie (logiciel de saisie, de corrections et de mises à jour des référentiels, des spécimens d’herbier, des relevés phytosociologiques) et pour l’exploitation scientifique (système d’Information géographique, programme de traitement statistique des données sur la biodiversité, etc.) de ces bases de données de botanique.

[1] On peut également extraire à la demande les données de bases non standardisées. Qui peut le plus peut le moins.

[2] L’élaboration puis la mise à jour des référentiels est la partie la plus difficile à réaliser dans les bases Aublet.

[3] Le nom complet peut être trouvé à partir des abréviations grâce au Brummit. Il faut néanmoins toujours vérifier ce nom car les abréviations sont rarement standardisées, surtout dans les publications anciennes ou sur les déterminavits des herbiers.

[4] Sauf mention express du demandeur.