Les bases de données de botanique
Aublet
Principes et utilisation
Introduction
L’ORSTOM, puis l’IRD et l'Herbier de
l'Université Louis Pasteur, développe depuis une vingtaine d’années des bases de
données sur la flore et la végétation. Elles sont toutes construites sur des
principes analogues, même si localement des variantes et des compléments sont
nécessaires.
Actuellement, les bases suivantes sont
disponibles :
Aublet : Flore des
Guyanes (150 000 données herbiers)
Fée : Fougères
d’Amérique (55 000 données herbiers)
Nadaud : Flore de
la Polynésie française (25 000 données herbiers)
Forster : Flore du
Vanuatu (20 000 données herbiers)
Vieillard : Flore
de la Nouvelle-Calédonie (20 000 données herbiers et phytosociologie)
WalFut : Flore de
Wallis et Futuna (5 000 données herbiers et phytosociologie)
Urban : Turneraceae
du monde (2 500 données herbiers)
D’autres bases de données se
développent sur une architecture similaire :
Flore de Saül :
Développée par la New York Botanical Garden (25 000 données herbiers)
Sophy : Flore de
France (2 500 000 données phytosociologiques)
Brunfels : Flore
d’Alsace (40 000 données floristiques)
Letouzey : Flore du
Cameroun (en cours)
Floant : Flore des
Antilles (uniquement le référentiel taxonomique)
1. Principes
Les principes se résument en trois
mots clés :
Standardisation
- rendre homogène des informations au départ très hétérogènes
Exhaustivité
- rassembler la totalité
des informations botaniques disponibles
Intégrité
- mettre l’information au
complet, sans abréviation ni lacune
1.1. La standardisation
L’information naturaliste de base est
très souvent hétérogène. Dans le cas des étiquettes d’herbiers ou des données
bibliographiques, les noms des botanistes collecteurs ou des observateurs (ou
source), des taxons, des localités, des pays et des habitats sont rarement
standardisés. Or tout traitement scientifique et/ou statistique nécessite
d’avoir des renseignements normalisés. Dans les bases
Aublet, l’information originale
est saisie en clair, dans un champ de type texte, mais à cet aspect classique
s’ajoute plusieurs champs dans lesquels l’information de base est retranscrite
et parfois modifiée de manière codifiée. Cette transcription est objective et
motivée à partir de référentiels. Elle est transparente. A tout moment
l’utilisateur peut comparer la donnée brute avec sa transcription standardisée
(et donc éventuellement la modifier).
Les quatre principaux référentiels
sont :
Un référentiel taxonomique,
élaboré essentiellement à partir de la bibliographie. Il rassemble l’ensemble
des données nomenclaturales de la région concernée (nom scientifique du taxon,
rang taxonomique, parent, synonyme, référence bibliographique). Il est
hiérarchisé et synonymique.
Un référentiel des noms des
botanistes, observateurs, collecteurs et déterminateurs, avec les synonymies
éventuelles.
Un référentiel des noms de lieux,
hiérarchisé (grande localité, bassin de rivière, massif montagneux, etc.) et
synonymique (important dans les pays où l’orthographe des toponymes évolue).
Un référentiel des habitats,
basée sur la nomenclature CORINE-biotopes, hiérarchisé et synonymique.
Toutes les informations qui sortent de
la base Aublet passent par le
filtre de ces référentiels et sont donc standardisées, quelle que soit
l’information de départ.
Ainsi la synonymie nomenclaturale ou taxonomique est réalisée
automatiquement, les données sont rassemblées sous un seul nom d’habitat ou
selon une seule localité, quel que soit le nom d’origine (comme par exemple
Rivière Ouaqui = Rivière Waki ; St.-Elie track = Piste de Saint-Elie).
1.2. L’exhaustivité
Les bases
Aublet visent à rassembler la
totalité des informations botaniques disponibles, c’est-à-dire tous les
spécimens d’herbiers d’une région, quel que soit l’herbier de dépôt, toutes les
données publiées (listes floristiques, relevés phytosociologiques, données
quantitatives, quadrats forestiers, etc.), toutes les données non publiées
(rapports internes, inventaires divers, archives des botanistes, etc.).
L’origine des données est indiquée sans ambiguïté, afin de pouvoir être discutée
lors des traitements scientifiques. Une donnée floristique issue d’un article
ancien sera moins fiable que celle obtenue à partir d’un spécimen récent,
localisé au GPS et déterminé par le spécialiste de la famille.
Les thesaurus ou référentiels visent
également l’exhaustivité, la totalité des noms de lieux, de plantes, d’habitats
utilisés dans une région doivent s’y trouver. Pour les noms scientifiques des
taxons, le référentiel taxonomique rassemble les variantes orthographiques et la
synonymie la plus étendue possible. Le but des référentiels est de permettre la
saisie de n’importe quelle base de données botaniques (herbiers, usages,
phytosociologie, pharmacologie, sylviculture, etc.). Les référentiels sont
ouverts, publiés et peuvent être consultés, corrigés ou complétés à tout moment.
1.3. L’intégrité
L’information enregistrée est au
complet, sans abréviation ni lacune. Notamment les noms des lieux sont en entier
(Rivière et non pas Riv., R., etc.). Il en est de même pour les noms des
botanistes et des auteurs. Ceux-ci sont standardisés en prenant le nom complet
comme référence.
Toute l’information est saisie d’abord en clair, afin de pouvoir toujours
revenir à la donnée de base. La standardisation est une étape distincte,
nécessaire pour faire des exploitations statistiques. Ce n’est pas une simple
étape technique, elle est sous la responsabilité du scientifique.
2. Utilisation
Deux types d’utilisation sont
proposées :
- l’extraction des données
de base
- l’extraction des données
après standardisation
2.1. - Extraction des données de
base
Il s’agit de ressortir les
données telle qu’elles figurent sur le document de base (étiquette d’herbier,
publication, carnet manuscrit). Cette extraction est réservée au gestionnaire de
la base, en vue des corrections, des mises à jour, de la vérification de la
standardisation, etc.
2.2. Extraction des données après
standardisation
C’est l’utilisation
classique des bases Aublet. Lors
d’une demande extérieure, l’extraction sera faite uniquement à partir des
données standardisées.
Ceci permet, par exemple, de donner une liste univoque de noms de plantes d’une
station, quelle que soit l’information de base. Par exemple, une cypéracée
s’est appelée successivement Cladium mariscus, Cyperus mariscus,
Mariscus ligularis et Cyperus ligularis au cours des 30 dernières
années dans l’herbier de Cayenne (CAY). Les spécimens d’herbier (à Cayenne ou
dans d’autres herbiers) comme les publications utilisent indifféremment l’un ou
l’autre de ces noms. Lors des exploitation de
Aublet, toutes les informations
relatives à ce taxon se retrouvent sous le nom de Cyperus ligularis, le
nom actuellement retenu par le spécialiste de la famille pour « Flora of the
Guianas ». De même le demandeur sera certain que toute les données de la
station sélectionnée (par exemple une Znieff ou une Réserve naturelle) ou du
milieu étudié (marais, forêt, savane, etc.) seront extraites grâce à la
standardisation des noms de lieux et des noms des habitats.
3. Conclusion
Les 4 millions
d’informations botaniques actuellement disponibles selon les normes de
Aublet peuvent être rassemblées en
une seule base de données générales car elles ont toutes :
un référentiel taxonomique construit
sur le même modèle hiérarchisé et synonymique ;
un référentiel des localités avec
leurs coordonnées géographiques ;
un référentiel des habitats (en voie
d’évolution par l’usage de la norme
Corine-biotopes) ;
un référentiel des noms des
botanistes ;
un référentiel des pays et des unités
administratives (dérivée de la norme ISO) ;
une liste bibliographique normalisée.
Il est hautement
souhaitable que les autres bases de données qui se développent actuellement
utilisent des principes similaires afin de conserver l’homogénéité de l’ensemble
et permettre d’une part un regroupement de l’ensemble de l’information botanique
disponible, et d’autres part de faire des économies d’échelle en mettant à la
disposition du scientifique un certain nombre de produits informatiques communs
pour la saisie (logiciel de saisie, de corrections et de mises à jour des
référentiels, des spécimens d’herbier, des relevés phytosociologiques) et pour
l’exploitation scientifique (système d’Information géographique, programme de
traitement statistique des données sur la biodiversité, etc.) de ces bases de
données de botanique.
On
peut également extraire à la demande les données de bases non standardisées.
Qui peut le plus peut le moins.