55èmes Journées de Statistique de la SFdS

sciencesconf.org:jds2024:528522

Cooperative learning of Pl@ntNet's Artificial Intelligence algorithm using label aggregation

Tanguy Lefort 1, 2, 3, @ , Antoine Affouard 4, *, @ , Pierre Bonnet 4, @ , Benjamin Charlier 1, *, @ , Alexis Joly 2, 3, *, @ , Joseph Salmon 1, 5, *, @

1 : IMAG Montpellier

IMAG, CNRS : UMR5149

2 : INRIA Montpellier

INRIA ZENITH

3 : Zenith

Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier

4 : Botanique et Modélisation de l'Architecture des Plantes et des Végétations

Centre de Coopération Internationale en Recherche Agronomique pour le Développement, Centre National de la Recherche Scientifique, Institut de Recherche pour le Développement, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement, Université de Montpellier

5 : Institut Universitaire de France

Ministère de l'Education nationale, de l'Enseignement supérieur et de la Recherche, Ministère de l'Education nationale, de l’Enseignement supérieur et de la Recherche

* : Auteur correspondant

Le système Pl@ntNet collecte des données à l'échelle mondiale en permettant aux utilisateurs de télécharger et d'annoter des observations de plantes. Les étiquettes ainsi obtenues bruitées en raison des compétences diverses des utilisateurs. L'obtention d'un consensus est cruciale pour entraîner des modèles d'apprentissage, mais l'échelle des données collectées rend les stratégies traditionnelles d'agrégation des étiquettes difficiles à mettre en œuvre. En outre, comme de nombreuses espèces sont rarement observées, l'expertise des utilisateurs ne peut pas être évaluée comme un accord entre utilisateurs : sinon, les experts en botanique auraient un poids plus faible dans l'étape d'apprentissage que l'utilisateur moyen de part leur participation moindre mais plus ciblée.
La stratégie d'agrégation d'étiquettes que nous proposons vise à entraîner de manière coopérative des modèles d'apprentissage automatique pour l'identification des plantes. Cette stratégie estime l'expertise des utilisateurs sous la forme d'un score de confiance par travailleur, basé sur leur capacité à identifier des espèces végétales à partir de données collectées par la foule. Le score de confiance est estimé récursivement à partir des espèces correctement identifiées compte tenu des étiquettes estimées actuelles. Ce score interprétable exploite les connaissances des experts en botanique et l'hétérogénéité des utilisateurs.
Nous évaluons notre stratégie sur un large sous-ensemble de la base de données Pl@ntNet axée sur la flore européenne, comprenant plus de 6000000 d'observations et 800000 utilisateurs. Nous démontrons que l'estimation des compétences des utilisateurs basée sur la diversité de leur expertise améliore la performance de l'étiquetage.

Type :	:	oral
Thématiques	:	Environnement et statistique
Mots-Clés	:	Apprentissage coopératif ; aggrégation d'étiquettes ; annotation de données ; écologie

Poster

Vie privée | Accessibilité