55èmes Journées de Statistique de la SFdS

sciencesconf.org:jds2024:531000

Les données déséquilibrées dans les taches de classification sont aujourd'hui identifiées comme un problème majeure en apprentissage automatique. Une de ces raisons est que les algorithmes traditionnels de machine learning peuvent être mis en difficulté dans ce cadre, notamment pour détecter la classe minoritaire. Dans ce travail, nous faisons de l'inférence des probabilités prédictives reposant sur les modèles simplifiés en particulier des forêts purement aléatoires infinies (IPRF) en vue de relever les défis associés à la prédiction d'événements rares. Nous établissons notamment un théorème central limite pour cet estimateur IPRF sous certaines hypothèses de régularité sur la fonction de régression. Cependant, IPRF hérite un biais asymptotique inhérent à l'asymetrie de la distribution de classes. Nous proposons une procédure de type échantillonnage préférentielle dérivant des odd-ratio afin de réduire le biais asymptotique de IPRF. Une courte étude de simulation illustre les performances de la méthode proposée.

Type :	:	oral
Thématiques	:	Apprentissage sur données déséquilibrées
Mots-Clés	:	Classification binaire ; données déséquilibrées ; forêts purement aléatoires infinies.

Poster

Vie privée | Accessibilité