Étude théorique et expérimentale de SMOTE : limites et comparaisons des stratégies de réequilibrage
1 : Laboratoire de Probabilités, Statistique et Modélisation
Sorbonne Université, Centre National de la Recherche Scientifique, Université Paris Cité, Sorbonne Université : UMR_8001, Centre National de la Recherche Scientifique : UMR_8001, Université Paris Cité : UMR_8001
2 : Artefact [Paris]
* : Auteur correspondant
Artefact [Paris]
Synthetic Minority Oversampling Technique (SMOTE) est une stratégie de rééquilibrage courante pour traiter les ensembles de données déséquilibrés. Asymptotiquement, nous prouvons que SMOTE (avec la valeur par défaut de son hyperparamètre) régénère la distribution originale en copiant simplement les échantillons minoritaires initialement présents. Nous introduisons ensuite deux nouvelles stratégies liées à SMOTE et les comparons aux procédures de rééquilibrage les plus récentes. Nous montrons que les stratégies de rééquilibrage ne sont nécessaires que lorsque l'ensemble de données est fortement déséquilibré. Pour de tels ensembles de données, SMOTE, nos propositions ou les procédures de sous-échantillonnage sont les meilleures stratégies.
- Poster