Fission de données pour l'inférence post-classification : de la théorie à la pratique
Benjamin Hivert  1, 2@  , Denis Agniel  3@  , Rodolphe Thiébaut  1, 2, 4@  , Boris Hejblum  1, 2@  
1 : Univ. Bordeaux, INSERM, INRIA, SISTM team, BPH, U1219, F-33000 Bordeaux, France
Université de Bordeaux (Bordeaux, France)
2 : Vaccine Research Institute, VRI, Hôpital Henri Mondor, Créteil F-94000, France
Hôpital Henri Mondor, Créteil F-94000, France
3 : Rand Corporation, Santa Monica, CA 90401, USA
4 : CHU Pellegrin, Groupe Hospitalier Pellegrin, Bordeaux F-33076, France
CHU Pellegrin

Dans divers domaines, tels qu'en génomique, la classification non supervisée pose des défis en raison de son utilisation pour formuler des hypothèses testées sur les mêmes ensembles de données. Cette pratique, appelée inférence post-classification, compromet les propriétés statistiques des tests, en particulier le contrôle de l'erreur de Type I.
La fission de données (Leiner et al. 2023) permet d'obtenir deux jeux de données indépendants à partir d'un seul échantillon, en bruitant l'information contenue dans chaque observation en deux parties de manière précise. Ainsi, chaque partie est utilisable indépendamment (pour la classification non supervisée d'une part, et pour les tests d'hypothèses qui suivent d'autre part) sans impacter les propriétés habituelles des méthodes statistiques. Cependant, ses limitations, notamment en termes d'hypothèses distributionnelles et d'adaptabilité à des situations avec de véritables classes inconnues, restreignent son utilisation. L'application rigoureuse de la fission de données pour l'inférence post-classification exige une connaissance préalable des véritables classes et des variances intra-classes associées. Or ces informations sont inconnues en pratique et doivent alors être estimées. Nous démontrons que l'indépendance promise par la fission de données n'est garantie qu'à condition de posséder des estimations non-biaisés des variances, et que par conséquent, elle ne peut théoriquement assurer le contrôle de l'erreur de Type I des tests associés.
Nous proposons une nouvelle approche consistant à modéliser chaque observation comme une réalisation d'un processus distinct, avec des paramètres individuels, que nous estimons alors de manière non-paramétrique. Les performances de cette nouvelle approche ont été évaluées au moyen de simulations numérique, révélant l'absolue nécessité d'une très bonne séparation entre les classes afin de garantir des estimations non-biaisées des variances locales, et donc le contrôle effectif de l'erreur de Type I associée.
En conclusion, bien que la fission de données ait été initialement envisagée comme une solution aux problèmes d'inférence post-classification, sa mise en pratique est rendue extrêmement délicate par le lien entre l'estimation de la structure des vraies classes et celle de leur variance. Le bon comportement de cette approche pour l'inférence post-classification nécessite indirectement de connaître les vraies classes, cependant inconnues, que l'on cherche aussi à estimer. Notre nouvelle approche de modélisation résout cette difficulté dans certains cas favorables, mais elle souffre des difficultés inhérentes à l'estimation non paramétrique de la variance locale.



  • Poster
Personnes connectées : 4 Vie privée
Chargement...