55èmes Journées de Statistique de la SFdS

sciencesconf.org:jds2024:530971

Nous proposons ici une nouvelle approche pour la classification non-supervisée sur données incomplètes dans le cadre d'un grand nombre de variables. Cette approche intitulée Reduced K-pod s'appuie sur la formulation d'un critère de Reduced K-means calculable sur des données incomplètes sur le modèle de la méthode K-pod. Un algorithme d'optimisation du critère est proposé et sa convergence monotone est garantie. Cette méthode est ensuite évaluée par une étude par simulation mettant en évidence l'apport de la méthode par rapport aux approches géométriques concurrentes gérant soit les données manquantes (K-pod), soit les données manquantes et la grande dimension (par ACP itérative suivie de K-means). Les premiers résultats obtenus indiquent de meilleures performances en termes d'indice de Rand Ajusté mettant ainsi en évidence l'intérêt de l'approche pour la gestion de la grande dimension et des données manquantes en classification.

Type :	:	oral
Thématiques	:	Données manquantes
Mots-Clés	:	Subspace clustering ; classification ; données grande dimension ; données manquantes au hasard

Poster

Vie privée | Accessibilité