Subspace clustering sur données incomplètes
Yasmine Agliz  1, 2@  , Vincent Audigier  1@  , Ndèye Niang Keita  1@  
1 : Conservatoire National des Arts et Métiers [CNAM]
Cedric-Cnam
2 : Caisse des dépôts et consignations (France)
Etablissement Public à caractère Industriel et Commercial

Nous proposons ici une nouvelle approche pour la classification non-supervisée sur données incomplètes dans le cadre d'un grand nombre de variables. Cette approche intitulée Reduced K-pod s'appuie sur la formulation d'un critère de Reduced K-means calculable sur des données incomplètes sur le modèle de la méthode K-pod. Un algorithme d'optimisation du critère est proposé et sa convergence monotone est garantie. Cette méthode est ensuite évaluée par une étude par simulation mettant en évidence l'apport de la méthode par rapport aux approches géométriques concurrentes gérant soit les données manquantes (K-pod), soit les données manquantes et la grande dimension (par ACP itérative suivie de K-means). Les premiers résultats obtenus indiquent de meilleures performances en termes d'indice de Rand Ajusté mettant ainsi en évidence l'intérêt de l'approche pour la gestion de la grande dimension et des données manquantes en classification.



  • Poster
Personnes connectées : 3 Vie privée
Chargement...