ICS et sous-espace de Fisher : généralisation à plus de deux groupes
Colombe Becquart  1@  , Aurore Archimbaud  2, *@  , Klaus Nordhausen  3@  , Anne Ruiz Gazen  1, *@  
1 : Toulouse School of Economics
Université Toulouse Capitole, École des Hautes Études en Sciences Sociales, Centre National de la Recherche Scientifique, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement
2 : Toulouse Business School
Toulouse Business School, Toulouse Business School
3 : University of Jyväskylä
* : Auteur correspondant

L'analyse de la structure multidimensionnelle des données telle que l'identification de clusters est souvent rendue complexe par le nombre de dimensions à analyser. Lorsque cette structure est contenue dans un sous-espace, il est ainsi bénéfique de réduire la dimension pour se placer dans ce sous-espace d'intérêt. L'analyse en composantes principales (ACP) est la méthode de référence pour la réduction de dimension. Dans cet article, nous étudions une méthode alternative à l'ACP, appelée "Invariant Coordinate Selection" (ICS). Contrairement à l'ACP, ICS ne repose pas sur la maximisation de la variance mais sur la maximisation/minimisation d'un kurtosis généralisé, et n'est pas uniquement invariante par transformation orthogonale des données mais par toute transformation affine. Plus précisément, ICS consiste à comparer deux matrices de dispersion au travers de leur diagonalisation jointe. La réduction de dimension est obtenue en projetant les données sur les vecteurs propres associés aux plus grandes et plus petites valeurs propres d'ICS. Des travaux empiriques ont montré l'efficacité de la méthode dans le cadre du clustering et de la détection d'anomalies. Certaines propriétés théoriques d'ICS sont aussi connues. En particulier, pour un mélange de distributions elliptiques et sous certaines conditions, une sélection des composantes d'ICS permet de retrouver le sous-espace discriminant de Fisher, quel que soit le choix des matrices de dispersion. Toutefois, les conditions sous lesquelles ce résultat général s'applique ne sont explicites que pour des cas particuliers, tels que des mélanges de deux groupes de même matrice de covariance. L'objectif de cet article est d'explorer plus avant le comportement théorique d'ICS dans le cadre d'un mélange de lois gaussiennes de même matrice de covariance pour un nombre de groupes quelconque k. Les matrices de dispersion considérées sont la matrice de covariance et la matrice basée sur les moments d'ordre 4. Dans ce contexte de k ≥ 2 groupes, nous étudions les conditions sous lesquelles ICS "fonctionne", c-à.-d. sous lesquelles les composantes associées aux k−1 plus grandes et plus petites valeurs propres engendrent le sous-espace de Fisher qui contient les moyennes des groupes. A partir de calculs théoriques et numériques, nous montrons que pour des groupes suffisamment séparés, ces conditions s'expriment essentiellement en fonction des proportions de chaque groupe et que les valeurs des moyennes des groupes ont peu d'influence.



  • Poster
Personnes connectées : 4 Vie privée
Chargement...