Contrôle du taux de Fausses Découvertes pour les Knockoffs agrégés
Alexandre Blain  1, 2, *@  , Bertrand Thirion  1, 3, *@  , Olivier Grisel  1@  , Pierre Neuvial  4@  
1 : Inria Saclay - Ile de France
Institut National de Recherche en Informatique et en Automatique
2 : Université Paris-Saclay
INRIA Saclay Ile-de-France
3 : IFR49 - Neurospin - CEA
Commissariat à l'énergie atomique et aux énergies alternatives
4 : Institut de Mathématiques de Toulouse UMR5219
Université Toulouse Capitole, Institut National des Sciences Appliquées - Toulouse, Université Toulouse - Jean Jaurès, Université Toulouse III - Paul Sabatier, Centre National de la Recherche Scientifique
* : Auteur correspondant

La sélection de variables contrôlée est une étape importante dans divers domaines scientifiques, tels que l'imagerie cérébrale ou la génomique. Dans ces contextes de données de haute dimension, considérer trop de variables conduit à des modèles médiocres et à des coûts élevés, d'où la nécessité de garanties statistiques sur les faux positifs. Les Knockoffs sont un outil statistique populaire pour la sélection conditionnelle de variables en haute dimension. Cependant, ils contrôlent l'espérance de la proportion de fausses découvertes (FDR) et non leur proportion réelle (FDP). Nous présentons une nouvelle méthode, KOPI, qui exploite la notion d'inférence post hoc pour contrôler les quantiles du FDP pour l'inférence basée sur les Knockoffs. La méthode proposée repose également sur un nouveau type d'agrégation pour contrer le caractère aléatoire indésirable associé à l'inférence Knockoff classique. Nous démontrons le contrôle du FDP et des gains de puissance substantiels par rapport aux méthodes basées sur les Knockoffs existantes dans divers contextes de simulation et obtenons de bons compromis sensibilité/spécificité sur des données d'imagerie cérébrale et génomique.

Ce travail a fait l'objet d'un poster à la conférence NeurIPS 2023: https://arxiv.org/abs/2310.10373.



  • Poster
Personnes connectées : 3 Vie privée
Chargement...