L'analyse jointe de résultats de différentes expériences pour identifier des configurations complexes est un objectif typique de l'intégration de données. On considère ici le cas d'une collection d'éléments i=1,..n (par exemple des gènes) pour lesquels les hypothèses H_0iq : « l'élément i n'a pas d'effet dans la condition q » ont été testées pour Q conditions. Chaque observation i consiste donc en un vecteur de Q probabilités critiques. L'objectif de l'analyse est alors d'identifier les éléments qui ont un effet dans toutes les conditions ou dans un sous-ensemble prédéfini de conditions. Les probabilités critiques doivent alors être combinées de manière flexible afin d'explorer des hypothèses complexes (appelées hypothèses composites), tout en contrôlant le taux de faux positif.
Nous proposons une procédure de test d'hypothèses composites utilisant un modèle de mélange multivarié où chaque Q-uplet de probabilités critiques appartient à une des 2^Q classes caractérisée par une combinaison spécifique d'états de H_0q et H_1q. Notre méthode prend en compte la structure de dépendance entre les Q probabilités critiques, qui est modélisée dans les lois jointes conditionnelles à l'aide d'une fonction copule. L'inférence de ce modèle de mélange à 2^Q composantes est réalisée efficacement permettant son application à des cas où le nombre de marqueurs est en O(10^5), et où Q=20. Elle consiste en deux étapes indépendantes : tout d'abord l'ajustement d'un modèle de mélange non paramétrique sur la distribution marginale de chacune des Q séries de probabilités critiques, puis l'estimation des proportions des composantes du modèle de mélange et des paramètres de copule via un algorithme EM. L'étape (E) est optimisée pour limiter l'empreinte mémoire de la procédure, passant de O(n x 2^Q) à O(n + 2^Q).
Des applications sur des données simulées ont été réalisées donnant des résultats concluants tant en termes de contrôle de faux positif et de puissance de détection qu'en terme d'efficacité de la méthode (temps de calcul et gestion de la mémoire). L'intérêt de la méthode est illustré par une analyse conjointe d'études d'association génétique afin de détecter des gènes pléiotropes parmi un ensemble de 14 troubles psychiatriques.
- Poster