Méthode de classification non-paramétrique pour données longitudinales multivariées : identification de sous-phénotypes de démence
Anaïs Rouanet  1@  , Carole Dufouil, Cécile Proust-Lima@
1 : Bordeaux population health
Université de Bordeaux, Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED), Institut National de la Santé et de la Recherche Médicale

De nombreuses maladies se caractérisent par des évolutions fortement hétérogènes entre patients. C'est le cas de la Maladie d'Alzheimer et des maladies apparentées (MAMA) (Reitz, 2016, Rouanet et al., 2016, Proust-Lima et al., 2016, Ten Kate et al., 2018, Eavani et al., 2018). Malgré l'abondance de biomarqueurs désormais disponibles dans les cohortes de personnes âgées pour décrire les changements pathologiques liés à la maladie d'Alzheimer (tels que la neurodégénérescence, les troubles cognitifs, l'atrophie cérébrale), cette hétérogénéité est statistiquement difficile à appréhender. Cela nécessite des méthodes de classification adaptées, capables de traiter un grand nombre de données de biomarqueurs, mesurées de manière répétée lors de visites irrégulières au fil du temps. Dans ce travail, nous avons développé un modèle de classification bayésien non paramétrique pour identifier des groupes latents de sujets à partir de marqueurs longitudinaux multivariés et de covariables transversales. L'objectif est d'identifier des sous-phénotypes latents de MAMA à partir de données de biomarqueurs répétées et de caractériser leurs voies physiopathologiques spécifiques.
L'approche de régression sur profils développée par Liverani et al. (Liverani et al., 2015) lie de manière non paramétrique une réponse longitudinale et des covariables transversales par l'intermédiaire de groupes latents. Nous avons étendu cette méthodologie à de multiples marqueurs longitudinaux. Les trajectoires de chaque marqueur sont décrites par des modèles linéaires mixtes spécifiques aux groupes, et les profils des covariables transversales sont décrits par des modèles linéaires généralisés, spécifiques aux groupes également. Un processus de Dirichlet est adopté comme a priori sur la distribution de mélange, permettant d'estimer le nombre total de groupes, et une sélection de variables basée sur une méthode de pondération est utilisée pour identifier les marqueurs qui discriminent le mieux les groupes. L'estimation des paramètres est réalisée par chaînes de Markov Monte Carlo.
Cette méthode est appliquée à la cohorte française MEMENTO (Dufouil et al., 2017) dans le but d'identifier des sous-phénotypes latents de MAMA, basés sur des tests cognitifs répétés et des volumes d'imagerie cérébrale longitudinaux et des biomarqueurs transversaux de neurodégénescence. Les résultats mettent en avant 3 sous-phénotypes de démence qui diffèrent selon la séquence et la rapidité des dégradations neuropathologiques. Chaque groupe est associé à une évolution spécifique de déclin des fonctions cognitives et à un profil spécifique d'atrophie cérébrale.
En combinant l'apprentissage automatique et la modélisation biostatistique, cette approche étend les techniques de classification aux données longitudinales de grande dimension rencontrées dans les cohortes de santé. Bien que motivée par les MAMA, elle s'applique bien au-delà de ce domaine, permettant d'identifier des profils de trajectoires.



  • Poster
Personnes connectées : 4 Vie privée
Chargement...