Tests de fonction de répartition cumulative conditionnelle pour l'analyse d'ensembles de gènes de données RNA-seq en cellule unique
Sara Fallet  1, 2@  , Denis Agniel  3@  , Rodolphe Thiébaut  4, 5, 6@  , Boris Hejblum  4, 5@  
1 : Univ. Bordeaux, INSERM, INRIA, Bordeaux Population Health, SISTM team, U1219, F-33000 Bordeaux, France
Université de Bordeaux (Bordeaux, France), Institut National de la Santé et de la Recherche Médicale - INSERM U1219, L'Institut National de Recherche en Informatique et e n Automatique (INRIA), Bordeaux Population Health Center
2 : Vaccine Research Institute, VRI, Hôpital Henri Mondor, Créteil F-94000, France
VRI
3 : Rand Corporation, Santa Monica, CA 90401, USA
4 : Univ. Bordeaux, INSERM, INRIA, Bordeaux Population Health, SISTM team, U1219, F-33000 Bordeaux, France
Université de Bordeaux (Bordeaux, France), Institut National de la Santé et de la Recherche Médicale - INSERM U1219, L'Institut National de Recherche en Informatique et e n Automatique (INRIA), Bordeaux Population Health Center
5 : Vaccine Research Institute, VRI, Hôpital Henri Mondor, Créteil F-94000, France
VRI
6 : CHU Pellegrin, Groupe Hospitalier Pellegrin, Bordeaux F-33076, France
CHU Pellegrin

La technologie de séquençage d'ARN en cellule unique (scRNA-seq) mesure l'expression génique dans des centaines, voire des milliers de cellules à partir d'un seul échantillon biologique, permettant d'étudier les mécanismes moléculaires à l'échelle de la cellule. En immunologie, cette technologie est de plus en plus utilisée pour étudier la réponse immunitaire lors d'une infection (ou vaccination) tout en tenant compte de l'hétérogénéité cellulaire dans le sang. L'analyse de l'expression différentielle identifie les gènes dont l'expression change selon les différentes conditions d'étude. Cependant, les méthodes d'analyse différentielle manquent de puissance statistique et de stabilité, notamment en raison de la nature très dynamique de l'expression génique, de l'hétérogénéité de l'état cellulaire et des limitations technologiques telles que la profondeur de séquençage. En s'intéressant plutôt à des ensembles de gènes associés à des fonctions immunitaires spécifiques, définis à partir de connaissances biologiques a priori, on améliore la puissance statistique et la stabilité de l'analyse tout en facilitant l'interprétation biologique des résultats.
Nous présentons ici une nouvelle méthode d'analyse différentielle par groupes de gènes adaptée aux données scRNA-seq. Cette méthode repose sur une estimation suivie d'un test de la fonction de répartition conditionnelle de l'expression des gènes au sein d'un groupe. Cette nouvelle méthode s'affranchit ainsi du besoin de faire une hypothèse distributionnelle (délicate pour les données scRNA-seq). Elle est également capable d'analyser des plans expérimentaux complexes, testant l'association de chaque ensemble de gènes avec une ou plusieurs variables d'intérêt (qu'elles soient continues ou discrètes), tout en ajustant éventuellement sur d'autres covariables, dépassant ainsi le cadre usuel de la comparaison simple entre deux groupes. Nous appliquons cette nouvelle méthodologie à deux jeux de données réelles de scRNA-seq étudiant la réponse immunitaire à l'infection par le SARS-CoV-2 chez l'homme, avec respectivement 84 140 cellules T CD8+ provenant de 38 patients et 1 191 463 cellules mononucléaires du sang périphérique provenant de 222 donneurs.



  • Poster
Personnes connectées : 4 Vie privée
Chargement...