55èmes Journées de Statistique de la SFdS

sciencesconf.org:jds2024:530533

L'impact négatif des matrices de référence incomplètes sur la performance de la déconvolution des fréquences cellulaires à partir de l'expression génique

Kalidou Ba 1, 2, @ , Xavier Hinaut 3, 4, 5, @ , Rodolphe Thiébaut 1, 2, 6, @ , Boris Hejblum 1, 2, @

1 : Univ. Bordeaux, INSERM, INRIA, SISTM team, BPH, U1219, F-33000 Bordeaux, France

Institut National de la Santé et de la Recherche Médicale - INSERM, L'Institut National de Recherche en Informatique et e n Automatique (INRIA), Université de Bordeaux (Bordeaux, France)

2 : Vaccine Research Institute [Créteil, France]

Université Paris-Est Créteil Val-de-Marne - Paris 12

3 : Laboratoire Bordelais de Recherche en Informatique

Université de Bordeaux, École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB), Centre National de la Recherche Scientifique

4 : Université de Bordeaux, Inria Mnemosyne team, F-33000, Bordeaux

Université de Bordeaux (Bordeaux, France), L'Institut National de Recherche en Informatique et e n Automatique (INRIA)

5 : Institut des Maladies Neurodégénératives [Bordeaux]

Université de Bordeaux, Centre National de la Recherche Scientifique

6 : CHU de Bordeaux Pellegrin [Bordeaux]

CHU Bordeaux

La déconvolution cellulaire désigne l'estimation des fréquences des populations cellulaires à partir des mesures de l'expression des gènes dans un échantillon biologique. Bien que de nombreuses approches supervisées aient été proposées pour résoudre ce problème (telles que CibersortX - Newman et al. (2019), ou scaden – Menden et al. (2020)), leurs bonnes performances dépendent essentiellement de la matrice des signatures d'expression génique de référence par population. Cette matrice encode les profils d'expression génique de référence des différents types cellulaires, à partir de connaissances préalables et de jeux de données externes. Toutefois, le cas où certaines populations cellulaires présentes dans l'échantillon sont manquantes dans la matrice de référence n'a reçu qu'une attention limitée dans la profusion d'algorithmes de déconvolution proposés, en particulier au vu de sa réalité pratique. Nous quantifions le manque de robustesse des méthodes de déconvolution de l'état de l'art, à la fois dans des simulations numériques et aussi à l'aide de jeux de données réelles. Nos simulations se basent sur une distribution multivariée (soit de Poisson soit Gaussienne) au plus proche de données réelles extraites de la littérature. Nos résultats démontrent que les performances de déconvolution restent relativement inchangées tant que la matrice de référence inclut la grande majorité des populations cellulaires présentes dans l'échantillon, mais qu'à l'inverse les performances de toutes les méthodes de déconvolution se détériorent rapidement à mesure que la matrice de référence devient de plus en plus incomplète. Cependant l'impact des populations cellulaires manquantes dans la matrice de référence dépend de leur fréquence réelle dans l'échantillon.

Type :	:	oral
Thématiques	:	Données omiques
Mots-Clés	:	Déconvolution cellulaire ; RNA ; Seq ; Matrices de signature ; Types cellulaires ; Décomposition matricielle ; Optimisation.

Poster

Vie privée | Accessibilité