Pour survivre et se développer, les agents phytopathogènes doivent s'adapter à une variété de stress environnementaux. A des horizons de temps courts, les variations épigénétiques peuvent permettre des réponses phénotypiques adaptatives en modifiant les réseaux d'expression génique, sans changement de séquence génomique. Ainsi, les génomes et les épigénomes interagissent avec l'environnement et contribuent à l'apparition de nouveaux phénotypes, dont l'adaptabilité est une caractéristique clé de la résilience. Si l'adaptation des espèces par variation génétique fait l'objet d'intenses recherches, les composantes épigénétiques de l'innovation phénotypique restent peu étudiées notamment du fait de la difficulté de s'affranchir de variations du fond génétique entre les générations. Dans ce contexte, les organismes se reproduisant de manière clonale sont d'excellents modèles pour étudier la contribution de l'épigénétique dans les processus adaptatifs. Le champignon filamenteux phytopathogène producteur de mycotoxines Fusarium graminearum est un exemple de
bioagresseur de grandes cultures à reproduction clonale et aux capacités de résilience remarquables.
Les variations d'accessibilité de la chromatine par repositionnement des nucléosomes sont des mécanismes
épigénétiques clés qui modulent l'expression des gènes. Leur étude est possible grâce à des méthodes de
séquençage à haut débit (MAINE-seq) générant des signaux complexes et hétérogènes dont la valorisation par les méthodes
actuelles de la statistique génomique est limitée. L'apprentissage statistique des motifs d'association entre un signal épigénomique observé pour chaque gène sur une région large du génome incluant sa partie codante et sa région promotrice et l'expression de ce gène mesurée par séquençage de l'ARN (RNA-seq) offre des perspectives pour comprendre les capacités d'un organisme à s'adapter à un stress par des mécanismes épigénétiques. Or, les études comparatives menées sur Fusarium graminearum et portant sur une large gamme de méthodes d'apprentissage statistique,
allant de celles basées sur des scores linéaires aux réseaux de neurones profonds en passant par les forêts aléatoires, conduisent à des résultats peu satisfaisants.
L'objectif de notre travail est de proposer une nouvelle approche dans laquelle l'expression des gènes est vue comme un signal le long de la séquence de nucléotides support de la partie codante du gène. Ce nouveau paradigme pour l'apprentissage statistique \textit{function-to-function} de données fonctionnelles massives
par d'autres données fonctionnelles tire profit de supports communs des signaux épigénomiques et d'expression pour valoriser des corrélations spatiales induites par des mécanismes connus de régulation de l'expression par le niveau d'accessibilité de la chromatine autour du codon d'initiation de chaque gène. La présentation démontre l'intérêt de cette approche à la fois en termes de performance de prédiction mais aussi pour mieux comprendre les relations entre épigénome et transcriptome.
- Poster