Deep reinforcement learning for controlled piecewise deterministic Markov process in cancer treatment follow-up
Orlane Rossini  1@  , Alice Cleynen  1, 2, *@  , Benoîte De Saporta  1, *@  , Régis Sabbadin  3, *@  , Vinyals Meritxell  3@  
1 : IMAG
CNRS, Université de Montpellier, CNRS - Université de Montpellier
2 : John Curtin School of Medical Research [Canberra, Australia]
3 : Unité de Mathématiques et Informatique Appliquées de Toulouse
Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement : UR0875, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement
* : Auteur correspondant

Les maladies humaines telles que le cancer impliquent un suivi à long terme. Un.e patient\textperiodcentered e alterne des phases de rémission et de rechutes. Un biomarqueur est monitoré tout au long du suivi. Sa dynamique est modélisée par un processus de Markov déterministe par morceaux (PDMP) caché et contrôlé. Le PDMP évolue en temps et en espace continus, le processus est observé à travers un bruit et le modèle est partiellement connu,ce qui rend le problème du contrôle particulièrement difficile. À notre connaissance, il n'existe pas de méthode pour contrôler un tel PDMP, c'est-à-dire pour maximiser la vie du\textperiodcentered de la patient.e tout en minimisant le coût du traitement et les effets secondaires. Nous considérons des dates discrètes uniquement pour les décisions, transformant ainsi le PDMP contrôlé en un processus de décision markovien partiellement observé (POMDP). L'algorithme deep Q-network (DQN) permet de résoudre le problème de contrôle. Une des limitation de DQN est de ne pas prendre en compte l'historique complet des observations, ce qui est pourtant une caractéristique clé des POMDP. Ce constat nous conduit à traduire le POMDP en un MDP défini sur l'espace des historiques et à appliquer l'algorithme DQN à ce nouveau modèle. Par le biais de simulations, nous comparons les deux méthodes de résolution. Ces analyses visent à éclairer les avantages et les limites de chaque approche dans le contexte du contrôle de PDMP pour une gestion optimale des maladies chroniques.



  • Poster
Personnes connectées : 5 Vie privée
Chargement...