Construction de récompenses par apprentissage par préférences pour les modèles d'apprentissage par renforcement appliqués aux stratégies de traitements adaptatifs
Sophia Yazzourh  1@  , Nicolas Savy, Philippe Saint-Pierre@
1 : Institut de Mathématiques de Toulouse UMR5219
Université Toulouse Capitole, Institut National des Sciences Appliquées - Toulouse, Université Toulouse - Jean Jaurès, Université Toulouse III - Paul Sabatier, Centre National de la Recherche Scientifique

Délivrer des traitements personnalisés à chaque étape des maladies chroniques est un objectif clé de la médecine de précision, formalisé par les "Dynamic Treatment Regimes". Ce cadre adapte les stratégies de traitement en se basant sur des règles de décision apprises à partir d'essais cliniques pour améliorer l'efficacité du traitement. L'utilisation de l'apprentissage par renforcement aide à déterminer ces règles en se basant sur leurs données individuelles et de leurs historiques médicaux. L'apprentissage de la stratégie de traitement repose sur des évaluations quantitatives du système appelées récompenses. Traditionnellement, ces récompenses sont déterminées par des experts qui sélectionnent une variable d'intérêt, mais qui peut être trop restrictive pour l'apprentissage de la règle de décision. Nous proposons une approche automatique et généralisée pour construire les récompenses, en utilisant l'apprentissage par préférences ou "Preference Learning".



  • Poster
Personnes connectées : 3 Vie privée
Chargement...