Délivrer des traitements personnalisés à chaque étape des maladies chroniques est un objectif clé de la médecine de précision, formalisé par les "Dynamic Treatment Regimes". Ce cadre adapte les stratégies de traitement en se basant sur des règles de décision apprises à partir d'essais cliniques pour améliorer l'efficacité du traitement. L'utilisation de l'apprentissage par renforcement aide à déterminer ces règles en se basant sur leurs données individuelles et de leurs historiques médicaux. L'apprentissage de la stratégie de traitement repose sur des évaluations quantitatives du système appelées récompenses. Traditionnellement, ces récompenses sont déterminées par des experts qui sélectionnent une variable d'intérêt, mais qui peut être trop restrictive pour l'apprentissage de la règle de décision. Nous proposons une approche automatique et généralisée pour construire les récompenses, en utilisant l'apprentissage par préférences ou "Preference Learning".
- Poster