55èmes Journées de Statistique de la SFdS

sciencesconf.org:jds2024:530526

Ce travail aborde le problème de la sélection de modèles dans les algorithmes de bandits contextuels lorsqu'ils sont utilisés pour modéliser une tâche d'apprentissage. Plus précisément, chaque modèle représente une partition de l'espace des contextes sur chaque ensemble de laquelle un algorithme de bandit est appliqué. Notre objectif est de trouver le modèle qui correspond le mieux aux données d'apprentissage. En étendant les outils traditionnels d'estimation et de sélection de modèle aux données non i.i.d et non stationnaires, nous montrons dans un premier temps qu'une procédure de hold-out sur les données satisfait un taux de convergence classique. Ensuite, sous diverses hypothèses, nous formulons des inégalités oracles avec différents taux de convergence. Nous fournissons également des exemples pour lesquels les hypothèses sont satisfaites. Enfin, nous testons nos résultats sur des données d'apprentissage synthétiques et réelles.

Type :	:	oral
Thématiques	:	Sélection de modèles
Mots-Clés	:	Estimation statistique ; Sélection de modèle ; Bandits contextuels ; Cognition ; Vraisemblance pénalisée ; Hold out.

Poster

Vie privée | Accessibilité