Nous présentons la sélection de modèles comme un problème de bandits avec
un nombre infini de bras (infinite-armed bandit). Les modèles sont les bras du problème de
bandit sous-jacent, et le choix d'un bras correspond à un entraînement partiel du modèle
(allocation de ressources). La récompense est la performance du modèle sélectionné après
son entraînement partiel. Sélectionner le meilleur modèle revient à identifier le meilleur bras
(best-arm identification). On définit alors le regret comme l'écart entre la performance du
modèle optimal et celle du modèle finalement choisi. En partant de cette modélisation, nous
proposons un nouvel algorithme, appelé Mutant-UCB, qui généralise l'algorithme UCB-E
(développé par Audibert et al. 2010) au problème de bandit stochastique avec un nombre de
bras infini, et y incorpore des opérateurs des algorithmes évolutionnaires. Nous avons testé
cet algorithme pour optimiser des réseaux de neurones (architectures et hyperparamètres) sur
trois jeux de données de classification d'images. Notre algorithme se révèle plus performant
que l'état de l'art sur chacun de ces jeux de données ce qui montre que cette approche hybride
est pertinente.
- Poster