Dans ce travail, nous considérons le problème de l'apprentissage en ligne dans les modèles espace d'états, c'est à dire un cadre où les observations dépendent d'états cachés, eux mêmes supposés issus un processus de Markov. Notre objectif est d'apprendre la distribution de lissage, i.e. la distribution a posteriori de états cachés conditionnellement aux observations. Nous nous intéressons au cadre de l'apprentissage en ligne, c'est à dire où l'actualisation de la loi se fait à l'arrivée de chaque nouvelle observation, et chaque observation n'est vue qu'une seule fois. Nous proposons un nouvel algorithme pour estimer en ligne la distribution de lissage dans un cadre variationel. Cet algorithme repose sur une estimation en ligne efficace de la fonction de coût classique en inférence variationelle, l'evidence lower bound (ELBO), ainsi que de son gradient. Nous reprenons ensuite les idées du maximum de vraisemblance récursif pour l'apprentissage en ligne. Nous montrons comment on peut exploiter i) la structure de la vraie loi a posteriori ciblée ii) les idées des approches de Monte Carlo séquentiel et iii) les astuces de paramétrisation des approches variationnelles récentes pour apprendre efficacement une loi a posteriori en grande dimension.
- Poster