La Descente de Gradient Stochastique (SGD) avec pas adaptatifs est désormais largement utilisée, en particulier pour l'apprentissage des réseaux neuronaux profonds. Cependant, la plupart des résultats théoriques supposent l'accès à des estimateurs du gradient non biaisés, ce qui n'est pas le cas dans de nombreuses applications récentes en apprentissage profond et en apprentissage par renforcement utilisant des méthodes de Monte Carlo. Nous proposons dans cette présentation une analyse non asymptotique de l'algorithme SGD utilisant des estimateurs biasés du gradient ainsi que des pas adaptatifs pour les fonctions convexes et non convexes. Notre étude intègre un biais dépendant du temps et met l'accent sur l'importance de contrôler le biais et l'erreur quadratique moyenne de l'estimateur du gradient. En particulier, nous établissons que les algorithmes Adagrad et RMSProp avec gradients biaisés convergent vers des points critiques à une vitesse de convergence similaire aux résultats existants dans la littérature pour le cadre non biaisé. Enfin, nous fournissons des résultats expérimentaux utilisant des Autoencodeurs Variationnels qui illustrent nos résultats de convergence et montrent comment l'effet du biais peut être réduit par un réglage approprié des hyperparamètres.
- Poster