Régularisation implicite des réseaux de neurones profonds vers des EDO neuronales
1 : EPFL
École Polytechnique Fédérale de Lausanne
2 : Laboratoire de Probabilités, Statistique et Modélisation
Sorbonne Université, Centre National de la Recherche Scientifique, Université Paris Cité, Sorbonne Université : UMR_8001, Centre National de la Recherche Scientifique : UMR_8001, Université Paris Cité : UMR_8001
3 : Département de Mathématiques et Applications - ENS Paris
École normale supérieure - Paris, Centre National de la Recherche Scientifique, Centre National de la Recherche Scientifique : UMR8553
Les réseaux neuronaux résiduels sont des modèles de pointe en apprentissage profond. Leur analogue à profondeur continue, les équations différentielles ordinaires (EDO) neuronales, sont également largement utilisées. Malgré leur succès, le lien entre les modèles discrets et continus manque encore d'une base mathématique solide. Dans cette contribution, nous faisons un pas dans cette direction en établissant une régularisation implicite des réseaux neuronaux résiduels profonds vers les EDO neuronales, pour des réseaux non linéaires entraînés avec un flot de gradient. Nous démontrons que si le réseau est initialisé comme une discrétisation d'une EDO neuronale, alors cette propriété est maintenue tout au long de l'entraînement. Nos résultats sont valides pour un temps d'entraînement fini, et également lorsque le temps d'entraînement tend vers l'infini à condition que le réseau satisfasse une condition de Polyak-Łojasiewicz. De plus, cette condition est vérifiée pour une famille de réseaux résiduels où les résidus sont des perceptrons à deux couches avec une surparamétrisation en largeur qui est seulement linéaire. Dans ce cas, nous montrons la convergence du flot de gradient vers un minimum global. Des expériences numériques illustrent nos résultats.
- Poster