Ce travail étudie la limite des réseaux neuronaux profonds dont les poids sont dépendants et modélisés via un mélange de distributions gaussiennes. Sous ce modèle, nous montrons que chaque couche du réseau neuronal, losque la largeur tend vers l'infini, peut être caractérisée par deux quantités simples : un paramètre scalaire non-négatif et une mesure de Lévy sur les réels positifs. Si les paramètres scalaires sont strictement positifs et les mesures de Lévy sont triviales alors on retrouve la limite classique du processus gaussien (PG), obtenue avec des poids gaussiens iid. De façon plus intéressante, si la mesure de Lévy d'au moins une couche n'est pas triviale, nous obtenons un mélange de processus gaussiens (MdPG) dans la limite de grande largeur. Le comportement du réseau neuronal dans ce régime est très différent du régime PG. On obtient en effet des sorties corrélées, avec des distributions non gaussiennes, possiblement à queues lourdes. Nous illustrons certains des avantages du régime MdGP sur le régime PG en termes d'apprentissage de représentation et de compressibilité sur des ensembles de données simulées, MNIST et Fashion MNIST.
- Poster