Inférence distribuée pour les modèles de mélange de processus de Dirichlet dans l'apprentissage fédéré
Reda Khoufache  1, *@  , Mustapha Lebbah  1, *@  , Hanene Azzag  2, *@  , Étienne Goffinet  3, *@  , Djamel Bouchaffra  4, *@  
1 : DAVID, Université de Versailles, Université Paris-Saclay
Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)
2 : Laboratoire d'Informatique de Paris-Nord
Centre National de la Recherche Scientifique, Université Sorbonne Paris nord, Centre National de la Recherche Scientifique : UMR7030
3 : Technology Innovation Institute
4 : Centre de Développement des Technologies Avancées
* : Auteur correspondant

Cet article a déjà été publié dans [16]. Il présente une méthode d'inférence distribuée (DisCGS) pour les modèles de mélange de processus de Dirichlet (DPMM). Le DPMM est beaucoup utilisé pour résoudre les problèmes de (\textit{clustering}), offrant l'avantage d'estimer automatiquement le nombre de \textit{clusters} durant l'inférence via la modélisation bayésienne non paramétrique. Cependant, leur processus d'inférence est considérablement lent lorsque le nombre d'observations est grand. Notre approche, basée sur l'échantillonneur de Gibbs qui est une méthode de Monte-Carlo par chaînes Markov (MCMC), est conçue pour être exécutée sur un environnement distribué, notamment dans le contexte de l'apprentissage fédéré horizontal. La méthode DisCGS a montré des performances remarquables. Par exemple, pour 100 000 observations, notre approche atteint $100$ itérations en seulement $3$ minutes, soit un facteur de réduction du temps d'exécution de $200$ par rapport à l'algorithme centralisé qui nécessite environ $12$ heures. Le code source est accessible publiquement sur https://github.com/redakhoufache/DisCGS.



  • Poster
Personnes connectées : 5 Vie privée
Chargement...