Cet article a déjà été publié dans [16]. Il présente une méthode d'inférence distribuée (DisCGS) pour les modèles de mélange de processus de Dirichlet (DPMM). Le DPMM est beaucoup utilisé pour résoudre les problèmes de (\textit{clustering}), offrant l'avantage d'estimer automatiquement le nombre de \textit{clusters} durant l'inférence via la modélisation bayésienne non paramétrique. Cependant, leur processus d'inférence est considérablement lent lorsque le nombre d'observations est grand. Notre approche, basée sur l'échantillonneur de Gibbs qui est une méthode de Monte-Carlo par chaînes Markov (MCMC), est conçue pour être exécutée sur un environnement distribué, notamment dans le contexte de l'apprentissage fédéré horizontal. La méthode DisCGS a montré des performances remarquables. Par exemple, pour 100 000 observations, notre approche atteint $100$ itérations en seulement $3$ minutes, soit un facteur de réduction du temps d'exécution de $200$ par rapport à l'algorithme centralisé qui nécessite environ $12$ heures. Le code source est accessible publiquement sur https://github.com/redakhoufache/DisCGS.
- Poster