55èmes Journées de Statistique de la SFdS

sciencesconf.org:jds2024:528295

Inférence distribuée pour les modèles de mélange de processus de Dirichlet dans l'apprentissage fédéré

Reda Khoufache 1, *, @ , Mustapha Lebbah 1, *, @ , Hanene Azzag 2, *, @ , Étienne Goffinet 3, *, @ , Djamel Bouchaffra 4, *, @

1 : DAVID, Université de Versailles, Université Paris-Saclay

Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)

2 : Laboratoire d'Informatique de Paris-Nord

Centre National de la Recherche Scientifique, Université Sorbonne Paris nord, Centre National de la Recherche Scientifique : UMR7030

3 : Technology Innovation Institute

4 : Centre de Développement des Technologies Avancées

* : Auteur correspondant

Cet article a déjà été publié dans [16]. Il présente une méthode d'inférence distribuée (DisCGS) pour les modèles de mélange de processus de Dirichlet (DPMM). Le DPMM est beaucoup utilisé pour résoudre les problèmes de (\textit{clustering}), offrant l'avantage d'estimer automatiquement le nombre de \textit{clusters} durant l'inférence via la modélisation bayésienne non paramétrique. Cependant, leur processus d'inférence est considérablement lent lorsque le nombre d'observations est grand. Notre approche, basée sur l'échantillonneur de Gibbs qui est une méthode de Monte-Carlo par chaînes Markov (MCMC), est conçue pour être exécutée sur un environnement distribué, notamment dans le contexte de l'apprentissage fédéré horizontal. La méthode DisCGS a montré des performances remarquables. Par exemple, pour 100 000 observations, notre approche atteint $100$ itérations en seulement $3$ minutes, soit un facteur de réduction du temps d'exécution de $200$ par rapport à l'algorithme centralisé qui nécessite environ $12$ heures. Le code source est accessible publiquement sur https://github.com/redakhoufache/DisCGS.

Type :	:	oral
Thématiques	:	Statistique bayésienne
Mots-Clés	:	Apprentissage fédéré ; Calcul distribué ; Modèles de mélange de processus de Dirichlet ; Monté ; Carlo par chaı̂nes de Markov ; Modélisation bayésienne non ; paramétrique

Poster

Vie privée | Accessibilité