Dans le domaine du traitement d'images, les modèles de diffusion du débruitage (DDPM) ont gagné en popularité pour leur capacité à modéliser les distributions de données complexes tout en permettant une génération réaliste d'images. Ces modèles reposent sur deux étapes principales : une phase de diffusion directe où les images sont graduellement corrompues par du bruit gaussien, suivie d'une étape de décodage inverse où les images bruitées sont débruitées étape par étape à l'aide d'un réseau de neurones.
Dans ce travail, nous proposons une extension du modèle DDPM en introduisant une version conditionnelle qui prend en compte l'appartenance des images à différents groupes. Cette approche permet de mieux capturer la structure sous-jacente des données en tenant compte de leur regroupement naturel. Concrètement, le modèle repose sur l'hypothèse que les images sont réparties en Q groupes, et chaque image est modélisée comme provenant d'une distribution conditionnelle sur les groupes. Un réseau de neurones est ensuite entraîné pour prédire le bruit à supprimer lors de la génération des images, en fonction de leur appartenance à un groupe.
L'inférence dans ce modèle complexe est effectuée à l'aide d'un algorithme de type EM variationnel, qui permet d'estimer de manière efficace les paramètres de regroupement et les variables latentes. Cependant, l'optimisation des paramètres du réseau de neurones pose des défis supplémentaires, nécessitant l'utilisation de techniques avancées comme la descente de gradient stochastique. En combinant les avantages des modèles de diffusion du débruitage avec une approche de clustering conditionnelle, cette méthode ouvre de nouvelles perspectives dans le domaine de l'apprentissage automatique et du traitement d'images, offrant des outils puissants pour l'analyse et la génération de données visuelles complexes.
- Poster