Zero-inflation in the Multivariate Poisson Lognormal Family
Bastien Batardière  1@  , Julien Chiquet  2, *@  , François Gindraud, Mahendra Mariadassou  3, *@  
1 : Mathématiques et Informatique Appliquées
AgroParisTech, Université Paris-Saclay, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement : UMR0518
2 : Mathématiques et Informatique Appliquées
AgroParisTech, Université Paris-Saclay, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement, Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement : UMR0518
3 : Mathématiques et Informatique Appliquées du Génome à l'Environnement [Jouy-En-Josas]
Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement
* : Auteur correspondant

Les données de comptage en haute dimension sont difficiles à analyser telles quelles, et les approches basées sur des modèles statistiques restent efficaces et appropriées tout en préservant l'interprétabilité. Le modèle Poisson-Log-Normal (PLN) (multivarié) en est un exemple et suppose que les données de comptage sont influencées par une variable gaussienne latente structurée, exploitant les dépendances entre les comptages. Bien que les données de comptage du monde réel soient fréquemment caractérisées par des excès de zéros, un tel modèle ne prend pas en compte cette réalité. Nous proposons ici le modèle Zero-Inflated PLN (ZI-PLN), ajoutant une composante multivariée à excès de zéros au modèle, sous la forme d'une variable latente Bernoulli supplémentaire. L'inflation de zéros peut être fixe, spécifique au site, spécifique à la variable ou dépendre de covariables. Nous estimons les paramètres du modèle en utilisant une inférence variationnelle et comparons deux approximations : (i) distributions variationnelles gaussiennes et bernoulli indépendantes ou (ii) distribution gaussienne variationnelle conditionnée à la distribution bernoulli. La méthode est évaluée sur des données synthétiques. Tous les algorithmes sont disponibles dans un package Python pyPLNmodels et un package R PLNmodels.



  • Poster
Personnes connectées : 6 Vie privée
Chargement...