A variable selection method in a multivariate nonparametric regression model: Application to geoscience
Mary Savino  1, 2@  , Céline Lévy-Leduc  2@  
1 : Agence Nationale pour la Gestion des Déchets Radioactifs
ANDRA
2 : Université Paris-Saclay, AgroParisTech, INRAE, UMR MIA Paris-Saclay, 91120, Palaiseau
Université Paris-Sud - Université Paris-Saclay

Nous présentons ici une nouvelle méthode de sélection de variables dans un modèle de régression non-paramétrique multivarié et reposant sur des données afin d'identifier les variables dont dépend réellement la fonction de régression. Cette méthode consiste à approcher la fonction sous-jacente par une combinaison linéaire de B-splines d'ordre M ainsi que par la combinaison de leurs interactions deux-à-deux. Les coefficients de cette combinaison linéaire sont estimés en minimisant le critère des moindres carrés pénalisé par la somme des normes l2 des dérivées partielles par rapport à chaque variable dont dépend la fonction. Nous montrons que la méthode proposée peut être reformulée sous la forme d'un critère de type Group Lasso. Nous validons notre approche à travers différentes expériences numériques en faisant notamment varier le nombre d'observations, le niveau de bruit et le nombre total de variables. Nous la comparons également à deux autres méthodes de l'état de l'art et une application à un système géochimique réel est présentée. A travers ces différentes applications, notre approche démontre de meilleures performances statistiques que les autres méthodes auxquelles nous l'avons comparée. Notre méthode est implémentée dans le package R absorber qui sera bientôt disponible sur le “Comprehensive R Archive Network” (CRAN).


Personnes connectées : 4 Vie privée
Chargement...