Cet exposé s'appuie sur deux articles respectivement en collaboration avec M. Albert, A. Marrel et A. Meynaoui ainsi que A. Schrab, I. Kim, M. Albert, B. Guedj et A. Gretton.
Nous nous intéressons d'une part à tester l'indépendance de deux vecteurs $X \in \mathbb{R}^p $ et $ Y\in \mathbb{R}^q$ à partir de l'observation d'un $n$-échantillon $ ((X_1,Y_1), \ldots, (X_n,Y_n))$ et d'autre part à tester que deux échantillons indépendants de variables aléatoires à valeurs dans $\mathbb{R}^p$, $(X_1, \ldots, X_m)$ i.i.d. de loi de probabilité $P$ et $(Y_1, \ldots , Y_n)$ i.i.d. de loi de probabilité $Q$, ont même loi.
Le point commun de ces deux papiers est d'utiliser la notion de MMD (Maximum Mean Discrepancy) qui définit une métrique entre lois de probabilités
basée sur des noyaux dans des espaces de Hilbert à noyau reproduisant (RKHS). Plus précisément, étant donné un RKHS $ \mathcal{H}_k$ associé au noyau $k$, la MMD entre deux mesures de probabilités $P$ et $Q$ est définie par
$$ \mbox{MMD}(P,Q, \mathcal{H}_k) = \sup_{f \in \mathcal{H}_k, \|f\|_{\mathcal{H}_k} \leq 1} \mathbb{E}_{X \sim P} \left[ f(X)\right] - \mathbb{E}_{Y \sim Q}\left[f(Y)\right].$$
Pour certains types de noyaux, dits caractéristiques, la nullité de $\mbox{MMD}(P,Q, \mathcal{H}_k) $ équivaut à l'égalité des mesures de probabilités $P$ et $Q$. \\
Pour le problème de test d'égalité des lois $P$ et $Q$ de deux échantillons, nous nous concentrons sur l'estimation de la quantité $ \mbox{MMD}(P,Q, \mathcal{H}_k)$, pour un certain choix de noyau, en suivant les travaux précurseurs d'Arthur Gretton et ses coauteurs (2007).
Par ailleurs, pour tester l'indépendance de deux vecteurs aléatoires $X$ et $Y$, nous proposons d'utiliser le critère d'indépendance de Hilbert-Schmidt (HSIC) introduit par Arthur Gretton et ses coauteurs en 2005, qui n'est autre que la MMD (associée à un certain noyau) entre la loi du couple $(X,Y)$ et le produit des lois marginales.
L'objectif de l'exposé sera de montrer comment on peut construire des estimateurs de la MMD et du HSIC puis d'en déduire des tests d'homogénéité et des tests d'indépendance. Nous verrons en particulier le recours à des techniques de permutation pour garantir le niveau des tests. Par ailleurs, nous donnerons des résultats de puissance pour ces tests qui s'appuient sur des inégalités exponentielles pour les U-statistiques dues à Arcones et Giné (2013) et Giné, Latala et Zinn (2000). Nous discuterons également du choix des noyaux utilisés et nous montrerons l'intérêt d'agréger des tests associés à différents noyaux.
- Poster