Processing math: 11%
+ - 0:00:00
Notes for current slide
Notes for next slide

Statistique VIII: Tests non-paramétriques

2021-02-17

Statistique Fondamentale Master I MIDS et MFA

Stéphane Boucheron

Motivations

Principe du test de Kolmogorov-Smirnov

Transformation quantile

Calcul de la Statistique Kolmogorov-Smirnov

Théorème de Glivenko-Cantelli

Consistance

Inégalités de déviations

Adéquation à une famille de lois

Motivations

Conventions

P loi sur R.

Nous supposerons P absolument continue par rapport à la mesure de Lebesgue

Nous noterons F la fonction de répartition de P et f une densité

a<b:[a,b]f(x)d(x)=F(b)F(a)=P[a,b]

Dans ce type de situation, on dispose d'un résumé de l'échantillon Sn=(X1,X2,,Xn), l'échantillon trié en ordre croissant:

(X(1),,X(n))

Problème d'adéquation

Soit f une densité sur R et (x1,,xn) un échantillon de n points de R.

  • H0: L'échantillon (x1,,xn) a été engendré par n tirages indépendants selon la loi P de densité f ?

  • H1: L'échantillon (x1,,xn) a été engendré par n tirages indépendants selon une loi différente de P ?

Comme dans le cas du test d'adéquation du χ2, on veut aborder le problème de décision suivant.

Dans ce problème, l'hypothèse nulle est simple, l'alternative est composite et même extrêmement riche.

Exemple

Un constructeur prétend que les ampoules dur-à-cuir ont une durée de vie distribuée exponentiellement avec une paramètre .001 (La probabilité que l'ampoule fonctionne plus de x jours est exp(0.001×x)).

Une association de consommateurs collecte des informations sur la durée de vie des ampoules dur-à-cuir : elle rassemble un échantillon de durées de vie observées (x1,,xn) et pose la question:

  • cet échantillon peut-il raisonnablement être considéré comme la réalisation de n variables exponentiellement distribuées (avec le paramètre .001) ?

Premier essai

Pour aborder ce problème, nous allons d'abord proposer un test de type χ2

Nous allons réduire le problème à un problème d'ajustement à une hypothèse multinomiale simple.

Avant d'observer les données, on se donne une partition de R en k cellules: A1,A2,,Ak (on a ikAi=R, et les cellules sont bien deux à deux disjointes: AiAj= pour ij)

On résume nos observations de manière brutale: on note pour chaque observation xi la cellule à laquelle elle appartient et finalement on ne conserve que k compteurs: pour jk, on note nj le nombre d'observations qui appartiennent à la cellule Aj.

L'échantillon (x1,,xn) est donc résumé par (n1,,nk) avec jknj=n.

Sous l'hypothèse nulle, la suite de compteurs (n1,n2,,nk) est une réalisation d'une loi multinomiale de paramètres

(n,P{A1},P{A2},,P{Ak})

techniquement, la probabilité d'obtenir (n1,,nk) est donnée par:

n!n1!nk!ki=1(P{Ai})ni

Pour résoudre notre problème de test on se contente de résoudre le problème simplifié suivant:

H0: la suite des compteurs (n1,,nk) est une réalisation d'une loi multinomiale de paramètres

(n,PA1,PA2,,PAk)

H1:la suite des compteurs (n1,,nk) n'est pas une réalisation d'une loi multinomiale de paramètres

(n,P{A1},P{A2},,P{Ak})

Il faut être bien conscient que H0 est vérifiée lorsque H0 est vérifiée, mais que la réciproque est fausse.

Pour résoudre ce problème simplifié, on calcule la statistique de Pearson: ki=1(NinP{Ai})2nP{Ai}

et on rejette H0 si Sn est supérieure au quantile d'ordre

1α de la loi du χ2 à k1 degrés de liberté

Si H0 est vérifiée la probabilité de rejeter H0 à tort tend vers α.

Cette manière simple de procéder nous garantit donc un niveau asymptotique α.

Si H0 n'est pas vérifiée, la probabilité de rejeter tend vers 1 lorsque le nombre d'observations n tend vers l'infini.

Mais il est facile de construire des lois P ( PP ), qui ressemblent à P sur la partition A1,,Ak,

P{Aj}=P{Aj}pour jk

Si les observations sont engendrées par des tirages selon P, notre procédure de test ne le détectera pas

Notre procédure n'est pas consistante contre ces alternatives

En résumant nos données par quelques compteurs, nous avons perdu de l'information.

Ce n'est pas forcément très grave, par exemple si on sait que l'alternative n'est pas n'importe quoi mais qu'elle est au contraire formée de lois P qui se distinguent clairement de P sur la partition A1,,Ak.

Mais si on n'a pas cette assurance, ou si on veut être prêt contre toute éventualité,

Le principe du test de Kolmogorov et Smirnov

Cahier des charges du test

  • La statistique du test doit être facile à calculer (comme la statistique de Pearson pour les tests de type χ2).

  • La loi de la statistique de test doit etre libre de la loi P qui définit le problème d'ajustement. Ceci permettra de calibrer le test pour atteindre un niveau donné.

  • Le test doit être consistant: si l'hypothèse nulle n'est pas vérifiée et si la taille de l'échantillon tend vers l'infini, la probabilité de rejeter doit tendre vers 1.

Le test de Kolmogorov-Smirnov (par la suite) résume à peine les données: il oublie simplement l'ordre dans lequel elles ont été collectées. Les données x1,,xn définissent une loi sur R appelée loi empirique, notée Pn:

Pn{[a,b]}=1nni=11[a,b](xi)pour tout intervalle [a,b]

Cette loi Pn est une loi discrète, dont la fonction de répartition (appelée fonction de répartition empirique) est notée Fn

Fn(t)=Pn{(,t]}=1nni=11(,t](xi)

C'est une fonction en escalier, croissante, qui saute de 1/n en chaque point de l'échantillon

Si on considère le modèle formé par les lois sur R dominées par la mesure de Lebesgue, les statistiques d'ordre, ou de manière équivalente, la mesure empirique, forment une statistique suffisante (ou exhaustive)

Conditionnellement à la mesure empirique la loi de l'échantillon est la loi uniforme sur l'ensemble des permutations des statistiques d'ordre.

Définition

La statistique de Kolmogorov-Smirnov Dn est définie par

Dnnsup

Le test de Kolmogorov-Smirnov rejette l'hypothèse nulle si D_n est trop grande

La fonction de répartition F est supposée connue

C'est l'adéquation par rapport à F que l'on teste

La statistique de Kolmogorov-Smirnov est bien une statistique: elle calculable à partir

  • des données F_n et
  • des connaissances disponibles F

Quelques aspects de la statistique D_n

  • Sous \text{H}_0 (c'est à dire si les X_i \sim_{i.i.d} P), la loi de D_n est libre, elle ne dépend pas de P (pourvu que P ait une densité), elle ne dépend que de n.

  • La calcul de D_n se réduit à un tri de l'échantillon, à l'évaluation de F sur les points de l'échantillon et à la recherche d'un maximum dans un tableau de 2 n + 1 valeurs.

  • Si l'hypothèse nulle n'est pas vérifiée, par exemple si les X_i \sim_{i.i.d} P' avec P' \neq P alors pour tout M > 0

P' \left\{ D_n > M \right\} \rightarrow_n 1

Le test est donc consistant

  • Nous donnerons quelques résultats qui suggèreront (mais ne montreront pas) que sous l'hypothèse nulle,

D_n \rightsquigarrow D

D suit une loi bien connue (la loi du supremum du pont brownien réfléchi)

Cette convergence en loi, qui peut être vue comme une conséquence d'un théorème central limite généralisé, permet une calibration asymptotique du test:

si d_{1 - \alpha} désigne le 1 - \alpha quantile de la loi de D

alors

le test qui rejette l'hypothèse nulle si D_n > d_{1 - \alpha} est asymptotiquement de niveau \alpha

Fonction de répartition empirique F_n d'un échantillon de 100 points collectés indépendamment selon des tirages uniformes sur [0,1]. La courbe en tirets est la fonction de répartition de la loi uniforme.

Fonction de répartition empirique d'un échantillon de 100 points collectés indépendament selon des tirages exponentiels de paramètre 1. La courbe continue est la fonction de répartition de la loi exponentielle de paramètre 1.

La transformation quantile

Fonction de répartition

Une fonction de répartition F

  • est une fonction positive,

  • prend ses valeurs entre 0 et 1,

  • est croissante (au sens large, c'est-à-dire non-décroissante),

  • continue à droite, et

  • possède une limite à gauche en tout point

Si la fonction de répartition correspond à une loi de probabilité qui ne charge aucun point (diffuse), elle est continue

Dans tous les cas, on définit la fonction quantile F^{- 1} comme une pseudo-inverse de F

Dans cette section nous allons formuler quelques observations très importantes sur le comportement de la variable aléatoire F (X) lorsque X \sim P de fonction de répartition F.

Ces observations seront importantes pour nous, mais elles sont aussi très fécondes dans le domaine de la simulation de phénomènes aléatoires, elles permettent d'engendrer des variables aléatoires de fonction de répartition donnée F à partir de variables aléatoires distribuées uniforméments sur [0, 1].

Définition

La fonction quantile F^{- 1} d'une variable aléatoire X distribuée selon P (de fonction de répartition F) est définie par

F^{- 1} (p):= \inf \left\{ x: P\{X \leq x\} \geq p \right\} = \inf \left\{ x: F (x) \geq p \right\}

La fonction quantile est croissante et continue à droite elle aussi. La proposition suivante résume quelques propriétés simples de la fonction quantile.

Proposition

Si X a pour fonction de répartition F et pour fonction quantile F^{-1},

alors

on a les propriétés suivantes, pour p \in ( 0, 1 ):

  • p \leq F (x) si et seulement si F^{- 1} (p) \leq x
  • F \circ F^{- 1} (p) \geq p
  • F^{- 1} \circ F (x) \leq x
  • Si F admet une densité F \circ F^{- 1} (p) = p

Preuve

D'après la définition de F^{- 1} si F (x) \geq p alors F^{- 1} (p) \leq x

Maintenant pour établir la réciproque, il suffit de vérifier que F \circ F^{- 1} (p) \geq p

En effet, si x \geq F^{- 1} (p), comme F est croissante F (x) \geq F \circ F^{- 1} (p).

Si y = F^{- 1} (p), par définition de y = F^{- 1} (p), il existe une suite décroissante (z_n)_{n \in \mathbb{N}} qui converge vers y telle que F (z_n) \geq p

Mais comme F est continue à droite \lim_n F (z_n) = F (\lim_n z_n) = F (y)

Donc F (y) \geq p.

Remarquons que nous venons de prouver à la fois i) et ii).

Preuve (suite)

iii) est une conséquence immédiate de i).

Notons p \equiv F (x) .

Donc p \leq F (x), ce qui est équivalent d'après 1) à $F^{- 1} (p) \leq x,$ soit F^{- 1} \circ F (x) \leq x.

iv) Si F admet une densité f, F est continue (même absolument continue).

Pour toute valeur p dans ] 0, 1 [, il existe au moins une valeur x tel que p = F (x) (Théorème des valeurs intermédiaires).

Soit y l'infimum des valeurs x telles que F (x) = p, évidemment y = F^{- 1} (p)

D'après 1) F (y) \geq p.

Maintenant si (z_n)_{n \in \mathbb{N}} est une suite strictement croissante convergente vers y, on a pour tout n, F (z_n) < p, et par continuité à gauche, F (y) = F (\lim_n z_n) = \lim_n F (z_n) \leq p.

Donc F (y) = p, soit F \circ F^{- 1} (p) = p.

A partir des propriétés de la fonction quantile, il est aisé de déduire le résultat suivant.

Corollaire

Si X est une variable aléatoire de loi P dont la fonction de répartition F est continue, alors les variables aléatoires F (X) et 1 - F (X) sont uniformément réparties sur [0, 1].

Dans le contexte pour lequel nous voulons construire des tests, on peut donc affirmer que

sous l'hypothèse nulle, l'échantillon

F (X_1), \ldots, F (X_n) \sim U_1, \ldots, U_n

où les U_i \sim_{\text{i.i.d.}} \operatorname{Uniforme} [0, 1].

Pour simuler un tirage selon la loi de fonction de répartition F, il suffit de disposer d'un générateur de nombres aléatoires uniformément répartis sur [0, 1] et de leur appliquer la transformation F^{- 1}

Calcul de la statistique de Kolmogorov-Smirnov

D_n est facile à calculer

Cette vérification, combinée aux observations de la section précédente nous permettra de conclure que sous l'hypothèse nulle, la loi de D_n est bien libre.

Convention

x_{(1)}, \ldots, x_{_{(n)}} désigne la version triée en ordre croissant de (x_1, \ldots, x_n),

Les variables aléatoires X_{(i)} sont appelées les statistiques d'ordre de l'échantillon

Lemma

Le supremum dans la définition de D_n peut être calculé à partir de l'échantillon trié en ordre croissant (x_{(1)}, \ldots, x_{(n)}):

D_n = \sqrt{n} \max_{0 \leq i < n} \max \left( \left| \frac{i}{n} - F (x_{(i)}) \right|, \left| \frac{i}{n} - F (x_{(i + 1)}) \right| \right)

avec la convention x_{(0)} = - \infty

Preuve

Soit t : x_{(i)} \leq t < x_{(i + 1)}

On a

F_n (t) = \frac{i}{n} = F_n \left( x_{(i)} \right) < F_n (x_{(i + 1)}) =\frac{i + 1}{n},

et

F (x_{(i)}) \leq F (t) \leq F (x_{(i + 1)})

Donc

F_n (x_{(i)}) - F \left( x_{(i + 1)} \right) \leq F_n (t) - F (t) \leq F_n \left( x_{(i)} \right) - F \left( x_{(i)} \right)

et

F (x_{(i)}) - F_n \left( x_{(i)} \right) \leq F (t) - F_n (t) \leq F \left( x_{(i + 1)} \right) - F_n \left( x_{(i)} \right)

Preuve (suite)

Ceci nous conduit à

\left| F (t) - F_n (t) \right| \leq \max \left( \left| \frac{i}{n} - F (x_{(i)}) \right|, \left| \frac{i}{n} - F (x_{(i + 1)}) \right|\right)\qquad ∀ t \in [x_{(i)}, x_{(i + 1)})

On peut par ailleurs vérifier avec le même genre d'arguments que pour tout t < x_{(1)}

\left| F (t) - F_n (t) \right| \leq F (x_{(1)})

Cette caractérisation de D_n nous assure que D_n est bien une variable aléatoire.

Cela n'allait pas de soi avec la définition de départ qui considérait un supremum sur un ensemble non-dénombrable

Théorème

Si la fonction de répartition F est absolument continue alors la statistique de Kolmogorov-Smirnov D_n est distribuée comme

\sqrt{n} \max_{i \leq n} \max \left( \left| \frac{i}{n} - U_{(i)} \right|, \left| \frac{i}{n} - U_{(i + 1)} \right| \right)

ou U_{(1)} \leq U_{(2)} \leq \ldots \leq U_{(n)}

est le réarrangement croissant d'un échantillon i.i.d selon la loi uniforme sur [0, 1]

Une conséquence importante du Lemme précédent est résumée dans le théorème

Si t_{n, \alpha} désigne le 1 - \alpha quantile de la loi de D_n, le test T_{n, \alpha} de Kolmogorov-Smirnov est défini par

T_{n, \alpha} (S_n) = \left\{ \begin{array}{l} 1 \qquad \text{si} \quad D_n \geq t_{n, \alpha}\\ 0 \qquad \text{sinon} \end{array} \right.

Devant un test de cette forme, on peut aborder le problème de calibration (détermination du seuil t_{n, \alpha} en fonction du niveau de confiance recherché) de deux façons:

  • développer un algorithme de calcul de t_{n, \alpha}. Ceci est aujourd'hui envisageable en utilisant les possibilités de simulation des ordinateurs.

  • montrer que la suite D_n converge en loi vers une variable aléatoire non-dégénérée et tabuler une fois pour toute la loi limite. Ceci permet de construire de suites de tests de niveau asymptotique donné.

La démarche asymptotique (la seule raisonnable dans les années 1930) a soulevé des questions très intéressantes en théorie des probabilités. Elle a marquée le début de la théorie des \og processus empiriques \fg\ , qui sous-tend la théorie de la reconnaissance des formes ainsi que la théorie statistique de l'apprentissage.

Nous n'avons pas les moyens techniques et conceptuels pour traiter la démarche asymptotique.

Mais nous allons tout de même vérifier que sous l'hypothèse nulle, D_n ne grandit pas trop vite, en fait certainement pas plus vite que \sqrt{n}, car D_n / \sqrt{n} tend en probabilité vers 0.

Une loi des grands nombres fonctionnelle : le théorème de Glivenko-Cantelli

Convenons de la définition suivante

Z_n \equiv \frac{D_n}{\sqrt{n}} = \text{sup}_{t \in \mathbb{R}} \left| F_n (t) - F (t) \right|

Théorème (Glivenko-Cantelli)

Pour toute probabilité P sur \mathbb{R}, de fonction de répartition F continue, la suite (Z_n)_{n \in \mathbb{N}} converge en probabilité vers 0:

\forall \varepsilon > 0, \hspace{1em} \lim_n P \left\{ \sup_{t \in \mathbb{R}} \left| F_n (t) - F (t) \right| > \varepsilon \right\} = 0

Pour chaque valeur particulière de x, on peut écrire

F_n (t) - F (t) = \frac{1}{n} \sum_{i \leq n} \left( \mathbf{1}_{x_i \leq t} - \mathbb{E} \left[ \mathbf{1}_{X \leq t} \right] \right)

La différence F_n (t) - F (t) est donc une somme de variables de Bernoulli indépendantes, normalisée par 1/n. La loi des grands nombres habituelle nous indique alors

\forall \varepsilon > 0, \forall t \in \mathbb{R}, \hspace{1em} P \left\{ \left| F_n (t) - F (t) \right| > \varepsilon \right\} \rightarrow_n 0

Le théorème de Glivenko-Cantelli constitue une loi des grands nombres uniforme

Il s'agit d'un des premiers résultats de ce type. Une large part des statistiques contemporaines est dédiée à ce type de phénomènes.

Preuve

Soit \epsilon une réel strictement positif. Pour k \in \mathbb{N}, 1 \leq k \leq \lfloor \frac{1}{\epsilon} \rfloor, on définit

\mathsf{y}^{\epsilon}_k \equiv F^{- 1} (k \epsilon)

Etant donné un échantillon x_1, \ldots, x_n, et la fonction de répartition empirique F_n associée,

si

\mathsf{y}^{\epsilon}_k\leq x \leq \mathsf{y}^{\epsilon}_{k + 1}

alors

\begin{array}{rl}F ( \mathsf{y}^{\epsilon}_k) & \leq F (x_{}) \leq F (\mathsf{y}^{\epsilon}_{k + 1})\\ F_n ( \mathsf{y}^{\epsilon}_k) & \leq F_n (x_{}) \leq F_n (\mathsf{y}^{\epsilon}_{k + 1})\end{array}

Preuve (suite)

Donc

F ( \mathsf{y}^{\epsilon}_k) - F_n ( \mathsf{y}^{\epsilon}_{k + 1}) \leq F (x) - F_n (x) \leq F ( \mathsf{y}^{\epsilon}_{k + 1}) - F_n ( \mathsf{y}^{\epsilon}_k)

Preuve (suite)

Donc

F ( \mathsf{y}^{\epsilon}_k) - F_n ( \mathsf{y}^{\epsilon}_{k + 1}) \leq F (x) - F_n (x) \leq F ( \mathsf{y}^{\epsilon}_{k + 1}) - F_n ( \mathsf{y}^{\epsilon}_k)

\left| F (x) - F_n (x) \right| \leq \max \left( \left| F (\mathsf{y}^{\epsilon}_k) - F_n ( \mathsf{y}^{\epsilon}_k) \right|, \left|F ( \mathsf{y}^{\epsilon}_{k + 1}) - F_n ( \mathsf{y}^{\epsilon}_{k + 1}) \right| \right) + \epsilon

Preuve (suite)

Donc

F ( \mathsf{y}^{\epsilon}_k) - F_n ( \mathsf{y}^{\epsilon}_{k + 1}) \leq F (x) - F_n (x) \leq F ( \mathsf{y}^{\epsilon}_{k + 1}) - F_n ( \mathsf{y}^{\epsilon}_k)

\left| F (x) - F_n (x) \right| \leq \max \left( \left| F (\mathsf{y}^{\epsilon}_k) - F_n ( \mathsf{y}^{\epsilon}_k) \right|, \left|F ( \mathsf{y}^{\epsilon}_{k + 1}) - F_n ( \mathsf{y}^{\epsilon}_{k + 1}) \right| \right) + \epsilon

\sup_{\mathsf{y}^{\epsilon}_1 \leq x \leq \mathsf{y}^{\epsilon}_{\lfloor 1 / \epsilon \rfloor}} \left| F (x) - F_n(x) \right| \leq \max_{1 \leq k \leq \lfloor 1 / \epsilon \rfloor} \max \left( \left| F ( \mathsf{y}^{\epsilon}_k) - F_n (\mathsf{y}^{\epsilon}_k) \right| \right) + \epsilon

Preuve (suite)

Par ailleurs, pour x \leq \mathsf{y}^{\epsilon}_1,

\left| F (x) - F_n (x) \right| \leq \left| F_n (\mathsf{y}^{\epsilon}_1) - F ( \mathsf{y}^{\epsilon}_1) \right| +\epsilon

et de même pour x \geq \mathsf{y}^{\epsilon}_{\lfloor 1 / \epsilon \rfloor}

\left| F (x) - F_n (x) \right| \leq \left| F_n ( \mathsf{y}^{\epsilon}_{\lfloor 1 / \epsilon \rfloor}) - F ( \mathsf{y}^{\epsilon}_{\lfloor 1 / \epsilon \rfloor}) \right| + \epsilon

En récapitulant

\frac{D_n}{\sqrt{n}} \leq \max_{1 \leq k \leq \lfloor 1 /\epsilon \rfloor} \max \left( \left| F (\mathsf{y}^{\epsilon}_k) - F_n (\mathsf{y}^{\epsilon}_k) \right| \right) + \epsilon

Preuve (suite)

On peut maintenant observer que F ( \mathsf{y}^{\epsilon}_k) - F_n ( \mathsf{y}^{\epsilon}_k) est un somme normalisée de variables aléatoires centrées d'espérance nulle et de variance k \epsilon (1 - k \epsilon) Donc d'après l'inégalité de Bienaymée-Chebyshev

P^n \left\{ \left| F ( \mathsf{y}^{\epsilon}_k) - F_n (\mathsf{y}^{\epsilon}_k) \right| \geq u \right\} \leq \frac{k\epsilon (1 - k \epsilon)}{n u^2} \leq \frac{1}{4 n u^2}

Et

P^n \left\{ \max_{k \leq \lfloor 1 / \epsilon \rfloor} \left| F ( \mathsf{y}^{\epsilon}_k) - F_n ( \mathsf{y}^{\epsilon}_k) \right|\geq u \right\} \leq \frac{\lfloor 1 / \epsilon \rfloor}{4 n u^2}

En choisissant u = \epsilon, on peut en déduire que, lorque n tend vers l'infini:

\lim_n P^n \left\{ \left| \frac{D_n}{\sqrt{n}} \right| \geq 2 \epsilon \right\} = 0

Comme on peut choisir \epsilon arbitrairement petit, la convergence en probabilité est démontrée

Cette démonstration du théorème de Glivenko-Cantelli ne s'appuie que sur deux choses:

  • la loi des grands nombres pour des sommes de variables de Bernoulli, et

  • la possibilité d'encadrer chaque indicatrice de demi-droite, par deux indicatrices assez proches.

Cette dernière idée est souvent utilisée sous une forme généralisée en théorie des processus empiriques: c'est la possibilité de couvrir la classe de fonctions intéressante \mathcal{F} à l'aide d'un nombre fini d'intervalles ou braquets (brackets)

Consistance du test de Kolmogorov-Smirnov

Théorème

Si (X_1, \ldots, X_n) est collecté par des tirages i.i.d. selon une loi P' de fonction de répartition F' \neq F,

alors

D_n = \sqrt{n} \sup_x \left| F_n (x) - F (x) \right|

converge en P'-probabilité vers l'infini

Le théorème de Glivenko-Cantelli nous donne une intuition sur le comportement de la statistique de Kolmogorov-Smirnov

Preuve

Il existe \epsilon > 0, tel qu'il existe x vérifiant F' (x) - F (x)\geq \epsilon > 0 ou F (x) - F' (x) \geq \epsilon > 0

Sans perdre en généralité supposons que nous sommes dans la première situation.

Comme

\begin{array}{rl}\sqrt{n} \sup_t \left| F_n (t) - F (t) \right| & \geq \sqrt{n} \left( F_n (x) - F (x) \right) \\ & = \sqrt{n} \left( F_n (x) - F' (x) \right) + \sqrt{n} \left( F' (x) - F (x) \right)\end{array}

on a donc

D_n \geq \sqrt{n} \left( F_n (x) - F' (x) \right) + \sqrt{n} \epsilon

Preuve (suite)

La loi des grands nombres, indique que sous P',

\left| F' (x) - F_n (x) \right| \rightarrow^{P'} 0

Donc

P' \left\{ F_n (x) - F' (x) < - \epsilon / 2 \right\} \rightarrow_n 0

soit pour tout M > 0

P' \left\{ \sqrt{n} \sup_t \left| F_n (t) - F (t) \right| > M \right\} \rightarrow 1

Quelque soit le choix d'un seuil \tau > 0, pour le test qui rejette l'hypothèse nulle lorsque D_n \geq \tau, la probabilité de rejeter lorsque l'hypothèse nulle n'est pas vérifiée (sous une alternative fixe) tend vers 1 lorsque la taille de l'échantillon tend vers l'infini

Inégalités pour la statistique de Kolmogorov-Smirnov

Historiquement, le théorème suivant a rendu possible l'usage pratique de la statistique de Kolmogorov-Smirnov avant la banalisation des ordinateurs

Ce théorème a motivé les débuts de la théorie des processus empiriques

Théorème

Sous l'hypothèse nulle, la statistique de Kolmogorov-Smirnov converge en loi.

Pour x>0,

\lim_{n\to \infty} \mathbb{P} \left\{ D_n \geq x\right\} = 2 \sum_{k=1}^\infty (-1)^{k+1} \mathrm{e}^{-2 k^2 x^2}

Nous ne sommes pas en mesure d'établir que sous l'hypothèse nulle la suite des lois de (D_n)_n converge étroitement

Nous allons établir des inégalités de déviation pour D_n sous l'hypothèse nulle.

Ces inégalités sont non-asymptotiques (valables pour tout n) et elles montrent que la suite des lois de (D_n)_n est uniformément tendue

Ces inégalités implique que sous \text{H}_0, la suite des lois de (D_n)_n est relativement compacte pour la topologie de la convergence étroite

Théorème (Dvoretsky-Kiefer-Wolfovitz-Massart)

Pour tout entier n>1, tout \epsilon>0,

\mathbb{P} \left\{ D_n \geq \epsilon\right\} \leq 2 \mathrm{e}^{-2\epsilon^2}

Théorème (Dvoretsky-Kiefer-Wolfovitz-Massart)

Pour tout entier n>1, tout \epsilon>0,

\mathbb{P} \left\{ D_n \geq \epsilon\right\} \leq 2 \mathrm{e}^{-2\epsilon^2}

Si on choisit x = F^{\leftarrow} (1/2), n F_n(x) \sim \text{Binomiale}(n, 1/2)

L'inégalité de Hoeffding nous indique alors

\mathbb{P} \left\{ \sqrt{n}\left| F_n(x) -F(x)\right|\geq \epsilon\right\} \leq 2 \mathrm{e}^{-2 \epsilon^2}

Le théorème établit donc une inégalité de déviation de type Hoeffding pour le supremum.

Il s'agit d'un résultat difficile.

Ce résultat difficile ne peut être amélioré. Une version affaiblie peut être enseignée:

Proposition

Pour tout entier n>0, tout \epsilon>0

\mathbb{P} \left\{ D_n \geq \epsilon\right\} \leq 4 \mathrm{e}^{-\frac{\epsilon^2}{8}}

La preuve de la Proposition est l'occasion d'introduire la technique dite de symétrisation, d'explorer les premières étapes de la preuve des inégalités de Vapnik-Chervonenkis, et d'appliquer en statistique des outils élégants issus de la théorie des marches aléatoires (principe de réflexion).

La technique de symétrisation est une technique générale, simple et puissante de la théorie des processus empiriques.

Elle permet de majorer élégamment des espérances de suprema de processus empiriques.

Pour formuler le Lemme de symétrisation, nous utiliserons des variables de Rademacher, autrement des signes aléatoires: une variable de Rademacher vaut 1 ou -1 avec probabilité 1/2.

Lemme de Symétrisation

Soit X_1, \ldots, X_n une suite de vecteurs aléatoires indépendants indexés par \mathcal{T}

Soient \epsilon_1, \ldots, \epsilon_n une suite de variables de Rademacher indépendantes entre elles et indépendantes des X_1, \ldots X_n

Si \Psi: \mathbb{R} \to \mathbb{R} est convexe et croissante,

alors

\mathbb{E} \left[ \Psi\left(\sup_{t \in \mathcal{T}} \left| \sum_{i=1}^n X_{i,t} - \mathbb{E} X_{i,t} \right| \right) \right]\leq \mathbb{E} \left[ \Psi\left(2 \sup_{t \in \mathcal{T}} \left| \sum_{i=1}^n \epsilon_i X_{i,t} \right| \right) \right]

Si on choisit \Psi(x)=x, on obtient l'inégalité

\mathbb{E} \left[ \sup_{t \in \mathcal{T}} \left| \sum_{i=1}^n X_{i,t} - \mathbb{E} X_{i,t} \right| \right] \leq 2 \mathbb{E} \left[ \sup_{t \in \mathcal{T}} \left| \sum_{i=1}^n \epsilon_i X_{i,t} \right| \right]

Cette inégalité de symétrisation permet de se concentrer sur une quantité souvent plus simple à étudier

\mathbb{E}\left[ \Psi\left(2 \sup_{t \in \mathcal{T}} \left| \sum_{i=1}^n \epsilon_i X_{i,t} \right| \right) \mid X_1, \ldots, X_n \right]

où l'espérance conditionnelle n'est que l'espérance calculée par rapport aux variables de Rademacher (c'est une simple somme).

Preuve (Lemme de symétrisation)

Dans la suite les Y_i sont i.i.d. uniformément sur [0,1]. On introduit par souci de commodité

Z = \sqrt{n} D_n = \sup_{s \in [0,1]} \left| \sum_{i=1}^n X_{i,s} -\mathbb{E} X_{i,s} \right|

X_{i,s}= 1 si Y_i\leq s et X_{i,s}=0 sinon

Pour i \leq n, Y'_i est une copie indépendante de Y_i, et X'_{i,s}= \mathbb{I}_{Y'_i\leq s}.

Preuve (Lemme de symétrisation, suite)

On peut réécrire Z en

Z = \sup_{s \in [0,1]} \left| \sum_{i=1}^n X_{i,s}-\mathbb{E} X'_{i,s} \right|

Les \epsilon_i sont des variables de Rademacher

\mathbb{P}\{\epsilon_i=1\}=\mathbb{P}\{\epsilon_i=-1\}=1/2

indépendantes des Y_i, Y'_i.

On utilisera le fait que \epsilon_i(X_{i}-X'_i)\sim (X_{i}-X'_i)

car la variable aléatoire fonctionnelle X_i- X'_i est symétrique:

elle a même loi que son opposé.

Preuve (Lemme de symétrisation, suite)

Les espérances sont prises par rapport à

X_1,\ldots,X_n,X'_1,\ldots,X'_n,\epsilon_1,\ldots,\epsilon_n

\begin{array}{rlr} \mathbb{E} \left[ \Psi\left( Z\right) \right] & = \mathbb{E} \left[ \sup_{s \in [0,1]} \Psi\left( \left| \sum_{i=1}^n X_{i,s} -\mathbb{E} X'_{i,s} \right| \right) \right] & \\ & \leq \mathbb{E} \left[ \sup_{s \in [0,1]} \Psi\left( \left| \sum_{i=1}^n X_{i,s} - X'_{i,s} \right| \right) \right] & \text{(Jensen)} \\ & = \mathbb{E} \left[ \sup_{s \in [0,1]} \Psi\left( \left| \sum_{i=1}^n \epsilon_i (X_{i,s} - X'_{i,s}) \right| \right) \right] & (X_i-X'_i \text{est symétrique}) \\ & \leq \mathbb{E} \left[ \sup_{s \in [0,1]} \frac{1}{2} \left( \Psi\left(2 \left| \sum_{i=1}^n \epsilon_i X_{i,s} \right|\right) \right. \right. & \\ & \phantom{ \mathbb{E} \sup_{s \in [0,1]} \frac{1}{2} \frac{1}{2} } \left. \left. + \Psi\left(2 \left| -\sum_{i=1}^n \epsilon_i X'_{i,s} \right| \right) \right) \right] & \text{(Jensen)} \\ & \leq \mathbb{E} \left[ \sup_{s \in [0,1]} \Psi\left(2 \left| \sum_{i=1}^n \epsilon_i X_{i,s} \right|\right) \right] & \end{array}

Inégalité de symétrisation pratique

En choisissant \Psi(x)=\mathrm{e}^{\lambda x} pour \lambda>0, nous venons d'établir l'inégalité de symétrisation qui sera l'élément clé de la preuve de la proposition (version facile du théorème Dvoretsky et al. qui n'est pas fondée sur un argument de symétrisation):

\mathbb{E} \left[ \sup_{s \in [0,1]} \mathrm{e}^{\lambda \left| \sum_{i=1}^n X_{i,s} -\mathbb{E} X'_{i,s} \right|} \right] \leq \mathbb{E} \left[ \sup_{s \in [0,1]} \mathrm{e}^{2\lambda \left| \sum_{i=1}^n \epsilon_i X_{i,s} \right|} \right]

Cette inégalité est valable pour des suprema de processus empiriques beaucoup plus généraux.

Si les X_{i,s} étaient des indicatrices d'ensembles plus compliqués que des demi-droites, elle resterait valable.

De fait cette inégalité peut constituer la première étape d'une preuve des inégalités de Vapnik-Chervonenkis.

Nous allons maintenant exploiter le fait que nous avons affaire à des indicatrices de demi-droites.

Preuve

Presque sûrement, les Y_i sont deux à deux distincts. Pour une réalisation des \epsilon_i et des Y_i, on a

\begin{array}{rl} \sup_{s \in [0,1]} \mathrm{e}^{2\lambda \left| \sum_{i=1}^n \epsilon_i X_{i,s} \right|} & = \sup_{s \in [0,1]} \mathrm{e}^{2\lambda \left| \sum_{i=1}^n \epsilon_i \mathbb{I}_{Y_i \leq s} \right|} \\ & = \max_{k \leq n} \mathrm{e}^{2\lambda \left| \sum_{i=1}^n \epsilon_i \mathbb{I}_{Y_i \leq Y_{(k)}} \right|} \\ & = \max_{k \leq n} \mathrm{e}^{2\lambda \left| \sum_{i=1}^k \epsilon_i \right|} \qquad\text{(en loi).} \end{array}

Donc

Preuve (suite)

\mathbb{E} \left[ \sup_{s \in [0,1]} \mathrm{e}^{2\lambda \left| \sum_{i=1}^n \epsilon_i X_{i,s} \right|} \mid Y_1, \ldots, Y_n\right] = \mathbb{E} \Bigg[ \max_{k \leq n} \mathrm{e}^{2\lambda\left| \sum_{i\leq k} \epsilon_i \right|} \Bigg]

Le membre droit est un moment exponentiel de la marche aléatoire symétrique réfléchie. Comme pour toute variable aléatoire positive, l'espérance peut s'écrire comme l'intégrale des probabilités de déviation.

\mathbb{E} \Bigg[ \max_{k \leq n}\mathrm{e}^{2\lambda \left| \sum_{i\leq k} \epsilon_i \right|} \Bigg] = \int_{0}^\infty \mathbb{P} \left\{ \max_{k \leq n} \mathrm{e}^{2\lambda\left| \sum_{i\leq k} \epsilon_i \right|} \geq a\right\}\mathrm{d}a

Preuve (suite)

On note

A_k= \left\{ \mathrm{e}^{2 \lambda \left| \sum_{i\leq k} \epsilon_i \right|} \geq a, \text{ et } \mathrm{e}^{2 \lambda \left|\sum_{i\leq j} \epsilon_i \right|} < a \text{ pour } j<k \right\}

Les A_k forment une famille d'événements deux à deux disjoints.

D'une part,

\left\{ \max_{k \leq n} \mathrm{e}^{2\lambda \left| \sum_{i\leq k}\epsilon_i \right|} \geq a\right\} = \bigcup_{k\leq n} A_k

et d'autre part, pour chaque k \in \{ 1, \ldots, n\},

\begin{array}{rcl}\mathbb{P} \left\{\mathrm{e}^{2\lambda \left| \sum_{i\leq n} \epsilon_i \right|} \geq a \mid A_k \right\} & \geq & \frac{1}{2}\end{array}

en effet, avec probabilité supérieure ou égale à 1/2, \sum_{k < i \leq n} \epsilon_i est du même signe que \sum_{i\leq k} \epsilon_i

Nous utilisons ici le principe de réflexion de Désiré André

Preuve (suite)

On peut déduire une inégalité maximale:

\begin{array}{rcl} \mathbb{P} \left\{ \max_{k \leq n} \mathrm{e}^{2\lambda \left| \sum_{i\leq k} \epsilon_i \right|} \geq a\right\} & \leq & 2 \sum_{k\leq n} \mathbb{P}\{ A_k\} \mathbb{P} \times \left\{ \mathrm{e}^{2\lambda \left| \sum_{i\leq n} \epsilon_i \right|} \geq a \mid A_k \right\} \\ & = & 2 \mathbb{P} \left\{ \mathrm{e}^{2\lambda \left| \sum_{i\leq n} \epsilon_i \right|} \geq a \right\}\end{array}

D'où

\begin{array}{rl} \mathbb{E} \left[ \max_{k \leq n} \mathrm{e}^{2\lambda \left| \sum_{i\leq k} \epsilon_i \right| } \right] & \leq 2 \mathbb{E} \left[ \mathrm{e}^{2\lambda \left| \sum_{i\leq n} \epsilon_i \right|} \right] \\ & \leq 2 \mathbb{E} \left[\mathrm{e}^{2\lambda \sum_{i\leq n} \epsilon_i } + \mathrm{e}^{- 2\lambda \sum_{i\leq n} \epsilon_i }\right] \\ & \leq 4 \mathbb{E} \left[ \mathrm{e}^{2\lambda \sum_{i\leq n} \epsilon_i } \right] \qquad \text{(symétrie)} \\ & \leq 4 \, \mathrm{e} ^{n\frac{(2\lambda)^2}{2}} \qquad \text{ (Lemme de Hoeffding).} \end{array}

Preuve (fin)

On aboutit à

\mathbb{E} \left[ \mathrm{e}^{\lambda Z} \right] \leq 4 \mathrm{e} ^{2 n \lambda^2}

et la proposition s'obtient en choisissant \lambda=\epsilon/(4\sqrt{n}) et invoquant le Lemme de Markov.

Quelques développements

Si au lieu de considérer un processus empirique indexé par les demi-droites de \mathbb{R}, on considère des processus indexés par des classes plus générales de parties, on ne peut plus utiliser une identité comme \eqref{eq:identite}. On peut cependant, exploiter la symétrisation en adoptant la démarche de Vapnik et Chervonenkis \citep{Mas06} .

Cette démarche permet même d'obtenir des résultats fins et applicables comme cette inégalité issue de \cite{Pan03} qui s'affranchit des contraintes habituelles de bornitude.

Soient X'_1,\ldots,X'_n des copies i.i.d. des vecteurs indépendants X_1,\ldots,X_n. Soit

W= \mathbb{E}\left[ \sup_{s\in\mathcal{T}} \sum_{i=1}^n (X_{i,s}-X'_{i,s})^2 \bigg \vert \bigg. X_1,\ldots,X_n\right]

Alors pour tout t\geq 0, \mathbb{P}\left\{ Z \geq \mathbb{E} Z + 2 \sqrt{tW}\right\} \leq 4 e^{-t/4} et \mathbb{P}\left\{ Z \leq \mathbb{E} Z - 2 \sqrt{tW }\right\} \leq 4 e^{-t/4}

Adéquation à une famille de lois

De même qu'on peut utiliser les statistiques du \chi^2 pour tester l'ajustement à une famille de lois, on peut utiliser les statistiques de Kolmogorov-Smirnov pour tester l'adéquation à une famille de lois.

Prenons le cas de la famille des lois exponentielles dont les densités sont de la forme 1/{\sigma} \, {\exp(- x/\sigma)}, pour x>0, \sigma>0.

On peut chercher à modifier la statistique de Kolmogorov-Smirnov, en substituant à la fonction de répartition inconnue, une fonction de répartition estimée, par exemple via la méthode du maximum de vraisemblance

\sqrt{n} \sup_{x \in \mathbb{R}} \left| F_n(x) - \left(1- \mathrm{e}^{-x/\widehat{\sigma} } \right)\right|

\widehat{\sigma}=\overline{X}_n.

On peut vérifier que sous l'hypothèse nulle, la loi de cette statistique est libre du paramètre \sigma (la loi de (X_i/\overline{X}_n) est libre de \sigma,

Il n'y a là rien de spécifique à la famille des lois exponentielles.

Cette construction fonctionne pour les familles définies par un paramètre d'échelle).

La statistique de test devient

\sqrt{n} \sup_{x \in \mathbb{R}} \left| \frac{1}{n}\sum_{i=1}^n \mathbb{1}_{\frac{X_i}{\widehat{\sigma}}\leq x} - \left(1- \mathrm{e}^{-x} \right)\right|

Elle n'est pas distribuée de la même façon que la statistique de Kolmogorov-Smirnov calculée sous l'hypothèse nulle sur un n-échantillon. La distribution sous l'hypothèse nulle dépend de la famille de lois considérée.

Le lemme suivant nous fournit une autre voie

Lemma

Soient Y_1, \ldots, Y_n des variables aléatoires positives i.i.d.

On note S_n:= \sum_{i=1}^n Y_i.

La loi commune des Y_i est exponentielle

si et seulement si

conditionnellement à S_n, Y_1, \ldots, Y_{n-1} est distribuée comme les écarts d'un n-1-échantillon de la loi uniforme sur [0,S_n]

Preuve

Une suite de calculs astucieux mais élémentaires montre que la densité de la loi commune des Y_i est une solution mesurable de l'équation fonctionnelle de Cauchy

f(x+y) = f(x)f(y) \text{ pour } x,y \geq 0

Les seules solutions mesurables de cette équation sont de la forme f (x) = b \exp(ax) pour b > 0, a \in \mathbb{R}

La densité de la loi commune des Y_i est une solution mesurable de l'équation fonctionnelle de Cauchy

Corollaire

Soient Y_1, \ldots, Y_n des variables aléatoires positives i.i.d., On note S_n:= \sum_{i=1}^n Y_i.

La loi commune des Y_i est exponentielle si et seulement si la suite (Z_j)_{j <n} définie par Z_j =\sum_{k=1}^j Y_j /S_n est distribuée comme les statistiques d'ordre d'un n-1-échantillon de la loi uniforme sur [0,1].

Tester l'adéquation à la famille des lois exponentielles revient donc à calculer la statistique de Kolmogorov-Smirnov d'ajustement à la loi uniforme sur la suite Z_1, \ldots, Z_{n-1} et à comparer cette statistique aux quantiles de la loi de la statistique de Kolmogorov-Smirnov pour les échantillons de taille n-1.

Cette démarche peut sembler inattaquable. Elle présente pourtant quelques défauts.

The End

Statistique VIII: Tests non-paramétriques

2021-02-17

Statistique Fondamentale Master I MIDS et MFA

Stéphane Boucheron

Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
oTile View: Overview of Slides
Esc Back to slideshow