Ce premier cours introduit autour d'un exemple élémentaire les principaux thèmes de la statistique dite inférentielle (qu'on distingue de la statistique dite descriptive).
Ces trois thèmes, l'estimation ponctuelle, la construction de régions de confiance et la construction de procédures de décision (les tests), suppose un effort préalable de modélisation stochastique.
Sur l'exemple élémentaire, on peut mener ce travail de modélisation.
Cela nous conduit à une première formulation de ce qu'est une expérience ou un modèle statistique. Dans le cadre le plus simple, une expérience statistique est une collection de lois de probabilités. On observe une ou des réalisations d'une de ces lois (sans savoir à laquelle on a affaire).
On cherche à estimer, inférer des propriétés de cette loi, peut être pour prendre une décision. Nous passerons en revue des définitions qui nous seront utiles pendant toute la suite du cours (statistique, estimateur, biais, risque, ...)
Et surtout nous verrons à cette occasion comment les théorèmes limites du calcul des probabilités, loi des grands nombres, théorème central limite, nous guident dans la construction et la justification des méthodes d'estimation et de décision.
Nous verrons aussi que ces théorèmes limites sont complétés par des résultats non-asymptotiques appelés inégalités de concentration.
Nous terminerons ce cours par une première version du résultat fondateur de la thérie des tests, le lemme de Neyman et Pearson.
On va jouer à pile ou face avec une pièce de monnaie
On soupçonne que cette pièce n'est pas parfaitement équilibrée: la probabilité d'obtenir face ( θ ) n'est pas exactement 1/2
Avant de jouer, on veut estimer θ, ou le ratio θ/(1−θ), ou logθ/(1−θ)
Pour estimer cette probabilité, on réalise n lancers aléatoires indépendants
On note les résultats:
x1,x2,…,xn⏟les données, l'échantillon
On construit à partir des données x1,x2,…,xn une estimation ˆθn de θ
x1,x2,…,xn⏟échantillonestimation⟶ˆθn
Cette estimation est une fonction des données, pas de l'estimande θ qui reste inconnue
On espère que ˆθn sera proche de θ
Nous avons affaire à un problème dit d'estimation ponctuelle
Le résultat d'une estimation ponctuelle est une valeur (un réel ici)
Savoir que l'estimation ponctuelle est peut-etre (voire probablement) proche de l'estimande est satisfaisant mais d'un intérêt limité.
Pour envisager l'avenir, il est plus utile de construire un intervalle de confiance:deux fonctions des données θ_n,¯θn telles que
avec une forte probabilité (à définir), l'estimande θ appartient à l'intervalle aléatoire
[θ_n(x1,…,xn),¯θn(x1,…,xn)]=:[θ_n,¯θn]
Ce problème est celui de la construction de régions de confiance.
ne pas encourager les approches ceintures et bretelles
On peut se poser un problème de décision
Par exemple :
on est prêt à jouer avec une pièce biaisée en faveur de face, mais pas avec une pièce biaisée en faveur de pile,
Comment décider à partir des données si on est prêt à jouer ou non ?
Comment décider entre
C'est le problème des tests
La notion d'expérience statistique est une formalisation dans le langage du calcul des probabilités du jeu que nous venons d'évoquer.
Au départ, on dispose d'un espace probabilisable (Ω,F) (l'univers et une tribu de parties).
Ici Ω={pile,face} et F=2Ω
La notion d'expérience statistique est une formalisation dans le langage du calcul des probabilités du jeu que nous venons d'évoquer.
Au départ, on dispose d'un espace probabilisable (Ω,F) (l'univers et une tribu de parties).
Ici Ω={pile,face} et F=2Ω
C'est en général plus riche, avec Ω=Rd et F les boréliens de Rd
On peut aussi rencontrer des situations où Ω est un espace de fonctions (statistique des processus), le choix de la tribu n'est plus tout à fait évident.
Sur cet espace probabilisable, on considère un ensemble de lois de probabilités P.
Chaque loi de P est susceptible de régir le phénomène que le statisticien cherche à étudier
Dans le cadre du problème jouet, on peut choisir P comme l'ensemble de lois non-dégénérées sur Ω={pile,face}.
Dans le problème jouet P est l'ensemble des lois de Bernoulli
La probabilité d'obtenir face est notée θ∈]0,1[
Nos problèmes d'inférence (estimation ponctuelle, région de confiance, tests) portent sur ce θ qui n'est pas connu de la statisticienne
On peut munir P d'un système de coordonnées, d'une paramétrisation, c'est à dire d'une fonction d'un ensemble Θ (souvent une partie de Θ⊆Rd ) dans P
On note génériquement Pθ l'élément de P associé à θ
Dans le cas de notre problème jouet, nous avons implicitement paramétrisé les lois de Bernoulli par les probabilités de succès
Une paramétrisation est un choix de convenance
Une paramétrisation est dite identifiable si
θ≠θ′⇒Pθ≠Pθ′
Dans notre problème jouet, les paramétrisations (par la probabilité de face, par le ratio des probabilités face/pile, ou son logarithme) sont identifiables
L'identifiabilité est une propriété désirable mais ce n'est pas indispensable : les modèles de mélange, les modèles à variables latentes sont très utiles mais rarement identifiables
Il est possible que le statisticien n'ait pas directement accès complet aux réalisations des tirages selon P (la loi de la nature), c'est à dire aux éléments de Ω
Par exemple, lorsque Ω est un espace de fonctions (les trajectoires d'un processus), il est sans doute trop couteux d'observer l'infinité de points qui forment la trajectoire
On se contente d'observer la trajectoire périodiquement (ou pas), on échantillonne
Pour formaliser ces situations, on ajoute à l'expérience un espace d'observations X (muni d'une tribu G) et une fonction X:Ω⟶X qu'on suppose G/F mesurable.
Toute loi P∈P définit alors une loi image P∘X−1
Au lieu d'observer ω∈Ω, on observe x=X(ω)∈X
Une expérience statistique générale est donc définie par
(Ω,F,P,Θ,X,G,X)
Pour formaliser ces situations, on ajoute à l'expérience un espace d'observations X (muni d'une tribu G) et une fonction X:Ω⟶X qu'on suppose G/F mesurable.
Toute loi P∈P définit alors une loi image P∘X−1
Au lieu d'observer ω∈Ω, on observe x=X(ω)∈X
Une expérience statistique générale est donc définie par
(Ω,F,P,Θ,X,G,X)
Dans les situations dites canoniques, Ω=XetX=Id
Nous nous concentrons sur les expériences dites produit, construites à partir de répétitions indépendantes d'une expérience de base
Ces expériences sont de la forme
(Ωn,σ(×ni=1F),Pn:={P⊗n,P∈P},Θ,Xn,σ(×ni=1G),X)
On dit que xi est la réalisation de Xi (variable aléatoire).
La loi jointe de X1,…,Xn est une loi produit de la forme (Pθ∘X−1)⊗navec θ∈Θ
∀B1,…,Bn∈G,P⊗nθ(∪ni=1{Xi∈Bi})=n∏i=1Pθ{Xi∈Bi}
Nous nous concentrons sur les expériences dites produit, construites à partir de répétitions indépendantes d'une expérience de base
Ces expériences sont de la forme
(Ωn,σ(×ni=1F),Pn:={P⊗n,P∈P},Θ,Xn,σ(×ni=1G),X)
On dit que xi est la réalisation de Xi (variable aléatoire).
La loi jointe de X1,…,Xn est une loi produit de la forme (Pθ∘X−1)⊗navec θ∈Θ
∀B1,…,Bn∈G,P⊗nθ(∪ni=1{Xi∈Bi})=n∏i=1Pθ{Xi∈Bi}
On parle d'expérience échantillonnée
Dans le langage des statistiques descriptives, la moyenne empirique décrit la localisation de l'échantillon, la variance empirique décrit la dispersion.
Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage
Par exemple, dans notre problème jouet, on peut chercher à estimer Pθ{Face}=θ par ¯Xn en utilisant la convention X(Face)=1=1−X(Pile)
un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.
Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage
Par exemple, dans notre problème jouet, on peut chercher à estimer Pθ{Face}=θ par ¯Xn en utilisant la convention X(Face)=1=1−X(Pile)
un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.
La loi de l'estimateur dépend (en général) de la loi de l'échantillonnage.
Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage
Par exemple, dans notre problème jouet, on peut chercher à estimer Pθ{Face}=θ par ¯Xn en utilisant la convention X(Face)=1=1−X(Pile)
un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.
La loi de l'estimateur dépend (en général) de la loi de l'échantillonnage.
Quand le paramètre à estimer s'appelle θ,ψ,…, on utilise souvent le raccourci ˆθ ou ˆθn,ˆψn,… pour désigner l'estimateur, plutôt que ˆθ(X1,…,Xn) ou ˆψ(X1,…,Xn)
Pour engendrer une suite de N= 100 variables de Bernoulli indépendantes de probabilité de succès p= 0.4, on utilise le générateur de nombres aléatoires rbinom
,
N <- 100 # taille échantillonp <- .4 # θ!s <- rbinom(n=N, prob=p, size=1)mean(s)
## [1] 0.43
Le premier argument nommé
n
désigne le nombre de tiragesprob
la probabilité de succès des lois de Bernoulli,size
désigne le paramètre de taille des binomialeson effectue N
tirages binomiaux de paramètres size=1
et prob
Avec , nous allons simuler des lancers de pièces (des tirages de Bernoulli) et étudier/visualiser les trajectoires des moyennes empiriques
(1nn∑i=1Xi)n≤N=(¯Xn)n≤N
La loi des grands nombres peut être illustrée dans ce contexte
dataframe
,x
représentant les indices n=1,…,N.dataframe
pour obtenir un dataframe
à trois colonnes: x
, path
qui précise la trajectoire, et value
qui donne la somme partielle ∑ni=1Xi pour la trajectoire désignée par path
à l'instant n
désigné par x
dataframe
pivoté au module de visualisation ggplot2
rbinom(n=B*N, prob=p, size=1) %>% matrix(nrow=N, ncol=B) %>% apply(MARGIN=2, FUN=cumsum) %>% as_tibble(.rows = N) %>% mutate(x = 1:N) %>% pivot_longer(cols = starts_with('V'), names_to = "path") %>% ggplot(aes(x=x, y=value/x, linetype=path)) + geom_line(show.legend = FALSE)
rbinom(n=B*N, prob=p, size=1) %>% matrix(nrow=N, ncol=B) %>% apply(MARGIN=2, FUN=cumsum) %>% as_tibble(.rows = N) %>% mutate(x = 1:N) %>% pivot_longer(cols = starts_with('V'), names_to = "path") %>% ggplot(aes(x=x, y=value/x, linetype=path)) + geom_line(show.legend = FALSE) + geom_abline(slope=0, intercept = p)
rbinom(n=B*N, prob=p, size=1) %>% matrix(nrow=N, ncol=B) %>% apply(MARGIN=2, FUN=cumsum) %>% as_tibble(.rows = N) %>% mutate(x = 1:N) %>% pivot_longer(cols = starts_with('V'), names_to = "path") %>% ggplot(aes(x=x, y=value/x, linetype=path)) + geom_line(show.legend = FALSE) + geom_abline(slope=0, intercept = p) + xlab(TeX('$n$')) + ylab(TeX("$\\bar{X}_n$")) + theme()
On visualise B= 10 trajectoires construites chacune sur N= 1000 épreuves de Bernoulli
Nous pouvons aussi fixer le nombre d'observations n=N et examiner les fluctuations de la moyenne empirique ¯Xn sur un grand nombre B=10000 de trajectoires
Nous nous rappelons que si X_i \sim_{text{i.i.d.}} \text{Bernoulli}(θ) alors
\sum_{i=1}^N X_i \sim \text{Binomiale}(N, θ). Pour simuler nos B moyennes
empiriques, il suffit d'invoquer rbinom(B, p, N)
Pour visualiser les fluctuations des moyennes empiriques, nous utilisons la technique de l'histogramme
L'histogramme est construit grace à ggplot
B <- 10000 # RéplicationsN <- 1000 # Taille échantillonp <- .4estimes <- rbinom(B, p, size=N)/Ntibble(x=estimes) %>% ggplot(aes(x=x)) + geom_histogram(aes(y=..density..), binwidth=.01, alpha=I(.5)) + stat_function(fun=dnorm, args=c(mean=p, sd=sqrt(p*(1-p)/N)))
B <- 10000 # RéplicationsN <- 1000 # Taille échantillonp <- .4estimes <- rbinom(B, p, size=N)/Ntibble(x=estimes) %>% ggplot(aes(x=x)) + geom_histogram(aes(y=..density..), binwidth=.01, alpha=I(.5)) + stat_function(fun=dnorm, args=c(mean=p, sd=sqrt(p*(1-p)/N))) + xlab(paste(B, " Estimés à partir de ", N," points", sep=""))
Un estimateur est une variable aléatoire.
On peut visualiser ses fluctuations à l'aide de maintes techniques graphiques comme les histogrammes
L'histogramme définit une densité de probabilité constante par morceaux
Nous comparons cette densité constante par morceaux avec la densité de \mathcal{N}(\theta, θ(1-θ)/N)
La plupart des expériences/modèles statistiques que nous rencontrerons dans ce cours, seront de nature paramétrique, autrement dit indexés par des parties de \mathbb{R}^d
Dans de nombreux développements des statistiques, par exemple en estimation de densité, on travaille sur des modèles plus riches qui n'admettent pas de paramétrisation naturelle par une partie d'un espace euclidien de dimension finie
On parle pourtant de paramètre d'une distribution pour désigner ce qui devrait plutôt s'appeler une fonctionnelle
Par exemple,
d'une distribution sur \mathbb{R}^d sont des paramètres de cette distribution
Les quantiles, l'asymétrie, la kurtosis sont d'autres paramètres
Soit \psi(P) un paramètre à estimer, et \widehat{\psi} un estimateur, on appelle biais (ou biais moyen) sous la loi P de l'estimateur \hat{\psi}, la quantité
\mathbb{E}_{P}\left[ \widehat{\psi}- \psi(P)\right]
C'est l'écart entre la valeur moyenne de \widehat{\psi} et la valeur visée \psi(P)
L'estimateur est dit sans biais s'il est de biais nul
Si on se place dans le modèle binomial et qu'on cherche à estimer la probabilité de succès \theta, la fréquence empirique des succès est un estimateur sans biais de \theta
On peut vérifier qu'il n'existe pas d'estimateur sans biais de 1/\theta ou de \theta/(1- \theta)
La fréquence empirique d'un événement est toujours un estimateur sans biais de la probabilité de cet événement
Si \psi(P) désigne la variance de la loi P sur \mathbb{R}, la variance empirique
S^2 = \frac{1}{n} \sum_{i=1}^n \big( X_i - \overline{X}_n\big)^2
est un estimateur biaisé de \psi(P):
\mathbb{E}_P\left[ S^2 \right] = \frac{n-1}{n} \mathbb{E}_P \left[\left(X - \mathbb{E}_P X\right)^2\right] = \frac{n-1}{n} \psi(P)
vérifier
\mathbb{E}_{P} \left[(\hat{\psi}-\psi)^2\right] = \underbrace{\operatorname{Var}_{P} [\hat{\psi}]}_{\text{variance}} + \underbrace{\left(\mathbb{E}_{P}[\hat{\psi}]-\psi \right)^2}_{\text{carré du biais}}
vérifier
C'est une relation pythagoricienne !
La relation du risque quadratique à la taille de l'échantillon est une question importante en statistique mathématique
Elle concerne la vitesse d'estimation : pour une suite d'expériences donnée, quelles sont les meilleures vitesses envisageables, et comment les obtenir ?
Pour introduire la notion de consistance d'une suite d'estimateurs, nous aurons besoin des notions de convergence en probabilité et de convergence presque sûre
Une suite (X_n)_n de variables aléatoires à valeurs dans \mathbb{R}^k, vivant sur un espace probabilisé (\Omega,\mathcal{F},\mathbb{P}) converge en probabilité vers une variable aléatoire X à valeurs dans \mathbb{R}^k, vivant sur cet espace probabilisé
si et seulement si,
\forall \epsilon>0, \qquad \lim_n \mathbb{P} \{ \Vert X_n -X\Vert > \epsilon \} = 0
Dans une suite d'expériences statistiques échantillonnées, une suite d'estimateurs (\widehat{\theta}_n)_n est
si
\forall \theta \in \Theta, \forall \epsilon>0, \qquad \lim_n P^{\otimes n}_ \theta \left\{ \| \widehat{\theta}_n-\theta\| > \epsilon \right\} =0 \qquad\text{(convergence en probabilité).}
si
\forall \theta \in \Theta, \forall \epsilon>0, \qquad P^{\otimes \mathbb{N}}_ \theta \left\{ \lim_n \| \widehat{\theta}_n-\theta\| =0 \right\} =1 \qquad\text{(convergence presque sûre).}
On peut se rassurer en remarquant que pour tout \theta
\begin{array}{rcl} P_ \theta\{ x_1, \ldots, x_n \} &= & \theta^{n \overline{X}_n} (1- \theta)^{n(1-\overline{X}_n)} \\ & = & \left(\frac{\theta}{1- \theta}\right)^{n \overline{X}_n} (1- \theta)^n \\ & = & \exp\left( n \overline{X}_n \log\left(\frac{\theta}{1- \theta }\right) - n \log (1- \theta)\right)\end{array}
donc
P_ \theta\{ x_1, \ldots, x_n \mid \overline{X}_n\} = \frac{\mathbb{I}_{n \overline{X}_n = \sum_{i=1}^n x_i}}{\binom{n}{n \overline{X}_n}}
Conditionnellement à \overline{X}_n, la probabilité de l'échantillon ne dépend pas de \theta, est libre de \theta
Dans ce modèle jouet, \overline{X}_n est une statistique suffisante ou exhaustive
Lorsque l'espace des paramètres \Theta est inclus dans \mathbb{R},
un intervalle de niveau de confiance 1- \alpha avec \alpha \in ]0,1[,
est
un couple de statistiques \underline{\theta}_n, \overline{\theta}_n telles que
\forall \theta \in \Theta, \qquad P_\theta^{\otimes n} \left\{ \theta \in [\underline{\theta}_n, \overline{\theta}_n]\right\} \geq 1- \alpha
L'intervalle de confiance est une statistique
L'intervalle de confiance doit être calculable à partir des données accessibles au statisticien y compris l'échantillon, y compris sa taille, \alpha, le cadre de l'expérience statistique
Il n'est pas toujours évident de construire un intervalle de niveau de confiance exactement 1- \alpha
On est très souvent amené à proposer des solutions très conservatrices: des intervalles trop larges
Le calcul des probabilités nous fournit des constructions assez simples d'intervalles de niveau de confiance asymptotique prescrit
Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors
l'inégalité de Chebychev implique
\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n}{4\alpha}} \right\} \leq \alpha
On en déduit un intervalle de niveau de confiance 1-\alpha:
\left[\widehat{\theta} - \sqrt{\frac{1}{4n\alpha}}, \widehat{\theta} + \sqrt{\frac{1}{4n\alpha}} \right]
Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors
l'inégalité de Chebychev implique
\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n}{4\alpha}} \right\} \leq \alpha
On en déduit un intervalle de niveau de confiance 1-\alpha:
\left[\widehat{\theta} - \sqrt{\frac{1}{4n\alpha}}, \widehat{\theta} + \sqrt{\frac{1}{4n\alpha}} \right]
Pour \alpha=5\%, n=1000, la largeur de l'intervalle est 0.14
Sur nos 10^{4} estimations visualisés sur l'histogramme, 0 intervalles de confiance ne couvrent pas le paramètre à estimer!
Si on cherche à évaluer le taux de couverture de l'IC déduit de l'inégalité de Bienaymée-Chebychev lorsque la taille de l'échantillon n'est que N=1000, en visant un niveau de confiance 1-\alpha avec \alpha=.25, on constate que ce taux évalué à partir de 1000 essais est largement supérieur au taux de couverture ciblé.
Cet intervalle manque définitivement de précision: c'est une construction de type ceinture et bretelles
On cherche ici à évaluer le taux de couverture de l'IC déduit de l'inégalité de Chebychev lorsque la taille de l'échantillon n'est que N= 1000, en visant un niveau de confiance 1-\alpha avec \alpha=.25.
ce taux évalué à partir de 1000 essais est largement supérieur au taux de couverture ciblé
N <- 1000 ; B <- 10000 ; p <- .4 ; alpha <- .25estimes <- rbinom(n = B, prob = p, size = N)/Ncouv <- sum(abs(estimes - p) < 1/sqrt(4*alpha*N))/Bcat("Taux de couverture empirique de l'IC Chebychev à 75% : ", round(couv* 100, 1), '%')
## Taux de couverture empirique de l'IC Chebychev à 75% : 95.9 %
Lorsque l'espace des paramètres \Theta est inclus dans \mathbb{R},
une suite d' intervalles de confiance [\underline{\theta}_n, \overline{\theta}_n] est de niveau de confiance asymptotique 1- \alpha_ avec \alpha \in ]0,1[
si et seulement si
\forall \theta \in \Theta, \qquad \lim_n P_ \theta^{\otimes n} \left\{ \theta \in [\underline{\theta}_n, \overline{\theta}_n]\right\} = 1- \alpha
Une suite (P_n)_{n\in \mathbb{N}} de probabilités sur \mathbb{R} (de fonctions de répartition (F_n)_{n\in \mathbb{N}}) converge étroitement/faiblement vers une loi de probabilité P de fonction de répartition F
si et seulement si,
pour tout x où F est continue, on a
\lim_n F_n(x) = F(x)
Une suite (P_n)_{n\in \mathbb{N}} de probabilités sur \mathbb{R} (de fonctions de répartition (F_n)_{n\in \mathbb{N}}) converge étroitement/faiblement vers une loi de probabilité P de fonction de répartition F
si et seulement si,
pour tout x où F est continue, on a
\lim_n F_n(x) = F(x)
on utilise la notation \rightsquigarrow pour désigner la convergence en loi/distribution
Si les estimateurs \widehat{\theta}_n sont distribués selon P_\theta^{\otimes n},
\frac{\sqrt{n}}{\sqrt{\theta(1-\theta)}} \left( \widehat{\theta}_n -\theta\right) \rightsquigarrow \mathcal{N}(0,1)
Cela se traduit (entre autres) par la convergence simple des fonctions de répartitions:
\forall \alpha \in ]0,1[, \qquad \lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\theta(1-\theta)}} \left( \widehat{\theta}_n -\theta\right) \leq z_{\alpha}\right\} = 1-\alpha
Si on dispose de deux suites (X_n)_{n \in \mathbb{N}} et (Y_n)_{n \in \mathbb{N}} de variables aléatoires telles que
X_n \rightsquigarrow X \text{ et } Y_n \rightsquigarrow Y
on ne peut rien dire en général sur la suite (X_n Y_n)_n,
on ne peut pas affirmer à coup sûr que X_n Y_n \rightsquigarrow XY
Mais,
si Y est une variable aléatoire dégénéree, presque sûrement égale à une constante y,
alors
on peut s'appuyer sur le lemme de Slutsky
Si (X_n)_n et (Y_n)_n sont deux suites de variables aléatoires sur (\Omega_n, \mathcal{F}_n, P_n) telles que
alors
(Y_n, X_n) \rightsquigarrow (y,X)
Y_n \rightsquigarrow y implique Y_n \stackrel{\text{en probabilité}}{\longrightarrow} y
On invoque en général la forme prête à l'emploi
Si (X_n)_n et (Y_n)_n est deux suites de variables aléatoires sur (\Omega_n, \mathcal{F}_n, P_n) telles que
si g est une fonction continue de \mathbb{R}^k \times \mathbb{R}^{k'} dans \mathbb{R}^{k''}
alors
g (X_n, Y_n) \rightsquigarrow g (X, y)
Dans la seconde formulation, il suffit (d'après le théorème portemanteau) de s'intéresser au cas des fonctions bornées et lipschitziennes.
On suppose \| g \|_\infty \leq b et g L-lipschitzienne
\begin{array}{rl}\left| \mathbb{E}\left[ g(X_n, Y_n)\right] - \mathbb{E}\left[g(X,Y)\right] \right| & \leq \left| \mathbb{E}\left[ g(X_n, Y_n)\right] - \mathbb{E}\left[g(X_n,y)\right] \right| \\ & \phantom{\leq} + \left| \mathbb{E}\left[ g(X_n, y)\right] - \mathbb{E}\left[g(X,y)\right] \right|\end{array}
(X_n) \rightsquigarrow X garantit que
\lim_n \left| \mathbb{E}\left[ g(X_n, y)\right] - \mathbb{E}\left[g(X,y)\right] \right| = 0
Les hypothèses sur g garantissent
\left| g(X_n, Y_n)- g(X_n,y) \right| \leq 2 \mathbb{I}_{d(Y_n,y)> \epsilon} \|g \|_\infty + L \epsilon\qquad ∀ ϵ>0
(Y_n)_n \rightsquigarrow y implique la convergence en probabilité, donc
\lim_n \mathbb{E} \mathbb{I}_{d(Y_n,y)>\epsilon}=0
Le lemme de Slutsky, et le fait que \widehat{\theta}_n/\theta converge en probabilité vers 1 lorsque n\to \infty, permet d'écrire pour tout \alpha \in ]0,1[,
\lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\widehat{\theta}_n(1-\widehat{\theta}_n)}} \left( \widehat{\theta}_n - \theta\right) \leq z_{\alpha}\right\} = 1-\alpha
Le lemme de Slutsky, et le fait que \widehat{\theta}_n/\theta converge en probabilité vers 1 lorsque n\to \infty, permet d'écrire pour tout \alpha \in ]0,1[,
\lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\widehat{\theta}_n(1-\widehat{\theta}_n)}} \left( \widehat{\theta}_n - \theta\right) \leq z_{\alpha}\right\} = 1-\alpha
Cela conduit à proposer l'intervalle de niveau de confiance asymptotique 1-\alpha:
\left[\widehat{\theta}_n - z_{\alpha/2}\sqrt{\frac{\widehat{\theta}_n(1-\widehat{\theta}_n)}{n}}, \widehat{\theta}_n + z_{\alpha/2}\sqrt{\frac{\widehat{\theta}_n(1-\widehat{\theta}_n)}{n}}\right]
L'inégalité de Hoeffding (1963) est la plus simple des inégalités exponentielles qui fournissent des bornes non-asymptotiques sur les probabilités de queue des sommes de variables aléatoires indépendantes
Si X est une variable aléatoire qui prend ses valeurs dans [a,b],
alors
\forall \lambda \in \mathbb{R}\qquad \log \mathbb{E} \mathrm{e}^{\lambda (X- \mathbb{E}X)} \leq \frac{\lambda^2 (b-a)^2}{8}
L'inégalité de Hoeffding (1963) est la plus simple des inégalités exponentielles qui fournissent des bornes non-asymptotiques sur les probabilités de queue des sommes de variables aléatoires indépendantes
Si X est une variable aléatoire qui prend ses valeurs dans [a,b],
alors
\forall \lambda \in \mathbb{R}\qquad \log \mathbb{E} \mathrm{e}^{\lambda (X- \mathbb{E}X)} \leq \frac{\lambda^2 (b-a)^2}{8}
\operatorname{var}(X) \leq \frac{(b-a)^2}{4}
Sans perdre en généralité, on suppose X centrée: au pire cela revient à translater l'intervalle [a, b], ce qui ne change pas sa longueur
On note Q la loi (implicite) de la variable aléatoire X
la variance de toute variable aléatoire qui prend ses valeurs dans [a,b] est majorée par (b-a)^2/4
vérifiez !
Considérons maintenant la fonction F de \lambda définie par
F(\lambda) = \log \mathbb{E}_Q \mathrm{e}^{\lambda X}
Notons Q_\lambda la loi de densité \exp\left(\lambda x - F(\lambda)\right) par rapport à Q
vérifiez
F'(\lambda) = \mathbb{E}_{Q_ \lambda} X \qquad \text{ et } \qquad F^{\prime\prime}(\lambda) = \operatorname{var}_{Q_ \lambda} (X)
Comme Q_ \lambda est absolument continue par rapport à Q,
sous Q_ \lambda, X est à valeur dans [a,b]
et donc
F^{\prime\prime}(\lambda) = \operatorname{var}_{Q_ \lambda} (X) \leq \frac{(b-a)^2}{4}
On peut intégrer cette inégalité différentielle en notant au passage que F(0)=F'(0)=0, et vérifier F(\lambda) \leq \frac{\lambda^2 (b-a)^2}{8}
La preuve se réduit à une invocation de l'inégalité de Markov exponentielle \mathbb{P} \left\{ Z \geq \mathbb{E}Z + t \right\} \leq \inf_{\lambda\geq 0} \frac{\mathbb{E} \mathrm{e}^{\lambda (Z-\mathbb{E}Z)}}{\mathrm{e}^{\lambda t}}
et du lemme de Hoeffding
\begin{array}{rl}\mathbb{E} \mathrm{e}^{\lambda (Z - \mathbb{E}Z)} & = \mathbb{E} \mathrm{e}^{\lambda \sum_i (X_i - \mathbb{E}X_i) }\\ & = \prod_{i=1}^n \mathbb{E} \mathrm{e}^{\lambda (X_i - \mathbb{E}X_i) }\\ & \leq \prod_{i=1}^n \mathrm{e}^{\frac{\lambda^2 (b_i-a_i)^2}{8}}\end{array}
Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors l'inégalité de Hoeffding implique
\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n\log (2/\alpha)}{2}} \right\} \leq \alpha
On en déduit un intervalle de niveau de confiance 1-\alpha:
\left[\widehat{\theta} - \sqrt{\frac{\log (2/\alpha)}{2n}}, \widehat{\theta} + \sqrt{\frac{\log (2/\alpha)}{2n}} \right]
Dans toutes les constructions on retrouve deux ingrédients, l'intervalle est d'une largeur proportionnelle à
Meilleurs sont nos renseignements sur les fluctuations de \overline{X}_n autour de son espérance, plus précis est l'intervalle de confiance
On cherche ici à comparer le taux de couverture des IC déduits de
Lorsque la taille de l'échantillon est N= 10^{4}, en visant un niveau de confiance 1-\alpha avec \alpha= 0.05. Le paramètre \theta utilisé est 0.4.
Le taux de couverture est évalué à partir de B= 1000 essais
## Taux de couverture empirique de l'IC Chebychev à 5% : 100 % largeur : 0.0447
## Taux de couverture empirique de l'IC Hoeffding à 5% : 98 % largeur : 0.0215
## Taux de couverture empirique de l'IC Asymptotique à 5% : 96.6 % largeur moyenne : 0.0192
Notre problème jouet pose un problème de test binaire
H_0: l'hypothèse nulle, \theta \leq \theta_0 =.5 contre
H_1: l'alternative \theta > .5.
Une procédure de test binaire est une fonction des données qui vaut
1 (on rejette l'hypothèse nulle H_0) ou
0 (on ne rejette pas H_0).
Dans la suite on notera T le (la procédure de) test binaire.
On peut se demander pourquoi on emploie l'expression on ne rejette pas l'hypothèse nulle H_0, plutôt que on accepte l'hypothèse nulle.
Ce n'est pas par goût des formes négatives.
C'est parce que dans les usages historiques qui ont conduit à la construction de la notion de test, l'hypothèse nulle et l'alternative ne jouent pas le même rôle.
L'hypothèse nulle correspond à une position conservatrice.
Lorsqu'on procède à des essais cliniques, pour évaluer l'intérêt de mettre sur le marché un nouveau médicament,
Ne pas rejeter l'hypothèse nulle, cela ne veut pas dire accepter l'existant pour l'éternité, mais s'y tenir jusqu'à l'apparition d'éléments nouveaux
Lorsqu'on procède à des essais cliniques, pour évaluer l'intérêt de mettre sur le marché un nouveau médicament,
Ne pas rejeter l'hypothèse nulle, cela ne veut pas dire accepter l'existant pour l'éternité, mais s'y tenir jusqu'à l'apparition d'éléments nouveaux
On note
et
De même que le risque quadratique nous permet de quantifier les performances d'un estimateur, les notions d'erreur de première et de seconde espèce nous permettent de quantifier les performances d'un test binaire
Notez qu'il nous faut introduire deux quantités pour quantifier les performances d'un test
Une erreur de première espèce consiste à rejeter H_0 à tort lorsque les données sont des tirages selon une loi appartenant à l'hypothèse nulle (les données sont tirées sous l'hypothèse nulle).
Une erreur de seconde espèce consiste à ne pas rejeter H_0 à tort lorsque les données sont des tirages selon une loi appartenant à l'hypothèse alternative (les données sont tirées sous l'alternative).
Sous l'alternative, la puissance est le complément à un de l'erreur de seconde espèce.
On veut à la fois un test de petit niveau et de grande puissance sous l'alternative
Ces deux objectifs sont antagonistes
Dans le cas où on teste deux hypothèses simples, il existe une méthodologie qui réalise le meilleur compromis possible
On peut associer
une vraisemblance : la probabilité de x_1, \ldots, x_n sous P_ \theta^{\otimes n}:
P_ \theta^{\otimes n} \{ x_1 , \ldots, x_n\} = \left( \frac{\theta}{1- \theta}\right)^{n \overline{X}_n} (1- \theta)^n
Un test de rapport de vraisemblance de H_1 contre H_0 consiste à
comparer le rapport
P_{\theta_1}^{\otimes n} \{ x_1 , \ldots, x_n\}/ P_ {\theta_0}^{\otimes n} \{ x_1 , \ldots, x_n\}
à un seuil,
à rejeter H_0 si le seuil est dépassé,
à ne pas rejeter H_0 si le seuil n'est pas dépassé.
Ici, le rapport de vraisemblance est une fonction de
\overline{X}_n = \sum_{i=1}^n X_i/n= \widehat{\theta}_n
ce n'est pas du tout une simple coïncidence
\left(\frac{1-\theta_1}{1-\theta_0}\right)^n \left(\frac{\theta_1(1-\theta_0)}{\theta_0(1-\theta_1)} \right)^{n \widehat{\theta}_n}
Comparer le rapport de vraisemblance à un seuil est équivalent à comparer \widehat{\theta}_n à un seuil
On rejette H_0 lorsque \widehat{\theta}_n dépasse le seuil,
On ne rejette pas H_0 si \widehat{\theta}_n ne dépasse pas le seuil
S'il existe un test de rapport de vraisemblance T_0 de niveau \alpha > 0 et de fonction puissance \beta_{T_0},
alors
pour tout test T de niveau inférieur ou égal à \alpha, la fonction puissance \beta_T de T vérifie
\beta_T (P_1) \leq \beta_{T_0} (P_1)
Pour son niveau, le test de rapport de vraisemblance est de puissance maximale sous l'alternative
La preuve du lemme de Neymann-Pearson se réduit alors à:
\begin{array}{rcl}\beta_{T_0} (P_1) - \beta_T (P_1) & = & \mathbb{E}_{P_1} \left[ T_0 - T \right]\\ & = & \mathbb{E}_{P_0} \left[ \frac{p_1 (X)}{p_0 (X)_{}} (T_0 - T) \right] + \mathbb{E}_{P_1} \left[ (T_0 - T) \mathbb{I}_{p_0 (X) = 0} \right]\\ & & \text{sur l'événement } p_0 (X) = 0, T_0 = 1, \operatorname{car} \operatorname{le} \operatorname{rapport}\\ & & \operatorname{de} \operatorname{vraisemblance} \operatorname{est} \operatorname{infini}\\ & \geq & \mathbb{E}_{P_0} \left[ \frac{p_1 (X)}{p_0 (X)_{}} (T_0 - T) \right]\\ & = & \mathbb{E}_{P_0} \left[ \left( \frac{p_1 (X)}{p_0 (X)_{}} - \tau \right) (T_0 - T) \right] + \tau \mathbb{E}_{P_0} \left[ T_0 - T \right]\\ & & \operatorname{comme} \left( \frac{p_1 (X)}{p_0 (X)_{}} - \tau \right) (T_0 - T) \geq 0,\\ & \geq & \tau \mathbb{E}_{P_0} \left[ T_0 - T \right] \\ & \geq & 0\end{array}
Courbes puissance en fonction du niveau pour des tests de rapports
de vraisemblance entre deux Bernoullis de paramètres 0.5 et
0.525, pour différentes tailles d'échantillons n
Pour chaque courbe puissance/niveau, le meilleur compromis erreur de première espèce/erreur de seconde espèce est la distance \ell_1 au point (0,1).
Cette distance diminue lorsque la taille de l'échantillon augmente.
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
o | Tile View: Overview of Slides |
Esc | Back to slideshow |
Ce premier cours introduit autour d'un exemple élémentaire les principaux thèmes de la statistique dite inférentielle (qu'on distingue de la statistique dite descriptive).
Ces trois thèmes, l'estimation ponctuelle, la construction de régions de confiance et la construction de procédures de décision (les tests), suppose un effort préalable de modélisation stochastique.
Sur l'exemple élémentaire, on peut mener ce travail de modélisation.
Cela nous conduit à une première formulation de ce qu'est une expérience ou un modèle statistique. Dans le cadre le plus simple, une expérience statistique est une collection de lois de probabilités. On observe une ou des réalisations d'une de ces lois (sans savoir à laquelle on a affaire).
On cherche à estimer, inférer des propriétés de cette loi, peut être pour prendre une décision. Nous passerons en revue des définitions qui nous seront utiles pendant toute la suite du cours (statistique, estimateur, biais, risque, ...)
Et surtout nous verrons à cette occasion comment les théorèmes limites du calcul des probabilités, loi des grands nombres, théorème central limite, nous guident dans la construction et la justification des méthodes d'estimation et de décision.
Nous verrons aussi que ces théorèmes limites sont complétés par des résultats non-asymptotiques appelés inégalités de concentration.
Nous terminerons ce cours par une première version du résultat fondateur de la thérie des tests, le lemme de Neyman et Pearson.
On va jouer à pile ou face avec une pièce de monnaie
On soupçonne que cette pièce n'est pas parfaitement équilibrée: la probabilité d'obtenir face ( \theta ) n'est pas exactement 1/2
Avant de jouer, on veut estimer \theta, ou le ratio \theta/(1- \theta), ou \log \theta/(1- \theta)
Pour estimer cette probabilité, on réalise n lancers aléatoires indépendants
On note les résultats:
\underbrace{x_1, x_2, \ldots, x_n}_{\text{les données, l'échantillon}}
On construit à partir des données x_1, x_2, \ldots, x_n une estimation \widehat{\theta}_n de \theta
\underbrace{x_1, x_2, \ldots, x_n}_{\text{échantillon}} \stackrel{\text{estimation}}{⟶} \widehat{\theta}_n
Cette estimation est une fonction des données, pas de l'estimande \theta qui reste inconnue
On espère que \widehat{\theta}_n sera proche de \theta
Nous avons affaire à un problème dit d'estimation ponctuelle
Le résultat d'une estimation ponctuelle est une valeur (un réel ici)
Savoir que l'estimation ponctuelle est peut-etre (voire probablement) proche de l'estimande est satisfaisant mais d'un intérêt limité.
Pour envisager l'avenir, il est plus utile de construire un intervalle de confiance:deux fonctions des données \underline{\theta}_n, \overline{\theta}_n telles que
avec une forte probabilité (à définir), l'estimande \theta appartient à l'intervalle aléatoire
\left[ \underline{\theta}_n(x_1, \ldots, x_n), \overline{\theta}_n (x_1, \ldots, x_n)\right] =: [\underline{\theta}_n, \overline{\theta}_n]
Ce problème est celui de la construction de régions de confiance.
Il faut réaliser un bon compromis entre
\overline{\theta}_n -\underline{\theta}_n
\Big\{ \omega : \theta \in \underbrace{[\underline{\theta}_n(\omega), \overline{\theta}_n(\omega)]}_{\text{dépend des données}}\Big\}
ne pas encourager les approches ceintures et bretelles
On peut se poser un problème de décision
Par exemple :
on est prêt à jouer avec une pièce biaisée en faveur de face, mais pas avec une pièce biaisée en faveur de pile,
Comment décider à partir des données si on est prêt à jouer ou non ?
Comment décider entre
C'est le problème des tests
La notion d'expérience statistique est une formalisation dans le langage du calcul des probabilités du jeu que nous venons d'évoquer.
Au départ, on dispose d'un espace probabilisable (\Omega, \mathcal{F}) (l'univers et une tribu de parties).
Ici \Omega= \{ \text{pile}, \text{face}\} et \mathcal{F}= 2 ^ \Omega
La notion d'expérience statistique est une formalisation dans le langage du calcul des probabilités du jeu que nous venons d'évoquer.
Au départ, on dispose d'un espace probabilisable (\Omega, \mathcal{F}) (l'univers et une tribu de parties).
Ici \Omega= \{ \text{pile}, \text{face}\} et \mathcal{F}= 2 ^ \Omega
C'est en général plus riche, avec \Omega = \mathbb{R}^d et \mathcal{F} les boréliens de \mathbb{R}^d
On peut aussi rencontrer des situations où \Omega est un espace de fonctions (statistique des processus), le choix de la tribu n'est plus tout à fait évident.
Sur cet espace probabilisable, on considère un ensemble de lois de probabilités \mathcal{P}.
Chaque loi de \mathcal{P} est susceptible de régir le phénomène que le statisticien cherche à étudier
Dans le cadre du problème jouet, on peut choisir \mathcal{P} comme l'ensemble de lois non-dégénérées sur \Omega = \{ \text{pile}, \text{face}\}.
Dans le problème jouet \mathcal{P} est l'ensemble des lois de Bernoulli
La probabilité d'obtenir face est notée \theta \in ]0,1[
Nos problèmes d'inférence (estimation ponctuelle, région de confiance, tests) portent sur ce \theta qui n'est pas connu de la statisticienne
On peut munir \mathcal{P} d'un système de coordonnées, d'une paramétrisation, c'est à dire d'une fonction d'un ensemble \Theta (souvent une partie de \Theta \subseteq \mathbb{R}^d ) dans \mathcal{P}
On note génériquement P_ \theta l'élément de \mathcal{P} associé à \theta
Dans le cas de notre problème jouet, nous avons implicitement paramétrisé les lois de Bernoulli par les probabilités de succès
Une paramétrisation est un choix de convenance
Une paramétrisation est dite identifiable si
\theta \neq \theta' \Rightarrow P_ \theta \neq P_{\theta'}
Dans notre problème jouet, les paramétrisations (par la probabilité de face, par le ratio des probabilités face/pile, ou son logarithme) sont identifiables
L'identifiabilité est une propriété désirable mais ce n'est pas indispensable : les modèles de mélange, les modèles à variables latentes sont très utiles mais rarement identifiables
Il est possible que le statisticien n'ait pas directement accès complet aux réalisations des tirages selon P (la loi de la nature), c'est à dire aux éléments de \Omega
Par exemple, lorsque \Omega est un espace de fonctions (les trajectoires d'un processus), il est sans doute trop couteux d'observer l'infinité de points qui forment la trajectoire
On se contente d'observer la trajectoire périodiquement (ou pas), on échantillonne
Pour formaliser ces situations, on ajoute à l'expérience un espace d'observations \mathcal{X} (muni d'une tribu \mathcal{G}) et une fonction X: \Omega \longrightarrow \mathcal{X} qu'on suppose \mathcal{G}/\mathcal{F} mesurable.
Toute loi P \in \mathcal{P} définit alors une loi image P \circ X^{-1}
Au lieu d'observer \omega\in \Omega, on observe x = X(\omega) \in \mathcal{X}
Une expérience statistique générale est donc définie par
(\Omega, \mathcal{F}, \mathcal{P}, \Theta, \mathcal{X}, \mathcal{G}, X)
Pour formaliser ces situations, on ajoute à l'expérience un espace d'observations \mathcal{X} (muni d'une tribu \mathcal{G}) et une fonction X: \Omega \longrightarrow \mathcal{X} qu'on suppose \mathcal{G}/\mathcal{F} mesurable.
Toute loi P \in \mathcal{P} définit alors une loi image P \circ X^{-1}
Au lieu d'observer \omega\in \Omega, on observe x = X(\omega) \in \mathcal{X}
Une expérience statistique générale est donc définie par
(\Omega, \mathcal{F}, \mathcal{P}, \Theta, \mathcal{X}, \mathcal{G}, X)
Dans les situations dites canoniques, \Omega=\mathcal{X}\qquad \text{et} \qquad X =\text{Id}
Nous nous concentrons sur les expériences dites produit, construites à partir de répétitions indépendantes d'une expérience de base
Ces expériences sont de la forme
(\Omega^n, \sigma\left(\times_{i=1}^n \mathcal{F}\right), \mathcal{P}_n:= \{ P^{\otimes n}, P \in \mathcal{P} \}, \Theta, \mathcal{X}^n, \sigma\left( \times_{i=1}^n \mathcal{G}\right), X)
On dit que x_i est la réalisation de X_i (variable aléatoire).
Nous nous concentrons sur les expériences dites produit, construites à partir de répétitions indépendantes d'une expérience de base
Ces expériences sont de la forme
(\Omega^n, \sigma\left(\times_{i=1}^n \mathcal{F}\right), \mathcal{P}_n:= \{ P^{\otimes n}, P \in \mathcal{P} \}, \Theta, \mathcal{X}^n, \sigma\left( \times_{i=1}^n \mathcal{G}\right), X)
On dit que x_i est la réalisation de X_i (variable aléatoire).
La loi jointe de X_1, \ldots, X_n est une loi produit de la forme (P_ \theta \circ X^{-1})^{\otimes n}\qquad \text{avec } \theta \in \Theta
\forall B_1, \ldots, B_n \in \mathcal{G}, \qquad P_ \theta^{\otimes n}\left( \cup_{i=1}^n \{ X_i \in B_i \}\right) = \prod_{i=1}^n P_ \theta \{X_i \in B_i\}
Nous nous concentrons sur les expériences dites produit, construites à partir de répétitions indépendantes d'une expérience de base
Ces expériences sont de la forme
(\Omega^n, \sigma\left(\times_{i=1}^n \mathcal{F}\right), \mathcal{P}_n:= \{ P^{\otimes n}, P \in \mathcal{P} \}, \Theta, \mathcal{X}^n, \sigma\left( \times_{i=1}^n \mathcal{G}\right), X)
On dit que x_i est la réalisation de X_i (variable aléatoire).
La loi jointe de X_1, \ldots, X_n est une loi produit de la forme (P_ \theta \circ X^{-1})^{\otimes n}\qquad \text{avec } \theta \in \Theta
\forall B_1, \ldots, B_n \in \mathcal{G}, \qquad P_ \theta^{\otimes n}\left( \cup_{i=1}^n \{ X_i \in B_i \}\right) = \prod_{i=1}^n P_ \theta \{X_i \in B_i\}
On parle d'expérience échantillonnée
Dans le langage des statistiques descriptives, la moyenne empirique décrit la localisation de l'échantillon, la variance empirique décrit la dispersion.
Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage
Par exemple, dans notre problème jouet, on peut chercher à estimer P_ \theta\{ \text{Face}\}= \theta par \overline{X}_n en utilisant la convention X(\text{Face})=1= 1-X(\text{Pile})
Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage
Par exemple, dans notre problème jouet, on peut chercher à estimer P_ \theta\{ \text{Face}\}= \theta par \overline{X}_n en utilisant la convention X(\text{Face})=1= 1-X(\text{Pile})
un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.
Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage
Par exemple, dans notre problème jouet, on peut chercher à estimer P_ \theta\{ \text{Face}\}= \theta par \overline{X}_n en utilisant la convention X(\text{Face})=1= 1-X(\text{Pile})
un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.
La loi de l'estimateur dépend (en général) de la loi de l'échantillonnage.
Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage
Par exemple, dans notre problème jouet, on peut chercher à estimer P_ \theta\{ \text{Face}\}= \theta par \overline{X}_n en utilisant la convention X(\text{Face})=1= 1-X(\text{Pile})
un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.
La loi de l'estimateur dépend (en général) de la loi de l'échantillonnage.
Quand le paramètre à estimer s'appelle \theta, \psi, \ldots, on utilise souvent le raccourci \widehat{\theta} ou \widehat{\theta}_n, \widehat{\psi}_n , \ldots pour désigner l'estimateur, plutôt que \widehat{\theta}(X_1, \ldots, X_n) ou \widehat{\psi}(X_1, \ldots, X_n)
Pour engendrer une suite de N= 100 variables de Bernoulli indépendantes de probabilité de succès p= 0.4, on utilise le générateur de nombres aléatoires rbinom
,
N <- 100 # taille échantillonp <- .4 # θ!s <- rbinom(n=N, prob=p, size=1)mean(s)
## [1] 0.43
Le premier argument nommé
n
désigne le nombre de tiragesprob
la probabilité de succès des lois de Bernoulli,size
désigne le paramètre de taille des binomialeson effectue N
tirages binomiaux de paramètres size=1
et prob
X_1, \ldots, X_n, \ldots \sim_{\text{i.i.d.}} P
\mu = \mathbb{E}_P X_i (on sous-entend \mathbb{E}_P |X_i| <\infty)
\mathbb{P}: loi produit sur \mathbb{R}^{\mathbb{N}}
\mathbb{P} (B_1 \times B_2 \times \ldots \times B_n) = \prod_{i=1}^n P(B_i) \qquad \forall B_i \in \mathcal{B}(\mathbb{R})
\forall \epsilon >0, \qquad \mathbb{P} \Bigg\{ \left| \frac{1}{n}\sum_{i=1}^n X_i - \mu\right| > \epsilon \Bigg\} \rightarrow 0 \qquad \text{loi faible}
\mathbb{P} \Bigg\{ \lim_n \underbrace{\frac{1}{n}\sum_{i=1}^n X_i}_{\text{moyenne empirique}} = \mu \Bigg\} = 1 \qquad \text{loi forte}
Avec , nous allons simuler des lancers de pièces (des tirages de Bernoulli) et étudier/visualiser les trajectoires des moyennes empiriques
\left(\frac{1}{n} \sum_{i=1}^n X_i \right)_{n \leq N} = \left( \overline{X}_n\right)_{n \leq N}
La loi des grands nombres peut être illustrée dans ce contexte
dataframe
,x
représentant les indices n=1, \ldots, N.dataframe
pour obtenir un dataframe
à trois colonnes: x
, path
qui précise la trajectoire, et value
qui donne la somme partielle \sum_{i=1}^n X_i pour la trajectoire désignée par path
à l'instant n
désigné par x
dataframe
pivoté au module de visualisation ggplot2
rbinom(n=B*N, prob=p, size=1) %>% matrix(nrow=N, ncol=B) %>% apply(MARGIN=2, FUN=cumsum) %>% as_tibble(.rows = N) %>% mutate(x = 1:N) %>% pivot_longer(cols = starts_with('V'), names_to = "path") %>% ggplot(aes(x=x, y=value/x, linetype=path)) + geom_line(show.legend = FALSE)
rbinom(n=B*N, prob=p, size=1) %>% matrix(nrow=N, ncol=B) %>% apply(MARGIN=2, FUN=cumsum) %>% as_tibble(.rows = N) %>% mutate(x = 1:N) %>% pivot_longer(cols = starts_with('V'), names_to = "path") %>% ggplot(aes(x=x, y=value/x, linetype=path)) + geom_line(show.legend = FALSE) + geom_abline(slope=0, intercept = p)
rbinom(n=B*N, prob=p, size=1) %>% matrix(nrow=N, ncol=B) %>% apply(MARGIN=2, FUN=cumsum) %>% as_tibble(.rows = N) %>% mutate(x = 1:N) %>% pivot_longer(cols = starts_with('V'), names_to = "path") %>% ggplot(aes(x=x, y=value/x, linetype=path)) + geom_line(show.legend = FALSE) + geom_abline(slope=0, intercept = p) + xlab(TeX('$n$')) + ylab(TeX("$\\bar{X}_n$")) + theme()
On visualise B= 10 trajectoires construites chacune sur N= 1000 épreuves de Bernoulli
On visualise B= 10 trajectoires des moyennes empiriques construites chacune sur N= 1000 épreuves de Bernoulli
Les moyennes empiriques \overline{X}_n(\omega) = \frac{1}{n}\sum_{i=1}^n X_i(\omega) convergent (presque sûrement) vers l'espérance des Bernoulli qui vaut ici p= 0.4
Nous pouvons aussi fixer le nombre d'observations n = N et examiner les fluctuations de la moyenne empirique \overline{X}_n sur un grand nombre B = 10000 de trajectoires
Nous nous rappelons que si X_i \sim_{text{i.i.d.}} \text{Bernoulli}(θ) alors
\sum_{i=1}^N X_i \sim \text{Binomiale}(N, θ). Pour simuler nos B moyennes
empiriques, il suffit d'invoquer rbinom(B, p, N)
Pour visualiser les fluctuations des moyennes empiriques, nous utilisons la technique de l'histogramme
L'histogramme est construit grace à ggplot
B <- 10000 # RéplicationsN <- 1000 # Taille échantillonp <- .4estimes <- rbinom(B, p, size=N)/Ntibble(x=estimes) %>% ggplot(aes(x=x)) + geom_histogram(aes(y=..density..), binwidth=.01, alpha=I(.5)) + stat_function(fun=dnorm, args=c(mean=p, sd=sqrt(p*(1-p)/N)))
B <- 10000 # RéplicationsN <- 1000 # Taille échantillonp <- .4estimes <- rbinom(B, p, size=N)/Ntibble(x=estimes) %>% ggplot(aes(x=x)) + geom_histogram(aes(y=..density..), binwidth=.01, alpha=I(.5)) + stat_function(fun=dnorm, args=c(mean=p, sd=sqrt(p*(1-p)/N))) + xlab(paste(B, " Estimés à partir de ", N," points", sep=""))
Un estimateur est une variable aléatoire.
On peut visualiser ses fluctuations à l'aide de maintes techniques graphiques comme les histogrammes
L'histogramme définit une densité de probabilité constante par morceaux
Nous comparons cette densité constante par morceaux avec la densité de \mathcal{N}(\theta, θ(1-θ)/N)
La plupart des expériences/modèles statistiques que nous rencontrerons dans ce cours, seront de nature paramétrique, autrement dit indexés par des parties de \mathbb{R}^d
Dans de nombreux développements des statistiques, par exemple en estimation de densité, on travaille sur des modèles plus riches qui n'admettent pas de paramétrisation naturelle par une partie d'un espace euclidien de dimension finie
On parle pourtant de paramètre d'une distribution pour désigner ce qui devrait plutôt s'appeler une fonctionnelle
Par exemple,
d'une distribution sur \mathbb{R}^d sont des paramètres de cette distribution
Les quantiles, l'asymétrie, la kurtosis sont d'autres paramètres
Soit \psi(P) un paramètre à estimer, et \widehat{\psi} un estimateur, on appelle biais (ou biais moyen) sous la loi P de l'estimateur \hat{\psi}, la quantité
\mathbb{E}_{P}\left[ \widehat{\psi}- \psi(P)\right]
C'est l'écart entre la valeur moyenne de \widehat{\psi} et la valeur visée \psi(P)
L'estimateur est dit sans biais s'il est de biais nul
Si on se place dans le modèle binomial et qu'on cherche à estimer la probabilité de succès \theta, la fréquence empirique des succès est un estimateur sans biais de \theta
On peut vérifier qu'il n'existe pas d'estimateur sans biais de 1/\theta ou de \theta/(1- \theta)
La fréquence empirique d'un événement est toujours un estimateur sans biais de la probabilité de cet événement
Si \psi(P) désigne la variance de la loi P sur \mathbb{R}, la variance empirique
S^2 = \frac{1}{n} \sum_{i=1}^n \big( X_i - \overline{X}_n\big)^2
est un estimateur biaisé de \psi(P):
\mathbb{E}_P\left[ S^2 \right] = \frac{n-1}{n} \mathbb{E}_P \left[\left(X - \mathbb{E}_P X\right)^2\right] = \frac{n-1}{n} \psi(P)
vérifier
\mathbb{E}_{P} \left[(\hat{\psi}-\psi)^2\right] = \underbrace{\operatorname{Var}_{P} [\hat{\psi}]}_{\text{variance}} + \underbrace{\left(\mathbb{E}_{P}[\hat{\psi}]-\psi \right)^2}_{\text{carré du biais}}
vérifier
C'est une relation pythagoricienne !
La relation du risque quadratique à la taille de l'échantillon est une question importante en statistique mathématique
Elle concerne la vitesse d'estimation : pour une suite d'expériences donnée, quelles sont les meilleures vitesses envisageables, et comment les obtenir ?
Pour introduire la notion de consistance d'une suite d'estimateurs, nous aurons besoin des notions de convergence en probabilité et de convergence presque sûre
Une suite (X_n)_n de variables aléatoires à valeurs dans \mathbb{R}^k, vivant sur un espace probabilisé (\Omega,\mathcal{F},\mathbb{P}) converge en probabilité vers une variable aléatoire X à valeurs dans \mathbb{R}^k, vivant sur cet espace probabilisé
si et seulement si,
\forall \epsilon>0, \qquad \lim_n \mathbb{P} \{ \Vert X_n -X\Vert > \epsilon \} = 0
Dans une suite d'expériences statistiques échantillonnées, une suite d'estimateurs (\widehat{\theta}_n)_n est
si
\forall \theta \in \Theta, \forall \epsilon>0, \qquad \lim_n P^{\otimes n}_ \theta \left\{ \| \widehat{\theta}_n-\theta\| > \epsilon \right\} =0 \qquad\text{(convergence en probabilité).}
si
\forall \theta \in \Theta, \forall \epsilon>0, \qquad P^{\otimes \mathbb{N}}_ \theta \left\{ \lim_n \| \widehat{\theta}_n-\theta\| =0 \right\} =1 \qquad\text{(convergence presque sûre).}
On peut se rassurer en remarquant que pour tout \theta
\begin{array}{rcl} P_ \theta\{ x_1, \ldots, x_n \} &= & \theta^{n \overline{X}_n} (1- \theta)^{n(1-\overline{X}_n)} \\ & = & \left(\frac{\theta}{1- \theta}\right)^{n \overline{X}_n} (1- \theta)^n \\ & = & \exp\left( n \overline{X}_n \log\left(\frac{\theta}{1- \theta }\right) - n \log (1- \theta)\right)\end{array}
donc
P_ \theta\{ x_1, \ldots, x_n \mid \overline{X}_n\} = \frac{\mathbb{I}_{n \overline{X}_n = \sum_{i=1}^n x_i}}{\binom{n}{n \overline{X}_n}}
Conditionnellement à \overline{X}_n, la probabilité de l'échantillon ne dépend pas de \theta, est libre de \theta
Dans ce modèle jouet, \overline{X}_n est une statistique suffisante ou exhaustive
Lorsque l'espace des paramètres \Theta est inclus dans \mathbb{R},
un intervalle de niveau de confiance 1- \alpha avec \alpha \in ]0,1[,
est
un couple de statistiques \underline{\theta}_n, \overline{\theta}_n telles que
\forall \theta \in \Theta, \qquad P_\theta^{\otimes n} \left\{ \theta \in [\underline{\theta}_n, \overline{\theta}_n]\right\} \geq 1- \alpha
L'intervalle de confiance est une statistique
L'intervalle de confiance doit être calculable à partir des données accessibles au statisticien y compris l'échantillon, y compris sa taille, \alpha, le cadre de l'expérience statistique
Il n'est pas toujours évident de construire un intervalle de niveau de confiance exactement 1- \alpha
On est très souvent amené à proposer des solutions très conservatrices: des intervalles trop larges
Le calcul des probabilités nous fournit des constructions assez simples d'intervalles de niveau de confiance asymptotique prescrit
Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors
l'inégalité de Chebychev implique
\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n}{4\alpha}} \right\} \leq \alpha
On en déduit un intervalle de niveau de confiance 1-\alpha:
\left[\widehat{\theta} - \sqrt{\frac{1}{4n\alpha}}, \widehat{\theta} + \sqrt{\frac{1}{4n\alpha}} \right]
Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors
l'inégalité de Chebychev implique
\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n}{4\alpha}} \right\} \leq \alpha
On en déduit un intervalle de niveau de confiance 1-\alpha:
\left[\widehat{\theta} - \sqrt{\frac{1}{4n\alpha}}, \widehat{\theta} + \sqrt{\frac{1}{4n\alpha}} \right]
Pour \alpha=5\%, n=1000, la largeur de l'intervalle est 0.14
Sur nos 10^{4} estimations visualisés sur l'histogramme, 0 intervalles de confiance ne couvrent pas le paramètre à estimer!
Si on cherche à évaluer le taux de couverture de l'IC déduit de l'inégalité de Bienaymée-Chebychev lorsque la taille de l'échantillon n'est que N=1000, en visant un niveau de confiance 1-\alpha avec \alpha=.25, on constate que ce taux évalué à partir de 1000 essais est largement supérieur au taux de couverture ciblé.
Cet intervalle manque définitivement de précision: c'est une construction de type ceinture et bretelles
On cherche ici à évaluer le taux de couverture de l'IC déduit de l'inégalité de Chebychev lorsque la taille de l'échantillon n'est que N= 1000, en visant un niveau de confiance 1-\alpha avec \alpha=.25.
ce taux évalué à partir de 1000 essais est largement supérieur au taux de couverture ciblé
N <- 1000 ; B <- 10000 ; p <- .4 ; alpha <- .25estimes <- rbinom(n = B, prob = p, size = N)/Ncouv <- sum(abs(estimes - p) < 1/sqrt(4*alpha*N))/Bcat("Taux de couverture empirique de l'IC Chebychev à 75% : ", round(couv* 100, 1), '%')
## Taux de couverture empirique de l'IC Chebychev à 75% : 95.9 %
Lorsque l'espace des paramètres \Theta est inclus dans \mathbb{R},
une suite d' intervalles de confiance [\underline{\theta}_n, \overline{\theta}_n] est de niveau de confiance asymptotique 1- \alpha_ avec \alpha \in ]0,1[
si et seulement si
\forall \theta \in \Theta, \qquad \lim_n P_ \theta^{\otimes n} \left\{ \theta \in [\underline{\theta}_n, \overline{\theta}_n]\right\} = 1- \alpha
Une suite (P_n)_{n\in \mathbb{N}} de probabilités sur \mathbb{R} (de fonctions de répartition (F_n)_{n\in \mathbb{N}}) converge étroitement/faiblement vers une loi de probabilité P de fonction de répartition F
si et seulement si,
pour tout x où F est continue, on a
\lim_n F_n(x) = F(x)
Une suite (P_n)_{n\in \mathbb{N}} de probabilités sur \mathbb{R} (de fonctions de répartition (F_n)_{n\in \mathbb{N}}) converge étroitement/faiblement vers une loi de probabilité P de fonction de répartition F
si et seulement si,
pour tout x où F est continue, on a
\lim_n F_n(x) = F(x)
on utilise la notation \rightsquigarrow pour désigner la convergence en loi/distribution
Si les estimateurs \widehat{\theta}_n sont distribués selon P_\theta^{\otimes n},
\frac{\sqrt{n}}{\sqrt{\theta(1-\theta)}} \left( \widehat{\theta}_n -\theta\right) \rightsquigarrow \mathcal{N}(0,1)
Cela se traduit (entre autres) par la convergence simple des fonctions de répartitions:
\forall \alpha \in ]0,1[, \qquad \lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\theta(1-\theta)}} \left( \widehat{\theta}_n -\theta\right) \leq z_{\alpha}\right\} = 1-\alpha
Si on dispose de deux suites (X_n)_{n \in \mathbb{N}} et (Y_n)_{n \in \mathbb{N}} de variables aléatoires telles que
X_n \rightsquigarrow X \text{ et } Y_n \rightsquigarrow Y
on ne peut rien dire en général sur la suite (X_n Y_n)_n,
on ne peut pas affirmer à coup sûr que X_n Y_n \rightsquigarrow XY
Mais,
si Y est une variable aléatoire dégénéree, presque sûrement égale à une constante y,
alors
on peut s'appuyer sur le lemme de Slutsky
Si (X_n)_n et (Y_n)_n sont deux suites de variables aléatoires sur (\Omega_n, \mathcal{F}_n, P_n) telles que
alors
(Y_n, X_n) \rightsquigarrow (y,X)
Y_n \rightsquigarrow y implique Y_n \stackrel{\text{en probabilité}}{\longrightarrow} y
On invoque en général la forme prête à l'emploi
Si (X_n)_n et (Y_n)_n est deux suites de variables aléatoires sur (\Omega_n, \mathcal{F}_n, P_n) telles que
si g est une fonction continue de \mathbb{R}^k \times \mathbb{R}^{k'} dans \mathbb{R}^{k''}
alors
g (X_n, Y_n) \rightsquigarrow g (X, y)
Dans la seconde formulation, il suffit (d'après le théorème portemanteau) de s'intéresser au cas des fonctions bornées et lipschitziennes.
On suppose \| g \|_\infty \leq b et g L-lipschitzienne
\begin{array}{rl}\left| \mathbb{E}\left[ g(X_n, Y_n)\right] - \mathbb{E}\left[g(X,Y)\right] \right| & \leq \left| \mathbb{E}\left[ g(X_n, Y_n)\right] - \mathbb{E}\left[g(X_n,y)\right] \right| \\ & \phantom{\leq} + \left| \mathbb{E}\left[ g(X_n, y)\right] - \mathbb{E}\left[g(X,y)\right] \right|\end{array}
(X_n) \rightsquigarrow X garantit que
\lim_n \left| \mathbb{E}\left[ g(X_n, y)\right] - \mathbb{E}\left[g(X,y)\right] \right| = 0
Les hypothèses sur g garantissent
\left| g(X_n, Y_n)- g(X_n,y) \right| \leq 2 \mathbb{I}_{d(Y_n,y)> \epsilon} \|g \|_\infty + L \epsilon\qquad ∀ ϵ>0
(Y_n)_n \rightsquigarrow y implique la convergence en probabilité, donc
\lim_n \mathbb{E} \mathbb{I}_{d(Y_n,y)>\epsilon}=0
Le lemme de Slutsky, et le fait que \widehat{\theta}_n/\theta converge en probabilité vers 1 lorsque n\to \infty, permet d'écrire pour tout \alpha \in ]0,1[,
\lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\widehat{\theta}_n(1-\widehat{\theta}_n)}} \left( \widehat{\theta}_n - \theta\right) \leq z_{\alpha}\right\} = 1-\alpha
Le lemme de Slutsky, et le fait que \widehat{\theta}_n/\theta converge en probabilité vers 1 lorsque n\to \infty, permet d'écrire pour tout \alpha \in ]0,1[,
\lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\widehat{\theta}_n(1-\widehat{\theta}_n)}} \left( \widehat{\theta}_n - \theta\right) \leq z_{\alpha}\right\} = 1-\alpha
Cela conduit à proposer l'intervalle de niveau de confiance asymptotique 1-\alpha:
\left[\widehat{\theta}_n - z_{\alpha/2}\sqrt{\frac{\widehat{\theta}_n(1-\widehat{\theta}_n)}{n}}, \widehat{\theta}_n + z_{\alpha/2}\sqrt{\frac{\widehat{\theta}_n(1-\widehat{\theta}_n)}{n}}\right]
L'inégalité de Hoeffding (1963) est la plus simple des inégalités exponentielles qui fournissent des bornes non-asymptotiques sur les probabilités de queue des sommes de variables aléatoires indépendantes
Si X est une variable aléatoire qui prend ses valeurs dans [a,b],
alors
\forall \lambda \in \mathbb{R}\qquad \log \mathbb{E} \mathrm{e}^{\lambda (X- \mathbb{E}X)} \leq \frac{\lambda^2 (b-a)^2}{8}
L'inégalité de Hoeffding (1963) est la plus simple des inégalités exponentielles qui fournissent des bornes non-asymptotiques sur les probabilités de queue des sommes de variables aléatoires indépendantes
Si X est une variable aléatoire qui prend ses valeurs dans [a,b],
alors
\forall \lambda \in \mathbb{R}\qquad \log \mathbb{E} \mathrm{e}^{\lambda (X- \mathbb{E}X)} \leq \frac{\lambda^2 (b-a)^2}{8}
\operatorname{var}(X) \leq \frac{(b-a)^2}{4}
Sans perdre en généralité, on suppose X centrée: au pire cela revient à translater l'intervalle [a, b], ce qui ne change pas sa longueur
On note Q la loi (implicite) de la variable aléatoire X
la variance de toute variable aléatoire qui prend ses valeurs dans [a,b] est majorée par (b-a)^2/4
vérifiez !
Considérons maintenant la fonction F de \lambda définie par
F(\lambda) = \log \mathbb{E}_Q \mathrm{e}^{\lambda X}
Notons Q_\lambda la loi de densité \exp\left(\lambda x - F(\lambda)\right) par rapport à Q
vérifiez
F'(\lambda) = \mathbb{E}_{Q_ \lambda} X \qquad \text{ et } \qquad F^{\prime\prime}(\lambda) = \operatorname{var}_{Q_ \lambda} (X)
Comme Q_ \lambda est absolument continue par rapport à Q,
sous Q_ \lambda, X est à valeur dans [a,b]
et donc
F^{\prime\prime}(\lambda) = \operatorname{var}_{Q_ \lambda} (X) \leq \frac{(b-a)^2}{4}
On peut intégrer cette inégalité différentielle en notant au passage que F(0)=F'(0)=0, et vérifier F(\lambda) \leq \frac{\lambda^2 (b-a)^2}{8}
La preuve se réduit à une invocation de l'inégalité de Markov exponentielle \mathbb{P} \left\{ Z \geq \mathbb{E}Z + t \right\} \leq \inf_{\lambda\geq 0} \frac{\mathbb{E} \mathrm{e}^{\lambda (Z-\mathbb{E}Z)}}{\mathrm{e}^{\lambda t}}
et du lemme de Hoeffding
\begin{array}{rl}\mathbb{E} \mathrm{e}^{\lambda (Z - \mathbb{E}Z)} & = \mathbb{E} \mathrm{e}^{\lambda \sum_i (X_i - \mathbb{E}X_i) }\\ & = \prod_{i=1}^n \mathbb{E} \mathrm{e}^{\lambda (X_i - \mathbb{E}X_i) }\\ & \leq \prod_{i=1}^n \mathrm{e}^{\frac{\lambda^2 (b_i-a_i)^2}{8}}\end{array}
Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors l'inégalité de Hoeffding implique
\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n\log (2/\alpha)}{2}} \right\} \leq \alpha
On en déduit un intervalle de niveau de confiance 1-\alpha:
\left[\widehat{\theta} - \sqrt{\frac{\log (2/\alpha)}{2n}}, \widehat{\theta} + \sqrt{\frac{\log (2/\alpha)}{2n}} \right]
Dans toutes les constructions on retrouve deux ingrédients, l'intervalle est d'une largeur proportionnelle à
Meilleurs sont nos renseignements sur les fluctuations de \overline{X}_n autour de son espérance, plus précis est l'intervalle de confiance
On cherche ici à comparer le taux de couverture des IC déduits de
Lorsque la taille de l'échantillon est N= 10^{4}, en visant un niveau de confiance 1-\alpha avec \alpha= 0.05. Le paramètre \theta utilisé est 0.4.
Le taux de couverture est évalué à partir de B= 1000 essais
## Taux de couverture empirique de l'IC Chebychev à 5% : 100 % largeur : 0.0447
## Taux de couverture empirique de l'IC Hoeffding à 5% : 98 % largeur : 0.0215
## Taux de couverture empirique de l'IC Asymptotique à 5% : 96.6 % largeur moyenne : 0.0192
Notre problème jouet pose un problème de test binaire
H_0: l'hypothèse nulle, \theta \leq \theta_0 =.5 contre
H_1: l'alternative \theta > .5.
Une procédure de test binaire est une fonction des données qui vaut
1 (on rejette l'hypothèse nulle H_0) ou
0 (on ne rejette pas H_0).
Dans la suite on notera T le (la procédure de) test binaire.
On peut se demander pourquoi on emploie l'expression on ne rejette pas l'hypothèse nulle H_0, plutôt que on accepte l'hypothèse nulle.
Ce n'est pas par goût des formes négatives.
C'est parce que dans les usages historiques qui ont conduit à la construction de la notion de test, l'hypothèse nulle et l'alternative ne jouent pas le même rôle.
L'hypothèse nulle correspond à une position conservatrice.
Lorsqu'on procède à des essais cliniques, pour évaluer l'intérêt de mettre sur le marché un nouveau médicament,
Ne pas rejeter l'hypothèse nulle, cela ne veut pas dire accepter l'existant pour l'éternité, mais s'y tenir jusqu'à l'apparition d'éléments nouveaux
Lorsqu'on procède à des essais cliniques, pour évaluer l'intérêt de mettre sur le marché un nouveau médicament,
Ne pas rejeter l'hypothèse nulle, cela ne veut pas dire accepter l'existant pour l'éternité, mais s'y tenir jusqu'à l'apparition d'éléments nouveaux
On note
et
De même que le risque quadratique nous permet de quantifier les performances d'un estimateur, les notions d'erreur de première et de seconde espèce nous permettent de quantifier les performances d'un test binaire
Notez qu'il nous faut introduire deux quantités pour quantifier les performances d'un test
Une erreur de première espèce consiste à rejeter H_0 à tort lorsque les données sont des tirages selon une loi appartenant à l'hypothèse nulle (les données sont tirées sous l'hypothèse nulle).
Une erreur de seconde espèce consiste à ne pas rejeter H_0 à tort lorsque les données sont des tirages selon une loi appartenant à l'hypothèse alternative (les données sont tirées sous l'alternative).
Sous l'alternative, la puissance est le complément à un de l'erreur de seconde espèce.
On veut à la fois un test de petit niveau et de grande puissance sous l'alternative
Ces deux objectifs sont antagonistes
Dans le cas où on teste deux hypothèses simples, il existe une méthodologie qui réalise le meilleur compromis possible
On peut associer
une vraisemblance : la probabilité de x_1, \ldots, x_n sous P_ \theta^{\otimes n}:
P_ \theta^{\otimes n} \{ x_1 , \ldots, x_n\} = \left( \frac{\theta}{1- \theta}\right)^{n \overline{X}_n} (1- \theta)^n
Un test de rapport de vraisemblance de H_1 contre H_0 consiste à
comparer le rapport
P_{\theta_1}^{\otimes n} \{ x_1 , \ldots, x_n\}/ P_ {\theta_0}^{\otimes n} \{ x_1 , \ldots, x_n\}
à un seuil,
à rejeter H_0 si le seuil est dépassé,
à ne pas rejeter H_0 si le seuil n'est pas dépassé.
Ici, le rapport de vraisemblance est une fonction de
\overline{X}_n = \sum_{i=1}^n X_i/n= \widehat{\theta}_n
ce n'est pas du tout une simple coïncidence
\left(\frac{1-\theta_1}{1-\theta_0}\right)^n \left(\frac{\theta_1(1-\theta_0)}{\theta_0(1-\theta_1)} \right)^{n \widehat{\theta}_n}
Comparer le rapport de vraisemblance à un seuil est équivalent à comparer \widehat{\theta}_n à un seuil
On rejette H_0 lorsque \widehat{\theta}_n dépasse le seuil,
On ne rejette pas H_0 si \widehat{\theta}_n ne dépasse pas le seuil
S'il existe un test de rapport de vraisemblance T_0 de niveau \alpha > 0 et de fonction puissance \beta_{T_0},
alors
pour tout test T de niveau inférieur ou égal à \alpha, la fonction puissance \beta_T de T vérifie
\beta_T (P_1) \leq \beta_{T_0} (P_1)
Pour son niveau, le test de rapport de vraisemblance est de puissance maximale sous l'alternative
La preuve du lemme de Neymann-Pearson se réduit alors à:
\begin{array}{rcl}\beta_{T_0} (P_1) - \beta_T (P_1) & = & \mathbb{E}_{P_1} \left[ T_0 - T \right]\\ & = & \mathbb{E}_{P_0} \left[ \frac{p_1 (X)}{p_0 (X)_{}} (T_0 - T) \right] + \mathbb{E}_{P_1} \left[ (T_0 - T) \mathbb{I}_{p_0 (X) = 0} \right]\\ & & \text{sur l'événement } p_0 (X) = 0, T_0 = 1, \operatorname{car} \operatorname{le} \operatorname{rapport}\\ & & \operatorname{de} \operatorname{vraisemblance} \operatorname{est} \operatorname{infini}\\ & \geq & \mathbb{E}_{P_0} \left[ \frac{p_1 (X)}{p_0 (X)_{}} (T_0 - T) \right]\\ & = & \mathbb{E}_{P_0} \left[ \left( \frac{p_1 (X)}{p_0 (X)_{}} - \tau \right) (T_0 - T) \right] + \tau \mathbb{E}_{P_0} \left[ T_0 - T \right]\\ & & \operatorname{comme} \left( \frac{p_1 (X)}{p_0 (X)_{}} - \tau \right) (T_0 - T) \geq 0,\\ & \geq & \tau \mathbb{E}_{P_0} \left[ T_0 - T \right] \\ & \geq & 0\end{array}
Courbes puissance en fonction du niveau pour des tests de rapports
de vraisemblance entre deux Bernoullis de paramètres 0.5 et
0.525, pour différentes tailles d'échantillons n
Pour chaque courbe puissance/niveau, le meilleur compromis erreur de première espèce/erreur de seconde espèce est la distance \ell_1 au point (0,1).
Cette distance diminue lorsque la taille de l'échantillon augmente.