Loading [MathJax]/jax/element/mml/optable/GreekAndCoptic.js
+ - 0:00:00
Notes for current slide
Notes for next slide

Exploratory Data Analysis : Statistiques I

2022-01-15

Master I MIDS & MFA

Statistique Fondamentale

Stéphane Boucheron

Objectifs

Un problème jouet

Expérience, Statistique, Estimateur

Expériences binomiales

Propriétés des estimateurs

Intervalles de confiance

Tests

Objectifs

Trois piliers de l'inférence statistique

  • Estimation ponctuelle

Trois piliers de l'inférence statistique

  • Estimation ponctuelle

  • Région de confiance

Trois piliers de l'inférence statistique

  • Estimation ponctuelle

  • Région de confiance

  • Tests d'hypothèses

Ce premier cours introduit autour d'un exemple élémentaire les principaux thèmes de la statistique dite inférentielle (qu'on distingue de la statistique dite descriptive).

Ces trois thèmes, l'estimation ponctuelle, la construction de régions de confiance et la construction de procédures de décision (les tests), suppose un effort préalable de modélisation stochastique.

Sur l'exemple élémentaire, on peut mener ce travail de modélisation.

Cela nous conduit à une première formulation de ce qu'est une expérience ou un modèle statistique. Dans le cadre le plus simple, une expérience statistique est une collection de lois de probabilités. On observe une ou des réalisations d'une de ces lois (sans savoir à laquelle on a affaire).

On cherche à estimer, inférer des propriétés de cette loi, peut être pour prendre une décision. Nous passerons en revue des définitions qui nous seront utiles pendant toute la suite du cours (statistique, estimateur, biais, risque, ...)

Et surtout nous verrons à cette occasion comment les théorèmes limites du calcul des probabilités, loi des grands nombres, théorème central limite, nous guident dans la construction et la justification des méthodes d'estimation et de décision.

Nous verrons aussi que ces théorèmes limites sont complétés par des résultats non-asymptotiques appelés inégalités de concentration.

Nous terminerons ce cours par une première version du résultat fondateur de la thérie des tests, le lemme de Neyman et Pearson.

Un problème jouet

Coups de dés, lancers de pièces

On va jouer à pile ou face avec une pièce de monnaie

On soupçonne que cette pièce n'est pas parfaitement équilibrée: la probabilité d'obtenir face ( θ ) n'est pas exactement 1/2

Avant de jouer, on veut estimer θ, ou le ratio θ/(1θ), ou logθ/(1θ)

Pour estimer cette probabilité, on réalise n lancers aléatoires indépendants

On note les résultats:

x1,x2,,xnles données, l'échantillon

Estimation ponctuelle

On construit à partir des données x1,x2,,xn une estimation ˆθn de θ

x1,x2,,xnéchantillonestimationˆθn

Cette estimation est une fonction des données, pas de l'estimande θ qui reste inconnue

On espère que ˆθn sera proche de θ

Nous avons affaire à un problème dit d'estimation ponctuelle

Le résultat d'une estimation ponctuelle est une valeur (un réel ici)

Région de confiance

Savoir que l'estimation ponctuelle est peut-etre (voire probablement) proche de l'estimande est satisfaisant mais d'un intérêt limité.

Pour envisager l'avenir, il est plus utile de construire un intervalle de confiance:deux fonctions des données θ_n,¯θn telles que

avec une forte probabilité (à définir), l'estimande θ appartient à l'intervalle aléatoire

[θ_n(x1,,xn),¯θn(x1,,xn)]=:[θ_n,¯θn]

Ce problème est celui de la construction de régions de confiance.

Région de confiance

Il faut réaliser un bon compromis entre

  • la précision de l'intervalle de confiance

¯θnθ_n

  • la probabilité de couverture: la probabilité de l'événement

{ω:θ[θ_n(ω),¯θn(ω)]dépend des données}

ne pas encourager les approches ceintures et bretelles

Décision

On peut se poser un problème de décision

Par exemple :

on est prêt à jouer avec une pièce biaisée en faveur de face, mais pas avec une pièce biaisée en faveur de pile,

Comment décider à partir des données si on est prêt à jouer ou non ?

Comment décider entre

  • l'hypothèse θ>1/2 et
  • l'hypothèse θ<1/2 ?

C'est le problème des tests

Quelques définitions

Expérience statistique, échantillon, statistique, estimateur

La notion d'expérience statistique est une formalisation dans le langage du calcul des probabilités du jeu que nous venons d'évoquer.

Au départ, on dispose d'un espace probabilisable (Ω,F) (l'univers et une tribu de parties).

Ici Ω={pile,face} et F=2Ω

Expérience statistique, échantillon, statistique, estimateur

La notion d'expérience statistique est une formalisation dans le langage du calcul des probabilités du jeu que nous venons d'évoquer.

Au départ, on dispose d'un espace probabilisable (Ω,F) (l'univers et une tribu de parties).

Ici Ω={pile,face} et F=2Ω

C'est en général plus riche, avec Ω=Rd et F les boréliens de Rd

On peut aussi rencontrer des situations où Ω est un espace de fonctions (statistique des processus), le choix de la tribu n'est plus tout à fait évident.

Sur cet espace probabilisable, on considère un ensemble de lois de probabilités P.

Chaque loi de P est susceptible de régir le phénomène que le statisticien cherche à étudier

Sur cet espace probabilisable, on considère un ensemble de lois de probabilités P.

Chaque loi de P est susceptible de régir le phénomène que le statisticien cherche à étudier

Dans le cadre du problème jouet, on peut choisir P comme l'ensemble de lois non-dégénérées sur Ω={pile,face}.

Dans le problème jouet P est l'ensemble des lois de Bernoulli

La probabilité d'obtenir face est notée θ]0,1[

Nos problèmes d'inférence (estimation ponctuelle, région de confiance, tests) portent sur ce θ qui n'est pas connu de la statisticienne

Paramétrisation

On peut munir P d'un système de coordonnées, d'une paramétrisation, c'est à dire d'une fonction d'un ensemble Θ (souvent une partie de ΘRd ) dans P

On note génériquement Pθ l'élément de P associé à θ

Dans le cas de notre problème jouet, nous avons implicitement paramétrisé les lois de Bernoulli par les probabilités de succès

Une paramétrisation est un choix de convenance

Identifiabilité

Une paramétrisation est dite identifiable si

θθPθPθ

Dans notre problème jouet, les paramétrisations (par la probabilité de face, par le ratio des probabilités face/pile, ou son logarithme) sont identifiables

Identifiabilité

Une paramétrisation est dite identifiable si

θθPθPθ

Dans notre problème jouet, les paramétrisations (par la probabilité de face, par le ratio des probabilités face/pile, ou son logarithme) sont identifiables

L'identifiabilité est une propriété désirable mais ce n'est pas indispensable : les modèles de mélange, les modèles à variables latentes sont très utiles mais rarement identifiables

Observations partielles

Il est possible que le statisticien n'ait pas directement accès complet aux réalisations des tirages selon P (la loi de la nature), c'est à dire aux éléments de Ω

Observations partielles

Il est possible que le statisticien n'ait pas directement accès complet aux réalisations des tirages selon P (la loi de la nature), c'est à dire aux éléments de Ω

Par exemple, lorsque Ω est un espace de fonctions (les trajectoires d'un processus), il est sans doute trop couteux d'observer l'infinité de points qui forment la trajectoire

On se contente d'observer la trajectoire périodiquement (ou pas), on échantillonne

Espace d'observations

Pour formaliser ces situations, on ajoute à l'expérience un espace d'observations X (muni d'une tribu G) et une fonction X:ΩX qu'on suppose G/F mesurable.

Espace d'observations

Pour formaliser ces situations, on ajoute à l'expérience un espace d'observations X (muni d'une tribu G) et une fonction X:ΩX qu'on suppose G/F mesurable.

Toute loi PP définit alors une loi image PX1

Au lieu d'observer ωΩ, on observe x=X(ω)X

Une expérience statistique générale est donc définie par

(Ω,F,P,Θ,X,G,X)

Espace d'observations

Pour formaliser ces situations, on ajoute à l'expérience un espace d'observations X (muni d'une tribu G) et une fonction X:ΩX qu'on suppose G/F mesurable.

Toute loi PP définit alors une loi image PX1

Au lieu d'observer ωΩ, on observe x=X(ω)X

Une expérience statistique générale est donc définie par

(Ω,F,P,Θ,X,G,X)

Dans les situations dites canoniques, Ω=XetX=Id

Expériences "produit"

Nous nous concentrons sur les expériences dites produit, construites à partir de répétitions indépendantes d'une expérience de base

Ces expériences sont de la forme

(Ωn,σ(×ni=1F),Pn:={Pn,PP},Θ,Xn,σ(×ni=1G),X)

On dit que xi est la réalisation de Xi (variable aléatoire).

Expériences "produit"

Nous nous concentrons sur les expériences dites produit, construites à partir de répétitions indépendantes d'une expérience de base

Ces expériences sont de la forme

(Ωn,σ(×ni=1F),Pn:={Pn,PP},Θ,Xn,σ(×ni=1G),X)

On dit que xi est la réalisation de Xi (variable aléatoire).

La loi jointe de X1,,Xn est une loi produit de la forme (PθX1)navec θΘ

B1,,BnG,Pnθ(ni=1{XiBi})=ni=1Pθ{XiBi}

Expériences "produit"

Nous nous concentrons sur les expériences dites produit, construites à partir de répétitions indépendantes d'une expérience de base

Ces expériences sont de la forme

(Ωn,σ(×ni=1F),Pn:={Pn,PP},Θ,Xn,σ(×ni=1G),X)

On dit que xi est la réalisation de Xi (variable aléatoire).

La loi jointe de X1,,Xn est une loi produit de la forme (PθX1)navec θΘ

B1,,BnG,Pnθ(ni=1{XiBi})=ni=1Pθ{XiBi}

On parle d'expérience échantillonnée

Souvent, on se contente de rappeler `(Pθ,θΘ)` Le reste est sous-entendu

Dans notre problème jouet, cela donne (Bθ,θ]0,1[)Bθ est la loi de Bernoulli de probabilité de succès θ

Statistique

Toute fonction mesurable sur l'espace des observations Xn définit ce qu'on nomme une statistique

Exemples

  • La moyenne empirique ¯Xn:=1nni=1xi
  • La variance empirique S2:=1nni=1(xi¯Xn)2

Dans le langage des statistiques descriptives, la moyenne empirique décrit la localisation de l'échantillon, la variance empirique décrit la dispersion.

Estimateur

Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage

Par exemple, dans notre problème jouet, on peut chercher à estimer Pθ{Face}=θ par ¯Xn en utilisant la convention X(Face)=1=1X(Pile)

Estimateur

Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage

Par exemple, dans notre problème jouet, on peut chercher à estimer Pθ{Face}=θ par ¯Xn en utilisant la convention X(Face)=1=1X(Pile)

un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.

Estimateur

Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage

Par exemple, dans notre problème jouet, on peut chercher à estimer Pθ{Face}=θ par ¯Xn en utilisant la convention X(Face)=1=1X(Pile)

un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.

La loi de l'estimateur dépend (en général) de la loi de l'échantillonnage.

Estimateur

Un estimateur n'est qu'une statistique censée estimer une caractéristique (inconnue) de la loi inconnue qui sous-tend l'échantillonage

Par exemple, dans notre problème jouet, on peut chercher à estimer Pθ{Face}=θ par ¯Xn en utilisant la convention X(Face)=1=1X(Pile)

un estimateur est une fonction de l'échantillon, et non pas une fonction de la loi de l'échantillonnage.

La loi de l'estimateur dépend (en général) de la loi de l'échantillonnage.

Quand le paramètre à estimer s'appelle θ,ψ,, on utilise souvent le raccourci ˆθ ou ˆθn,ˆψn, pour désigner l'estimateur, plutôt que ˆθ(X1,,Xn) ou ˆψ(X1,,Xn)

Echantillons de Bernoulli

Pour engendrer une suite de N= 100 variables de Bernoulli indépendantes de probabilité de succès p= 0.4, on utilise le générateur de nombres aléatoires rbinom,

N <- 100 # taille échantillon
p <- .4 # θ!
s <- rbinom(n=N, prob=p, size=1)
mean(s)
## [1] 0.43

Le premier argument nommé

  • n désigne le nombre de tirages
  • prob la probabilité de succès des lois de Bernoulli,
  • size désigne le paramètre de taille des binomiales

on effectue N tirages binomiaux de paramètres size=1 et prob

L'API des générateurs aléatoires de lois univariées en et de la forme

rdistrib(n, param1, param2, param3)

avec

  • distrib : nom de la ditribution (binom, unif, pois, norm, exp, ...)

  • n : nombre de tirages à réaliser

  • param1, param2, param3, ... paramètre de la distribution

La statistique dite inférentielle (l'objet de ce cours) est construite à partir des résultats fondamentaux du calcul des probabilités :

  • lois des grands nombres

  • théorème central limite

  • théorèmes de convergence en distribution plus généraux

  • autres : principes de grandes déviations, concentration

Dans le cadre du problème jouet, la loi des grands nombres nous indique qu'il est très raisonnable d'estimer la probabilité de succès inconnue θ en utilisant la fréquence des succès

Loi(s) des grands nombres

  • X1,,Xn,i.i.d.P

  • μ=EPXi (on sous-entend EP|Xi|<)

  • P: loi produit sur RN

P(B1×B2××Bn)=ni=1P(Bi)BiB(R)

ϵ>0,P{|1nni=1Xiμ|>ϵ}0loi faible

P{limn1nni=1Ximoyenne empirique=μ}=1loi forte

Avec , nous allons simuler des lancers de pièces (des tirages de Bernoulli) et étudier/visualiser les trajectoires des moyennes empiriques

(1nni=1Xi)nN=(¯Xn)nN

La loi des grands nombres peut être illustrée dans ce contexte

Avec , nous allons simuler des lancers de pièces (des tirages de Bernoulli) et étudier/visualiser les trajectoires des moyennes empiriques

(1nni=1Xi)nN=(¯Xn)nN

La loi des grands nombres peut être illustrée dans ce contexte

  • On construit d'abord B trajectoires des sommes partielles ni=1Xi pour i=1,,N : chaque trajectoire forme une colonne d'un dataframe,
  • On ajoute une colonne x représentant les indices n=1,,N.
  • On fait pivoter le dataframe pour obtenir un dataframe à trois colonnes: x, path qui précise la trajectoire, et value qui donne la somme partielle ni=1Xi pour la trajectoire désignée par path à l'instant n désigné par x
  • On confie ce dataframe pivoté au module de visualisation ggplot2

LGN: Trajectoires des moyennes empiriques

rbinom(n=B*N, prob=p, size=1) %>%
matrix(nrow=N, ncol=B) %>%
apply(MARGIN=2, FUN=cumsum)

LGN: Trajectoires des moyennes empiriques

rbinom(n=B*N, prob=p, size=1) %>%
matrix(nrow=N, ncol=B) %>%
apply(MARGIN=2, FUN=cumsum) %>%
as_tibble(.rows = N) %>%
mutate(x = 1:N) %>%
pivot_longer(cols = starts_with('V'),
names_to = "path")

LGN: Trajectoires des moyennes empiriques

rbinom(n=B*N, prob=p, size=1) %>%
matrix(nrow=N, ncol=B) %>%
apply(MARGIN=2, FUN=cumsum) %>%
as_tibble(.rows = N) %>%
mutate(x = 1:N) %>%
pivot_longer(cols = starts_with('V'),
names_to = "path") %>%
ggplot(aes(x=x,
y=value/x,
linetype=path)) +
geom_line(show.legend = FALSE)

LGN: Trajectoires des moyennes empiriques

rbinom(n=B*N, prob=p, size=1) %>%
matrix(nrow=N, ncol=B) %>%
apply(MARGIN=2, FUN=cumsum) %>%
as_tibble(.rows = N) %>%
mutate(x = 1:N) %>%
pivot_longer(cols = starts_with('V'),
names_to = "path") %>%
ggplot(aes(x=x,
y=value/x,
linetype=path)) +
geom_line(show.legend = FALSE) +
geom_abline(slope=0,
intercept = p)

LGN: Trajectoires des moyennes empiriques

rbinom(n=B*N, prob=p, size=1) %>%
matrix(nrow=N, ncol=B) %>%
apply(MARGIN=2, FUN=cumsum) %>%
as_tibble(.rows = N) %>%
mutate(x = 1:N) %>%
pivot_longer(cols = starts_with('V'),
names_to = "path") %>%
ggplot(aes(x=x,
y=value/x,
linetype=path)) +
geom_line(show.legend = FALSE) +
geom_abline(slope=0,
intercept = p) +
xlab(TeX('$n$')) +
ylab(TeX("$\\bar{X}_n$")) +
theme()

On visualise B= 10 trajectoires construites chacune sur N= 1000 épreuves de Bernoulli

LGN: Trajectoires des moyennes empiriques

On visualise B= 10 trajectoires des moyennes empiriques construites chacune sur N= 1000 épreuves de Bernoulli

Les moyennes empiriques ¯Xn(ω)=1nni=1Xi(ω) convergent (presque sûrement) vers l'espérance des Bernoulli qui vaut ici p= 0.4

Visualisation à temps fixe

Nous pouvons aussi fixer le nombre d'observations n=N et examiner les fluctuations de la moyenne empirique ¯Xn sur un grand nombre B=10000 de trajectoires

Nous nous rappelons que si X_i \sim_{text{i.i.d.}} \text{Bernoulli}(θ) alors \sum_{i=1}^N X_i \sim \text{Binomiale}(N, θ). Pour simuler nos B moyennes empiriques, il suffit d'invoquer rbinom(B, p, N)

Pour visualiser les fluctuations des moyennes empiriques, nous utilisons la technique de l'histogramme

L'histogramme est construit grace à ggplot

Histogramme des estimés d'un paramètre de Bernoulli

B <- 10000 # Réplications
N <- 1000 # Taille échantillon
p <- .4

Histogramme des estimés d'un paramètre de Bernoulli

B <- 10000 # Réplications
N <- 1000 # Taille échantillon
p <- .4
estimes <-
rbinom(B, p, size=N)/N

Histogramme des estimés d'un paramètre de Bernoulli

B <- 10000 # Réplications
N <- 1000 # Taille échantillon
p <- .4
estimes <-
rbinom(B, p, size=N)/N
tibble(x=estimes) %>%
ggplot(aes(x=x))

Histogramme des estimés d'un paramètre de Bernoulli

B <- 10000 # Réplications
N <- 1000 # Taille échantillon
p <- .4
estimes <-
rbinom(B, p, size=N)/N
tibble(x=estimes) %>%
ggplot(aes(x=x)) +
geom_histogram(aes(y=..density..),
binwidth=.01,
alpha=I(.5))

Histogramme des estimés d'un paramètre de Bernoulli

B <- 10000 # Réplications
N <- 1000 # Taille échantillon
p <- .4
estimes <-
rbinom(B, p, size=N)/N
tibble(x=estimes) %>%
ggplot(aes(x=x)) +
geom_histogram(aes(y=..density..),
binwidth=.01,
alpha=I(.5)) +
stat_function(fun=dnorm,
args=c(mean=p,
sd=sqrt(p*(1-p)/N)))

Histogramme des estimés d'un paramètre de Bernoulli

B <- 10000 # Réplications
N <- 1000 # Taille échantillon
p <- .4
estimes <-
rbinom(B, p, size=N)/N
tibble(x=estimes) %>%
ggplot(aes(x=x)) +
geom_histogram(aes(y=..density..),
binwidth=.01,
alpha=I(.5)) +
stat_function(fun=dnorm,
args=c(mean=p,
sd=sqrt(p*(1-p)/N))) +
xlab(paste(B, " Estimés à partir de ",
N," points",
sep=""))

Histogramme des estimés d'un paramètre de Bernoulli

Un estimateur est une variable aléatoire.

On peut visualiser ses fluctuations à l'aide de maintes techniques graphiques comme les histogrammes

L'histogramme définit une densité de probabilité constante par morceaux

Nous comparons cette densité constante par morceaux avec la densité de \mathcal{N}(\theta, θ(1-θ)/N)

summary(estimes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.340 0.390 0.400 0.400 0.410 0.465
var(estimes)
## [1] 0.0002349826
sd(estimes)
## [1] 0.01532914
IQR(estimes)
## [1] 0.02

Propriétés des estimateurs

Paramètres

La plupart des expériences/modèles statistiques que nous rencontrerons dans ce cours, seront de nature paramétrique, autrement dit indexés par des parties de \mathbb{R}^d

Dans de nombreux développements des statistiques, par exemple en estimation de densité, on travaille sur des modèles plus riches qui n'admettent pas de paramétrisation naturelle par une partie d'un espace euclidien de dimension finie

On parle pourtant de paramètre d'une distribution pour désigner ce qui devrait plutôt s'appeler une fonctionnelle

Par exemple,

  • l'espérance,
  • la covariance

d'une distribution sur \mathbb{R}^d sont des paramètres de cette distribution

Les quantiles, l'asymétrie, la kurtosis sont d'autres paramètres

Definition: biais

Soit \psi(P) un paramètre à estimer, et \widehat{\psi} un estimateur, on appelle biais (ou biais moyen) sous la loi P de l'estimateur \hat{\psi}, la quantité

\mathbb{E}_{P}\left[ \widehat{\psi}- \psi(P)\right]

C'est l'écart entre la valeur moyenne de \widehat{\psi} et la valeur visée \psi(P)

L'estimateur est dit sans biais s'il est de biais nul

Exemple d'estimateur sans biais

Si on se place dans le modèle binomial et qu'on cherche à estimer la probabilité de succès \theta, la fréquence empirique des succès est un estimateur sans biais de \theta

On peut vérifier qu'il n'existe pas d'estimateur sans biais de 1/\theta ou de \theta/(1- \theta)

La fréquence empirique d'un événement est toujours un estimateur sans biais de la probabilité de cet événement

Exemple d'estimateur biaisé

Si \psi(P) désigne la variance de la loi P sur \mathbb{R}, la variance empirique

S^2 = \frac{1}{n} \sum_{i=1}^n \big( X_i - \overline{X}_n\big)^2

est un estimateur biaisé de \psi(P):

\mathbb{E}_P\left[ S^2 \right] = \frac{n-1}{n} \mathbb{E}_P \left[\left(X - \mathbb{E}_P X\right)^2\right] = \frac{n-1}{n} \psi(P)

vérifier

Definition : risque quadratique

Soit \psi(P) une paramètre à estimer, et \widehat{\psi} un estimateur, on appelle écart quadratique moyen sous la loi P de l'estimateur \widehat{\psi} la quantité

\mathbb{E}_{P}\left[ \left(\widehat{\psi}- \psi(P)\right)^2\right]

Exemple

Dans le cas du problème jouet, le risque quadratique de l'estimateur \widehat{\theta}_n = \overline{X}_n de \theta n'est autre que la variance de l'estimateur

\mathbb{E}_{\theta} \left[\left(\overline{X}_n - \theta\right)^2\right] = \frac{\theta(1- \theta )}{n}

vérifier

Décomposition biais-variance du risque quadratique

\mathbb{E}_{P} \left[(\hat{\psi}-\psi)^2\right] = \underbrace{\operatorname{Var}_{P} [\hat{\psi}]}_{\text{variance}} + \underbrace{\left(\mathbb{E}_{P}[\hat{\psi}]-\psi \right)^2}_{\text{carré du biais}}

vérifier

C'est une relation pythagoricienne !

La relation du risque quadratique à la taille de l'échantillon est une question importante en statistique mathématique

Elle concerne la vitesse d'estimation : pour une suite d'expériences donnée, quelles sont les meilleures vitesses envisageables, et comment les obtenir ?

Pour introduire la notion de consistance d'une suite d'estimateurs, nous aurons besoin des notions de convergence en probabilité et de convergence presque sûre

Definition

Une suite (X_n)_n de variables aléatoires à valeurs dans \mathbb{R}^k, vivant sur un espace probabilisé (\Omega,\mathcal{F},\mathbb{P}) converge en probabilité vers une variable aléatoire X à valeurs dans \mathbb{R}^k, vivant sur cet espace probabilisé

si et seulement si,

\forall \epsilon>0, \qquad \lim_n \mathbb{P} \{ \Vert X_n -X\Vert > \epsilon \} = 0

Definition: consistance

Dans une suite d'expériences statistiques échantillonnées, une suite d'estimateurs (\widehat{\theta}_n)_n est

  • consistante (pour l'estimation de \theta)

si

\forall \theta \in \Theta, \forall \epsilon>0, \qquad \lim_n P^{\otimes n}_ \theta \left\{ \| \widehat{\theta}_n-\theta\| > \epsilon \right\} =0 \qquad\text{(convergence en probabilité).}

  • fortement consistante

si

\forall \theta \in \Theta, \forall \epsilon>0, \qquad P^{\otimes \mathbb{N}}_ \theta \left\{ \lim_n \| \widehat{\theta}_n-\theta\| =0 \right\} =1 \qquad\text{(convergence presque sûre).}

Pour notre problème jouet, la suite d'estimateurs (\overline{X}_n)_n est fortement consistante pour l'estimation de \theta (loi forte des grands nombres)

On peut aussi vérifier que la suite (\overline{X}_n/(1-\overline{X}_n))_n est fortement consistante pour l'estimation de \theta/(1- \theta).

Statistique suffisante

Ces suites d'estimateurs répondent aux questions d'estimation ponctuelle

On peut toutefois se demander s'il s'agit des meilleures réponses possibles.

On peut par exemple se demander s'il n'y a pas d'information inexploitée dans l'échantillon

Statistique suffisante

On peut se rassurer en remarquant que pour tout \theta

\begin{array}{rcl} P_ \theta\{ x_1, \ldots, x_n \} &= & \theta^{n \overline{X}_n} (1- \theta)^{n(1-\overline{X}_n)} \\ & = & \left(\frac{\theta}{1- \theta}\right)^{n \overline{X}_n} (1- \theta)^n \\ & = & \exp\left( n \overline{X}_n \log\left(\frac{\theta}{1- \theta }\right) - n \log (1- \theta)\right)\end{array}

donc

P_ \theta\{ x_1, \ldots, x_n \mid \overline{X}_n\} = \frac{\mathbb{I}_{n \overline{X}_n = \sum_{i=1}^n x_i}}{\binom{n}{n \overline{X}_n}}

Conditionnellement à \overline{X}_n, la probabilité de l'échantillon ne dépend pas de \theta, est libre de \theta

Dans ce modèle jouet, \overline{X}_n est une statistique suffisante ou exhaustive

Intervalles de confiance

Definition: intervalle de niveau de confiance 1-\alpha

Lorsque l'espace des paramètres \Theta est inclus dans \mathbb{R},

un intervalle de niveau de confiance 1- \alpha avec \alpha \in ]0,1[,

est

un couple de statistiques \underline{\theta}_n, \overline{\theta}_n telles que

\forall \theta \in \Theta, \qquad P_\theta^{\otimes n} \left\{ \theta \in [\underline{\theta}_n, \overline{\theta}_n]\right\} \geq 1- \alpha

L'intervalle de confiance est une statistique

L'intervalle de confiance doit être calculable à partir des données accessibles au statisticien y compris l'échantillon, y compris sa taille, \alpha, le cadre de l'expérience statistique

Il n'est pas toujours évident de construire un intervalle de niveau de confiance exactement 1- \alpha

On est très souvent amené à proposer des solutions très conservatrices: des intervalles trop larges

Le calcul des probabilités nous fournit des constructions assez simples d'intervalles de niveau de confiance asymptotique prescrit

Construction naïve

Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors

l'inégalité de Chebychev implique

\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n}{4\alpha}} \right\} \leq \alpha

Construction naïve

Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors

l'inégalité de Chebychev implique

\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n}{4\alpha}} \right\} \leq \alpha

On en déduit un intervalle de niveau de confiance 1-\alpha:

\left[\widehat{\theta} - \sqrt{\frac{1}{4n\alpha}}, \widehat{\theta} + \sqrt{\frac{1}{4n\alpha}} \right]

Construction naïve

Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors

l'inégalité de Chebychev implique

\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n}{4\alpha}} \right\} \leq \alpha

On en déduit un intervalle de niveau de confiance 1-\alpha:

\left[\widehat{\theta} - \sqrt{\frac{1}{4n\alpha}}, \widehat{\theta} + \sqrt{\frac{1}{4n\alpha}} \right]

Pour \alpha=5\%, n=1000, la largeur de l'intervalle est 0.14

Sur nos 10^{4} estimations visualisés sur l'histogramme, 0 intervalles de confiance ne couvrent pas le paramètre à estimer!

Si on cherche à évaluer le taux de couverture de l'IC déduit de l'inégalité de Bienaymée-Chebychev lorsque la taille de l'échantillon n'est que N=1000, en visant un niveau de confiance 1-\alpha avec \alpha=.25, on constate que ce taux évalué à partir de 1000 essais est largement supérieur au taux de couverture ciblé.

Cet intervalle manque définitivement de précision: c'est une construction de type ceinture et bretelles

On cherche ici à évaluer le taux de couverture de l'IC déduit de l'inégalité de Chebychev lorsque la taille de l'échantillon n'est que N= 1000, en visant un niveau de confiance 1-\alpha avec \alpha=.25.

ce taux évalué à partir de 1000 essais est largement supérieur au taux de couverture ciblé

N <- 1000 ; B <- 10000 ; p <- .4 ; alpha <- .25
estimes <- rbinom(n = B, prob = p, size = N)/N
couv <- sum(abs(estimes - p) < 1/sqrt(4*alpha*N))/B
cat("Taux de couverture empirique de l'IC Chebychev à 75% : ", round(couv* 100, 1), '%')
## Taux de couverture empirique de l'IC Chebychev à 75% : 95.9 %

Definition: intervalle de niveau de confiance asymptotique 1-\alpha

Lorsque l'espace des paramètres \Theta est inclus dans \mathbb{R},

une suite d' intervalles de confiance [\underline{\theta}_n, \overline{\theta}_n] est de niveau de confiance asymptotique 1- \alpha_ avec \alpha \in ]0,1[

si et seulement si

\forall \theta \in \Theta, \qquad \lim_n P_ \theta^{\otimes n} \left\{ \theta \in [\underline{\theta}_n, \overline{\theta}_n]\right\} = 1- \alpha

Construction asymptotique

Ici nous ne considérons que des probabilités sur \mathbb{R}

Les lois sur \mathbb{R} sont complètement caractérisées par leur fonction de répartition

Les livres d'introduction aux probabilités contiennent souvent la définition suivante

Definition Convergence faible/étroite

Une suite (P_n)_{n\in \mathbb{N}} de probabilités sur \mathbb{R} (de fonctions de répartition (F_n)_{n\in \mathbb{N}}) converge étroitement/faiblement vers une loi de probabilité P de fonction de répartition F

si et seulement si,

pour tout xF est continue, on a

\lim_n F_n(x) = F(x)

Definition Convergence faible/étroite

Une suite (P_n)_{n\in \mathbb{N}} de probabilités sur \mathbb{R} (de fonctions de répartition (F_n)_{n\in \mathbb{N}}) converge étroitement/faiblement vers une loi de probabilité P de fonction de répartition F

si et seulement si,

pour tout xF est continue, on a

\lim_n F_n(x) = F(x)

on utilise la notation \rightsquigarrow pour désigner la convergence en loi/distribution

La situation des points où F est discontinue est la suivante.

Proposition

Si une suite de fonctions de répartition (F_n)_{n\in \mathbb{ N}} converge simplement vers une fonction de répartition F en tout point de continuité de F,

alors

en tout x de \mathbb{R}

\limsup_n F_n(x) \leq F(x)

Convention :

Pour \alpha \in ]0,1[, on note z_{\alpha} le quantile d'ordre 1-\alpha de la gaussienne centrée réduite (standard) \mathcal{N}(0,1)

C'est la solution de l'équation en x:

1-\alpha = \int_{-\infty}^x \frac{\mathrm{e}^{-u^2/2}}{\sqrt{2\pi}} \mathrm{d}u =: \Phi(x)

Théorème Central Limite (De Moivre-Laplace)

Si les estimateurs \widehat{\theta}_n sont distribués selon P_\theta^{\otimes n},

\frac{\sqrt{n}}{\sqrt{\theta(1-\theta)}} \left( \widehat{\theta}_n -\theta\right) \rightsquigarrow \mathcal{N}(0,1)

Théorème Central Limite (De Moivre-Laplace)

Si les estimateurs \widehat{\theta}_n sont distribués selon P_\theta^{\otimes n},

\frac{\sqrt{n}}{\sqrt{\theta(1-\theta)}} \left( \widehat{\theta}_n -\theta\right) \rightsquigarrow \mathcal{N}(0,1)

Cela se traduit (entre autres) par la convergence simple des fonctions de répartitions:

\forall \alpha \in ]0,1[, \qquad \lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\theta(1-\theta)}} \left( \widehat{\theta}_n -\theta\right) \leq z_{\alpha}\right\} = 1-\alpha

Si on dispose de deux suites (X_n)_{n \in \mathbb{N}} et (Y_n)_{n \in \mathbb{N}} de variables aléatoires telles que

X_n \rightsquigarrow X \text{ et } Y_n \rightsquigarrow Y

Si on dispose de deux suites (X_n)_{n \in \mathbb{N}} et (Y_n)_{n \in \mathbb{N}} de variables aléatoires telles que

X_n \rightsquigarrow X \text{ et } Y_n \rightsquigarrow Y

  • on ne peut rien dire en général sur la suite (X_n Y_n)_n,

  • on ne peut pas affirmer à coup sûr que X_n Y_n \rightsquigarrow XY

Si on dispose de deux suites (X_n)_{n \in \mathbb{N}} et (Y_n)_{n \in \mathbb{N}} de variables aléatoires telles que

X_n \rightsquigarrow X \text{ et } Y_n \rightsquigarrow Y

  • on ne peut rien dire en général sur la suite (X_n Y_n)_n,

  • on ne peut pas affirmer à coup sûr que X_n Y_n \rightsquigarrow XY

Mais,

si Y est une variable aléatoire dégénéree, presque sûrement égale à une constante y,

alors

on peut s'appuyer sur le lemme de Slutsky

Lemme de Slutsky

Si (X_n)_n et (Y_n)_n sont deux suites de variables aléatoires sur (\Omega_n, \mathcal{F}_n, P_n) telles que

  • X_n \rightsquigarrow X
  • Y_n \rightsquigarrow yy est une constante

alors

(Y_n, X_n) \rightsquigarrow (y,X)

Y_n \rightsquigarrow y implique Y_n \stackrel{\text{en probabilité}}{\longrightarrow} y

On invoque en général la forme prête à l'emploi

Théorème

Si (X_n)_n et (Y_n)_n est deux suites de variables aléatoires sur (\Omega_n, \mathcal{F}_n, P_n) telles que

  • X_n \rightsquigarrow X à valeurs dans \mathbb{R}^k
  • Y_n \rightsquigarrow yy \in \mathbb{R}^{k'} est une constante

si g est une fonction continue de \mathbb{R}^k \times \mathbb{R}^{k'} dans \mathbb{R}^{k''}

alors

g (X_n, Y_n) \rightsquigarrow g (X, y)

Preuve

Dans la seconde formulation, il suffit (d'après le théorème portemanteau) de s'intéresser au cas des fonctions bornées et lipschitziennes.

On suppose \| g \|_\infty \leq b et g L-lipschitzienne

\begin{array}{rl}\left| \mathbb{E}\left[ g(X_n, Y_n)\right] - \mathbb{E}\left[g(X,Y)\right] \right| & \leq \left| \mathbb{E}\left[ g(X_n, Y_n)\right] - \mathbb{E}\left[g(X_n,y)\right] \right| \\ & \phantom{\leq} + \left| \mathbb{E}\left[ g(X_n, y)\right] - \mathbb{E}\left[g(X,y)\right] \right|\end{array}

(X_n) \rightsquigarrow X garantit que

\lim_n \left| \mathbb{E}\left[ g(X_n, y)\right] - \mathbb{E}\left[g(X,y)\right] \right| = 0

Les hypothèses sur g garantissent

\left| g(X_n, Y_n)- g(X_n,y) \right| \leq 2 \mathbb{I}_{d(Y_n,y)> \epsilon} \|g \|_\infty + L \epsilon\qquad ∀ ϵ>0

(Y_n)_n \rightsquigarrow y implique la convergence en probabilité, donc

\lim_n \mathbb{E} \mathbb{I}_{d(Y_n,y)>\epsilon}=0

Le lemme de Slutsky, et le fait que \widehat{\theta}_n/\theta converge en probabilité vers 1 lorsque n\to \infty, permet d'écrire pour tout \alpha \in ]0,1[,

\lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\widehat{\theta}_n(1-\widehat{\theta}_n)}} \left( \widehat{\theta}_n - \theta\right) \leq z_{\alpha}\right\} = 1-\alpha

Le lemme de Slutsky, et le fait que \widehat{\theta}_n/\theta converge en probabilité vers 1 lorsque n\to \infty, permet d'écrire pour tout \alpha \in ]0,1[,

\lim_n \mathbf{P}_{\theta}^{\otimes n} \left\{ \frac{\sqrt{n}}{\sqrt{\widehat{\theta}_n(1-\widehat{\theta}_n)}} \left( \widehat{\theta}_n - \theta\right) \leq z_{\alpha}\right\} = 1-\alpha

Cela conduit à proposer l'intervalle de niveau de confiance asymptotique 1-\alpha:

\left[\widehat{\theta}_n - z_{\alpha/2}\sqrt{\frac{\widehat{\theta}_n(1-\widehat{\theta}_n)}{n}}, \widehat{\theta}_n + z_{\alpha/2}\sqrt{\frac{\widehat{\theta}_n(1-\widehat{\theta}_n)}{n}}\right]

Visualisation de l'IC asymptotique

Un raffinement du théorème central limite, le théorème de Berry-Esseen , nous indique que le niveau de confiance est 1- \alpha+ O(1/\sqrt{n}).

Intervalle non-asymptotique construit à partir de l'inégalité de Hoeffding

L'inégalité de Hoeffding (1963) est la plus simple des inégalités exponentielles qui fournissent des bornes non-asymptotiques sur les probabilités de queue des sommes de variables aléatoires indépendantes

Lemma de hoeffding

Si X est une variable aléatoire qui prend ses valeurs dans [a,b],

alors

\forall \lambda \in \mathbb{R}\qquad \log \mathbb{E} \mathrm{e}^{\lambda (X- \mathbb{E}X)} \leq \frac{\lambda^2 (b-a)^2}{8}

L'inégalité de Hoeffding (1963) est la plus simple des inégalités exponentielles qui fournissent des bornes non-asymptotiques sur les probabilités de queue des sommes de variables aléatoires indépendantes

Lemma de hoeffding

Si X est une variable aléatoire qui prend ses valeurs dans [a,b],

alors

\forall \lambda \in \mathbb{R}\qquad \log \mathbb{E} \mathrm{e}^{\lambda (X- \mathbb{E}X)} \leq \frac{\lambda^2 (b-a)^2}{8}

\operatorname{var}(X) \leq \frac{(b-a)^2}{4}

Preuve

Sans perdre en généralité, on suppose X centrée: au pire cela revient à translater l'intervalle [a, b], ce qui ne change pas sa longueur

On note Q la loi (implicite) de la variable aléatoire X

la variance de toute variable aléatoire qui prend ses valeurs dans [a,b] est majorée par (b-a)^2/4

vérifiez !

Considérons maintenant la fonction F de \lambda définie par

F(\lambda) = \log \mathbb{E}_Q \mathrm{e}^{\lambda X}

Notons Q_\lambda la loi de densité \exp\left(\lambda x - F(\lambda)\right) par rapport à Q

vérifiez

F'(\lambda) = \mathbb{E}_{Q_ \lambda} X \qquad \text{ et } \qquad F^{\prime\prime}(\lambda) = \operatorname{var}_{Q_ \lambda} (X)

Preuve (suite)

Comme Q_ \lambda est absolument continue par rapport à Q,

sous Q_ \lambda, X est à valeur dans [a,b]

et donc

F^{\prime\prime}(\lambda) = \operatorname{var}_{Q_ \lambda} (X) \leq \frac{(b-a)^2}{4}

On peut intégrer cette inégalité différentielle en notant au passage que F(0)=F'(0)=0, et vérifier F(\lambda) \leq \frac{\lambda^2 (b-a)^2}{8}

Inégalité de hoeffding

Si les (X_i)_{i \leq n} sont des variables aléatoires indépendantes à valeur dans [a_i, b_i] et si Z=\sum_{i=1}^n X_i

alors

\forall t >0, \qquad \mathbb{P} \left\{ Z \geq \mathbb{E}Z + t \right\} \leq \mathrm{e}^{- \frac{2 t^2}{\sum_{i=1}^n (b_i-a_i)^2}}

Preuve

La preuve se réduit à une invocation de l'inégalité de Markov exponentielle \mathbb{P} \left\{ Z \geq \mathbb{E}Z + t \right\} \leq \inf_{\lambda\geq 0} \frac{\mathbb{E} \mathrm{e}^{\lambda (Z-\mathbb{E}Z)}}{\mathrm{e}^{\lambda t}}

et du lemme de Hoeffding

\begin{array}{rl}\mathbb{E} \mathrm{e}^{\lambda (Z - \mathbb{E}Z)} & = \mathbb{E} \mathrm{e}^{\lambda \sum_i (X_i - \mathbb{E}X_i) }\\ & = \prod_{i=1}^n \mathbb{E} \mathrm{e}^{\lambda (X_i - \mathbb{E}X_i) }\\ & \leq \prod_{i=1}^n \mathrm{e}^{\frac{\lambda^2 (b_i-a_i)^2}{8}}\end{array}

Intervalle de confiance fondé sur l'inégalité de Hoeffding

Si les X_i sont des variables de Bernoulli indépendantes et si Z=\sum_{i=1}^n X_i alors l'inégalité de Hoeffding implique

\mathbf{P} \left\{ |Z- \mathbf{E} Z| \geq \sqrt{\frac{n\log (2/\alpha)}{2}} \right\} \leq \alpha

On en déduit un intervalle de niveau de confiance 1-\alpha:

\left[\widehat{\theta} - \sqrt{\frac{\log (2/\alpha)}{2n}}, \widehat{\theta} + \sqrt{\frac{\log (2/\alpha)}{2n}} \right]

Dans toutes les constructions on retrouve deux ingrédients, l'intervalle est d'une largeur proportionnelle à

  • \sqrt{{1}/{n}} et
  • un facteur qui dépend du niveau de couverture recherché

Meilleurs sont nos renseignements sur les fluctuations de \overline{X}_n autour de son espérance, plus précis est l'intervalle de confiance

Comparaison des taux de couverture

On cherche ici à comparer le taux de couverture des IC déduits de

  • inégalité de Chebychev
  • inégalité de Hoeffding
  • de la constriction asymptotique

Lorsque la taille de l'échantillon est N= 10^{4}, en visant un niveau de confiance 1-\alpha avec \alpha= 0.05. Le paramètre \theta utilisé est 0.4.

Le taux de couverture est évalué à partir de B= 1000 essais

## Taux de couverture empirique de l'IC Chebychev à 5% : 100 % largeur : 0.0447
## Taux de couverture empirique de l'IC Hoeffding à 5% : 98 % largeur : 0.0215
## Taux de couverture empirique de l'IC Asymptotique à 5% : 96.6 % largeur moyenne : 0.0192

Tests

Definition: Hypothèse

Une hypothèse est une collection de loi de probabilités.

La collection peut être réduite à une seule loi, on parle alors d'hypothèse simple,

Sinon on parle d'hypothèse composée ou composite

Notre problème jouet pose un problème de test binaire

  1. H_0: l'hypothèse nulle, \theta \leq \theta_0 =.5 contre

  2. H_1: l'alternative \theta > .5.

Une procédure de test binaire est une fonction des données qui vaut

  • 1 (on rejette l'hypothèse nulle H_0) ou

  • 0 (on ne rejette pas H_0).

Dans la suite on notera T le (la procédure de) test binaire.

On peut se demander pourquoi on emploie l'expression on ne rejette pas l'hypothèse nulle H_0, plutôt que on accepte l'hypothèse nulle.

Ce n'est pas par goût des formes négatives.

C'est parce que dans les usages historiques qui ont conduit à la construction de la notion de test, l'hypothèse nulle et l'alternative ne jouent pas le même rôle.

L'hypothèse nulle correspond à une position conservatrice.

Lorsqu'on procède à des essais cliniques, pour évaluer l'intérêt de mettre sur le marché un nouveau médicament,

  • l'hypothèse nulle affirme que ce nouveau traitement ne vaut pas mieux que l'existant,
  • l'alternative affirme qu'au contraire ce nouveau traitement est meilleur

Lorsqu'on procède à des essais cliniques, pour évaluer l'intérêt de mettre sur le marché un nouveau médicament,

  • l'hypothèse nulle affirme que ce nouveau traitement ne vaut pas mieux que l'existant,
  • l'alternative affirme qu'au contraire ce nouveau traitement est meilleur

Ne pas rejeter l'hypothèse nulle, cela ne veut pas dire accepter l'existant pour l'éternité, mais s'y tenir jusqu'à l'apparition d'éléments nouveaux

Lorsqu'on procède à des essais cliniques, pour évaluer l'intérêt de mettre sur le marché un nouveau médicament,

  • l'hypothèse nulle affirme que ce nouveau traitement ne vaut pas mieux que l'existant,
  • l'alternative affirme qu'au contraire ce nouveau traitement est meilleur

Ne pas rejeter l'hypothèse nulle, cela ne veut pas dire accepter l'existant pour l'éternité, mais s'y tenir jusqu'à l'apparition d'éléments nouveaux

On note

  • \mathcal{P}_0 : la collection des lois de probabilité qui définissent l'hypothèse nulle

et

  • \mathcal{P}_1 :la collection des lois de probabilité qui définissent l'alternative

Définition: les type d'erreurs

De même que le risque quadratique nous permet de quantifier les performances d'un estimateur, les notions d'erreur de première et de seconde espèce nous permettent de quantifier les performances d'un test binaire

Notez qu'il nous faut introduire deux quantités pour quantifier les performances d'un test

  • Une erreur de première espèce consiste à rejeter H_0 à tort lorsque les données sont des tirages selon une loi appartenant à l'hypothèse nulle (les données sont tirées sous l'hypothèse nulle).

  • Une erreur de seconde espèce consiste à ne pas rejeter H_0 à tort lorsque les données sont des tirages selon une loi appartenant à l'hypothèse alternative (les données sont tirées sous l'alternative).

Niveau et puissance

On appelle niveau du test T,

\sup_{P \in \mathcal{P}_0 } P \{ T= 1\}

(le supremum de l'erreur de première espèce)

On appelle puissance du test T sous P \in \mathcal{P}_1 \cup \mathcal{P}_0, la probabilité que T rejette H_0 sous P:

\beta_T(P)= P\{ T=1\}

Sous l'alternative, la puissance est le complément à un de l'erreur de seconde espèce.

On veut à la fois un test de petit niveau et de grande puissance sous l'alternative

Ces deux objectifs sont antagonistes

Dans le cas où on teste deux hypothèses simples, il existe une méthodologie qui réalise le meilleur compromis possible

Tests dits de rapport de vraisemblance

On peut associer

  • à chaque \theta \in ]0,1[ et
  • à chaque échantillon x_1, \ldots, x_n,

une vraisemblance : la probabilité de x_1, \ldots, x_n sous P_ \theta^{\otimes n}:

P_ \theta^{\otimes n} \{ x_1 , \ldots, x_n\} = \left( \frac{\theta}{1- \theta}\right)^{n \overline{X}_n} (1- \theta)^n

Definition Test de rapport de vraisemblance entre hypothèses simples

Un test de rapport de vraisemblance de H_1 contre H_0 consiste à

comparer le rapport

P_{\theta_1}^{\otimes n} \{ x_1 , \ldots, x_n\}/ P_ {\theta_0}^{\otimes n} \{ x_1 , \ldots, x_n\}

à un seuil,

  • à rejeter H_0 si le seuil est dépassé,

  • à ne pas rejeter H_0 si le seuil n'est pas dépassé.

Ici, le rapport de vraisemblance est une fonction de

\overline{X}_n = \sum_{i=1}^n X_i/n= \widehat{\theta}_n

ce n'est pas du tout une simple coïncidence

\left(\frac{1-\theta_1}{1-\theta_0}\right)^n \left(\frac{\theta_1(1-\theta_0)}{\theta_0(1-\theta_1)} \right)^{n \widehat{\theta}_n}

Comparer le rapport de vraisemblance à un seuil est équivalent à comparer \widehat{\theta}_n à un seuil

  • On rejette H_0 lorsque \widehat{\theta}_n dépasse le seuil,

  • On ne rejette pas H_0 si \widehat{\theta}_n ne dépasse pas le seuil

Optimalité des tests dits de rapport de vraisemblance

Version préliminaire du Lemme de Neyman-Pearson

S'il existe un test de rapport de vraisemblance T_0 de niveau \alpha > 0 et de fonction puissance \beta_{T_0},

alors

pour tout test T de niveau inférieur ou égal à \alpha, la fonction puissance \beta_T de T vérifie

\beta_T (P_1) \leq \beta_{T_0} (P_1)

Version préliminaire du Lemme de Neyman-Pearson

S'il existe un test de rapport de vraisemblance T_0 de niveau \alpha > 0 et de fonction puissance \beta_{T_0},

alors

pour tout test T de niveau inférieur ou égal à \alpha, la fonction puissance \beta_T de T vérifie

\beta_T (P_1) \leq \beta_{T_0} (P_1)

Pour son niveau, le test de rapport de vraisemblance est de puissance maximale sous l'alternative

Dernière preuve

Preuve

On note p_0 () \ et p_1 () les versions des densités utilisées dans la définition du test T_0

Il existe une valeur \tau < \infty, telle que

P_0 \left\{ p_0 (X) / p_1 (X) > \tau \right\} = \alpha

Et T_0 est défini par

T_0 (x) = \mathbb{I}_{p_1 (x) / p_0 (x) > \tau .}

Preuve (suite)

La preuve du lemme de Neymann-Pearson se réduit alors à:

\begin{array}{rcl}\beta_{T_0} (P_1) - \beta_T (P_1) & = & \mathbb{E}_{P_1} \left[ T_0 - T \right]\\ & = & \mathbb{E}_{P_0} \left[ \frac{p_1 (X)}{p_0 (X)_{}} (T_0 - T) \right] + \mathbb{E}_{P_1} \left[ (T_0 - T) \mathbb{I}_{p_0 (X) = 0} \right]\\ & & \text{sur l'événement } p_0 (X) = 0, T_0 = 1, \operatorname{car} \operatorname{le} \operatorname{rapport}\\ & & \operatorname{de} \operatorname{vraisemblance} \operatorname{est} \operatorname{infini}\\ & \geq & \mathbb{E}_{P_0} \left[ \frac{p_1 (X)}{p_0 (X)_{}} (T_0 - T) \right]\\ & = & \mathbb{E}_{P_0} \left[ \left( \frac{p_1 (X)}{p_0 (X)_{}} - \tau \right) (T_0 - T) \right] + \tau \mathbb{E}_{P_0} \left[ T_0 - T \right]\\ & & \operatorname{comme} \left( \frac{p_1 (X)}{p_0 (X)_{}} - \tau \right) (T_0 - T) \geq 0,\\ & \geq & \tau \mathbb{E}_{P_0} \left[ T_0 - T \right] \\ & \geq & 0\end{array}

Courbe ROC des tests de rapport de vraisemblance

Courbes puissance en fonction du niveau pour des tests de rapports de vraisemblance entre deux Bernoullis de paramètres 0.5 et 0.525, pour différentes tailles d'échantillons n

Pour chaque courbe puissance/niveau, le meilleur compromis erreur de première espèce/erreur de seconde espèce est la distance \ell_1 au point (0,1).

Cette distance diminue lorsque la taille de l'échantillon augmente.

Références

The End

Exploratory Data Analysis : Statistiques I

2022-01-15

Master I MIDS & MFA

Statistique Fondamentale

Stéphane Boucheron

Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
oTile View: Overview of Slides
Esc Back to slideshow