Outils pour utilisateurs

Outils du site


math:2:estimation_intervalle_confiance

Estimation par intervalle de confiance

Généralités

S'il existe des critères pour juger des qualités d'un estimateur ponctuel (biais, risque, convergence), aucune certitude ne peut jamais être apportée quant au fait que l'estimation donne la vraie valeur à estimer. Nous allons donc rechercher un intervalle aléatoire qui contient $g(\theta)$ avec une probabilité minimale donnée.

Définition

Soit $U_{n}=\varphi_{n}(X_{1},\dots,X_{n})$ et $V_{n}=\psi_{n}(X_{1},\dots,X_{n})$ deux statistiques sur un même $n$-échantillon iid et telles que :
$$\ds\mathbb{P}_{\theta}(U_{n}\leqslant V_{n})=1$$pour tout $\theta\in\Theta$. Soit $\theta\in\Theta$ et $\alpha\in\left]0,1\right[$.

  • On dit que l'intervalle $[U_{n},V_{n}]$ est un intervalle de confiance de $g(\theta)$ au niveau de confiance $1-\alpha$ si et seulement si :
    $$\ds\mathbb{P}_{\theta}(U_{n}\leqslant g(\theta)\leqslant V_{n})\geqslant1-\alpha$$
  • Le réel $\alpha$ est appelé risque.
  • Soit $\omega\in\Omega$. L'intervalle $\left[U_{n}(\omega),V_{n}(\omega)\right]$ est une réalisation de cet intervalle de confiance.

Exemples

  1. Estimation de l'espérance d'une loi dans le cas où la variance est connue : deux méthodes (inégalité de Bienaymé-Tchebychev et théorème de la limite centrée).
  2. Estimation de l'étendue par intervalle de confiance : reprendre la situation de l'exemple 2 initial avec l'estimateur non biaisé.

Remarque

Très souvent, on recherche un intervalle de confiance de $g(\theta)$ sous la forme d'un intervalle centré en une estimation ponctuelle de $g(\theta)$.

Définition

Soit $(X_{n})_{n\geqslant1}$ une suite de variables aléatoires iid, $\alpha$ un réel de $]0,1[$, $(U_{n})_{n\geqslant1}$ et $(V_{n})_{n\geqslant1}$ deux suites d'estimateurs de $g(\theta)$ telles que :
$$\ds\forall\theta\in\Theta,\;\mathbb{P}_{\theta}(U_{n}\leqslant V_{n})=1$$On dit que la suite d'intervalles $\left(\left[U_{n},V_{n}\right]\right)_{n\geqslant1}$ est un intervalle de confiance asymptotique de $g(\theta)$ au niveau de confiance $1-\alpha$ si et seulement si, pour tout $\theta\in\Theta$, il existe une suite $(\alpha_{n})_{n\geqslant1}$ de réels qui converge vers $\alpha$ telle que :
$$\ds\forall n\geqslant1,\;\mathbb{P}_{\theta}\left(U_{n}\leqslant g(\theta)\leqslant V_{n}\right)\geqslant1-\alpha_{n}$$

Estimation par intervalle de confiance de l'espérance d'une loi

Il s'agit ici d'obtenir un intervalle de confiance de l'espérance $m$ d'une loi admettant aussi une variance elle-même inconnue. On commence par le cas particulier de la loi de Bernoulli. On étend ensuite la méthode dans un cas plus général que l'on se contente de démontrer dans le cadre de l'existence d'un moment d'ordre 4.

Théorème

On suppose que les variables aléatoires $X_{1},\dots,X_{n}$ sont mutuellement indépendantes et suivent la loi $\mathcal{B}(1,p)$ où $p\in\left]0,1\right[$ est inconnu. Soit $\alpha\in\left]0,1\right[$ et $t_{\alpha}$ le réel positif tel que $\ds\Phi(t_{\alpha})=1-\frac{\alpha}{2}$ (c'est à dire que $2\Phi(t_{\alpha})-1=1-\alpha$). On rappelle aussi que $\ds0<p(1-p)\leqslant\frac{1}{4}$ lorsque $p\in\left]0,1\right[$.

Un intervalle de confiance de $p$ au niveau de confiance $1-\alpha$ est déterminé :

  • grâce à l'inégalité de Bienaymé-Tchebychev par :
    $$\ds\left[\bar{X}_{n}-\frac{1}{2\sqrt{\alpha n}},\bar{X}_{n}+\frac{1}{2\sqrt{\alpha n}}\right]$$
  • grâce au théorème de la limite centrée par :
    $$\ds\left[\bar{X}_{n}-t_{\alpha}\sqrt{\frac{\bar{X}_{n}\left(1-\bar{X}_{n}\right)}{n}},\bar{X}_{n}+t_{\alpha}\sqrt{\frac{\bar{X}_{n}\left(1-\bar{X}_{n}\right)}{n}}\right]$$ou bien :
    $$\ds\left[\bar{X}_{n}-\frac{t_{\alpha}}{2\sqrt{n}},\bar{X}_{n}+\frac{t_{\alpha}}{2\sqrt{n}}\right]$$

Remarque

On teste le théorème à l'aide du programme suivant :

rand("seed",getdate("s")) // initialisation du hasard
p=grand(1,1,"unf",0,1)
n=1000 ; alpha=0.05 ; t=1.96 ; m=10000
IBT=0 ; TLC1=0 ; TLC2=0
for k=1:m
    Xn=mean(grand(1,n,"bin",1,p))
    if abs(Xn-p)<t/sqrt(alpha*n)/2 then IBT=IBT+1
    end
    if abs(Xn-p)<t*sqrt(Xn*(1-Xn)/n) then TLC1=TLC1+1
    end
    if abs(Xn-p)<t/sqrt(n)/2 then TLC2=TLC2+1
    end
end
disp("Proportion d''intervalles de type IBT contenant p : ") ; disp(100*IBT/m)
disp("Proportion d''intervalles de type TLC1 contenant p : ") ; disp(100*TLC1/m)
disp("Proportion d''intervalles de type TLC2 contenant p : ") ; disp(100*TLC2/m)
disp("p = ") ; disp(p)

Tableau récapitulatif de résultats pour $n=1000$ et $\alpha=0.05$ (10000 répétitions) :

$p$ réel IBT TLC1 TLC2
0.5238291 100.0 95.04 95.04
0.7667777 100.0 94.94 97.94
0.1610254 100.0 95.19 99.26
0.0131476 100.0 94.31 100.0
0.9775233 100.0 94.88 100.0
0.2489265 100.0 94.37 97.73
0.3863217 100.0 94.63 95.57

Exemple

1000 électeurs choisis au hasard ont été interrogés avant une élection. 520 ont déclaré qu'ils voteront pour le candidat A et 480 pour le candidat B (il n'y a que deux choix possibles).

  1. Déterminer un intervalle de confiance à 95% de la proportion réelle $p$ d'électeurs qui voteront pour le candidat A.
  2. Même question avec 99%.

Théorème

Soit $(X_{n})_{n\geqslant1}$ une suite de variables aléatoires iid dont la loi :

  • admet une espérance inconnue $m$,
  • admet une variance inconnue $\sigma^{2}>0$
  • et, pour les besoins d'une démonstration avec les outils du programme, un moment d'ordre 4 noté $m_{4}$.

On note $\left(\bar{X}_{n}\right)_{n\geqslant1}$ et $\left(\bar{E}_{n}\right)_{n\geqslant1}$ les suites respectives des moyennes empiriques et des écarts types empiriques :
$$\ds\forall n\geqslant1,\;\bar{X}_{n}=\frac{1}{n}\sum_{k=1}^{n}{X_{k}}\quad\bar{E}_{n}=\sqrt{\frac{1}{n}\sum_{k=1}^{n}{\left(X_{k}-\bar{X}_{n}\right)^{2}}}$$Alors :

  • on a les convergences en probabilité suivantes :
    $$\ds\bar{X}_{n}\xrightarrow{\mathcal{P}}m$$et :
    $$\bar{E}_{n}\xrightarrow{\mathcal{P}}\sigma$$
  • pour $\alpha\in\left]0,1\right[$ et $t_{\alpha}\in\R$ tel que $\ds\Phi(t_{\alpha})=1-\frac{\alpha}{2}$, un intervalle de confiance aléatoire asymptotique de $m$ au niveau de confiance $1-\alpha$ est donné par :
    $$\ds\left[\bar{X}_{n}-t_{\alpha}\frac{\bar{E}_{n}}{\sqrt{n}},\bar{X}_{n}+t_{\alpha}\frac{\bar{E}_{n}}{\sqrt{n}}\right]$$

Remarque

Pour diviser par $k$ (réel strictement positif) la largeur de cet intervalle de confiance, il faut multiplier par $k^2$ la taille de l'échantillon …

Exemple

Reprendre la situation de l'introduction.

math/2/estimation_intervalle_confiance.txt · Dernière modification: 2020/05/10 21:19 (modification externe)