Table des matières
Estimation par intervalle de confiance
Généralités
S'il existe des critères pour juger des qualités d'un estimateur ponctuel (biais, risque, convergence), aucune certitude ne peut jamais être apportée quant au fait que l'estimation donne la vraie valeur à estimer. Nous allons donc rechercher un intervalle aléatoire qui contient $g(\theta)$ avec une probabilité minimale donnée.
Définition
Soit $U_{n}=\varphi_{n}(X_{1},\dots,X_{n})$ et $V_{n}=\psi_{n}(X_{1},\dots,X_{n})$ deux statistiques sur un même $n$-échantillon iid et telles que :
$$\ds\mathbb{P}_{\theta}(U_{n}\leqslant V_{n})=1$$pour tout $\theta\in\Theta$. Soit $\theta\in\Theta$ et $\alpha\in\left]0,1\right[$.
- On dit que l'intervalle $[U_{n},V_{n}]$ est un intervalle aléatoire de confiance de $g(\theta)$ au niveau de confiance $1-\alpha$ si et seulement si :
$$\ds\mathbb{P}_{\theta}(U_{n}\leqslant g(\theta)\leqslant V_{n})\geqslant1-\alpha$$ - Le réel $\alpha$ est appelé risque.
- Soit $\omega\in\Omega$. L'intervalle $\left[U_{n}(\omega),V_{n}(\omega)\right]$ est une réalisation de cet intervalle aléatoire de confiance.
Exemples
- Estimation de l'espérance d'une loi dans le cas où la variance est connue : deux méthodes (inégalité de Bienaymé-Tchebychev et théorème de la limite centrée).
- Estimation de l'étendue par intervalle de confiance : reprendre la situation de l'exemple 2 initial avec l'estimateur non biaisé.
Remarque
Très souvent, on recherche un intervalle de confiance de $g(\theta)$ sous la forme d'un intervalle centré en une estimation ponctuelle de $g(\theta)$.
Définition
Soit $(X_{n})_{n\geqslant1}$ une suite de variables aléatoires iid, $\alpha$ un réel de $]0,1[$, $(U_{n})_{n\geqslant1}$ et $(V_{n})_{n\geqslant1}$ deux suites d'estimateurs de $g(\theta)$ telles que :
$$\ds\forall\theta\in\Theta,\;\mathbb{P}_{\theta}(U_{n}\leqslant V_{n})=1$$On dit que la suite d'intervalles $\left(\left[U_{n},V_{n}\right]\right)_{n\geqslant1}$ est un intervalle de confiance asymptotique de $g(\theta)$ au niveau de confiance $1-\alpha$ si et seulement si, pour tout $\theta\in\Theta$, il existe une suite $(\alpha_{n})_{n\geqslant1}$ de réels qui converge vers $\alpha$ telle que :
$$\ds\forall n\geqslant1,\;\mathbb{P}_{\theta}\left(U_{n}\leqslant g(\theta)\leqslant V_{n}\right)\geqslant1-\alpha_{n}$$
Estimation par intervalle de confiance de l'espérance d'une loi
Il s'agit ici d'obtenir un intervalle de confiance de l'espérance $m$ d'une loi admettant aussi une variance elle-même inconnue. On commence par le cas particulier de la loi de Bernoulli. On étend ensuite la méthode dans un cas plus général que l'on se contente de démontrer dans le cadre de l'existence d'un moment d'ordre 4.
Théorème
On suppose que les variables aléatoires $X_{1},\dots,X_{n}$ sont mutuellement indépendantes et suivent la loi $\mathcal{B}(1,p)$ où $p\in\left]0,1\right[$ est inconnu. Soit $\alpha\in\left]0,1\right[$ et $t_{\alpha}$ le réel positif tel que $\ds\Phi(t_{\alpha})=1-\frac{\alpha}{2}$ (c'est à dire que $2\Phi(t_{\alpha})-1=1-\alpha$). On rappelle aussi que $\ds0<p(1-p)\leqslant\frac{1}{4}$ lorsque $p\in\left]0,1\right[$.
Un intervalle de confiance de $p$ au niveau de confiance $1-\alpha$ est déterminé :
- grâce à l'inégalité de Bienaymé-Tchebychev par :
$$\ds\left[\bar{X}_{n}-\frac{1}{2\sqrt{\alpha n}},\bar{X}_{n}+\frac{1}{2\sqrt{\alpha n}}\right]$$ - grâce au théorème de la limite centrée par :
$$\ds\left[\bar{X}_{n}-t_{\alpha}\sqrt{\frac{\bar{X}_{n}\left(1-\bar{X}_{n}\right)}{n}},\bar{X}_{n}+t_{\alpha}\sqrt{\frac{\bar{X}_{n}\left(1-\bar{X}_{n}\right)}{n}}\right]$$ou bien :
$$\ds\left[\bar{X}_{n}-\frac{t_{\alpha}}{2\sqrt{n}},\bar{X}_{n}+\frac{t_{\alpha}}{2\sqrt{n}}\right]$$
Remarque
On teste le théorème à l'aide du programme suivant :
rand("seed",getdate("s")) // initialisation du hasard p=grand(1,1,"unf",0,1) n=1000 ; alpha=0.05 ; t=1.96 ; m=10000 IBT=0 ; TLC1=0 ; TLC2=0 for k=1:m Xn=mean(grand(1,n,"bin",1,p)) if abs(Xn-p)<t/sqrt(alpha*n)/2 then IBT=IBT+1 end if abs(Xn-p)<t*sqrt(Xn*(1-Xn)/n) then TLC1=TLC1+1 end if abs(Xn-p)<t/sqrt(n)/2 then TLC2=TLC2+1 end end disp("Proportion d''intervalles de type IBT contenant p : ") ; disp(100*IBT/m) disp("Proportion d''intervalles de type TLC1 contenant p : ") ; disp(100*TLC1/m) disp("Proportion d''intervalles de type TLC2 contenant p : ") ; disp(100*TLC2/m) disp("p = ") ; disp(p)
Tableau récapitulatif de résultats pour $n=1000$ et $\alpha=0.05$ (10000 répétitions) :
$p$ réel | IBT | TLC1 | TLC2 |
---|---|---|---|
0.5238291 | 100.0 | 95.04 | 95.04 |
0.7667777 | 100.0 | 94.94 | 97.94 |
0.1610254 | 100.0 | 95.19 | 99.26 |
0.0131476 | 100.0 | 94.31 | 100.0 |
0.9775233 | 100.0 | 94.88 | 100.0 |
0.2489265 | 100.0 | 94.37 | 97.73 |
0.3863217 | 100.0 | 94.63 | 95.57 |
Exemple
1000 électeurs choisis au hasard ont été interrogés avant une élection. 520 ont déclaré qu'ils voteront pour le candidat A et 480 pour le candidat B (il n'y a que deux choix possibles).
- Déterminer un intervalle de confiance à 95% de la proportion réelle $p$ d'électeurs qui voteront pour le candidat A.
- Même question avec 99%.
<html><a name=“intervalle_confiance_esperance”></a></html>
Soit $(X_{n})_{n\geqslant1}$ une suite de variables aléatoires iid dont la loi :
- admet une espérance inconnue $m$,
- admet une variance inconnue $\sigma^{2}>0$
- et, pour les besoins d'une démonstration avec les outils du programme, un moment d'ordre 4 noté $m_{4}$.
On note $\left(\bar{X}_{n}\right)_{n\geqslant1}$ et $\left(\bar{E}_{n}\right)_{n\geqslant1}$ les suites respectives des moyennes empiriques et des écarts types empiriques :
$$\ds\forall n\geqslant1,\;\bar{X}_{n}=\frac{1}{n}\sum_{k=1}^{n}{X_{k}}\quad\bar{E}_{n}=\sqrt{\frac{1}{n}\sum_{k=1}^{n}{\left(X_{k}-\bar{X}_{n}\right)^{2}}}$$Alors :
- on a les convergences en probabilité suivantes :
$$\ds\bar{X}_{n}\xrightarrow{\mathcal{P}}m$$et :
$$\bar{E}_{n}\xrightarrow{\mathcal{P}}\sigma$$ - pour $\alpha\in\left]0,1\right[$ et $t_{\alpha}\in\R$ tel que $\ds\Phi(t_{\alpha})=1-\frac{\alpha}{2}$, un intervalle de confiance aléatoire asymptotique de $m$ au niveau de confiance $1-\alpha$ est donné par :
$$\ds\left[\bar{X}_{n}-t_{\alpha}\frac{\bar{E}_{n}}{\sqrt{n}},\bar{X}_{n}+t_{\alpha}\frac{\bar{E}_{n}}{\sqrt{n}}\right]$$
Remarque
Pour diviser par $k$ (réel strictement positif) la largeur de cet intervalle de confiance, il faut multiplier par $k^2$ la taille de l'échantillon …
Exemple
Reprendre la situation de l'introduction.