Soit $p\in\left]0,1\right[$ fixé mais inconnu (on va le tirer au sort lors d'une simulation). L'objectif est de construire un test qui permettra, à l'aide d'un échantillon représentatif de ce test, d'estimer ce nombre $p$ : estimation à l'aide d'un nombre (estimation ponctuelle) ou estimation à l'aide d'un intervalle (estimation par intervalle de confiance).
On considère une succession infinie de lancers d'une pièce dont la probabilité d'obtenir le côté pile vaut $p$ à chaque lancer ce qui nous donne un espace probabilisé $(\Omega,\mathcal{A},\mathbb{P})$. Pour tout entier $k\geqslant1$, on note $X_{k}$ la variable aléatoire qui prend la valeur 1 (resp. 0) si le $k$-ème lancer donne pile (resp. face). Alors, les variables aléatoires $X_{k}$ sont mutuellement indépendantes et suivent toutes la loi $\mathcal{B}(1,p)$.
Soit $\omega$ une éventualité et $n$ un entier naturel non nul. Alors $(X_{1}(\omega),\dots,X_{n}(\omega))$ est un $\boldsymbol{n}$-échantillon observé (on ne peut pas réaliser expérimentalement cette situation infinie, on se contentera donc d'observer des échantillons). Pour tout entier $n\geqslant1$, on définit la moyenne empirique de l'échantillon $(X_{1}(\omega),\dots,X_{n}(\omega))$ par :
$$\ds\bar{X}_{n}(\omega)=\frac{1}{n}\left(X_{1}(\omega)+\dots+X_{n}(\omega)\right)=\frac{1}{n}\sum_{k=1}^{n}{X_{k}(\omega)}$$Cela définit bien une variable aléatoire pour chaque entier $n\geqslant1$.
D'après la loi faible des grands nombres, on sait que la suite de variables aléatoires $(\bar{X}_{n})_{n\geqslant1}$ converge en probabilité vers la variable aléatoire certaine égale à $p$ : cette suite est alors appelée estimateur convergent du réel $p$ (dans le langage courant, on dira aussi que $\bar{X}_{n}$ est un estimateur de $p$).
Comme $\mathbb{E}(\bar{X}_{n})=p$, cet estimateur $(\bar{X}_{n})_{n\geqslant1}$ de $p$ est dit estimateur sans biais.
D'après ce qui précède (pas tout à fait à vrai dire mais c'est quand même le plus probable au sens probabiliste du maximum de vraisemblance), le réel $\bar{X}_{n}(\omega)$ est une valeur approchée de $p$ donc on dit que $\bar{X}_{n}(\omega)$ est une estimation ponctuelle du réel $p$ d'autant meilleure (en moyenne) que $n$ est grand.
Simulation informatique de $\bar{X}_{2000}$
n=2000 ; p=rand() Xn=mean(grand(1,n,"bin",1,p)) disp("Estimation : ") ; disp(Xn) disp("Valeur réelle : ") ; disp(p)
Choisir une estimation, c'est commettre, a priori, une erreur sur la valeur exacte de $p$. Toujours d'après la loi faible des grands nombres, plus l'échantillon est grand, plus la probabilité que l'estimation soit « éloignée » de la valeur exacte est faible. Plus précisément, on aimerait connaître un intervalle $[a,b]$ qui contiendrait $p$ avec une probabilité supérieure à une certaine limite fixée $1-\alpha$ à l'avance (c'est à dire un risque d'erreur de $\alpha$). Dans le cas qui nous concerne, on recherche $a<b$ en fonction uniquement de l'échantillon observé tels que :
$$\ds\mathbb{P}\left(p\in[a,b]\right)\geqslant1-\alpha$$ou encore
$$\mathbb{P}\left(p\not\in[a,b]\right)\leqslant\alpha$$le plus simple étant de déterminer un intervalle centré en $\bar{X}_{n}(\omega)$.
Soit un entier $n\geqslant1$. On sait que, pour tout $\varepsilon>0$, on a :
$$\ds\mathbb{P}\left(\left|\bar{X}_{n}-p\right|>\varepsilon\right)\leqslant\frac{\mathbb{V}\left(\bar{X}_{n}\right)}{\varepsilon^{2}}=\frac{p(1-p)}{n\varepsilon^{2}}\leqslant\frac{1}{4n\varepsilon^{2}}$$puisqu'il est bien connu que :
$$\ds\forall x\in[0,1],\;0\leqslant x(1-x)\leqslant\frac{1}{4}$$Ainsi, pour que la probabilité soit inférieure à $\alpha$, il suffit que le dernier membre des inégalités ci-dessus soit inférieur à $\alpha$ ce qui nous donne :
$$\ds\frac{1}{4n\varepsilon^{2}}\leqslant\alpha\quad\iff\quad\varepsilon^{2}\geqslant\frac{1}{4n\alpha}\quad\iff\quad\varepsilon\geqslant\frac{1}{2\sqrt{n\alpha}}$$Par conséquent :
$$\ds\mathbb{P}\left(\left|\bar{X}_{n}-p\right|>\frac{1}{2\sqrt{n\alpha}}\right)\leqslant\alpha$$donc :
$$\ds\mathbb{P}\left(p\in\left[\bar{X}_{n}-\frac{1}{2\sqrt{n\alpha}},\bar{X}_{n}+\frac{1}{2\sqrt{n\alpha}}\right]\right)\geqslant1-\alpha$$
L'intervalle aléatoire
$$\ds\left[\bar{X}_{n}-\frac{1}{2\sqrt{n\alpha}},\bar{X}_{n}+\frac{1}{2\sqrt{n\alpha}}\right]$$est appelé intervalle aléatoire de confiance du réel $p$ au niveau de confiance $1-\alpha$ et l'intervalle réel
$$\ds\left[\bar{X}_{n}(\omega)-\frac{1}{2\sqrt{n\alpha}},\bar{X}_{n}(\omega)+\frac{1}{2\sqrt{n\alpha}}\right]$$est appelé réalisation de l'intervalle de confiance du réel $p$ au niveau de confiance $1-\alpha$.
Simulation numérique : On modifie le programme principal précédent ($n=2000$) afin de réaliser 1000 estimations différentes du même paramètre $p$ (c'est à dire que l'on détermine 1000 éventualités $\omega$ et donc 1000 valeurs de $\bar{X}_{2000}(\omega)$) et on compte le nombre de fois que $p$ est dans l'intervalle de confiance au risque 0,05.
n=2000 ; m=1000 ; p=rand() X=0 for k=1:m Xn=mean(grand(1,n,"bin",1,p)) if abs(Xn-p)<0.05 X=X+1 end end disp("Proportion d''intervalles contenant p : ") disp(100*X/m)
Proportion d'intervalles contenant p : 100 Proportion d'intervalles contenant p : 100 Proportion d'intervalles contenant p : 100
Les majorations effectuées sont tellement grossières que tous les intervalles de confiance contiennent la valeur $p$ (alors qu'en moyenne 50 sur 1000 n'auraient pas dû contenir $p$).
Soit un entier $n\geqslant1$. De manière analogue à la première méthode, on recherche $\varepsilon_{n}>0$ tel que :
$$\ds\mathbb{P}\left(p\in\left[\bar{X}_{n}-\varepsilon_{n},\bar{X}_{n}+\varepsilon_{n}\right]\right)\geqslant1-\alpha$$
Comme les $X_{k}$ sont mutuellement indépendantes et suivent la même loi (cette loi admettant une variance non nulle) alors :
$$\ds\bar{X}_{n}^{*}=\sqrt{n}\frac{\bar{X}_{n}-p}{\sqrt{p(1-p)}}\xrightarrow{\mathcal{L}}N\qquad\text{avec}\qquad N\hookrightarrow\mathcal{N}(0,1)$$
Notons, comme d'habitude, $\Phi$ la fonction de répartition de la variable aléatoire $N$. Pour tout $\varepsilon_{n}>0$ et tout $n\geqslant1$, on a :
$$\begin{array}{rcl}\ds\mathbb{P}\left(\left|\bar{X}_{n}-p\right|\leqslant\varepsilon_{n}\right) & = & \ds\mathbb{P}\left(\sqrt{n}\frac{\bar{X}_{n}-p}{\sqrt{p(1-p)}}\leqslant\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right) \\ & \approx & \ds\mathbb{P}\left(|N|\leqslant\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right) \\ & \approx & \ds\Phi\left(\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right)-\Phi\left(-\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right) \\ & \approx & \ds 2\Phi\left(\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right)-1 \end{array}$$
Or, à l'aide d'une table de valeurs de la fonction de répartition $\Phi$, on a :
$$\begin{array}{rcl}\ds 2\Phi\left(\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right)-1\geqslant1-\alpha & \iff & \ds \Phi\left(\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right)\geqslant1-\frac{\alpha}{2}=\Phi(t_{\alpha}) \\ & \iff & \ds\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\geqslant t_{\alpha} \\ & \iff & \ds\varepsilon_{n}\geqslant t_{\alpha}\sqrt{\frac{p(1-p)}{n}} \end{array}$$
Comme $\ds \bar{X}_{n}$ est un estimateur de $p$, on considère ainsi que l'intervalle aléatoire :
$$\ds\left[\bar{X}_{n}-t_{\alpha}\sqrt{\frac{\bar{X}_{n}(1-\bar{X}_{n})}{n}},\bar{X}_{n}+t_{\alpha}\sqrt{\frac{\bar{X}_{n}(1-\bar{X}_{n})}{n}}\right]$$est un intervalle aléatoire de confiance du réel $p$ au niveau de confiance $1-\alpha$ et que l'intervalle réel :
$$\ds\left[\bar{X}_{n}(\omega)-t_{\alpha}\sqrt{\frac{\bar{X}_{n}(\omega)(1-\bar{X}_{n}(\omega))}{n}},\bar{X}_{n}(\omega)+t_{\alpha}\sqrt{\frac{\bar{X}_{n}(\omega)(1-\bar{X}_{n}(\omega))}{n}}\right]$$est une réalisation de l'intervalle de confiance du réel $p$ au niveau de confiance $1-\alpha$.
Simulation numérique : On modifie le programme principal précédent afin de réaliser 1000 estimations différentes du même paramètre $p$ et on compte le nombre de fois que $p$ est dans l'intervalle de confiance au risque 0,05.
n=2000 ; m=1000 ; p=rand() X=0 for k=1:m Xn=mean(grand(1,n,"bin",1,p)) if abs(Xn-p)<1.96*sqrt(Xn*(1-Xn)/n) X=X+1 end end disp("Proportion d''intervalles contenant p : ") disp(100*X/m)
Proportion d'intervalles contenant p : 93.4 Proportion d'intervalles contenant p : 95.6 Proportion d'intervalles contenant p : 94.8 Proportion d'intervalles contenant p : 95.4 Proportion d'intervalles contenant p : 94.1 Proportion d'intervalles contenant p : 96.1
Les résultats obtenus sont bien conformes à ceux espérés ce qui doit nous conforter, a posteriori, dans le choix des deux approximations effectuées. Remarquons que l'on ne connaît pas l'amplitude de l'intervalle de confiance (qui change en fonction de l'estimation de $p$ obtenue alors que ce n'était pas le cas lors de la première méthode). Toutefois, on a :
$$\ds t_{\alpha}\sqrt{\frac{\bar{X}_{n}(\omega)(1-\bar{X}_{n}(\omega))}{n}}\leqslant t_{\alpha}\sqrt{\frac{1}{4n}}=\frac{t_{\alpha}}{2\sqrt{n}}$$La comparaison entre $\ds\frac{1}{2\sqrt{n\alpha}}$ et $\ds\frac{t_{\alpha}}{2\sqrt{n}}$ est nettement à l'avantage de cette dernière pour minimiser la demie-largeur de l'intervalle.