Outils pour utilisateurs

Outils du site


math:2:estimation_parametre_bernoulli

Ceci est une ancienne révision du document !


Premier exemple

Présentation de la situation

Soit $p\in\left]0,1\right[$ fixé mais inconnu (on va le tirer au sort lors d'une simulation). L'objectif est de construire un test qui permettra, à l'aide d'un échantillon représentatif de ce test, d'estimer ce nombre $p$ : estimation à l'aide d'un nombre (estimation ponctuelle) ou estimation à l'aide d'un intervalle (estimation par intervalle de confiance).

On considère une succession infinie de lancers d'une pièce dont la probabilité d'obtenir le côté pile vaut $p$ à chaque lancer ce qui nous donne un espace probabilisé $(\Omega,\mathcal{A},\mathbb{P})$. Pour tout entier $k\geqslant1$, on note $X_{k}$ la variable aléatoire qui prend la valeur 1 (resp. 0) si le $k$-ème lancer donne pile (resp. face). Alors, les variables aléatoires $X_{k}$ sont mutuellement indépendantes et suivent toutes la loi $\mathcal{B}(1,p)$.

Estimation ponctuelle

  • Soit $\omega$ une éventualité et $n$ un entier naturel non nul. Alors $(X_{1}(\omega),\dots,X_{n}(\omega))$ est un $\boldsymbol{n}$-échantillon observé (on ne peut pas réaliser expérimentalement cette situation infinie, on se contentera donc d'observer des échantillons). Pour tout entier $n\geqslant1$, on définit la moyenne empirique de l'échantillon $(X_{1}(\omega),\dots,X_{n}(\omega))$ par :
    $$\ds\bar{X}_{n}(\omega)=\frac{1}{n}\left(X_{1}(\omega)+\dots+X_{n}(\omega)\right)=\frac{1}{n}\sum_{k=1}^{n}{X_{k}(\omega)}$$Cela définit bien une variable aléatoire pour chaque entier $n\geqslant1$.
  • D'après la loi faible des grands nombres, on sait que la suite de variables aléatoires $(\bar{X}_{n})_{n\geqslant1}$ converge en probabilité vers la variable aléatoire certaine égale à $p$ : cette suite est alors appelée estimateur convergent du réel $p$ (dans le langage courant, on dira aussi que $\bar{X}_{n}$ est un estimateur de $p$).
  • Comme $\mathbb{E}(\bar{X}_{n})=p$, cet estimateur $(\bar{X}_{n})_{n\geqslant1}$ de $p$ est dit estimateur sans biais.
  • D'après ce qui précède (pas tout à fait à vrai dire mais c'est quand même le plus probable au sens probabiliste du maximum de vraisemblance), le réel $\bar{X}_{n}(\omega)$ est une valeur approchée de $p$ donc on dit que $\bar{X}_{n}(\omega)$ est une estimation ponctuelle du réel $p$ d'autant meilleure (en moyenne) que $n$ est grand.

Simulation informatique de $\bar{X}_{2000}$

  n=2000 ; p=rand()
  Xn=mean(grand(1,n,"bin",1,p))
  disp("Estimation : ") ; disp(Xn)
  disp("Valeur réelle : ") ; disp(p)

Estimation par intervalle de confiance

Choisir une estimation, c'est commettre, a priori, une erreur sur la valeur exacte de $p$. Toujours d'après la loi faible des grands nombres, plus l'échantillon est grand, plus la probabilité que l'estimation soit « éloignée » de la valeur exacte est faible. Plus précisément, on aimerait connaître un intervalle $[a,b]$ qui contiendrait $p$ avec une probabilité supérieure à une certaine limite fixée à l'avance (0,95 par exemple c'est à dire un risque d'erreur de 5%). Dans le cas qui nous concerne, on recherche $a<b$ en fonction de l'échantillon observé tels que :
$$\ds\mathbb{P}\left(p\in[a,b]\right)\geqslant0,95$$ou encore
$$\mathbb{P}\left(p\not\in[a,b]\right)\leqslant0,05$$le plus simple étant de déterminer un intervalle centré en $\bar{X}_{n}(\omega)$.

Une première méthode : à l'aide de l'inégalité de Bienaymé-Tchebychev

On a choisi $n=2000$ pour la simulation. On sait que, pour tout $\varepsilon>0$, on a :
$$\ds\mathbb{P}\left(\left|\bar{X}_{2000}-p\right|>\varepsilon\right)\leqslant\frac{\V\left(\bar{X}_{2000}\right)}{\varepsilon^{2}}=\frac{p(1-p)}{2000\varepsilon^{2}}\leqslant\frac{1}{8000\varepsilon^{2}}$$puisqu'il est bien connu que :
$$\ds\forall x\in[0,1],\;0\leqslant x(1-x)\leqslant\frac{1}{4}$$Ainsi, pour que la probabilité soit inférieure à 0,05 il suffit que le dernier membre des inégalités ci-dessus soit inférieur à 0,05 ce qui nous donne :
$$\ds\frac{1}{8000\varepsilon^{2}}\leqslant0,05\quad\iff\quad\varepsilon^{2}\geqslant\frac{1}{400}\quad\iff\quad\varepsilon\geqslant\frac{1}{20}=0,05$$Par conséquent :
$$\ds\mathbb{P}\left(\left|\bar{X}_{2000}-p\right|>0,05\right)\leqslant0,05$$donc
$$\ds\mathbb{P}\left(p\in\left[\bar{X}_{2000}-0.05,\bar{X}_{2000}+0.05\right]\right)\geqslant0,95$$L'intervalle aléatoire
$$\left[\bar{X}_{2000}-0.05,\bar{X}_{2000}+0.05\right]$$est appelé intervalle de confiance du réel $p$ au niveau de confiance 0,95 et l'intervalle réel
$$\left[\bar{X}_{2000}(\omega)-0.05,\bar{X}_{2000}(\omega)+0.05\right]$$est appelé réalisation de l'intervalle de confiance du réel $p$ au niveau de confiance 0,95.

Simulation

On modifie le programme principal précédent afin de réaliser 1000 estimations différentes du même paramètre $p$ (c'est à dire que l'on détermine 1000 éventualités $\omega$ et donc 1000 valeurs de $\bar{X}_{2000}(\omega)$) et on compte le nombre de fois que $p$ est dans l'intervalle de confiance au risque 0,05.

n=2000 ; m=1000 ; p=rand()
X=0
for k=1:m
    Xn=mean(grand(1,n,"bin",1,p))
    if abs(Xn-p)<0.05 then X=X+1
    end
end
disp("Proportion d''intervalles contenant p : ") ; disp(100*X/m)

Résultats

Proportion d'intervalles contenant p : 100
Proportion d'intervalles contenant p : 100
Proportion d'intervalles contenant p : 100

Commentaires

Les majorations effectuées sont tellement grossières que tous les intervalles de confiance contiennent la valeur $p$ (alors qu'en moyenne 50 sur 1000 n'auraient pas dû contenir $p$).

Une seconde méthode : à l'aide d'une approximation par une loi normale

De manière analogue à la première méthode, on recherche $\varepsilon>0$ tel que
$$\ds\mathbb{P}\left(p\in\left[\bar{X}_{2000}-\varepsilon,\bar{X}_{2000}+\varepsilon\right]\right)\geqslant0,95$$Comme les $X_{k}$ sont mutuellement indépendantes et suivent la même loi (cette loi admettant un moment d'ordre 2) alors :
$$\ds\frac{\bar{X}_{n}-p}{\sqrt{\frac{p(1-p)}{n}}}\xrightarrow{\mathcal{L}}N\qquad\text{avec}\qquad N\hookrightarrow\mathcal{N}(0,1)$$Notons, comme d'habitude, $\Phi$ la fonction de répartition de la variable aléatoire $N$. Pour tout $\varepsilon>0$ et tout $n\geqslant1$, on a :
$$\begin{array}{rcl}\ds\mathbb{P}\left(\left|\bar{X}_{n}-p\right|\leqslant\varepsilon\right) & \ds = & \ds\mathbb{P}\left(\frac{\left|\bar{X}_{n}-p\right|}{\sqrt{\frac{p(1-p)}{n}}}\leqslant\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right) \\ & \approx & \ds\mathbb{P}\left(|N|\leqslant\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right) \\ & \approx & \ds\Phi\left(\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right)-\Phi\left(-\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right) \\ & \approx & 2\Phi\left(\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right)-1 \end{array}$$Pour $n=2000$, comme on calcule de manière approchée, on se permet temporairement (en première approximation et sans justification rigoureuse) de remplacer $p$ par son estimation $\bar{X}_{2000}(\omega)$ dans le membre de droite de l'égalité :
$$\ds\mathbb{P}\left(\left|\bar{X}_{2000}-p\right|\leqslant\varepsilon\right)\approx 2\Phi\left(\frac{\varepsilon\sqrt{2000}}{\sqrt{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}}\right)-1$$Or, à l'aide d'une table de valeurs de la fonction de répartition $\Phi$, on a :
$$\begin{array}{rcl}\ds2\Phi\left(\frac{\varepsilon\sqrt{2000}}{\sqrt{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}}\right)-1\geqslant0,95 & \iff & \ds\Phi\left(\frac{\varepsilon\sqrt{2000}}{\sqrt{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}}\right)\geqslant0,975 \\ & \iff & \ds\frac{\varepsilon\sqrt{2000}}{\sqrt{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}}\geqslant1,96 \\ & \iff & \ds\varepsilon\geqslant1,96\sqrt{\frac{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}{2000}} \end{array}$$On considère ainsi que l'intervalle aléatoire :
$$\ds\left[\bar{X}_{2000}-1,96\sqrt{\frac{\bar{X}_{2000}\left(1-\bar{X}_{2000}\right)}{2000}},\bar{X}_{2000}+1,96\sqrt{\frac{\bar{X}_{2000}\left(1-\bar{X}_{2000}\right)}{2000}}\right]$$est un intervalle de confiance du réel $p$ au niveau de confiance 0,95 et que l'intervalle réel :
$$\ds\left[\bar{X}_{2000}(\omega)-1,96\sqrt{\frac{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}{2000}},\bar{X}_{2000}(\omega)+1,96\sqrt{\frac{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}{2000}}\right]$$est une réalisation de l'intervalle de confiance du réel $p$ au niveau de confiance 0,95.

Simulation

On modifie le programme principal précédent afin de réaliser 1000 estimations différentes du même paramètre $p$ et on compte le nombre de fois que $p$ est dans l'intervalle de confiance au risque 0,05.

n=2000 ; m=1000 ; p=rand()
X=0
for k=1:m
    Xn=mean(grand(1,n,"bin",1,p))
    if abs(Xn-p)<1.96*sqrt(Xn*(1-Xn)/n) then X=X+1
    end
end
disp("Proportion d''intervalles contenant p : ") ; disp(100*X/m)

Résultats

(toujours avec 1000 répétitions pour chacune de ces six exécutions du programme)

Proportion d'intervalles contenant p : 93.4
Proportion d'intervalles contenant p : 95.6
Proportion d'intervalles contenant p : 94.8
Proportion d'intervalles contenant p : 95.4
Proportion d'intervalles contenant p : 94.1
Proportion d'intervalles contenant p : 96.1

Commentaires

Les résultats obtenus sont bien conformes à ceux espérés ce qui doit nous conforter, a posteriori, dans le choix des deux approximations effectuées. Remarquons que l'on ne connaît pas l'amplitude de l'intervalle de confiance (qui change en fonction de l'estimation de $p$ obtenue alors que ce n'était pas le cas lors de la première méthode). Toutefois, on a :
$$\ds 1,96\sqrt{\frac{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}{2000}}\leqslant1,96\sqrt{\frac{1/4}{2000}}\approx0,022$$ce qui est « nettement » inférieur à 0,05 obtenu avec de la première méthode.

math/2/estimation_parametre_bernoulli.1456048298.txt.gz · Dernière modification : 2020/05/10 21:15 (modification externe)