Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes |
math:2:estimation_parametre_bernoulli [2016/02/21 10:53] – [Estimation ponctuelle] Alain Guichet | math:2:estimation_parametre_bernoulli [2020/05/10 21:19] – modification externe 127.0.0.1 |
---|
| |
| |
Choisir une estimation, c'est commettre, a priori, une erreur sur la valeur exacte de $p$. Toujours d'après la loi faible des grands nombres, plus l'échantillon est grand, plus la probabilité que l'estimation soit « éloignée » de la valeur exacte est faible. Plus précisément, on aimerait connaître un intervalle $[a,b]$ qui contiendrait $p$ avec une probabilité supérieure à une certaine limite fixée à l'avance (0,95 par exemple c'est à dire un **risque** d'erreur de 5%). Dans le cas qui nous concerne, on recherche $a<b$ en fonction de l'échantillon observé tels que :\\ $$\ds\mathbb{P}\left(p\in[a,b]\right)\geqslant0,95$$ou encore\\ $$\mathbb{P}\left(p\not\in[a,b]\right)\leqslant0,05$$le plus simple étant de déterminer un intervalle centré en $\bar{X}_{n}(\omega)$. | Choisir une estimation, c'est commettre, a priori, une erreur sur la valeur exacte de $p$. Toujours d'après la loi faible des grands nombres, plus l'échantillon est grand, plus la probabilité que l'estimation soit « éloignée » de la valeur exacte est faible. Plus précisément, on aimerait connaître un intervalle $[a,b]$ qui contiendrait $p$ avec une probabilité supérieure à une certaine limite fixée $1-\alpha$ à l'avance (c'est à dire un **risque d'erreur** de $\alpha$). Dans le cas qui nous concerne, on recherche $a<b$ en fonction uniquement de l'échantillon observé tels que :\\ $$\ds\mathbb{P}\left(p\in[a,b]\right)\geqslant1-\alpha$$ou encore\\ $$\mathbb{P}\left(p\not\in[a,b]\right)\leqslant\alpha$$le plus simple étant de déterminer un intervalle centré en $\bar{X}_{n}(\omega)$. |
| |
**Une première méthode : à l'aide de l'inégalité de Bienaymé-Tchebychev** | |
| |
On a choisi $n=2000$ pour la simulation. On sait que, pour tout $\varepsilon>0$, on a :\\ $$\ds\mathbb{P}\left(\left|\bar{X}_{2000}-p\right|>\varepsilon\right)\leqslant\frac{\V\left(\bar{X}_{2000}\right)}{\varepsilon^{2}}=\frac{p(1-p)}{2000\varepsilon^{2}}\leqslant\frac{1}{8000\varepsilon^{2}}$$puisqu'il est bien connu que :\\ $$\ds\forall x\in[0,1],\;0\leqslant x(1-x)\leqslant\frac{1}{4}$$Ainsi, pour que la probabilité soit inférieure à 0,05 il suffit que le dernier membre des inégalités ci-dessus soit inférieur à 0,05 ce qui nous donne :\\ $$\ds\frac{1}{8000\varepsilon^{2}}\leqslant0,05\quad\iff\quad\varepsilon^{2}\geqslant\frac{1}{400}\quad\iff\quad\varepsilon\geqslant\frac{1}{20}=0,05$$Par conséquent :\\ $$\ds\mathbb{P}\left(\left|\bar{X}_{2000}-p\right|>0,05\right)\leqslant0,05$$donc\\ $$\ds\mathbb{P}\left(p\in\left[\bar{X}_{2000}-0.05,\bar{X}_{2000}+0.05\right]\right)\geqslant0,95$$L'intervalle aléatoire\\ $$\left[\bar{X}_{2000}-0.05,\bar{X}_{2000}+0.05\right]$$est appelé **intervalle de confiance** du réel $p$ au niveau de confiance 0,95 et l'intervalle réel\\ $$\left[\bar{X}_{2000}(\omega)-0.05,\bar{X}_{2000}(\omega)+0.05\right]$$est appelé **réalisation de l'intervalle de confiance** du réel $p$ au niveau de confiance 0,95. | ==== Une première méthode : à l'aide de l'inégalité de Bienaymé-Tchebychev ==== |
| |
**Simulation** | |
| |
On modifie le programme principal précédent afin de réaliser 1000 estimations différentes du même paramètre $p$ (c'est à dire que l'on détermine 1000 éventualités $\omega$ et donc 1000 valeurs de $\bar{X}_{2000}(\omega)$) et on compte le nombre de fois que $p$ est dans l'intervalle de confiance au risque 0,05. | Soit un entier $n\geqslant1$. On sait que, pour tout $\varepsilon>0$, on a :\\ $$\ds\mathbb{P}\left(\left|\bar{X}_{n}-p\right|>\varepsilon\right)\leqslant\frac{\mathbb{V}\left(\bar{X}_{n}\right)}{\varepsilon^{2}}=\frac{p(1-p)}{n\varepsilon^{2}}\leqslant\frac{1}{4n\varepsilon^{2}}$$puisqu'il est bien connu que :\\ $$\ds\forall x\in[0,1],\;0\leqslant x(1-x)\leqslant\frac{1}{4}$$Ainsi, pour que la probabilité soit inférieure à $\alpha$, il suffit que le dernier membre des inégalités ci-dessus soit inférieur à $\alpha$ ce qui nous donne :\\ $$\ds\frac{1}{4n\varepsilon^{2}}\leqslant\alpha\quad\iff\quad\varepsilon^{2}\geqslant\frac{1}{4n\alpha}\quad\iff\quad\varepsilon\geqslant\frac{1}{2\sqrt{n\alpha}}$$Par conséquent :\\ $$\ds\mathbb{P}\left(\left|\bar{X}_{n}-p\right|>\frac{1}{2\sqrt{n\alpha}}\right)\leqslant\alpha$$donc :\\ $$\ds\mathbb{P}\left(p\in\left[\bar{X}_{n}-\frac{1}{2\sqrt{n\alpha}},\bar{X}_{n}+\frac{1}{2\sqrt{n\alpha}}\right]\right)\geqslant1-\alpha$$ |
| |
| |
| L'intervalle aléatoire\\ $$\ds\left[\bar{X}_{n}-\frac{1}{2\sqrt{n\alpha}},\bar{X}_{n}+\frac{1}{2\sqrt{n\alpha}}\right]$$est appelé **intervalle de confiance** du réel $p$ au niveau de confiance $1-\alpha$ et l'intervalle réel\\ $$\ds\left[\bar{X}_{n}(\omega)-\frac{1}{2\sqrt{n\alpha}},\bar{X}_{n}(\omega)+\frac{1}{2\sqrt{n\alpha}}\right]$$est appelé **réalisation de l'intervalle de confiance** du réel $p$ au niveau de confiance $1-\alpha$. |
| |
| |
| **Simulation numérique : **On modifie le programme principal précédent ($n=2000$) afin de réaliser 1000 estimations différentes du même paramètre $p$ (c'est à dire que l'on détermine 1000 éventualités $\omega$ et donc 1000 valeurs de $\bar{X}_{2000}(\omega)$) et on compte le nombre de fois que $p$ est dans l'intervalle de confiance au risque 0,05. |
| |
<code scilab> | <code scilab> |
for k=1:m | for k=1:m |
Xn=mean(grand(1,n,"bin",1,p)) | Xn=mean(grand(1,n,"bin",1,p)) |
if abs(Xn-p)<0.05 then X=X+1 | if abs(Xn-p)<0.05 |
| X=X+1 |
end | end |
end | end |
disp("Proportion d''intervalles contenant p : ") ; disp(100*X/m) | disp("Proportion d''intervalles contenant p : ") |
| disp(100*X/m) |
</code> | </code> |
| |
**Résultats** | |
| |
Proportion d'intervalles contenant p : 100 | <code> |
Proportion d'intervalles contenant p : 100 | Proportion d'intervalles contenant p : 100 |
Proportion d'intervalles contenant p : 100 | Proportion d'intervalles contenant p : 100 |
| Proportion d'intervalles contenant p : 100 |
| </code> |
| |
**Commentaires** | |
| |
Les majorations effectuées sont tellement grossières que tous les intervalles de confiance contiennent la valeur $p$ (alors qu'en moyenne 50 sur 1000 n'auraient pas dû contenir $p$). | Les majorations effectuées sont tellement grossières que tous les intervalles de confiance contiennent la valeur $p$ (alors qu'en moyenne 50 sur 1000 n'auraient pas dû contenir $p$). |
| |
**Une seconde méthode : à l'aide d'une approximation par une loi normale** | ==== Une seconde méthode : à l'aide d'une approximation par une loi normale ==== |
| |
De manière analogue à la première méthode, on recherche $\varepsilon>0$ tel que\\ $$\ds\mathbb{P}\left(p\in\left[\bar{X}_{2000}-\varepsilon,\bar{X}_{2000}+\varepsilon\right]\right)\geqslant0,95$$Comme les $X_{k}$ sont mutuellement indépendantes et suivent la même loi (cette loi admettant un moment d'ordre 2) alors :\\ $$\ds\frac{\bar{X}_{n}-p}{\sqrt{\frac{p(1-p)}{n}}}\xrightarrow{\mathcal{L}}N\qquad\text{avec}\qquad N\hookrightarrow\mathcal{N}(0,1)$$Notons, comme d'habitude, $\Phi$ la fonction de répartition de la variable aléatoire $N$. Pour tout $\varepsilon>0$ et tout $n\geqslant1$, on a :\\ $$\begin{array}{rcl}\ds\mathbb{P}\left(\left|\bar{X}_{n}-p\right|\leqslant\varepsilon\right) & \ds = & \ds\mathbb{P}\left(\frac{\left|\bar{X}_{n}-p\right|}{\sqrt{\frac{p(1-p)}{n}}}\leqslant\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right) \\ & \approx & \ds\mathbb{P}\left(|N|\leqslant\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right) \\ & \approx & \ds\Phi\left(\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right)-\Phi\left(-\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right) \\ & \approx & 2\Phi\left(\frac{\varepsilon}{\sqrt{\frac{p(1-p)}{n}}}\right)-1 \end{array}$$Pour $n=2000$, comme on calcule de manière approchée, on se permet temporairement (en première approximation et sans justification rigoureuse) de remplacer $p$ par son estimation $\bar{X}_{2000}(\omega)$ dans le membre de droite de l'égalité :\\ $$\ds\mathbb{P}\left(\left|\bar{X}_{2000}-p\right|\leqslant\varepsilon\right)\approx 2\Phi\left(\frac{\varepsilon\sqrt{2000}}{\sqrt{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}}\right)-1$$Or, à l'aide d'une table de valeurs de la fonction de répartition $\Phi$, on a :\\ $$\begin{array}{rcl}\ds2\Phi\left(\frac{\varepsilon\sqrt{2000}}{\sqrt{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}}\right)-1\geqslant0,95 & \iff & \ds\Phi\left(\frac{\varepsilon\sqrt{2000}}{\sqrt{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}}\right)\geqslant0,975 \\ & \iff & \ds\frac{\varepsilon\sqrt{2000}}{\sqrt{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}}\geqslant1,96 \\ & \iff & \ds\varepsilon\geqslant1,96\sqrt{\frac{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}{2000}} \end{array}$$On considère ainsi que l'intervalle aléatoire :\\ $$\ds\left[\bar{X}_{2000}-1,96\sqrt{\frac{\bar{X}_{2000}\left(1-\bar{X}_{2000}\right)}{2000}},\bar{X}_{2000}+1,96\sqrt{\frac{\bar{X}_{2000}\left(1-\bar{X}_{2000}\right)}{2000}}\right]$$est un **intervalle de confiance** du réel $p$ au niveau de confiance 0,95 et que l'intervalle réel :\\ $$\ds\left[\bar{X}_{2000}(\omega)-1,96\sqrt{\frac{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}{2000}},\bar{X}_{2000}(\omega)+1,96\sqrt{\frac{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}{2000}}\right]$$est une **réalisation de l'intervalle de confiance** du réel $p$ au niveau de confiance 0,95. | |
| |
**Simulation** | Soit un entier $n\geqslant1$. De manière analogue à la première méthode, on recherche $\varepsilon_{n}>0$ tel que :\\ $$\ds\mathbb{P}\left(p\in\left[\bar{X}_{n}-\varepsilon_{n},\bar{X}_{n}+\varepsilon_{n}\right]\right)\geqslant1-\alpha$$ |
| |
On modifie le programme principal précédent afin de réaliser 1000 estimations différentes du même paramètre $p$ et on compte le nombre de fois que $p$ est dans l'intervalle de confiance au risque 0,05. | Comme les $X_{k}$ sont mutuellement indépendantes et suivent la même loi (cette loi admettant une variance non nulle) alors :\\ $$\ds\bar{X}_{n}^{*}=\sqrt{n}\frac{\bar{X}_{n}-p}{\sqrt{p(1-p)}}\xrightarrow{\mathcal{L}}N\qquad\text{avec}\qquad N\hookrightarrow\mathcal{N}(0,1)$$ |
| |
| Notons, comme d'habitude, $\Phi$ la fonction de répartition de la variable aléatoire $N$. Pour tout $\varepsilon_{n}>0$ et tout $n\geqslant1$, on a :\\ $$\begin{array}{rcl}\ds\mathbb{P}\left(\left|\bar{X}_{n}-p\right|\leqslant\varepsilon_{n}\right) & = & \ds\mathbb{P}\left(\sqrt{n}\frac{\bar{X}_{n}-p}{\sqrt{p(1-p)}}\leqslant\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right) \\ & \approx & \ds\mathbb{P}\left(|N|\leqslant\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right) \\ & \approx & \ds\Phi\left(\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right)-\Phi\left(-\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right) \\ & \approx & \ds 2\Phi\left(\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right)-1 \end{array}$$ |
| |
| Or, à l'aide d'une table de valeurs de la fonction de répartition $\Phi$, on a :\\ $$\begin{array}{rcl}\ds 2\Phi\left(\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right)-1\geqslant1-\alpha & \iff & \ds \Phi\left(\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\right)\geqslant1-\frac{\alpha}{2}=\Phi(t_{\alpha}) \\ & \iff & \ds\sqrt{n}\frac{\varepsilon_{n}}{\sqrt{p(1-p)}}\geqslant t_{\alpha} \\ & \iff & \ds\varepsilon_{n}\geqslant t_{\alpha}\sqrt{\frac{p(1-p)}{n}} \end{array}$$ |
| |
| Comme $\ds \bar{X}_{n}$ est un estimateur de $p$, on considère ainsi que l'intervalle aléatoire :\\ $$\ds\left[\bar{X}_{n}-t_{\alpha}\sqrt{\frac{\bar{X}_{n}(1-\bar{X}_{n})}{n}},\bar{X}_{n}+t_{\alpha}\sqrt{\frac{\bar{X}_{n}(1-\bar{X}_{n})}{n}}\right]$$est un **intervalle de confiance** du réel $p$ au niveau de confiance $1-\alpha$ et que l'intervalle réel :\\ $$\ds\left[\bar{X}_{n}(\omega)-t_{\alpha}\sqrt{\frac{\bar{X}_{n}(\omega)(1-\bar{X}_{n}(\omega))}{n}},\bar{X}_{n}(\omega)+t_{\alpha}\sqrt{\frac{\bar{X}_{n}(\omega)(1-\bar{X}_{n}(\omega))}{n}}\right]$$est une **réalisation de l'intervalle de confiance** du réel $p$ au niveau de confiance $1-\alpha$. |
| |
| **Simulation numérique : **On modifie le programme principal précédent afin de réaliser 1000 estimations différentes du même paramètre $p$ et on compte le nombre de fois que $p$ est dans l'intervalle de confiance au risque 0,05. |
| |
<code scilab> | <code scilab> |
for k=1:m | for k=1:m |
Xn=mean(grand(1,n,"bin",1,p)) | Xn=mean(grand(1,n,"bin",1,p)) |
if abs(Xn-p)<1.96*sqrt(Xn*(1-Xn)/n) then X=X+1 | if abs(Xn-p)<1.96*sqrt(Xn*(1-Xn)/n) |
| X=X+1 |
end | end |
end | end |
disp("Proportion d''intervalles contenant p : ") ; disp(100*X/m) | disp("Proportion d''intervalles contenant p : ") |
| disp(100*X/m) |
</code> | </code> |
| |
**Résultats** | <code> |
| Proportion d'intervalles contenant p : 93.4 |
(toujours avec 1000 répétitions pour chacune de ces six exécutions du programme) | Proportion d'intervalles contenant p : 95.6 |
| Proportion d'intervalles contenant p : 94.8 |
Proportion d'intervalles contenant p : 93.4 | Proportion d'intervalles contenant p : 95.4 |
Proportion d'intervalles contenant p : 95.6 | Proportion d'intervalles contenant p : 94.1 |
Proportion d'intervalles contenant p : 94.8 | Proportion d'intervalles contenant p : 96.1 |
Proportion d'intervalles contenant p : 95.4 | </code> |
Proportion d'intervalles contenant p : 94.1 | |
Proportion d'intervalles contenant p : 96.1 | |
| |
**Commentaires** | |
| |
Les résultats obtenus sont bien conformes à ceux espérés ce qui doit nous conforter, a posteriori, dans le choix des deux approximations effectuées. Remarquons que l'on ne connaît pas l'amplitude de l'intervalle de confiance (qui change en fonction de l'estimation de $p$ obtenue alors que ce n'était pas le cas lors de la première méthode). Toutefois, on a :\\ $$\ds 1,96\sqrt{\frac{\bar{X}_{2000}(\omega)\left(1-\bar{X}_{2000}(\omega)\right)}{2000}}\leqslant1,96\sqrt{\frac{1/4}{2000}}\approx0,022$$ce qui est « nettement » inférieur à 0,05 obtenu avec de la première méthode. | Les résultats obtenus sont bien conformes à ceux espérés ce qui doit nous conforter, a posteriori, dans le choix des deux approximations effectuées. Remarquons que l'on ne connaît pas l'amplitude de l'intervalle de confiance (qui change en fonction de l'estimation de $p$ obtenue alors que ce n'était pas le cas lors de la première méthode). Toutefois, on a :\\ $$\ds t_{\alpha}\sqrt{\frac{\bar{X}_{n}(\omega)(1-\bar{X}_{n}(\omega))}{n}}\leqslant t_{\alpha}\sqrt{\frac{1}{4n}}=\frac{t_{\alpha}}{2\sqrt{n}}$$La comparaison entre $\ds\frac{1}{2\sqrt{n\alpha}}$ et $\ds\frac{t_{\alpha}}{2\sqrt{n}}$ est nettement à l'avantage de cette dernière pour minimiser la demie-largeur de l'intervalle. |
| |
| |
^ **[[:math:2:index#estimation|Estimation > ]]** | [[:math:2:introduction_estimation|Intro]] | [[:math:2:estimation_parametre_bernoulli|Ex 1]] | [[:math:2:estimation_amplitude|Ex 2]] | [[:math:2:problematique_estimation|Problématique]] | [[:math:2:estimation_ponctuelle|Estimation ponctuelle]] | [[:math:2:estimation_intervalle_confiance|Estimation intervalle]] | | ^ **[[:math:2:index#estimation|Estimation > ]]** | [[:math:2:introduction_estimation|Intro]] | [[:math:2:estimation_parametre_bernoulli|Ex 1]] | [[:math:2:estimation_amplitude|Ex 2]] | [[:math:2:problematique_estimation|Problématique]] | [[:math:2:estimation_ponctuelle|Estimation ponctuelle]] | [[:math:2:estimation_intervalle_confiance|Estimation intervalle]] | |