Table des matières
Estimation ponctuelle
Notion d'estimateur
Définition
Soit $\theta\in\Theta$ et $n\in\N^{*}$.
- On dit qu'une variable aléatoire $T_{n}$ est un estimateur de $g(\theta)$ si et seulement s'il existe une statistique $\varphi_{n}\colon\R^{n}\to\R$, indépendante de $\theta$, sur le $n$-échantillon $(X_{1},\dots,X_{n})$ telle que $T_{n}=\varphi_{n}(X_{1},\dots,X_{n})$.
En faisant varier $n$, on peut ainsi définir une suite d'estimateurs de $g(\theta)$. - On appelle alors estimation du réel $g(\theta)$ tout réalisation $\varphi_{n}(x_{1},\dots,x_{n})$ de $T_{n}$ où $(x_{1},\dots,x_{n})$ est une réalisation de $(X_{1},\dots,X_{n})$.
- Estimer ponctuellement $g(\theta)$, c'est décider d'accorder à $g(\theta)$ la valeur d'une réalisation $\varphi_{n}(x_{1},\dots,x_{n})$.
Exemples
- Soit $(X_{i})$ une suite de variable aléatoire suivant toutes la loi $\mathcal{E}(\theta)$ où $\theta\in\left]0,+\infty\right[$ est inconnu. Alors $\bar{X}_{n}=\frac{1}{n}(X_{1}+\dots+X_{n})$ est un estimateur de $\ds\frac{1}{\theta}$ et, si $\omega$ est une éventualité, alors $\bar{X}_{n}(\omega)$ est une estimation de $\ds\frac{1}{\theta}$.
- Cas de l'étendue.
- Soit $X\hookrightarrow\mathcal{B}(n,p)$ où $p$ est connu et $n$ est inconnu. Déterminer un estimateur de $n$.
- (b) Estimer le nombre de lancers effectués d'une pièce équilibrée lorsqu'on a obtenu pile dix fois.
Outils de mesure de la qualité d'un estimateur
Les deux qualités attendues d'un estimateur d'une certaine valeur inconnue sont :
- fournir une bonne approximation en moyenne de cette valeur : notion de biais lié à l'espérance,
- ne pas d'obtenir une estimation très éloignée avec une probabilité importante (on n'a « qu'un seul essai » ou sondage ou échantillon à disposition) : notion de risque quadratique lié à la variance.
Définition
Soit $(X_{n})_{n\in\N^{*}}$ une suite de variables aléatoires iid. Pour tout $n\in\N^{*}$, on considère une variable aléatoire $T_{n}=\varphi_{n}(X_{1},\dots,X_{n})$ où $\varphi_{n}$ ne dépend que de $n$ et de ses $n$ variables.
- Soit $n\in\N^{*}$. On suppose que, pour tout $\theta\in\Theta$, $T_{n}$ admet une espérance $\mathbb{E}_{\theta}(T_{n})$ pour la probabilité $\mathbb{P}_{\theta}$. Pour $\theta\in\Theta$, on appelle biais de l'estimateur $T_{n}$ en $g(\theta)$ le réel :
$$\ds b_{\theta}(T_{n})=\mathbb{E}_{\theta}(T_{n})-g(\theta)$$ - Soit $n\in\N^{*}$. On suppose que, pour tout $\theta\in\Theta$, $T_{n}$ admet un moment d'ordre 2 $\mathbb{E}_{\theta}(T_{n}^{2})$ pour la probabilité $\mathbb{P}_{\theta}$. Pour $\theta\in\Theta$, on appelle risque quadratique de l'estimateur $T_{n}$ en $g(\theta)$ le réel :
$$\ds r_{\theta}(T_{n})=\mathbb{E}_{\theta}\left((T_{n}-g(\theta))^{2}\right)$$
Théorème
- Lorsqu'il existe, le risque quadratique d'un estimateur est égal à la somme de sa variance et du carré de son biais.
- En conséquence, si un estimateur est sans biais alors son risque quadratique est égal à sa variance.
Exemples
- Soit $X_{1},\dots,X_{n}$ des variables aléatoires mutuellement indépendantes, de même loi d'espérance $m$ et de variance $\sigma^{2}$.
- Calculer le biais et le risque quadratique de la moyenne empirique en $m$.
- Calculer le biais de la variance empirique en $\sigma^{2}$. En déduire un estimateur sans biais de $\sigma^{2}$.
- Soit $X_{1},\dots,X_{n}$ des variables aléatoires mutuellement indépendantes, de même loi $\mathcal{U}([a,b])$. Calculer le biais et le risque quadratique du minimum empirique $I_{n}$ en $a$. En déduire un estimateur sans biais de $a$.
Utilisation de ces outils
Nous allons maintenant voir comment ces outils servent à mesurer la qualité d'un estimateur ou d'une suite d'estimateurs.
Définition
Soit $(X_{n})_{n\in\N^{*}}$ une suite de variables aléatoires iid. Pour tout $n\in\N^{*}$, on considère une variable aléatoire $T_{n}=\varphi_{n}(X_{1},\dots,X_{n})$ où $\varphi_{n}$ ne dépend que de $n$ et de ses $n$ variables et on suppose que $T_{n}$ admet une espérance ou une variance, selon la nécessité, pour la probabilité $\mathbb{P}_{\theta}$ pour tout $\theta\in\Theta$.
- Soit $\theta\in\Theta$ et $n\in\N^{*}$. On dit que l'estimateur $T_{n}$ de $g(\theta)$ est sans biais si et seulement si son biais est nul :
$$\ds\mathbb{E}_{\theta}(T_{n})=g(\theta)$$ - Soit $\theta\in\Theta$. On dit que la suite d'estimateurs $(T_{n})_{n\in\N^{*}}$ de $g(\theta)$ est asymptotiquement sans biais si et seulement si la suite des biais existe et converge vers 0, c'est à dire si et seulement si :
$$\ds\lim_{n\to+\infty}{\mathbb{E}_{\theta}(T_{n})}=g(\theta)$$ - Soit $\theta\in\Theta$. On que le suite d'estimateurs $(T_{n})_{n\in\N^{*}}$ de $g(\theta)$ est convergente si et seulement si elle converge en probabilité vers la variable certaine égale à $g(\theta)$, c'est à dire que :
$$\ds\forall\varepsilon>0,\;\lim_{n\to+\infty}{\mathbb{P}_{\theta}(|T_{n}-g(\theta)|>\varepsilon)}=0$$On dit aussi, mais c'est un abus de langage, que l'estimateur est convergent.
Remarque (À savoir démontrer rapidement)
D'après l'exemple du paragraphe ci-dessus, si les lois $\mu_{\theta}$ admettent une variance alors la moyenne empirique est un estimateur sans biais convergent de l'espérance de $\mu_{\theta}$.
Exemple
Soit $T_{1}$ et $T_{2}$ deux estimateurs sans biais de $\theta$, indépendants et de variances respectives $\sigma^{2}$ et $\tau^{2}$.
- Montrer que $\ds T=\frac{1}{2}(T_{1}+T_{2})$ est un estimateur sans biais de $\theta$ meilleur que $T_{1}$ dans le cas où $\sigma^{2}=\tau^{2}$.
- Trouver une CNS portant sur $\sigma^{2}$ et $\tau^{2}$ pour que $T_{1}$ soit un estimateur de $\theta$ meilleur que $T$.
Théorème
Soit $(T_{n})_{n\in\N^{*}}$ une suite d'estimateurs de $g(\theta)$. Si $\ds\lim_{n\to+\infty}{r_{\theta}(T_{n})}=0$ alors la suite est un estimateur convergent de $g(\theta)$.
Remarque
L'inégalité de Markov est donc l'outil privilégié pour établir la convergence d'une suite d'estimateurs.
Exemples
- Soit $(X_{n})_{n\geqslant1}$ une suite de variables aléatoires mutuellement indépendantes, de même loi d'espérance $m$ et de variance $\sigma^{2}$.
- Soit $n\in\N^{*}$. Parmi tous les estimateurs sans biais de $m$ obtenus par combinaison linéaire de $(X_{1},\dots,X_{n})$, quel est celui de risque quadratique minimal ? On le note $\bar{X}_{n}$.
- La suite $(\bar{X}_{n})_{n\geqslant1}$ est-elle convergente ?
- Soit $(X_{n})_{n\geqslant1}$ une suite de variables aléatoires mutuellement indépendantes et de même loi $\mathcal{U}([a,b])$. La suite des minimums empiriques $(I_{n})_{n\geqslant1}$ est-elle une suite convergente d'estimateurs de $a$ ? Est-elle sans biais ? Asymptotiquement sans biais ?
- Soit $(X_{n})_{n\geqslant1}$ une suite de variables aléatoires mutuellement indépendantes et de même loi $\mathcal{E}(\theta)$ où $\theta\in\left]0,+\infty\right[$ est inconnu. On sait que l'espérance empirique $\ds\bar{X}_{n}=\frac{1}{n}(X_{1}+\dots+X_{n})$ est un estimateur de $\ds\frac{1}{\theta}$ mais $\ds\frac{1}{\bar{X}_{n}}$ est-il un estimateur de $\theta$ ? sans biais ? asymptotiquement sans biais ? convergent ?
Théorème
Soit $(T_{n})_{n\in\N^{*}}$ une suite convergente d'estimateurs de $g(\theta)$. Si $f\colon\R\to\R$ est une fonction continue sur $\R$ alors $(f(T_{n}))_{n\in\N^{*}}$ est une suite convergente d'estimateurs de $f(g(\theta))$.
Exemples
- Ce théorème s'applique-t-il au dernier exemple ci-dessus ?
- Soit $(X_{n})_{n\geqslant1}$ une suite de variables iid à valeurs dans un intervalle $[0,+\infty[$ admettant une espérance $m$ et une variance $\sigma^2$. Montrer que $\left(\sqrt{\bar{X}_{n}}\right)_{n\geqslant1}$ est une suite convergente d'estimateurs de $\sqrt{m}$.