Estimateur (statistique)

Un article de Wikipédia, l'encyclopédie libre.

Pour les articles homonymes, voir Estimateur.

En statistique inférentielle, un estimateur est une valeur calculée sur un échantillon et que l'on espère être une bonne évaluation de la valeur que l'on aurait calculée sur la population totale. On cherche à ce qu'un estimateur soit sans biais, convergent, efficace et robuste.

Sommaire

[modifier] Exemple d'estimateurs

Si l'on cherche à évaluer la taille moyenne des enfants de 10 ans, on peut effectuer un sondage sur un échantillon de la population des enfants de 10 ans (par exemple en s'adressant à des écoles réparties dans plusieurs milieux différents). La taille moyenne calculée sur cet échantillon, appelée moyenne empirique, sera un estimateur de la taille moyenne des enfants de 10 ans.

Si l'on cherche à évaluer la surface totale occupée par la jachère dans un pays donné, on peut effectuer un sondage sur plusieurs portions du territoire de même taille, calculer la surface moyenne occupée par la jachère et appliquer une règle de proportionnalité.

Si l'on cherche à déterminer le pourcentage d'électeur décidés à voter pour le candidat A, on peut effectuer un sondage sur un échantillon représentatif. Le pourcentage de votes favorables à A dans l'échantillon est un estimateur du pourcentage d'électeurs décidés à voter pour A dans la population totale.

Si l'on cherche à évaluer la population totale de poissons dans un lac, on peut commencer par ramasser n poissons, les baguer pour pouvoir les identifier ultérieurement, les relâcher, les laisser se mélanger aux autres poissons. On tire alors un échantillon de poissons du lac, on calcule la proportion p de poissons bagués. La valeur n/p est un estimateur de la population totale de poissons dans le lac. S'il n'y a aucun poisson bagué dans l'échantillon, on procède à un autre tirage.

Un estimateur est très souvent une moyenne, une population totale, une proportion ou une variance.

[modifier] Qualité d'un estimateur

Un estimateur est une valeur x calculée sur un échantillon tiré au hasard, la valeur x est donc une variable aléatoire possédant une espérance E(x) et une variance V(x). On comprend alors que la valeur x puisse fluctuer selon l'échantillon. Elle a de très faibles chances de coïncider exactement avec la valeur X qu'elle est censée représenter. L'objectif est donc de maîtriser l'erreur commise en prenant la valeur x pour la valeur X. On appelle d'ailleurs souvent estimation une valeur particulière de l'estimateur, prise lors d'une expérience donnée.

Une variable aléatoire fluctue autour de son espérance. On souhaite donc que l'espérance de x soit égale à X. On dit alors que l'estimateur est sans biais. L'estimateur choisi précédemment sur la taille moyenne des enfants de 10 ans est un estimateur sans biais mais celui des poissons comporte un biais: le nombre de poissons estimé est en moyenne supérieur au nombre de poissons réel.

On souhaite aussi pouvoir, en augmentant la taille de l'échantillon, diminuer l'erreur commise en prenant x à la place de X. Si c'est le cas, on dit que l'estimateur est convergent. La définition précise en mathématique est la suivante:

(xn) est convergent si \lim_{n \to \infty}p(|x_n - X| > \epsilon)=0 pour tout réel positif ε.

(la probabilité de s'éloigner de la valeur à estimer de plus de ε tend vers 0 quand la taille de l'échantillon augmente).

La variable aléatoire fluctue autour de son espérance. Plus la variance de V(x) est faible, moins les variations sont importantes. On cherche donc à ce que la variance soit la plus faible possible. C'est ce qu'on appelle l’efficacité d'un estimateur.

Enfin, il arrive que lors du sondage, une valeur extrême et rare apparaisse (par exemple un enfant de 10 ans mesurant 1,80 m). On cherche à ce que ce genre de valeur change de manière très faible la valeur de l'estimateur. On dit alors que l'estimateur est robuste.Ce n'est pas ce qui se passe dans le cas de la taille moyenne des enfants de 10 ans. L'estimateur n'est pas robuste.

[modifier] Estimateurs classiques

On se placera dans le cas simple d'un tirage aléatoire de n individus dans une population en comportant N. On s'intéresse au caractère quantitatif Y de moyenne \overline Y et de variance V(Y). Dans l'échantillon tiré, le caractère quantitatif est y, sa moyenne est \overline y et sa variance est \sigma ^2 = \frac{1}{n}\sum_{i=1}^n (y_i - \overline y)^2. Les valeurs \overline y et σ2 varient selon l'échantillon et sont donc des variables aléatoires possédant chacune une espérance, une variance et un écart type

[modifier] Estimateur de la moyenne de Y

On prend en général comme estimateur de \overline Y la valeur

\overline y = \frac1n\sum_{i=1}^ny_i.

appelée moyenne empirique de Y. On démontre que c'est un estimateur sans biais, c’est-à-dire que E(\overline y) = \overline Y

[modifier] Estimateur de la variance de Y

On pourrait penser que σ2 est un bon estimateur de V(Y). Cependant des calculs (voir écart type) prouvent que cet estimateur est biaisé, l'espérance de σ2 est toujours inférieure à V(Y) On prouve qu'un estimateur sans biais de V(Y) est

  • \frac{n}{n-1}\sigma^2 dans le cas de tirage avec remise
  • \frac{N-1}{N} \frac{n}{n-1}\sigma^2 dans le cas de tirage sans remise (qui vaut bien σ2 lorque n = N).

On peut remarquer que, pour N grand, le calcul avec remise et le calcul sans remise donnent des résultats presque équivalents. (\frac{N-1}{N} est alors proche de 1); On prend donc en général, pour estimateur sans biais de V(Y) la valeur

s^2 = \frac{1}{n-1}\sum_{i=1}^n (y_i - \overline y)^2

appelée variance empirique de Y

[modifier] Efficacité, convergence et intervalle de confiance

La manière dont \overline y fluctue autour de son espérance Y dépend de sa variance V(\overline y). Cette variance se calcule grâce à V(Y).

  • V(\overline y) = \frac{V(Y)}{n} dans le cas d'un tirage avec remise
  • V(\overline y) =\frac{N - n}{N - 1} \frac{V(Y)}{n} dans le cas d'un tirage sans remise

On peut remarquer que, pour N très grand devant n, les deux valeurs sont très voisines. Par la suite, on ne s'intéressera donc qu'au cas du tirage avec remise en estimant N très grand.

On s'aperçoit que plus n est grand, plus V(\overline y) est petit. Donc, plus la taille de l'échantillon est grand, plus l'estimateur \overline y est efficace.

L'inégalité de Bienaymé-Tchebychev précise que, pour tout réel positif ε,

p(|\overline y - \overline Y| > \epsilon) < \frac{V(\overline y)}{\epsilon ^2}

donc que

p(|\overline y - \overline Y| > \epsilon) < \frac{V(Y)}{n\epsilon ^2}

Or \frac{V(Y)}{n\epsilon ^2} converge vers 0 quand n tend vers l'infini. Il en est de même de p(|\overline y - \overline Y| > \epsilon) . L'estimateur \overline y est convergent.

Enfin, on démontre que pour n relativement grand, la variable aléatoire \overline y suit une loi normale d'espérance Y et de variance \frac{V(Y)}{n}, variance que l'on peut estimer être voisine de \frac{s^2}{n}. Pour toute loi normale, dans 95% des cas, la variable aléatoire s'éloigne de son espérance de moins de deux fois son écart type. Dans le cas du sondage, cela signifie qu'il y a 95% de chance que l'estimateur \overline y s'éloigne de \overline Y de moins de \frac{2s}{\sqrt n}. L'intervalle [\overline Y - \frac{2\sigma(Y)}{\sqrt n},  \overline Y +\frac{2\sigma(Y)}{\sqrt n}] est appelé intervalle de confiance à 95%. On peut remarquer que, pour diviser par 10 l'intervalle de confiance, ce qui consiste à augmenter la précision de l'estimateur, il faut multiplier par 100 la taille de l'échantillon.

On parle souvent de la précision d'une enquête : c'est le rapport \frac{\sigma(\overline y)}{\overline Y}, rapport entre l'écart type et la moyenne la variable aléatoire \overline y. Si l'enquête est précise à 2% par exemple, c'est que ce rapport est de 2 %. Cela signifie que l'intervalle de confiance à 95% est de [0,96 \overline Y, 1,04 \overline Y]

[modifier] Influence des techniques de sondages sur les estimateurs

Découper la population en strates homogènes peut réduire de manière significative la valeur de la variance de l'estimateur et donc le rendre plus efficace.

Utiliser un tirage aléatoire à probabilités inégales, procéder à un sondage en plusieurs étapes ou par grappe change évidemment les formules calculées précédemment.

Enfin, l'utilisation d'informations auxilaires permet parfois d'effectuer une correction sur l'estimateur pour le rapprocher de la valeur réelle.

[modifier] Construction d'estimateurs

[modifier] Méthode du maximum de vraisemblance

Icône de détail Article détaillé : Maximum de vraisemblance.

Cette méthode consiste, comme son nom l'indique, à maximiser une fonction, appelée fonction de vraissemblance contenant le paramètre que l'on souhaite estimer. Elle aura ainsi de forte chance d'être très proche de ce paramètre.

Fonction de vraissemblance, au vu d'un n-échantillon (x1,...,xi,...,xn):

L(x_1,...,x_i,...,x_n;\theta) = f(x_1;\theta) \times f(x_2;\theta) \times ...\times f(x_n;\theta) = \prod_{i=1}^n f(x_i;\theta)

L'estimateur obtenu par cette méthode est généralement le meilleur possible, mais cela peut être fastidieux et surtout nécessite de maîtriser des règles mathématiques plus difficiles que la méthode des moments (voir ci-dessous).

[modifier] Méthode des moments

A compléter

[modifier] Estimateurs et loi de probabilité

Le fait de pouvoir estimer une espérance et une variance permet alors d'estimer les paramètres d'une distribution (loi normale, loi de Poisson etc).

En probabilité, on cherche parfois à valider une loi de probabilité théorique à l'aide d'une expérience statistique . Dans le cas d'une variable discrète finie, on prend comme estimateur de chaque probabilité pk , la fréquence fk dans l'échantillon. Les valeurs fk étant des variables aléatoires, il est normal que ces estimateurs ne coincident pas complètement avec les valeurs pk. Pour vérifier si les différences trouvées sont significatives ou normales, on effectue des tests d'adéquations dont le plus connu est le Test du χ²

[modifier] Voir aussi

[modifier] Liens internes

[modifier] Bibliographie

  • (fr) DAGNELIE P. (1998) Statistique théorique et appliquée. Tome 1 : Statistique descriptive et base de l'inférence statistique. Paris et Bruxelles, De Boeck et Larcier.
  • (fr) DAGNELIE P. (1998) Statistique théorique et appliquée. Tome 2 : Inférence statistique à une et à deux dimensions. Paris et Bruxelles, De Boeck et Larcier.
  • (fr) DROESBECKE J.-J. (2001) Éléments de statistique. Paris, Ellipses.
  • (fr) ESCOFIER B., PAGES J. (1997) Initiation au traitement statistique : Méthodes, méthodologie. PUR, Rennes.
  • (fr) FALISSARD B., MONGA (1993) Statistique : concepts et méthodes. Paris, Masson.
  • (fr) ROUANET H., BERNARD J.-M., LE ROUX B. (1990) : Statistique en sciences humaines : analyse inductive des données. Paris, Dunod.
  • (fr) Gilbert Saporta, Probabilités, Analyse des données et Statistique, 2006 [détail des éditions]
  • (fr) VEYSSEYRE R. (2002) Statistique et probabilité pour l'ingénieur. Paris, Dunod.
  • (en) LEHMANN, E.L. (1983) "THEORY OF POINT ESTIMATION". John Wiley and Sons, New York.

[modifier] Sources

  • estimateur cours de Bernart Ycart
  • Estimation cours de l'INSA de Lyon
  • Glossaire sur l'estimation
  • Rémy Clairin et Philippe Brion, Manuel de sondages. Application aux pays en développement. Paris, Centre français sur la population et le développement, 1996.
modifier Articles de mathématiques en rapport avec les probabilités ou les statistiques
Statistiques descriptivesAnalyse des donnéesVisualisation des donnéesEstimateursTests statistiquesSéries temporelles et économétrieStatistique MathématiqueThéorie des probabilitésVariables aléatoiresInégalitésThéorèmes limitesProcessus stochastiquesLa mécanique statistiqueLes statistiques et l'économieLes statistiques et la sociologieLes statistiques et les sciencesLes probabilités et les jeux • Les équations aux dérivées partielles et les probabilités