-->
Estimation d'une fréquence1Rappels théoriques
On considère un entier naturel non nul n, et un réel p∈]0;1[.
Soit X une variable aléatoire suivant la loi binomiale de paramètres n et p.
On a alors que E(X)=np et V(X)=np(1−p).
Si on considère la variable aléatoire F=nX, on a alors :
E(F)=E(nX)=nE(X)=nnp=p,
V(F)=V(nX)=n2V(X)=n2np(1−p)=np(1−p).
Voir le cours suivant pour ces formules.
Nous aurons besoin de la propriété ci-dessous :
Property 1-- Inégalité de Bienaymé-Tchebychev
Soit X une variable aléatoire dont on note respectivement E(X) et V(X) son espérance et sa variance.
Pour tout réel a>0, P(∣X−E(X)∣≥a)≤a2V(X).
À voir dans le cours suivant.
De plus, en étudiant le polynôme f défini sur [0;1] par f(x)=x(1−x), on trouve que sa valeur maximale est 41, atteinte pour x=21.
0,0
On peut alors affirmer :
Property 2
Pour tout réel p∈[0;1], p(1−p)≤41.
2Problématique
On cherche, dans une population, à estimer la proportion des individus qui appartiennent à une classe.
Par exemple, sur l'ensemble de la population des votants d'un pays on peut chercher la proportion de ceux qui vont voter pour un certain candidat. Ou encore, dans un parc forestier on veut déterminer la proportion d'arbres atteints d'une maladie donnée etc.
L'estimation, en statistique inférentielle, est l'ensemble des méthodes et outils qui, à partir d'un échantillon d'une population, permettent de généraliser les résultats obtenus.
Nous cherchons ici à estimer la confiance que l'on peut donner à la fréquence obtenue sur un échantillon.
On note p la vraie proportion d'individus dans l'ensemble de la population qui appartiennent à la classe.
On interroge n individus, de manière indépendante, pour savoir si chacun appartient ou non à la classe et on estime que la méthode d'échantillonnage permet de dire que chaque individu à une probabilité p d'appartenir à la classe.
Ainsi, le fait d'interroger un individu et voir si il appartient à la classe ou non est une épreuve de Bernoulli. En considérant que la taille de la population totale est suffisamment importante pour assimiler le tirage des n individus à un tirage avec remise, on peut affirmer que la variable aléatoire X qui compte le nombre d'individus de l'échantillon qui appartiennent à la classe, suit la loi binomiale de paramètres n et p.
En notant F la variable aléatoire fréquence, c'est-à-dire que l'on a F=nX, on peut reprendre les résultats des rappels précédents et on obtient, pour tout réel a>0 :
P(∣F−E(F)∣≥a)
≤
a2V(X)
⟺
P(∣F−p∣≥a)
≤
na2p(1−p)
d'après l'inégalité de Bienaymé-Tchebychev
⟺
P(∣F−p∣≥a)
≤
4na21
d'après la propriété 2
⟺
−P(∣F−p∣≥a)
≥
−4na21
⟺
1−P(∣F−p∣≥a)
≥
1−4na21
⟺
P(∣F−p∣<a)
≥
1−4na21
d'après la formule de l'évènement contraire
⟺
P(−a<F−p<a)
≥
1−4na21
d'après les formules sur les valeurs absolues
⟺
P(−F−a<−p<−F+a)
≥
1−4na21
⟺
P(F+a>p>F−a)
≥
1−4na21
⟺
P(F−a<p<F+a)
≥
1−4na21
Cette dernière inégalité peut se formuler de la sorte :
Étant donné un échantillon de n, sur lequel la fréquence de personnes appartenant à une certaine classe vaut f, et étant donnée une précision a>0, la probabilité que la « vraie » proportion sur l'ensemble de la population appartienne à l'intervalle :
[f−a;f+a]
est d'au moins 1−4na21.
Remark 1
L'intervalle aurait dû être ouvert, mais dans la pratique on se retrouve rarement aux bornes de ce dernier, et la probabilité ayant était majorée, il n'y a pas trop de conséquences à noter l'intervalle avec des bornes fermées.
Par ailleurs, on remarque que pour a fixé, n→+∞lim1−4na21=1, et donc pour n assez grand il est quasi certain que p∈[f−a;f+a].
Ce résultat est à rapprocher de la loi faible des grands nombres :
Property 3-- Loi faible des grands nombres
Soit X une variable aléatoire et (X1;X2;⋯;Xn) un échantillon de taille de n de loi de X.
On note Mn la variable aléatoire moyenne associée à cet échantillon.
Pour tout réel a>0, n→+∞limP(∣Mn−E(X)∣≥a)=0.
3Quelques valeurs numériques
Nous allons donner quelques valeurs pour la précision a et déterminer à chaque fois pour la valeur minimale de n, taille de l'échantillon, pour que 1−na21 soit supérieure à 0,95.
Remark 2
On peut choisir d'autres valeurs pour la borne de la probabilité, par exemple 0,9 à la place de 0,95 et dans ce cas les tailles des échantillons seraient nécessairement moindres.
Exemple 1
On interroge 500 personnes d'un lycée pour savoir si elles sont gauchères ou non. 57 personnes affirment l'être.
La fréquence de gauchers dans l'échantillon de taille n=500 est de f=50057≈0,114.
Si on choisit a=0,1, on peut alors déterminer un intervalle de confiance au niveau de 95 % de la proportion de gauchers dans le lycée :
[0,114−0,1;0,114+0,1]=[0,014;0,214].
On peut alors affirmer, qu'au niveau de confiance de 95 % la proportion de gauchers dans le lycée est comprise entre 1,4 et 21,4 %.
Exemple 2
Une compagnie aérienne fait un bilan de ses vols et sur 10235 voyageurs 782 ne se sont pas présentés à l'embarquement.
On cherche à déterminer la probabilité p qu'un voyageur ne se présente pas à l'embarquement.
On a ici n=10235, f=10235782≈0,076. En posant a=0,02, on a 1−4na21≈0,999.
Ainsi, un intervalle de confiance au niveau de 99,9 % de p est [f−a;f+a]=[0,056;0,096].
La compagnie aérienne peut alors affirmer qu'entre 5,6 % et 9,6 % des clients ne se présentent pas à l'embarquement.
4Comparaison avec l'intervalle de confiance [f−n1;f+n1]
On peut trouver dans la littérature, et notamment dans les anciens programmes de terminale S et ES, un autre intervalle au niveau de 95 % (cf cours suivant).
Property 4
Soit p la proportion inconnue d'un caractère C sur une population.
Soit f la fréquence connue du caractère C sur un échantillon de taille n.
Si n≥30, nf≥5 et n(1−f)≥5, alors l'intervalle
[f−n1;f+n1]
est un intervalle de confiance au niveau de confiance de 95% de la proportion p inconnue du caractère C sur la population.
Exercice 1
Dans une urne contenant des boules rouges et bleues en proportions inconnues, on effectue des tirages au hasard avec remise.
Après avoir effectué 100 tirages, on compte 52 boules rouges et 48 boules bleues. Donner un intervalle de confiance à 95% de la proportion p de boules rouge dans l'urne.
Combien faudrait-il, au minimum, effectuer de tirages pour obtenir un intervalle de confiance à 95% de longueur inférieure ou égale à 0,02 ?
On note n la taille de l'échantillon et f la fréquence de la boule rouge dans cet échantillon. On a donc n=100 et f=0,52.
De plus n=100≥30, nf=52≥5 et b(1−f)=48≥5, donc l'intervalle I=[f−n1;f+n1]=[0,52−1001;0,52−1001]=[0,42;0,62] est un intervalle de confiance au seuil de 95% de la proportion de boules rouges dans l'urne.
La précision de l'intervalle de confiance étant de n2, on cherche le plus petit entier n tel que n2≤0,02. Or,
n2≤0,02⟺2≤0,02n⟺100≤n⟺n≥10000.
En prélevant au moins 10000 boules, on obtient un intervalle de confiance au seuil de 95% à la précision 0,02.
Remark 3
Pour l'intervalle de confiance obtenu à l'aide de l'inégalité de Bienaymé-Tchebychev, on voit que pour n=2000 et a=0,05, son niveau de confiance est de 95 % et sa précision est de 2a=0,1=10 %.
Pour l'intervalle de fluctuation [f−n1;f+n1] la présision est de n2 et donc pour n=2000 elle vaut à peu près 0,045 soit 4,5 %.
Ce dernier intervalle est donc plus précis, mais nous n'avons plus les outils (probabilités continues) pour pouvoir le justifier.
Pour poursuivre la comparaison, on détermine l'intervalle de confiance de ce paragraphe dans les deux exemples précédents.
Exemple 3
On interroge 500 personnes d'un lycée pour savoir si elles sont gauchères ou non. 57 personnes affirment l'être.
La fréquence de gauchers dans l'échantillon de taille n=80 est de f=50057≈0,114.
On a bien n≥30, n×f≈9,12≥5 et n×(1−f)≈70,88≥5. Ainsi, l'intervalle
[f−n1;f+n1]=[0,069;0,158]
est un intervalle de confiance au niveau de confiance de 95 % de la proportion de gauchers dans le lycée.
On remarque que celui-ci est plus précis que le précédent qui était [0,014;0,214].
Exemple 4
Une compagnie aérienne fait un bilan de ses vols et sur 10235 voyageurs 782 ne se sont pas présentées à l'embarquement.
On cherche à déterminer la probabilité p qu'un voyageur ne se présente pas à l'embarquement.
On a ici n=10235, f=10235782≈0,076.
On a bien n≥30, n×f≈778≥5 et n×(1−f)≈9457≥5. Ainsi, l'intervalle
[f−n1;f+n1]=[0,064;0,086]
est un intervalle de confiance au niveau de confiance de 95 % de la proportion
L'intervalle précédent qui était [0,056;0,096] est ici aussi moins précis.
5Algorithme
On peut écrire un algorithme pour vérifier sur quelques simulations la formule [f−n1;f+n1].
On considère un lancer de pièce dont la probabilité d'obtenir face est de p. On répète n fois ce lancer de façon identitique et indépendante, et on regarde si p est bien dans l'intervalle de confiance. On répète dans une boucle cette épreuve et à la fin on affiche le pourcentage d'épreuves où la p a été dans l'intervalle.
Dans le programme ci-dessous l'expérience de base est 100 lancers d'une pièce telle que la probabilité d'obtenir face est de 0,3. On répète 1000 fois cette expérience est le résultat affiché est le pourcentage d'expérience où la probabilité 0,3 était dans l'intervalle de confiance.