--> Estimation d'une fréquence 1Rappels théoriques On considère un entier naturel non nul nn, et un réel p]0;1[p\in]0\,;1[.
Soit XX une variable aléatoire suivant la loi binomiale de paramètres nn et pp.
On a alors que E(X)=np\text{E}(X)=np et V(X)=np(1p)V(X)=np(1-p).
Si on considère la variable aléatoire F=XnF=\dfrac{X}{n}, on a alors :
E(F)=E(Xn)\text{E}(F)=\text{E}\left( \dfrac{X}{n} \right) == E(X)n\dfrac{\text{E}(X)}{n} == npn\dfrac{np}{n} == pp,
V(F)=V(Xn)V(F)=V\left( \dfrac{X}{n} \right) == V(X)n2\dfrac{V(X)}{n^2} == np(1p)n2\dfrac{np(1-p)}{n^2} == p(1p)n\dfrac{p(1-p)}{n}. Voir le cours suivant pour ces formules.

Nous aurons besoin de la propriété ci-dessous : Property 1 -- Inégalité de Bienaymé-Tchebychev
Soit XX une variable aléatoire dont on note respectivement E(X)\text{E}(X) et V(X)V(X) son espérance et sa variance.
Pour tout réel a>0a > 0, P(XE(X)a)P(|X - \text{E}(X)|\geq a) \leq V(X)a2\dfrac{V(X)}{a^2}.
À voir dans le cours suivant.

De plus, en étudiant le polynôme ff défini sur [0;1][0\,;1] par f(x)=x(1x)f(x)=x(1-x), on trouve que sa valeur maximale est 14\dfrac{1}{4}, atteinte pour x=12x=\dfrac{1}{2}.
00.20.40.60.810.10.20.30.4−0.1
On peut alors affirmer : Property 2
Pour tout réel p[0;1]p\in[0\,;1], p(1p)14\:p(1-p)\leq \dfrac{1}{4}.
2Problématique On cherche, dans une population, à estimer la proportion des individus qui appartiennent à une classe.
Par exemple, sur l'ensemble de la population des votants d'un pays on peut chercher la proportion de ceux qui vont voter pour un certain candidat. Ou encore, dans un parc forestier on veut déterminer la proportion d'arbres atteints d'une maladie donnée etc.
L'estimation, en statistique inférentielle, est l'ensemble des méthodes et outils qui, à partir d'un échantillon d'une population, permettent de généraliser les résultats obtenus.
Nous cherchons ici à estimer la confiance que l'on peut donner à la fréquence obtenue sur un échantillon.
On note pp la vraie proportion d'individus dans l'ensemble de la population qui appartiennent à la classe.
On interroge nn individus, de manière indépendante, pour savoir si chacun appartient ou non à la classe et on estime que la méthode d'échantillonnage permet de dire que chaque individu à une probabilité pp d'appartenir à la classe.
Ainsi, le fait d'interroger un individu et voir si il appartient à la classe ou non est une épreuve de Bernoulli. En considérant que la taille de la population totale est suffisamment importante pour assimiler le tirage des nn individus à un tirage avec remise, on peut affirmer que la variable aléatoire XX qui compte le nombre d'individus de l'échantillon qui appartiennent à la classe, suit la loi binomiale de paramètres nn et pp.
En notant FF la variable aléatoire fréquence, c'est-à-dire que l'on a F=XnF=\dfrac{X}{n}, on peut reprendre les résultats des rappels précédents et on obtient, pour tout réel a>0a>0 :
P(FE(F)a)P(|F-\text{E}(F)|\geq a) \leq V(X)a2\dfrac{V(X)}{a^2}
\Longleftrightarrow P(Fpa)P(|F-p|\geq a) \leq p(1p)na2\dfrac{p(1-p)}{na^2} d'après l'inégalité de Bienaymé-Tchebychev
\Longleftrightarrow P(Fpa)P(|F-p|\geq a) \leq 14na2\dfrac{1}{4na^2} d'après la propriété 2
\Longleftrightarrow P(Fpa)-P(|F-p|\geq a) \geq 14na2-\dfrac{1}{4na^2}
\Longleftrightarrow 1P(Fpa)1-P(|F-p|\geq a) \geq 114na21-\dfrac{1}{4na^2}
\Longleftrightarrow P(Fp<a)P(|F-p|< a) \geq 114na21-\dfrac{1}{4na^2} d'après la formule de l'évènement contraire
\Longleftrightarrow P(a<Fp<a)P(-a < F-p < a) \geq 114na21-\dfrac{1}{4na^2} d'après les formules sur les valeurs absolues
\Longleftrightarrow P(Fa<p<F+a)P(-F-a < -p < -F+a) \geq 114na21-\dfrac{1}{4na^2}
\Longleftrightarrow P(F+a>p>Fa)P(F+a > p > F-a) \geq 114na21-\dfrac{1}{4na^2}
\Longleftrightarrow P(Fa<p<F+a)P(F-a < p < F+a) \geq 114na21-\dfrac{1}{4na^2}
Cette dernière inégalité peut se formuler de la sorte : Étant donné un échantillon de nn, sur lequel la fréquence de personnes appartenant à une certaine classe vaut ff, et étant donnée une précision a>0a > 0, la probabilité que la « vraie » proportion sur l'ensemble de la population appartienne à l'intervalle : [fa;f+a]\left[ f-a \,; f+a \right] est d'au moins 114na21-\dfrac{1}{4na^2}. Remark 1 L'intervalle aurait dû être ouvert, mais dans la pratique on se retrouve rarement aux bornes de ce dernier, et la probabilité ayant était majorée, il n'y a pas trop de conséquences à noter l'intervalle avec des bornes fermées.

Par ailleurs, on remarque que pour aa fixé, limn+114na2=1\displaystyle{\lim_{n\rightarrow+\infty}1-\dfrac{1}{4na^2} = 1}, et donc pour nn assez grand il est quasi certain que p[fa;f+a]p \in \left[ f-a \,; f+a \right].

Ce résultat est à rapprocher de la loi faible des grands nombres : Property 3 -- Loi faible des grands nombres
Soit XX une variable aléatoire et (X1;X2;;Xn)(X_1\,;X_2\,;\cdots\,;X_n) un échantillon de taille de nn de loi de XX. On note MnM_n la variable aléatoire moyenne associée à cet échantillon.
Pour tout réel a>0a > 0, limn+P(MnE(X)a)\displaystyle{\lim_{n\rightarrow+\infty}P( | M_n - \text{E}(X) | \geq a )} == 00.
3Quelques valeurs numériques Nous allons donner quelques valeurs pour la précision aa et déterminer à chaque fois pour la valeur minimale de nn, taille de l'échantillon, pour que 11na21-\dfrac{1}{na^2} soit supérieure à 0,950,95.

On a tout d'abord :

114na20,951-\dfrac{1}{4na^2} \geq 0,95 \Longleftrightarrow 14na20,05\dfrac{1}{4na^2} \leq 0,05 \Longleftrightarrow 14×0,05a2n\dfrac{1}{4\times 0,05a^2} \leq n \Longleftrightarrow 10,2a2n\dfrac{1}{0,2a^2} \leq n..
aa nn
0,250,25 8080
0,20,2 125125
0,150,15 223223
0,10,1 500500
0,050,05 20002\, 000
0,0250,025 80008\, 000
0,010,01 5000050\, 000
0,0010,001 5×1065\times 10^6
Remark 2 On peut choisir d'autres valeurs pour la borne de la probabilité, par exemple 0,90,9 à la place de 0,950,95 et dans ce cas les tailles des échantillons seraient nécessairement moindres. Exemple 1 On interroge 500500 personnes d'un lycée pour savoir si elles sont gauchères ou non. 5757 personnes affirment l'être.
La fréquence de gauchers dans l'échantillon de taille n=500n=500 est de f=575000,114f=\dfrac{57}{500}\approx 0,114.
Si on choisit a=0,1a=0,1, on peut alors déterminer un intervalle de confiance au niveau de 9595 % de la proportion de gauchers dans le lycée : [0,1140,1;0,114+0,1]=[0,014;0,214].[0,114-0,1 \,; 0,114+0,1]=[0,014 \, ; 0,214]. On peut alors affirmer, qu'au niveau de confiance de 9595 % la proportion de gauchers dans le lycée est comprise entre 1,41,4 et 21,421,4 %. Exemple 2 Une compagnie aérienne fait un bilan de ses vols et sur 1023510\,235 voyageurs 782782 ne se sont pas présentés à l'embarquement.
On cherche à déterminer la probabilité pp qu'un voyageur ne se présente pas à l'embarquement.
On a ici n=10235n=10\,235, f=78210235f=\dfrac{782}{10\,235} \approx 0,0760,076. En posant a=0,02a=0,02, on a 114na21-\dfrac{1}{4na^2} \approx 0,9990,999.

Ainsi, un intervalle de confiance au niveau de 99,999,9 % de pp est [fa;f+a][f-a\,;f+a] == [0,056;0,096][0,056\,; 0,096].
La compagnie aérienne peut alors affirmer qu'entre 5,65,6 % et 9,69,6 % des clients ne se présentent pas à l'embarquement. 4Comparaison avec l'intervalle de confiance [f1n;f+1n]\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right] On peut trouver dans la littérature, et notamment dans les anciens programmes de terminale SS et ESES, un autre intervalle au niveau de 9595 % (cf cours suivant). Property 4
Soit pp la proportion inconnue d'un caractère CC sur une population.
Soit ff la fréquence connue du caractère CC sur un échantillon de taille nn.
Si n30n\geq30, nf5n f\geq5 et n(1f)5n(1-f)\geq5, alors l'intervalle [f1n;f+1n]\left[f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}}\right] est un intervalle de confiance au niveau de confiance de 95% de la proportion pp inconnue du caractère CC sur la population.
Exercice 1 Dans une urne contenant des boules rouges et bleues en proportions inconnues, on effectue des tirages au hasard avec remise.
  1. Après avoir effectué 100 tirages, on compte 52 boules rouges et 48 boules bleues. Donner un intervalle de confiance à 95% de la proportion pp de boules rouge dans l'urne.
  2. Combien faudrait-il, au minimum, effectuer de tirages pour obtenir un intervalle de confiance à 95% de longueur inférieure ou égale à 0,020,02 ?
Correction
  1. On note nn la taille de l'échantillon et ff la fréquence de la boule rouge dans cet échantillon. On a donc n=100n=100 et f=0,52f = 0,52.
    De plus n=10030n=100\geq30, nf=525nf=52\geq5 et b(1f)=485b(1-f)=48\geq5, donc l'intervalle I=[f1n;f+1n]I=\left[ f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}} \right] == [0,521100;0,521100]\left[0,52-\dfrac{1}{\sqrt{100}} ;0,52-\dfrac{1}{\sqrt{100}} \right] == [0,42;0,62][0,42;0,62] est un intervalle de confiance au seuil de 95% de la proportion de boules rouges dans l'urne.
  2. La précision de l'intervalle de confiance étant de 2n\dfrac{2}{\sqrt{n}}, on cherche le plus petit entier nn tel que 2n0,02\dfrac{2}{\sqrt{n}}\leq 0,02. Or,
    2n0,02\dfrac{2}{\sqrt{n}}\leq 0,02 \Longleftrightarrow 20,02n2\leq 0,02\sqrt{n} \Longleftrightarrow 100n100\leq\sqrt{n} \Longleftrightarrow n10000n\geq10 000.
    En prélevant au moins 1000010\,000 boules, on obtient un intervalle de confiance au seuil de 95% à la précision 0,020,02.
Remark 3 Pour l'intervalle de confiance obtenu à l'aide de l'inégalité de Bienaymé-Tchebychev, on voit que pour n=2000n=2\,000 et a=0,05a=0,05, son niveau de confiance est de 9595 % et sa précision est de 2a=0,12a=0,1 == 1010 %.

Pour l'intervalle de fluctuation [f1n;f+1n]\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right] la présision est de 2n\dfrac{2}{\sqrt{n}} et donc pour n=2000n=2\,000 elle vaut à peu près 0,0450,045 soit 4,54,5 %.

Ce dernier intervalle est donc plus précis, mais nous n'avons plus les outils (probabilités continues) pour pouvoir le justifier.

Pour poursuivre la comparaison, on détermine l'intervalle de confiance de ce paragraphe dans les deux exemples précédents. Exemple 3 On interroge 500500 personnes d'un lycée pour savoir si elles sont gauchères ou non. 5757 personnes affirment l'être.
La fréquence de gauchers dans l'échantillon de taille n=80n=80 est de f=575000,114f=\dfrac{57}{500}\approx 0,114.
On a bien n30n\geq30, n×f9,125\:\,n\times f \approx 9,12 \geq 5 et n×(1f)70,885n\times(1-f) \approx 70,88 \geq 5. Ainsi, l'intervalle [f1n;f+1n]=[0,069;0,158]\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right] = [0,069\,; 0,158] est un intervalle de confiance au niveau de confiance de 9595 % de la proportion de gauchers dans le lycée.
On remarque que celui-ci est plus précis que le précédent qui était [0,014;0,214][0,014\,;0,214]. Exemple 4 Une compagnie aérienne fait un bilan de ses vols et sur 1023510\,235 voyageurs 782782 ne se sont pas présentées à l'embarquement.
On cherche à déterminer la probabilité pp qu'un voyageur ne se présente pas à l'embarquement.
On a ici n=10235n=10\,235, f=78210235f=\dfrac{782}{10\,235} \approx 0,0760,076.

On a bien n30n\geq30, n×f7785\:\,n\times f \approx 778 \geq 5 et n×(1f)94575n\times(1-f) \approx 9\,457 \geq 5. Ainsi, l'intervalle [f1n;f+1n]=[0,064;0,086]\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right] = [0,064\,; 0,086] est un intervalle de confiance au niveau de confiance de 9595 % de la proportion
L'intervalle précédent qui était [0,056;0,096][0,056\,;0,096] est ici aussi moins précis. 5Algorithme On peut écrire un algorithme pour vérifier sur quelques simulations la formule [f1n;f+1n]\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right].
On considère un lancer de pièce dont la probabilité d'obtenir face est de pp. On répète nn fois ce lancer de façon identitique et indépendante, et on regarde si pp est bien dans l'intervalle de confiance. On répète dans une boucle cette épreuve et à la fin on affiche le pourcentage d'épreuves où la pp a été dans l'intervalle.

Dans le programme ci-dessous l'expérience de base est 100100 lancers d'une pièce telle que la probabilité d'obtenir face est de 0,30,3. On répète 10001\,000 fois cette expérience est le résultat affiché est le pourcentage d'expérience où la probabilité 0,30,3 était dans l'intervalle de confiance.
Exécuter