--> Estimation d'une fréquence Rappels théoriques On considère un entier naturel non nul $n$, et un réel $p\in]0\,;1[$.
Soit $X$ une variable aléatoire suivant la loi binomiale de paramètres $n$ et $p$.
On a alors que $\text{E}(X)=np$ et $V(X)=np(1-p)$.
Si on considère la variable aléatoire $F=\dfrac{X}{n}$, on a alors :
$\text{E}(F)=\text{E}\left( \dfrac{X}{n} \right)$ $=$ $\dfrac{\text{E}(X)}{n}$ $=$ $\dfrac{np}{n}$ $=$ $p$,
$V(F)=V\left( \dfrac{X}{n} \right)$ $=$ $\dfrac{V(X)}{n^2}$ $=$ $\dfrac{np(1-p)}{n^2}$ $=$ $\dfrac{p(1-p)}{n}$. Voir le cours suivant pour ces formules.

Nous aurons besoin de la propriété ci-dessous : -- Inégalité de Bienaymé-Tchebychev
Soit $X$ une variable aléatoire dont on note respectivement $\text{E}(X)$ et $V(X)$ son espérance et sa variance.
Pour tout réel $a > 0$, $P(|X - \text{E}(X)|\geq a)$ $\leq$ $\dfrac{V(X)}{a^2}$.
À voir dans le cours suivant.

De plus, en étudiant le polynôme $f$ défini sur $[0\,;1]$ par $f(x)=x(1-x)$, on trouve que sa valeur maximale est $\dfrac{1}{4}$, atteinte pour $x=\dfrac{1}{2}$.
On peut alors affirmer :
Pour tout réel $p\in[0\,;1]$, $\:p(1-p)\leq \dfrac{1}{4}$.
Problématique On cherche, dans une population, à estimer la proportion des individus qui appartiennent à une classe.
Par exemple, sur l'ensemble de la population des votants d'un pays on peut chercher la proportion de ceux qui vont voter pour un certain candidat. Ou encore, dans un parc forestier on veut déterminer la proportion d'arbres atteints d'une maladie donnée etc.
L'estimation, en statistique inférentielle, est l'ensemble des méthodes et outils qui, à partir d'un échantillon d'une population, permettent de généraliser les résultats obtenus.
Nous cherchons ici à estimer la confiance que l'on peut donner à la fréquence obtenue sur un échantillon.
On note $p$ la vraie proportion d'individus dans l'ensemble de la population qui appartiennent à la classe.
On interroge $n$ individus, de manière indépendante, pour savoir si chacun appartient ou non à la classe et on estime que la méthode d'échantillonnage permet de dire que chaque individu à une probabilité $p$ d'appartenir à la classe.
Ainsi, le fait d'interroger un individu et voir si il appartient à la classe ou non est une épreuve de Bernoulli. En considérant que la taille de la population totale est suffisamment importante pour assimiler le tirage des $n$ individus à un tirage avec remise, on peut affirmer que la variable aléatoire $X$ qui compte le nombre d'individus de l'échantillon qui appartiennent à la classe, suit la loi binomiale de paramètres $n$ et $p$.
En notant $F$ la variable aléatoire fréquence, c'est-à-dire que l'on a $F=\dfrac{X}{n}$, on peut reprendre les résultats des rappels précédents et on obtient, pour tout réel $a>0$ :
$P(|F-\text{E}(F)|\geq a)$ $\leq$ $\dfrac{V(X)}{a^2}$
$\Longleftrightarrow$ $P(|F-p|\geq a)$ $\leq$ $\dfrac{p(1-p)}{na^2}$ d'après l'inégalité de Bienaymé-Tchebychev
$\Longleftrightarrow$ $P(|F-p|\geq a)$ $\leq$ $\dfrac{1}{4na^2}$ d'après la propriété 2
$\Longleftrightarrow$ $-P(|F-p|\geq a)$ $\geq$ $-\dfrac{1}{4na^2}$
$\Longleftrightarrow$ $1-P(|F-p|\geq a)$ $\geq$ $1-\dfrac{1}{4na^2}$
$\Longleftrightarrow$ $P(|F-p|< a)$ $\geq$ $1-\dfrac{1}{4na^2}$ d'après la formule de l'évènement contraire
$\Longleftrightarrow$ $P(-a < F-p < a)$ $\geq$ $1-\dfrac{1}{4na^2}$ d'après les formules sur les valeurs absolues
$\Longleftrightarrow$ $P(-F-a < -p < -F+a)$ $\geq$ $1-\dfrac{1}{4na^2}$
$\Longleftrightarrow$ $P(F+a > p > F-a)$ $\geq$ $1-\dfrac{1}{4na^2}$
$\Longleftrightarrow$ $P(F-a < p < F+a)$ $\geq$ $1-\dfrac{1}{4na^2}$
Cette dernière inégalité peut se formuler de la sorte : Étant donné un échantillon de $n$, sur lequel la fréquence de personnes appartenant à une certaine classe vaut $f$, et étant donnée une précision $a > 0$, la probabilité que la « vraie » proportion sur l'ensemble de la population appartienne à l'intervalle : $$\left[ f-a \,; f+a \right]$$ est d'au moins $1-\dfrac{1}{4na^2}$. L'intervalle aurait dû être ouvert, mais dans la pratique on se retrouve rarement aux bornes de ce dernier, et la probabilité ayant était majorée, il n'y a pas trop de conséquences à noter l'intervalle avec des bornes fermées.

Par ailleurs, on remarque que pour $a$ fixé, $\displaystyle{\lim_{n\rightarrow+\infty}1-\dfrac{1}{4na^2} = 1}$, et donc pour $n$ assez grand il est quasi certain que $p \in \left[ f-a \,; f+a \right]$.

Ce résultat est à rapprocher de la loi faible des grands nombres : -- Loi faible des grands nombres
Soit $X$ une variable aléatoire et $(X_1\,;X_2\,;\cdots\,;X_n)$ un échantillon de taille de $n$ de loi de $X$. On note $M_n$ la variable aléatoire moyenne associée à cet échantillon.
Pour tout réel $a > 0$, $\displaystyle{\lim_{n\rightarrow+\infty}P( | M_n - \text{E}(X) | \geq a )}$ $=$ $0$.
Quelques valeurs numériques Nous allons donner quelques valeurs pour la précision $a$ et déterminer à chaque fois pour la valeur minimale de $n$, taille de l'échantillon, pour que $1-\dfrac{1}{na^2}$ soit supérieure à $0,95$.

On a tout d'abord :

$1-\dfrac{1}{4na^2} \geq 0,95$ $\Longleftrightarrow$ $\dfrac{1}{4na^2} \leq 0,05$ $\Longleftrightarrow$ $\dfrac{1}{4\times 0,05a^2} \leq n$ $\Longleftrightarrow$ $\dfrac{1}{0,2a^2} \leq n$..
$a$ $n$
$0,25$ $80$
$0,2$ $125$
$0,15$ $223$
$0,1$ $500$
$0,05$ $2\, 000$
$0,025$ $8\, 000$
$0,01$ $50\, 000$
$0,001$ $5\times 10^6$
On peut choisir d'autres valeurs pour la borne de la probabilité, par exemple $0,9$ à la place de $0,95$ et dans ce cas les tailles des échantillons seraient nécessairement moindres. On interroge $500$ personnes d'un lycée pour savoir si elles sont gauchères ou non. $57$ personnes affirment l'être.
La fréquence de gauchers dans l'échantillon de taille $n=500$ est de $f=\dfrac{57}{500}\approx 0,114$.
Si on choisit $a=0,1$, on peut alors déterminer un intervalle de confiance au niveau de $95$ % de la proportion de gauchers dans le lycée : $$[0,114-0,1 \,; 0,114+0,1]=[0,014 \, ; 0,214].$$ On peut alors affirmer, qu'au niveau de confiance de $95$ % la proportion de gauchers dans le lycée est comprise entre $1,4$ et $21,4$ %. Une compagnie aérienne fait un bilan de ses vols et sur $10\,235$ voyageurs $782$ ne se sont pas présentés à l'embarquement.
On cherche à déterminer la probabilité $p$ qu'un voyageur ne se présente pas à l'embarquement.
On a ici $n=10\,235$, $f=\dfrac{782}{10\,235}$ $\approx$ $0,076$. En posant $a=0,02$, on a $1-\dfrac{1}{4na^2}$ $\approx$ $0,999$.

Ainsi, un intervalle de confiance au niveau de $99,9$ % de $p$ est $[f-a\,;f+a]$ $=$ $[0,056\,; 0,096]$.
La compagnie aérienne peut alors affirmer qu'entre $5,6$ % et $9,6$ % des clients ne se présentent pas à l'embarquement. Comparaison avec l'intervalle de confiance $\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right]$ On peut trouver dans la littérature, et notamment dans les anciens programmes de terminale $S$ et $ES$, un autre intervalle au niveau de $95$ % (cf cours suivant).
Soit $p$ la proportion inconnue d'un caractère $C$ sur une population.
Soit $f$ la fréquence connue du caractère $C$ sur un échantillon de taille $n$.
Si $n\geq30$, $n f\geq5$ et $n(1-f)\geq5$, alors l'intervalle $$\left[f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}}\right]$$ est un intervalle de confiance au niveau de confiance de 95% de la proportion $p$ inconnue du caractère $C$ sur la population.
Dans une urne contenant des boules rouges et bleues en proportions inconnues, on effectue des tirages au hasard avec remise.
  1. Après avoir effectué 100 tirages, on compte 52 boules rouges et 48 boules bleues. Donner un intervalle de confiance à 95% de la proportion $p$ de boules rouge dans l'urne.
  2. Combien faudrait-il, au minimum, effectuer de tirages pour obtenir un intervalle de confiance à 95% de longueur inférieure ou égale à $0,02$ ?
  1. On note $n$ la taille de l'échantillon et $f$ la fréquence de la boule rouge dans cet échantillon. On a donc $n=100$ et $f = 0,52$.
    De plus $n=100\geq30$, $nf=52\geq5$ et $b(1-f)=48\geq5$, donc l'intervalle $I=\left[ f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}} \right]$ $=$ $\left[0,52-\dfrac{1}{\sqrt{100}} ;0,52-\dfrac{1}{\sqrt{100}} \right]$ $=$ $[0,42;0,62]$ est un intervalle de confiance au seuil de 95% de la proportion de boules rouges dans l'urne.
  2. La précision de l'intervalle de confiance étant de $\dfrac{2}{\sqrt{n}}$, on cherche le plus petit entier $n$ tel que $\dfrac{2}{\sqrt{n}}\leq 0,02$. Or,
    $\dfrac{2}{\sqrt{n}}\leq 0,02$ $\Longleftrightarrow$ $2\leq 0,02\sqrt{n}$ $\Longleftrightarrow$ $100\leq\sqrt{n}$ $\Longleftrightarrow$ $n\geq10 000$.
    En prélevant au moins $10\,000$ boules, on obtient un intervalle de confiance au seuil de 95% à la précision $0,02$.
Pour l'intervalle de confiance obtenu à l'aide de l'inégalité de Bienaymé-Tchebychev, on voit que pour $n=2\,000$ et $a=0,05$, son niveau de confiance est de $95$ % et sa précision est de $2a=0,1$ $=$ $10$ %.

Pour l'intervalle de fluctuation $\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right]$ la présision est de $\dfrac{2}{\sqrt{n}}$ et donc pour $n=2\,000$ elle vaut à peu près $0,045$ soit $4,5$ %.

Ce dernier intervalle est donc plus précis, mais nous n'avons plus les outils (probabilités continues) pour pouvoir le justifier.

Pour poursuivre la comparaison, on détermine l'intervalle de confiance de ce paragraphe dans les deux exemples précédents. On interroge $500$ personnes d'un lycée pour savoir si elles sont gauchères ou non. $57$ personnes affirment l'être.
La fréquence de gauchers dans l'échantillon de taille $n=80$ est de $f=\dfrac{57}{500}\approx 0,114$.
On a bien $n\geq30$, $\:\,n\times f \approx 9,12 \geq 5$ et $n\times(1-f) \approx 70,88 \geq 5$. Ainsi, l'intervalle $$\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right] = [0,069\,; 0,158]$$ est un intervalle de confiance au niveau de confiance de $95$ % de la proportion de gauchers dans le lycée.
On remarque que celui-ci est plus précis que le précédent qui était $[0,014\,;0,214]$. Une compagnie aérienne fait un bilan de ses vols et sur $10\,235$ voyageurs $782$ ne se sont pas présentées à l'embarquement.
On cherche à déterminer la probabilité $p$ qu'un voyageur ne se présente pas à l'embarquement.
On a ici $n=10\,235$, $f=\dfrac{782}{10\,235}$ $\approx$ $0,076$.

On a bien $n\geq30$, $\:\,n\times f \approx 778 \geq 5$ et $n\times(1-f) \approx 9\,457 \geq 5$. Ainsi, l'intervalle $$\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right] = [0,064\,; 0,086]$$ est un intervalle de confiance au niveau de confiance de $95$ % de la proportion
L'intervalle précédent qui était $[0,056\,;0,096]$ est ici aussi moins précis. Algorithme On peut écrire un algorithme pour vérifier sur quelques simulations la formule $\left[f-\dfrac{1}{\sqrt{n}} \,; f+\dfrac{1}{\sqrt{n}} \right]$.
On considère un lancer de pièce dont la probabilité d'obtenir face est de $p$. On répète $n$ fois ce lancer de façon identitique et indépendante, et on regarde si $p$ est bien dans l'intervalle de confiance. On répète dans une boucle cette épreuve et à la fin on affiche le pourcentage d'épreuves où la $p$ a été dans l'intervalle.

Dans le programme ci-dessous l'expérience de base est $100$ lancers d'une pièce telle que la probabilité d'obtenir face est de $0,3$. On répète $1\,000$ fois cette expérience est le résultat affiché est le pourcentage d'expérience où la probabilité $0,3$ était dans l'intervalle de confiance. from random import* from math import* def face(n,p): intervalle = False s = 0.0 for i in range(0,n): f = random() if f < p: s = s+1 f = s/n if p > f-1/sqrt(n) and p < f+1/sqrt(n): intervalle = True return intervalle def simule(m,n,p): c = 0.0 for i in range(0,m): if face(n,p): c = c+1 return c/m print(simule(1000,100,0.3))