-->
Échantillonnage et estimation Pourquoi un nouvel intervalle de fluctuation ? L'intervalle de fluctuation vu en première est certes exact mais présente un défaut majeur.
Il n'y a pas de formule donnant ses extrémités en fonction de $n$ et $p$. En 2010, en France, sur les $802224$ naissances, $410140$ étaient des garçons. On souhaite tester l'hypothèse que la probabilité de naissance des garçons était de $0,5$, mais les calculatrices usuelles ne peuvent calculer les probabilités associées avec des nombres aussi grands.
En effet, si $X$ est la variable aléatoire comptant le nombre de garçons parmi les $802224$ naissances, en supposant que la probabilité d'obtenir un garçon est de $0,5$, on a que $X$ suit une loi binomiale de paramètres $802224$ et $0,5$.
On pourrait alors vouloir calculer $P(X\leq 300 000)$ mais nos calculatrices nous indiquent un message d'erreur.
Intervalle de fluctuation associée à la loi normale centrée réduite Rappels
Si X est une variable aléatoire suivant la loi normale $\mathcal{N}(0;1)$ alors pour tout réel $\alpha \in ]0;1[$, il existe un unique réel positif $u_{\alpha}$ tel que $P(-u_{\alpha} \leq X \leq u_{\alpha})$ $=$ $1-\alpha$.
Pour $\alpha$ fixé dans $]0;1[$, on remarque que pour tout réel positif $t$ :

$P( -t\leq X \leq t )=1-\alpha$ $\Longleftrightarrow$ $P( X\leq t) = 1-\alpha+\dfrac{\alpha}{2}$ $\Longleftrightarrow$ $P( X\leq t) = 1 -\dfrac{\alpha}{2}$.

Ainsi pour déterminer $u_{\alpha}$ tel que $P(-u_{\alpha} \leq X \leq u_{\alpha}) = 1-\alpha$, il nous suffira de saisir à la calculatrice : FracNormale($1-\alpha/2$) sur Texas, et InvNormCD($1-\alpha/2$) sur Casio.
Certaines valeurs de $u_{\alpha}$ sont à connaître par coeur.
Modifier $u_\alpha$ Intervalle de fluctuation asymptotique
Soit $n\in\mathbb{N}^*$ et $p\in[0;1]$.
Si la variable aléatoire $X_n$ suit $\mathcal{B}(n,p)$, alors, pour tout réel $\alpha$ $\in$ $]0;1[$ on a: $\displaystyle{\lim_{n \to +\infty}P\left(\frac{X_{n}}{n}\in I_{n}\right)}$ $=$ $1-\alpha$ où $I_{n}$ désigne l'intervalle $\left[p-u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right]$.
L'intervalle $\left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right]$ est donc un intervalle de fluctuation asymptotique au seuil $1-\alpha$ de la variable aléatoire fréquence $\dfrac{X_{n}}{n}$.
Le terme asymptotique étant lié à l'utilisation de la limite.

L'intervalle le plus utilisé est celui associé au risque $\alpha=0,05$ (on peut également dire au seuil $0,95$). $\left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right].$ Preuve de la propriété
Pour $\alpha \in ]0;1[$, notons $u_{\alpha}$ le réel tel que $P\left(Z_{n}\in[-u_{\alpha};u_{\alpha}]\right)= 1-\alpha$.
D'après le théorème de Moivre-Laplace, $P\left(Z_{n}\in[-u_{\alpha};u_{\alpha}]\right)$ tend vers $P(X\in[-u_{\alpha};u_{\alpha}])$ $=$ $1-\alpha$ où X suit une loi normale $\mathcal{N}(0,1)$.
Or,
$-u_{\alpha}$ $\leq$ $Z_n$ $\leq$ $u_{\alpha}$
$\Longleftrightarrow$ $-u_{\alpha}$ $\leq$ $\dfrac{X_{n}-np}{\sqrt{np(1-p)}}$ $\leq$ $u_{\alpha}$
$\Longleftrightarrow$ $-u_{\alpha}\times \sqrt{np(1-p)}$ $\leq$ $X_{n}-np$ $\leq$ $u_{\alpha} \times \sqrt{np(1-p)}$
$\Longleftrightarrow$ $np-u_{\alpha}\times \sqrt{np(1-p)}$ $\leq$ $X_{n}$ $\leq$ $np+u_{\alpha} \times \sqrt{np(1-p)}$
$\Longleftrightarrow$ $p-u_{\alpha}\times \dfrac{\sqrt{np(1-p)}}{n}$ $\leq$ $\dfrac{X_{n}}{n}$ $\leq$ $p+u_{\alpha}\times \dfrac{\sqrt{np(1-p)}}{n}$.

Donc, $Z_{n}\in[-u_{\alpha};u_{\alpha}]$ $\Longleftrightarrow$ $\dfrac{X_{n}}{n}$ $\in$ $\left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}d\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right]$.
On en déduit, d'après le théorème de Moivre-Laplace, que $P\left(\frac{X_{n}}{n}\in \left[p-u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right]\right)$ tend vers $1-\alpha$. La convergence de la suite $\left(P\left(\dfrac{X_{n}}{n}\in I_{n}\right)\right)_{n\in\mathbb{N}^{*}}$ n'est pas monotone.
On ne peut donc pas savoir si $P\left(\dfrac{X_{n}}{n}\in I_{n}\right)$ est supérieure ou inférieure à $1-\alpha$.
1Conditions d'application de l'approximation
On pratique l'approximation dès que $n\geq30$, $np\geq5$ et $n(1-p)\geq5$.
Modifier $n$ et $p$ pour observer si les conditions sont remplies Lien avec l'intervalle de fluctuation vu en 2nde Remarquons tout d'abord que le polynôme $P(x)=x(1-x)$ a pour maximum $\dfrac{1}{4}$.
Dans la formule de notre intervalle de fluctuation asymptotique au seuil $0,95$, $\left[p-1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right]$, on peut majorer $1,96$ par $2$ et $p(1-p)$ par $\dfrac{1}{4}$.
Ainsi : $1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}$ $\leq$ $2\dfrac{\sqrt{1/4}}{\sqrt{n}}$ $\leq$ $\dfrac{1}{\sqrt{n}}$.
On retrouve l'intervalle de la classe de 2nde $\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]$ qui est donc lui aussi un intervalle de fluctuation asymptotique à un seuil au moins égal à 0,95.

Graphique des différences entre les intervalles des deux classes
Probabilités
Nombres de lancers


Bien que l'intervalle vu en 2nde soit plus grand que celui de Terminale, du fait de son caractère asymptotique et de la nature non monotone de la convergence, on ne peut pas affirmer que $P\left(\dfrac{X_{n}}{n}\in\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]\right)$ est supérieur ou égal à 0,95 pour tout $n\in\mathbb{N}^{*}$, mais seulement proche de 0,95.
Cependant, on a la propriété suivante :
Si la variable aléatoire $X_{n}$ suit une $\mathcal{B}(n,p)$, il existe un entier $n_{0}$ tel que si $n\geq n_{0}$ alors $P\left(\dfrac{X_{n}}{n}\in\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]\right)$ $\geq$ $0,95$.
Preuve
En reprenant les notations utilisées jusqu'ici, nous avons que d'après le théorème de Moivre-Laplace,

$P(-2\leq Z_{n}\leq 2)$ tend vers $P(-2\leq X\leq2)$.

Mais $P(-2\leq X\leq2)\geq 0,9544$, donc, par définition de la limite d'une suite, il existe un rang $n_{0}$ à partir duquel $P(-2\leq Z_{n}\leq 2)\geq 0,95$.
De plus, on a :
$P(-2\leq Z_{n}\leq 2)$ $=$ $P\left(p-2\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+2\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right)$ $\leq$ $P\left(p-\dfrac{1}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+\dfrac{1}{\sqrt{n}}\right)$ car $p(1-p)$ $\leq$ $\dfrac{1}{4}$.

Ce qui montre bien qu'il existe un rang $n_{0}$ à partir duquel $P\left(p-\dfrac{1}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+\dfrac{1}{\sqrt{n}}\right)$ $\geq$ $0,95$. Applications Tout comme les années précédentes, on utilise en terminale les intervalles de fluctuation asymptotique pour prendre des décisions.
1Point méthode
On veut savoir, au risque de 5%, si la proportion d'un caractère $C$ vaut $p=p_{0}$ ou non à partir d'un échantillon de taille $n\geq 30$. On suppose aussi que $np_{0}\geq 5$ et $n(1-p_{0}) \geq 5$.
La probabilité de rejeter à tort l'hypothèse $p=p_0$ vaut environ 0,05. En 2010, en France, sur les 802224 naissances, 410140 étaient des garçons.
  1. Tester l'hypothèse $p=0,5$ au risque $\alpha=0,05$.
  2. Tester l'hypothèse $p=0,5$ au risque $\alpha=0,01$.
  3. Tester l'hypothèse $p=0,512$ au risque $\alpha=0,05$.
  1. Vérifions tout d'abord si les conditions d'utilisation d'un intervalle asymptotique sont remplies.
    $n$ $=$ $802224$ $\geq$ $30$, $n\times p$ $=$ $401 112$ $\geq$ $5$ et $n\times (1-p)$ $=$ $401 112$ $\geq$ $5$.
    Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :

    $I_1=\left[0,5-1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,5+1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right]$ $=$ $\left[ 0,498905 ; 0,501094 \right]$.

    Déterminons la fréquence de garçons parmi les naissances : $f$ $=$ $\dfrac{410140}{802224}$ $\simeq$ $0,511254$.
    Ainsi, $f\notin I_1$, on peut donc affirmer, avec un risque d'erreur de 5% que la probabilité de naissance d'un garçon en 2010 n'était pas de $0,5$.
  2. Les conditions ici étant les mêmes que pour la question $1$, nous pouvons directement déterminer l'intervalle de fluctuation asymptotique associé au risque d'erreur de 1%.

    $I_2=\left[0,5-2,58\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,5+2,58\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right]$ $=$ $\left[ 0,498559 ; 0,501441 \right]$.
    Ainsi, $f\simeq0,511254\notin I_2$, on peut donc affirmer, avec un risque d'erreur de 1% que la probabilité de naissance d'un garçon en 2010 n'était pas de $0,5$.
  3. Vérifions si les conditions d'utilisation d'un intervalle asymptotique sont remplies avec ici $n=802224$ et $p=0,512$
    $n = 802224$ $\geq$ $30$, $n\times p$ $\simeq$ $410 739$ $\geq$ $5$ et $n\times (1-p)$ $\simeq$ $391 485$ $\geq$ $5$.
    Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :

    $I_3=\left[0,512-1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,512+1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right]$ $=$ $\left[ 0,510905 ; 0,5143095 \right]$.

    Ainsi, $f\simeq0,511254\in I_3$, on ne peut donc pas rejetter l'hypothèse que la probabilité de naissance d'un garçon en 2010 était de $0,512$.
Intervalles de confiance Contexte Dans une population, la fréquence d'individus présentant le caractère $C$ sur un échantillon donné de taille $n$ vaut $f$.
On pourrait décider que la proportion $p$ de $C$ dans la population est proche de $f$, mais dès que l'on fera le calcul sur un nouvel échantillon, la valeur de $f$ sera modifiée.
Ainsi, on préfère déterminer un intervalle, dit de confiance, centré en $f$ dans lequel $p$ peut se trouver. Définition Soit donc $n\in\mathbb{N}^*$ la taille de l'échantillon, et $X_n$ la variable aléatoire comptant le nombre d'individus présentant le caractère $C$ dans cet échantillon. On note de plus $F_n = \dfrac{X_n}{n}$ la fréquence d'apparition du caractère dans l'échantillon. On a alors les équivalences suivantes :

$p-\dfrac{1}{\sqrt{n}} \leq F_n \leq p+\dfrac{1}{\sqrt{n}}$ $\Longleftrightarrow$ $-\dfrac{1}{\sqrt{n}} \leq F_n - p \leq \dfrac{1}{\sqrt{n}}$ $\Longleftrightarrow$ $-F_n-\dfrac{1}{\sqrt{n}} \leq -p \leq -F_n+\dfrac{1}{\sqrt{n}}$ $\Longleftrightarrow$ $F_n-\dfrac{1}{\sqrt{n}} \leq p \leq F_n+\dfrac{1}{\sqrt{n}}$.

En utilisant l'intervalle de fluctuation de la classe de 2nde, on sait que pour $n$ assez grand $P\left( F_n\in\left[ p-\dfrac{1}{\sqrt{n}} ; p+\dfrac{1}{\sqrt{n}} \right] \right)$ vaut environ $0,95$, donc d'après les calculs "d'inversion" précédents, on a que $P\left( p\in\left[ F_n-\dfrac{1}{\sqrt{n}} ; F_n+\dfrac{1}{\sqrt{n}} \right] \right)$ vaut environ $0,95$.

Ceci nous conduit à la définition suivante :
Soit $p$ la proportion inconnue d'un caractère $C$ sur une population.
Soit $f$ la fréquence connue du caractère $C$ sur un échantillon de taille $n$.
Si $n\geq30$, $n f\geq5$ et $n(1-f)\geq5$, alors l'intervalle $\left[f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}}\right]$ est un intervalle de confiance au niveau de confiance de 95% de la proportion $p$ inconnue du caractère $C$ sur la population.
Dans une urne contenant des boules rouges et bleues en proportions inconnues, on effectue des tirages au hasard avec remise.
  1. Après avoir effectué 100 tirages, on compte 52 boules rouges et 48 boules bleues. Donner un intervalle de confiance à 95% de la proportion $p$ de boules rouge dans l'urne.
  2. Combien faudrait-il, au minimum, effectuer de tirages pour obtenir un intervalle de confiance à 95% de longueur inférieure ou égale à $0,02$ ?
  1. On note $n$ la taille de l'échantillon et $f$ la fréquence de la boule rouge dans cet échantillon. On a donc $n=100$ et $f = 0,52$.
    De plus $n=100$ $\geq$ $30$, $nf$ $=$ $52$ $\geq5$ et $b(1-f)$ $=$ $48$ $\geq$ $5$, donc l'intervalle $I=\left[ f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}} \right]$ $=$ $\left[0,52-\dfrac{1}{\sqrt{100}} ;0,52-\dfrac{1}{\sqrt{100}} \right]$ $=$ $[0,42;0,62]$ est un intervalle de confiance au seuil de 95% de la proportion de boules rouges dans l'urne.
  2. La précision de l'intervalle de confiance étant de $\dfrac{2}{\sqrt{n}}$, on cherche le plus petit entier $n$ tel que $\dfrac{2}{\sqrt{n}}\leq 0,02$. Or,
    $\dfrac{2}{\sqrt{n}}\leq 0,02$ $\Longleftrightarrow$ $2\leq 0,02\sqrt{n}$ $\Longleftrightarrow$ $100\leq\sqrt{n}$ $\Longleftrightarrow$ $n\geq10 000$.
    En prélevant au moins $10000$ boules, on obtient un intervalle de confiance au seuil de 95% à la précision $0,02$.