--> Échantillonnage et estimation 1Pourquoi un nouvel intervalle de fluctuation ? L'intervalle de fluctuation vu en première est certes exact mais présente un défaut majeur.
Il n'y a pas de formule donnant ses extrémités en fonction de nn et pp. Exemple 1 En 2010, en France, sur les 802224802224 naissances, 410140410140 étaient des garçons. On souhaite tester l'hypothèse que la probabilité de naissance des garçons était de 0,50,5, mais les calculatrices usuelles ne peuvent calculer les probabilités associées avec des nombres aussi grands.
En effet, si XX est la variable aléatoire comptant le nombre de garçons parmi les 802224802224 naissances, en supposant que la probabilité d'obtenir un garçon est de 0,50,5, on a que XX suit une loi binomiale de paramètres 802224802224 et 0,50,5.
On pourrait alors vouloir calculer P(X300000)P(X\leq 300 000) mais nos calculatrices nous indiquent un message d'erreur.
Remark 1 2Intervalle de fluctuation associée à la loi normale centrée réduite 2.1Rappels Property 1
Si X est une variable aléatoire suivant la loi normale N(0;1)\mathcal{N}(0;1) alors pour tout réel α]0;1[\alpha \in ]0;1[, il existe un unique réel positif uαu_{\alpha} tel que P(uαXuα)=1αP(-u_{\alpha} \leq X \leq u_{\alpha}) = 1-\alpha.
-uα
+uα
P( X < -uα ) = α/2
P( X > uα ) = α/2
P(uα ≤ X ≤ uα ) = 1 - α
Remark 2 Pour α\alpha fixé dans ]0;1[]0;1[, on remarque que pour tout réel positif tt :

P(tXt)=1αP( -t\leq X \leq t )=1-\alpha \Longleftrightarrow P(Xt)=1α+α2P( X\leq t) = 1-\alpha+\dfrac{\alpha}{2} \Longleftrightarrow P(Xt)=1α2P( X\leq t) = 1 -\dfrac{\alpha}{2}.

Ainsi pour déterminer uαu_{\alpha} tel que P(uαXuα)=1αP(-u_{\alpha} \leq X \leq u_{\alpha}) = 1-\alpha, il nous suffira de saisir à la calculatrice : FracNormale(1α/21-\alpha/2) sur Texas, et InvNormCD(1α/21-\alpha/2) sur Casio.
Certaines valeurs de uαu_{\alpha} sont à connaître par coeur. Property 2
uα = 1.00
P( -uα < X < uα ) = 0.68269
α = 0.31731
-4
-3.5
-3
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
3.5
Modifier uαu_\alpha 2.2Intervalle de fluctuation asymptotique Property 3
Soit nNn\in\mathbb{N}^* et p[0;1]p\in[0;1].
Si la variable aléatoire XnX_n suit B(n,p)\mathcal{B}(n,p), alors, pour tout réel α]0;1[\alpha\in]0;1[ on a: limn+P(XnnIn)=1α\lim_{n \to +\infty}P\left(\frac{X_{n}}{n}\in I_{n}\right)=1-\alphaInI_{n} désigne l'intervalle [puαp(1p)n;p+uαp(1p)n]\left[p-u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right].
Remark 3 L'intervalle [puαp(1p)n;p+uαp(1p)n]\left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right] est donc un intervalle de fluctuation asymptotique au seuil 1α1-\alpha de la variable aléatoire fréquence Xnn\dfrac{X_{n}}{n}.
Le terme asymptotique étant lié à l'utilisation de la limite.

L'intervalle le plus utilisé est celui associé au risque α=0,05\alpha=0,05 (on peut également dire au seuil 0,950,95). [p1,96p(1p)n;p+1,96p(1p)n].\left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right]. Preuve de la propriété
Pour α]0;1[\alpha \in ]0;1[, notons uαu_{\alpha} le réel tel que P(Zn[uα;uα])=1αP\left(Z_{n}\in[-u_{\alpha};u_{\alpha}]\right)= 1-\alpha.
D'après le théorème de Moivre-Laplace, P(Zn[uα;uα])P\left(Z_{n}\in[-u_{\alpha};u_{\alpha}]\right) tend vers P(X[uα;uα])=1αP(X\in[-u_{\alpha};u_{\alpha}]) = 1-\alpha où X suit une loi normale N(0,1)\mathcal{N}(0,1).
Or,
uα-u_{\alpha} \leq ZnZ_n \leq uαu_{\alpha}
\Longleftrightarrow uα-u_{\alpha} \leq Xnnpnp(1p)\dfrac{X_{n}-np}{\sqrt{np(1-p)}} \leq uαu_{\alpha}
\Longleftrightarrow uα×np(1p)-u_{\alpha}\times \sqrt{np(1-p)} \leq XnnpX_{n}-np \leq uα×np(1p)u_{\alpha} \times \sqrt{np(1-p)}
\Longleftrightarrow npuα×np(1p)np-u_{\alpha}\times \sqrt{np(1-p)} \leq XnX_{n} \leq np+uα×np(1p)np+u_{\alpha} \times \sqrt{np(1-p)}
\Longleftrightarrow puα×np(1p)np-u_{\alpha}\times \dfrac{\sqrt{np(1-p)}}{n} \leq Xnn\dfrac{X_{n}}{n} \leq p+uα×np(1p)np+u_{\alpha}\times \dfrac{\sqrt{np(1-p)}}{n}

Donc, Zn[uα;uα]Z_{n}\in[-u_{\alpha};u_{\alpha}] \Longleftrightarrow Xnn\dfrac{X_{n}}{n} \in [puαp(1p)n;p+uαdp(1p)n]\left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}d\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right].
On en déduit, d'après le théorème de Moivre-Laplace, que P(Xnn[puαp(1p)n;p+uαp(1p)n])P\left(\frac{X_{n}}{n}\in \left[p-u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right]\right) tend vers 1α1-\alpha. Remark 4 La convergence de la suite (P(XnnIn))nN\left(P\left(\dfrac{X_{n}}{n}\in I_{n}\right)\right)_{n\in\mathbb{N}^{*}} n'est pas monotone.
On ne peut donc pas savoir si P(XnnIn)P\left(\dfrac{X_{n}}{n}\in I_{n}\right) est supérieure ou inférieure à 1α1-\alpha.
 Conditions d'application de l'approximation
On pratique l'approximation dès que n30n\geq30, np5np\geq5 et n(1p)5n(1-p)\geq5.
204060801001200.020.040.060.080.10.120.140.160.18−0.02−0.04
0
50
100
150
n = 2.00
p = 0.50
n×p = 1
n×(1-p) = 1
Modifier nn et pp pour observer si les conditions sont remplies 3Lien avec l'intervalle de fluctuation vu en 2nde Remarquons tout d'abord que le polynôme P(x)=x(1x)P(x)=x(1-x) a pour maximum 14\dfrac{1}{4}.
0.511.5−0.50.5−0.5−1−1.5
Dans la formule de notre intervalle de fluctuation asymptotique au seuil 0,950,95, [p1.96p(1p)n;p+1.96p(1p)n]\left[p-1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right], on peut majorer 1,961,96 par 22 et p(1p)p(1-p) par 14\dfrac{1}{4}.
Ainsi : 1.96p(1p)n1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \leq 21/4n2\dfrac{\sqrt{1/4}}{\sqrt{n}} \leq 1n\dfrac{1}{\sqrt{n}}.
On retrouve l'intervalle de la classe de 2nde [p1n;p+1n]\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right] qui est donc lui aussi un intervalle de fluctuation asymptotique à un seuil au moins égal à 0,95.

Graphique des différences entre les intervalles des deux classes
Probabilités
Nombres de lancers


Remark 5 Bien que l'intervalle vu en 2nde soit plus grand que celui de Terminale, du fait de son caractère asymptotique et de la nature non monotone de la convergence, on ne peut pas affirmer que P(Xnn[p1n;p+1n])P\left(\dfrac{X_{n}}{n}\in\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]\right) est supérieur ou égal à 0,95 pour tout nNn\in\mathbb{N}^{*}, mais seulement proche de 0,95.
Cependant, on a la propriété suivante : Property 4
Si la variable aléatoire XnX_{n} suit une B(n,p)\mathcal{B}(n,p), il existe un entier n0n_{0} tel que si nn0n\geq n_{0} alors P(Xnn[p1n;p+1n])0,95P\left(\dfrac{X_{n}}{n}\in\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]\right)\geq 0,95.
Preuve
En reprenant les notations utilisées jusqu'ici, nous avons que d'après le théorème de Moivre-Laplace,

P(2Zn2)P(-2\leq Z_{n}\leq 2) tend vers P(2X2)P(-2\leq X\leq2).

Mais P(2X2)0,9544P(-2\leq X\leq2)\geq 0,9544, donc, par définition de la limite d'une suite, il existe un rang n0n_{0} à partir duquel P(2Zn2)0,95P(-2\leq Z_{n}\leq 2)\geq 0,95.
De plus, on a :
P(2Zn2)P(-2\leq Z_{n}\leq 2) == P(p2p(1p)nXnnp+2p(1p)n)P\left(p-2\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+2\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right) \leq P(p1nXnnp+1n)P\left(p-\dfrac{1}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+\dfrac{1}{\sqrt{n}}\right) car p(1p)14p(1-p)\leq \dfrac{1}{4}.

Ce qui montre bien qu'il existe un rang n0n_{0} à partir duquel P(p1nXnnp+1n)0,95P\left(p-\dfrac{1}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+\dfrac{1}{\sqrt{n}}\right)\geq 0,95. 4Applications Tout comme les années précédentes, on utilise en terminale les intervalles de fluctuation asymptotique pour prendre des décisions.
 Point méthode
On veut savoir, au risque de 5%, si la proportion d'un caractère CC vaut p=p0p=p_{0} ou non à partir d'un échantillon de taille n30n\geq 30. On suppose aussi que np05np_{0}\geq 5 et n(1p0)5n(1-p_{0}) \geq 5.
Remark 6 La probabilité de rejeter à tort l'hypothèse p=p0p=p_0 vaut environ 0,05. Exercice 1 En 2010, en France, sur les 802224 naissances, 410140 étaient des garçons.
  1. Tester l'hypothèse p=0,5p=0,5 au risque α=0,05\alpha=0,05.
  2. Tester l'hypothèse p=0,5p=0,5 au risque α=0,01\alpha=0,01.
  3. Tester l'hypothèse p=0,512p=0,512 au risque α=0,05\alpha=0,05.
Correction
  1. Vérifions tout d'abord si les conditions d'utilisation d'un intervalle asymptotique sont remplies.
    n=80222430n = 802224 \geq 30, n×p=4011125n\times p=401 112\geq 5 et n×(1p)=4011125n\times (1-p)=401 112\geq 5.
    Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :

    I1=[0,51,960,5×0,5802224;0,5+1,960,5×0,5802224]I_1=\left[0,5-1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,5+1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right] == [0,498905;0,501094]\left[ 0,498905 ; 0,501094 \right].

    Déterminons la fréquence de garçons parmi les naissances : f=410140802224f=\dfrac{410140}{802224} \simeq 0,5112540,511254.
    Ainsi, fI1f\notin I_1, on peut donc affirmer, avec un risque d'erreur de 5% que la probabilité de naissance d'un garçon en 2010 n'était pas de 0,50,5.
  2. Les conditions ici étant les mêmes que pour la question 11, nous pouvons directement déterminer l'intervalle de fluctuation asymptotique associé au risque d'erreur de 1%.

    I2=[0,52,580,5×0,5802224;0,5+2,580,5×0,5802224]I_2=\left[0,5-2,58\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,5+2,58\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right] == [0,498559;0,501441]\left[ 0,498559 ; 0,501441 \right].
    Ainsi, f0,511254I2f\simeq0,511254\notin I_2, on peut donc affirmer, avec un risque d'erreur de 1% que la probabilité de naissance d'un garçon en 2010 n'était pas de 0,50,5.
  3. Vérifions si les conditions d'utilisation d'un intervalle asymptotique sont remplies avec ici n=802224n=802224 et p=0,512p=0,512
    n=80222430n = 802224 \geq 30, n×p4107395n\times p\simeq410 739\geq 5 et n×(1p)3914855n\times (1-p)\simeq391 485\geq 5.
    Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :

    I3=[0,5121,960,5×0,5802224;0,512+1,960,5×0,5802224]I_3=\left[0,512-1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,512+1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right] == [0,510905;0,5143095]\left[ 0,510905 ; 0,5143095 \right].


    Ainsi, f0,511254I3f\simeq0,511254\in I_3, on ne peut donc pas rejetter l'hypothèse que la probabilité de naissance d'un garçon en 2010 était de 0,5120,512.
5Intervalles de confiance 5.1Contexte Dans une population, la fréquence d'individus présentant le caractère CC sur un échantillon donné de taille nn vaut ff.
On pourrait décider que la proportion pp de CC dans la population est proche de ff, mais dès que l'on fera le calcul sur un nouvel échantillon, la valeur de ff sera modifiée.
Ainsi, on préfère déterminer un intervalle, dit de confiance, centré en ff dans lequel pp peut se trouver. 5.2Définition Soit donc nNn\in\mathbb{N}^* la taille de l'échantillon, et XnX_n la variable aléatoire comptant le nombre d'individus présentant le caractère CC dans cet échantillon. On note de plus Fn=XnnF_n = \dfrac{X_n}{n} la fréquence d'apparition du caractère dans l'échantillon. On a alors les équivalences suivantes :

p1nFnp+1np-\dfrac{1}{\sqrt{n}} \leq F_n \leq p+\dfrac{1}{\sqrt{n}} \Longleftrightarrow 1nFnp1n-\dfrac{1}{\sqrt{n}} \leq F_n - p \leq \dfrac{1}{\sqrt{n}} \Longleftrightarrow Fn1npFn+1n-F_n-\dfrac{1}{\sqrt{n}} \leq -p \leq -F_n+\dfrac{1}{\sqrt{n}} \Longleftrightarrow Fn1npFn+1nF_n-\dfrac{1}{\sqrt{n}} \leq p \leq F_n+\dfrac{1}{\sqrt{n}}.

En utilisant l'intervalle de fluctuation de la classe de 2nde, on sait que pour nn assez grand P(Fn[p1n;p+1n])P\left( F_n\in\left[ p-\dfrac{1}{\sqrt{n}} ; p+\dfrac{1}{\sqrt{n}} \right] \right) vaut environ 0,950,95, donc d'après les calculs "d'inversion" précédents, on a que P(p[Fn1n;Fn+1n])P\left( p\in\left[ F_n-\dfrac{1}{\sqrt{n}} ; F_n+\dfrac{1}{\sqrt{n}} \right] \right) vaut environ 0,950,95.

Ceci nous conduit à la définition suivante : Definition 1
Soit pp la proportion inconnue d'un caractère CC sur une population.
Soit ff la fréquence connue du caractère CC sur un échantillon de taille nn.
Si n30n\geq30, nf5n f\geq5 et n(1f)5n(1-f)\geq5, alors l'intervalle [f1n;f+1n]\left[f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}}\right] est un intervalle de confiance au niveau de confiance de 95% de la proportion pp inconnue du caractère CC sur la population.
Remark 7 Exercice 2 Dans une urne contenant des boules rouges et bleues en proportions inconnues, on effectue des tirages au hasard avec remise.
  1. Après avoir effectué 100 tirages, on compte 52 boules rouges et 48 boules bleues. Donner un intervalle de confiance à 95% de la proportion pp de boules rouge dans l'urne.
  2. Combien faudrait-il, au minimum, effectuer de tirages pour obtenir un intervalle de confiance à 95% de longueur inférieure ou égale à 0,020,02 ?
Correction
  1. On note nn la taille de l'échantillon et ff la fréquence de la boule rouge dans cet échantillon. On a donc n=100n=100 et f=0,52f = 0,52.
    De plus n=10030n=100\geq30, nf=525nf=52\geq5 et b(1f)=485b(1-f)=48\geq5, donc l'intervalle I=[f1n;f+1n]I=\left[ f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}} \right] == [0,521100;0,521100]\left[0,52-\dfrac{1}{\sqrt{100}} ;0,52-\dfrac{1}{\sqrt{100}} \right] == [0,42;0,62][0,42;0,62] est un intervalle de confiance au seuil de 95% de la proportion de boules rouges dans l'urne.
  2. La précision de l'intervalle de confiance étant de 2n\dfrac{2}{\sqrt{n}}, on cherche le plus petit entier nn tel que 2n0,02\dfrac{2}{\sqrt{n}}\leq 0,02. Or,
    2n0,02\dfrac{2}{\sqrt{n}}\leq 0,02 \Longleftrightarrow 20,02n2\leq 0,02\sqrt{n} \Longleftrightarrow 100n100\leq\sqrt{n} \Longleftrightarrow n10000n\geq10 000.
    En prélevant au moins 1000010000 boules, on obtient un intervalle de confiance au seuil de 95% à la précision 0,020,02.