Loading [MathJax]/jax/output/CommonHTML/jax.js

-->

Échantillonnage et estimation 1Pourquoi un nouvel intervalle de fluctuation ? L'intervalle de fluctuation vu en première est certes exact mais présente un défaut majeur.
Il n'y a

pas de formule

donnant ses extrémités en fonction de

$n$ et

$p$ .

Il faut donc le déterminer au cas par cas, soit à l'aide d'un tableur soit à l'aide d'un algorithme.
Cette absence de formule nous empèche de déterminer un
intervalle de confiance
. Les intervalles de confiance s'obtenant en inversant les formules des intervalles de fluctuation d'échantillonnage.
Cela peut s'avérer très long, voire impossible, lorsque $n$ est grand.

Exemple 1 En 2010, en France, sur les

$802224$ naissances,

$410140$ étaient des garçons. On souhaite tester l'hypothèse que la probabilité de naissance des garçons était de

$0,5$ , mais les calculatrices usuelles ne peuvent calculer les probabilités associées avec des nombres aussi grands.
En effet, si

$X$ est la variable aléatoire comptant le nombre de garçons parmi les

$802224$ naissances, en supposant que la probabilité d'obtenir un garçon est de

$0,5$ , on a que

$X$ suit une loi binomiale de paramètres

$802224$ et

$0,5$ .
On pourrait alors vouloir calculer

$P(X\leq 300 000)$ mais nos calculatrices nous indiquent un message d'erreur.
Remark 1

L'approximation gaussienne de la loi binomiale (énoncée par le théorème de
Moivre-Laplace
) va nous permettre de résoudre ces problèmes en donnant un intervalle de fluctuation non plus exacte mais
asymptotique
de la loi binomiale de paramètres $n$ et $p$ .
Son utilisation sera donc soumise à des conditions de validité sur $n$ et $p$ .
On pourra modifier les valeurs de $n$ et $p$ dans le graphique ci-dessous, pour que le diagramme ressemble à celui d'une variable aléatoire suivant une loi normale.
0,0
0
50
100
150
n = 2.00
p = 0.50
En choisissant un
risque

$\alpha$

$\in$

$]0;1[$
, il nous faut dans un premier temps déterminer un intervalle de fluctuation au seuil
$1-\alpha$
pour la loi normale
$\mathcal{N}$ $0,1$
, pour pouvoir ensuite généraliser à toute loi normale et donc à toute situation modélisée par une loi binomiale où les paramètres valideront les conditions établies.
Du fait de la symétrie de la courbe de la densité de la loi normale $\mathcal{N}$ $0,1$ , on cherche un intervalle centré en $0$ . Ceci nous permettra également de symétriser le risque d'erreur.

2Intervalle de fluctuation associée à la loi normale centrée réduite 2.1Rappels Property 1
Si X est une variable aléatoire suivant la loi normale

$\mathcal{N}(0;1)$ alors pour tout réel

$\alpha \in ]0;1[$ , il existe un unique réel positif

$u_{\alpha}$ tel que

$P(-u_{\alpha} \leq X \leq u_{\alpha})$

$=$

$1-\alpha$ .

0,0

-u_α

+u_α

P( X < -u_α ) = α/2

P( X > u_α ) = α/2

P(u_α ≤ X ≤ u_α ) = 1 - α

Remark 2 Pour

$\alpha$ fixé dans

$]0;1[$ , on remarque que pour tout réel positif

$t$ :

$P( -t\leq X \leq t )=1-\alpha$

$\Longleftrightarrow$

$P( X\leq t) = 1-\alpha+\dfrac{\alpha}{2}$

$\Longleftrightarrow$

$P( X\leq t) = 1 -\dfrac{\alpha}{2}$ .

Ainsi pour déterminer

$u_{\alpha}$ tel que

$P(-u_{\alpha} \leq X \leq u_{\alpha}) = 1-\alpha$ , il nous suffira de saisir à la calculatrice : FracNormale

$1-\alpha/2$ sur Texas, et InvNormCD

$1-\alpha/2$ sur Casio.
Certaines valeurs de

$u_{\alpha}$ sont à connaître par coeur. Property 2

$u_{0,05}$

$\simeq$

$1,96$ ,
$u_{0,01}$

$\simeq$

$2,58$ .

0,0

u_α = 1.00

P( -u_α < X < u_α ) = 0.68269

α = 0.31731

-4

-3.5

-3

-2.5

-2

-1.5

-1

-0.5

0.5

1.5

2.5

3.5

Modifier

$u_\alpha$ 2.2Intervalle de fluctuation asymptotique Property 3
Soit

$n\in\mathbb{N}^*$ et

$p\in[0;1]$ .
Si la variable aléatoire

$X_n$ suit

$\mathcal{B}(n,p)$

, alors, pour tout réel

$\alpha$

$\in$

$]0;1[$

on a:

$\displaystyle{\lim_{n \to +\infty}P\left(\frac{X_{n}}{n}\in I_{n}\right)}$

$=$

$1-\alpha$

où

$I_{n}$ désigne l'intervalle

$\left[p-u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right]$ .

Remark 3 L'intervalle

$\left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right]$ est donc un intervalle de

fluctuation

asymptotique

au seuil

$1-\alpha$

de la variable aléatoire fréquence

$\dfrac{X_{n}}{n}$ .

Le terme asymptotique étant lié à l'utilisation de la limite.

L'intervalle le plus utilisé est celui associé au risque

$\alpha=0,05$

$on peut également dire au seuil $0,95$$ .

$\left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right].$

Preuve de la propriété
Pour

$\alpha \in ]0;1[$

, notons

$u_{\alpha}$

le réel tel que

$P\left(Z_{n}\in[-u_{\alpha};u_{\alpha}]\right)= 1-\alpha$ .

D'après le théorème de Moivre-Laplace,

$P\left(Z_{n}\in[-u_{\alpha};u_{\alpha}]\right)$

tend vers

$P(X\in[-u_{\alpha};u_{\alpha}])$

$=$

$1-\alpha$

où X suit

une loi

normale

$\mathcal{N}(0,1)$ .

Or,

	$-u_{\alpha}$	$\leq$	$Z_n$	$\leq$	$u_{\alpha}$
$\Longleftrightarrow$	$-u_{\alpha}$	$\leq$	$\dfrac{X_{n}-np}{\sqrt{np(1-p)}}$	$\leq$	$u_{\alpha}$
$\Longleftrightarrow$	$-u_{\alpha}\times \sqrt{np(1-p)}$	$\leq$	$X_{n}-np$	$\leq$	$u_{\alpha} \times \sqrt{np(1-p)}$
$\Longleftrightarrow$	$np-u_{\alpha}\times \sqrt{np(1-p)}$	$\leq$	$X_{n}$	$\leq$	$np+u_{\alpha} \times \sqrt{np(1-p)}$
$\Longleftrightarrow$	$p-u_{\alpha}\times \dfrac{\sqrt{np(1-p)}}{n}$	$\leq$	$\dfrac{X_{n}}{n}$	$\leq$	$p+u_{\alpha}\times \dfrac{\sqrt{np(1-p)}}{n}$ .

Donc,

$Z_{n}\in[-u_{\alpha};u_{\alpha}]$

$\Longleftrightarrow$

$\dfrac{X_{n}}{n}$

$\in$

$\left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}d\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right]$ .

On en déduit, d'après le théorème de Moivre-Laplace, que

$P\left(\frac{X_{n}}{n}\in \left[p-u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{\alpha}\frac{\sqrt{p(1-p)}}{\sqrt{n}}\right]\right)$

tend vers

$1-\alpha$ .

Remark 4 La convergence de la suite

$\left(P\left(\dfrac{X_{n}}{n}\in I_{n}\right)\right)_{n\in\mathbb{N}^{*}}$ n'est pas

monotone.

On ne peut donc pas savoir si

$P\left(\dfrac{X_{n}}{n}\in I_{n}\right)$ est

supérieure

inférieure

$1-\alpha$ .
Conditions d'application de l'approximation

On pratique l'approximation dès que

$n\geq30$ ,

$np\geq5$

$n(1-p)\geq5$ .

0,0

100

150

n = 2.00

p = 0.50

n×p = 1

n×

$1-p$ = 1

Modifier

$n$ et

$p$ pour observer si les conditions sont remplies 3Lien avec l'intervalle de fluctuation vu en 2^nde Remarquons tout d'abord que le polynôme

$P(x)=x(1-x)$ a pour maximum

$\dfrac{1}{4}$ .

0,0

Dans la formule de notre intervalle de fluctuation asymptotique au seuil

$0,95$ ,

$\left[p-1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right]$ ,

on peut majorer

$1,96$ par

$2$

$p(1-p)$ par

$\dfrac{1}{4}$ .

Ainsi :

$1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}$

$\leq$

$2\dfrac{\sqrt{1/4}}{\sqrt{n}}$

$\leq$

$\dfrac{1}{\sqrt{n}}$ .

On retrouve l'intervalle de la classe de 2^nde

$\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]$

qui est donc lui aussi un intervalle de fluctuation

asymptotique

à un seuil

au moins égal

à 0,95.

Graphique des différences entre les intervalles des deux classes

Probabilités
Nombres de lancers
Intervalle de fluctuation

Remark 5 Bien que l'intervalle vu en 2^nde soit plus grand que celui de Terminale, du fait de son caractère asymptotique et de la nature non monotone de la convergence, on ne peut pas affirmer que

$P\left(\dfrac{X_{n}}{n}\in\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]\right)$ est supérieur ou égal à 0,95 pour tout

$n\in\mathbb{N}^{*}$ , mais seulement

proche

de 0,95.
Cependant, on a la propriété suivante : Property 4
Si la variable aléatoire

$X_{n}$ suit une

$\mathcal{B}(n,p)$ ,

il existe un entier

$n_{0}$

tel que si

$n\geq n_{0}$

alors

$P\left(\dfrac{X_{n}}{n}\in\left[p-\dfrac{1}{\sqrt{n}};p+\dfrac{1}{\sqrt{n}}\right]\right)$

$\geq$

$0,95$ .

Preuve
En reprenant les notations utilisées jusqu'ici, nous avons que d'après le théorème de Moivre-Laplace,

$P(-2\leq Z_{n}\leq 2)$

tend vers

$P(-2\leq X\leq2)$ .

Mais

$P(-2\leq X\leq2)\geq 0,9544$ ,

donc, par définition de la limite d'une suite,

il existe

un rang

$n_{0}$

à partir duquel

$P(-2\leq Z_{n}\leq 2)\geq 0,95$ .

De plus, on a :

$P(-2\leq Z_{n}\leq 2)$

$=$

$P\left(p-2\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+2\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\right)$

$\leq$

$P\left(p-\dfrac{1}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+\dfrac{1}{\sqrt{n}}\right)$

car

$p(1-p)$

$\leq$

$\dfrac{1}{4}$ .

Ce qui montre bien qu'il existe un rang

$n_{0}$ à partir duquel

$P\left(p-\dfrac{1}{\sqrt{n}}\leq \dfrac{X_{n}}{n}\leq p+\dfrac{1}{\sqrt{n}}\right)$

$\geq$

$0,95$ .

4Applications Tout comme les années précédentes, on utilise en terminale les intervalles de fluctuation asymptotique pour

prendre des décisions.

Point méthode

On veut savoir, au risque de

5%,

proportion

d'un caractère

$C$ vaut

$p=p_{0}$ ou non à partir d'un

échantillon

de taille

$n\geq 30$ .

On suppose aussi que

$np_{0}\geq 5$

$n(1-p_{0}) \geq 5$ .

On calcule l'intervalle de fluctuation asymptotique

$I=\left[p_{0}-1,96\dfrac{\sqrt{p_{0}(1-p_{0})}}{\sqrt{n}};p_{0}+1,96\dfrac{\sqrt{p_{0}(1-p_{0})}}{\sqrt{n}}\right]$ ;
On calcule la
fréquence $f$
du caractère $C$ dans l'échantillon de taille $n$ ;
On utilise alors la règle de décision au seuil de 5% suivante:
si $f\notin I$ ,

alors

on rejette

l'hypothèse

$p=p_{0}$ ;

sinon

on ne la rejette pas.

Remark 6 La probabilité de rejeter à tort l'hypothèse

$p=p_0$ vaut environ

0,05.

Exercice 1 En 2010, en France, sur les 802224 naissances, 410140 étaient des garçons.

Tester l'hypothèse $p=0,5$ au risque $\alpha=0,05$ .
Tester l'hypothèse $p=0,5$ au risque $\alpha=0,01$ .
Tester l'hypothèse $p=0,512$ au risque $\alpha=0,05$ .

Correction

Vérifions tout d'abord si les
conditions
d'utilisation d'un intervalle asymptotique sont remplies.

$n$

$=$

$802224$

$\geq$

$30$ ,

$n\times p$

$=$

$401 112$

$\geq$

$5$

et

$n\times (1-p)$

$=$

$401 112$

$\geq$

$5$ .

Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :

$I_1=\left[0,5-1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,5+1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right]$

$=$

$\left[ 0,498905 ; 0,501094 \right]$ .

Déterminons la fréquence de garçons parmi les naissances :
$f$

$=$

$\dfrac{410140}{802224}$

$\simeq$

$0,511254$ .

Ainsi,
$f\notin I_1$ ,

on peut donc affirmer,

avec un risque d'erreur de 5%

que la probabilité de naissance d'un garçon en 2010

n'était pas

de $0,5$ .
Les conditions ici étant les mêmes que pour la question $1$ , nous pouvons directement déterminer l'intervalle de fluctuation asymptotique associé au risque d'erreur de 1%.

$I_2=\left[0,5-2,58\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,5+2,58\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right]$

$=$

$\left[ 0,498559 ; 0,501441 \right]$ .

Ainsi,
$f\simeq0,511254\notin I_2$
,
on peut donc affirmer, avec un risque d'erreur de 1% que la probabilité de naissance d'un garçon en 2010 n'était pas de $0,5$ .
Vérifions si les conditions d'utilisation d'un intervalle asymptotique sont remplies avec ici $n=802224$ et $p=0,512$

$n = 802224$

$\geq$

$30$ ,

$n\times p$

$\simeq$

$410 739$

$\geq$

$5$

et

$n\times (1-p)$

$\simeq$

$391 485$

$\geq$

$5$ .

Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :

$I_3=\left[0,512-1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}};0,512+1,96\dfrac{\sqrt{0,5\times0,5}}{\sqrt{802 224}}\right]$

$=$

$\left[ 0,510905 ; 0,5143095 \right]$ .

Ainsi,
$f\simeq0,511254\in I_3$ ,

on ne peut donc pas

rejetter l'hypothèse

que la probabilité de naissance d'un garçon en 2010

était

de $0,512$ .

5Intervalles de confiance 5.1Contexte Dans une population, la fréquence d'individus présentant le caractère

$C$ sur un échantillon donné de taille

$n$ vaut

$f$ .
On pourrait décider que la proportion

$p$ de

$C$ dans la population est proche de

$f$ , mais dès que l'on fera le calcul sur un nouvel échantillon, la valeur de

$f$ sera modifiée.
Ainsi, on préfère déterminer un intervalle, dit

de confiance

, centré en

$f$ dans lequel

$p$ peut se trouver. 5.2Définition Soit donc

$n\in\mathbb{N}^*$ la taille de l'échantillon, et

$X_n$ la variable aléatoire

comptant le nombre d'individus

présentant le caractère

$C$

dans cet échantillon. On note de plus

$F_n = \dfrac{X_n}{n}$

fréquence

d'apparition du caractère dans l'échantillon. On a alors les équivalences suivantes :

$p-\dfrac{1}{\sqrt{n}} \leq F_n \leq p+\dfrac{1}{\sqrt{n}}$

$\Longleftrightarrow$

$-\dfrac{1}{\sqrt{n}} \leq F_n - p \leq \dfrac{1}{\sqrt{n}}$

$\Longleftrightarrow$

$-F_n-\dfrac{1}{\sqrt{n}} \leq -p \leq -F_n+\dfrac{1}{\sqrt{n}}$

$\Longleftrightarrow$

$F_n-\dfrac{1}{\sqrt{n}} \leq p \leq F_n+\dfrac{1}{\sqrt{n}}$ .

En utilisant l'intervalle de fluctuation de la classe de 2^nde, on sait que pour

$n$ assez grand

$P\left( F_n\in\left[ p-\dfrac{1}{\sqrt{n}} ; p+\dfrac{1}{\sqrt{n}} \right] \right)$

vaut environ

$0,95$ ,

donc d'après les calculs "d'inversion" précédents, on a que

$P\left( p\in\left[ F_n-\dfrac{1}{\sqrt{n}} ; F_n+\dfrac{1}{\sqrt{n}} \right] \right)$

vaut environ

$0,95$ .

Ceci nous conduit à la définition suivante : Definition 1
Soit

$p$ la proportion

inconnue

d'un caractère

$C$ sur une population.
Soit

$f$ la fréquence

connue

du caractère

$C$ sur un échantillon de taille

$n$ .
Si

$n\geq30$ ,

$n f\geq5$

$n(1-f)\geq5$ ,

alors l'intervalle

$\left[f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}}\right]$

est un

intervalle de confiance

au niveau de confiance de

95%

de la proportion

$p$ inconnue du caractère

$C$ sur la population. Remark 7

L'intervalle de confiance dépend de l'échantillon utilisé, mais pas de
la

taille
de la population.
La précision de cet intervalle de confiance est de
$\dfrac{2}{\sqrt{n}}$ .

Exercice 2 Dans une urne contenant des boules rouges et bleues en proportions inconnues, on effectue des tirages au hasard avec remise.

Après avoir effectué 100 tirages, on compte 52 boules rouges et 48 boules bleues. Donner un intervalle de confiance à 95% de la proportion $p$ de boules rouge dans l'urne.
Combien faudrait-il, au minimum, effectuer de tirages pour obtenir un intervalle de confiance à 95% de longueur inférieure ou égale à $0,02$ ?

Correction

On note $n$ la taille de l'échantillon et $f$ la fréquence de la boule rouge dans cet échantillon. On a donc
$n=100$
et
$f = 0,52$ .

De plus
$n=100$

$\geq$

$30$ ,

$nf$

$=$

$52$

$\geq5$

et

$b(1-f)$

$=$

$48$

$\geq$

$5$ ,
donc l'intervalle
$I=\left[ f-\dfrac{1}{\sqrt{n}};f+\dfrac{1}{\sqrt{n}} \right]$

$=$

$\left[0,52-\dfrac{1}{\sqrt{100}} ;0,52-\dfrac{1}{\sqrt{100}} \right]$

$=$

$[0,42;0,62]$
est un intervalle
de confiance
au seuil de
95%
de la
proportion de boules rouges
dans l'urne.
La précision de l'intervalle de confiance étant de
$\dfrac{2}{\sqrt{n}}$ ,
on cherche le plus petit entier $n$ tel que
$\dfrac{2}{\sqrt{n}}\leq 0,02$
. Or,

$\dfrac{2}{\sqrt{n}}\leq 0,02$

$\Longleftrightarrow$

$2\leq 0,02\sqrt{n}$

$\Longleftrightarrow$

$100\leq\sqrt{n}$

$\Longleftrightarrow$

$n\geq10 000$ .

En prélevant au moins
$10000$
boules, on obtient un intervalle de confiance au seuil de 95% à la précision
$0,02$ .