Loading [MathJax]/jax/output/CommonHTML/jax.js
-->
Échantillonnage et estimation 1Pourquoi un nouvel intervalle de fluctuation ? L'intervalle de fluctuation vu en première est certes exact mais présente un défaut majeur.
Il n'y a
pas de formule
donnant ses extrémités en fonction de n et p. Exemple 1 En 2010, en France, sur les 802224 naissances, 410140 étaient des garçons. On souhaite tester l'hypothèse que la probabilité de naissance des garçons était de 0,5, mais les calculatrices usuelles ne peuvent calculer les probabilités associées avec des nombres aussi grands.
En effet, si X est la variable aléatoire comptant le nombre de garçons parmi les 802224 naissances, en supposant que la probabilité d'obtenir un garçon est de 0,5, on a que X suit une loi binomiale de paramètres 802224 et 0,5.
On pourrait alors vouloir calculer P(X300000) mais nos calculatrices nous indiquent un message d'erreur.
Remark 1 2Intervalle de fluctuation associée à la loi normale centrée réduite 2.1Rappels Property 1
Si X est une variable aléatoire suivant la loi normale N(0;1) alors pour tout réel α]0;1[, il existe un unique réel positif uα tel que
P(uαXuα)
=
1α.
-uα
+uα
P( X < -uα ) = α/2
P( X > uα ) = α/2
P(uα ≤ X ≤ uα ) = 1 - α
Remark 2 Pour α fixé dans ]0;1[, on remarque que pour tout réel positif t :

P(tXt)=1α P(Xt)=1α+α2 P(Xt)=1α2.

Ainsi pour déterminer uα tel que P(uαXuα)=1α, il nous suffira de saisir à la calculatrice : FracNormale$1α/2$ sur Texas, et InvNormCD$1α/2$ sur Casio.
Certaines valeurs de uα sont à connaître par coeur. Property 2
uα = 1.00
P( -uα < X < uα ) = 0.68269
α = 0.31731
-4
-3.5
-3
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
3.5
Modifier uα 2.2Intervalle de fluctuation asymptotique Property 3
Soit nN et p[0;1].
Si la variable aléatoire Xn suit
B(n,p)
, alors, pour tout réel
α
]0;1[
on a:
limn+P(XnnIn)
=
1α
In désigne l'intervalle
[puαp(1p)n;p+uαp(1p)n].
Remark 3 L'intervalle [puαp(1p)n;p+uαp(1p)n] est donc un intervalle de
fluctuation
asymptotique
au seuil
1α
de la variable aléatoire fréquence
Xnn.

Le terme asymptotique étant lié à l'utilisation de la limite.

L'intervalle le plus utilisé est celui associé au risque
α=0,05
onpeutégalementdireauseuil$0,95$.
[p1,96p(1p)n;p+1,96p(1p)n].
Preuve de la propriété
Pour
α]0;1[
, notons
uα
le réel tel que
P(Zn[uα;uα])=1α.

D'après le théorème de Moivre-Laplace,
P(Zn[uα;uα])
tend vers
P(X[uα;uα])
=
1α
où X suit
une loi
normale
N(0,1).

Or,
uα
Zn
uα
uα
Xnnpnp(1p)
uα
uα×np(1p)
Xnnp
uα×np(1p)
npuα×np(1p)
Xn
np+uα×np(1p)
puα×np(1p)n
Xnn
p+uα×np(1p)n.

Donc,
Zn[uα;uα]
Xnn [puαp(1p)n;p+uαdp(1p)n].

On en déduit, d'après le théorème de Moivre-Laplace, que
P(Xnn[puαp(1p)n;p+uαp(1p)n])
tend vers
1α.
Remark 4 La convergence de la suite (P(XnnIn))nN n'est pas
monotone.

On ne peut donc pas savoir si P(XnnIn) est
supérieure
ou
inférieure
à 1α.
 Conditions d'application de l'approximation
On pratique l'approximation dès que
n30,
np5
et
n(1p)5.

204060801001200.020.040.060.080.10.120.140.160.18−0.02−0.04
0
50
100
150
n = 2.00
p = 0.50
n×p = 1
1p = 1
Modifier n et p pour observer si les conditions sont remplies 3Lien avec l'intervalle de fluctuation vu en 2nde Remarquons tout d'abord que le polynôme P(x)=x(1x) a pour maximum
14.
0.511.5−0.50.5−0.5−1−1.5
Dans la formule de notre intervalle de fluctuation asymptotique au seuil 0,95,
[p1.96p(1p)n;p+1.96p(1p)n],
on peut majorer 1,96 par
2
et p(1p) par
14.

Ainsi :
1.96p(1p)n
21/4n
1n.

On retrouve l'intervalle de la classe de 2nde
[p1n;p+1n]
qui est donc lui aussi un intervalle de fluctuation
asymptotique
à un seuil
au moins égal
à 0,95.

Graphique des différences entre les intervalles des deux classes
Probabilités
Nombres de lancers


Remark 5 Bien que l'intervalle vu en 2nde soit plus grand que celui de Terminale, du fait de son caractère asymptotique et de la nature non monotone de la convergence, on ne peut pas affirmer que P(Xnn[p1n;p+1n]) est supérieur ou égal à 0,95 pour tout nN, mais seulement
proche
de 0,95.
Cependant, on a la propriété suivante : Property 4
Si la variable aléatoire Xn suit une
B(n,p),
il existe un entier
n0
tel que si
nn0
alors
P(Xnn[p1n;p+1n])
0,95.
Preuve
En reprenant les notations utilisées jusqu'ici, nous avons que d'après le théorème de Moivre-Laplace,

P(2Zn2)
tend vers
P(2X2).


Mais
P(2X2)0,9544,
donc, par définition de la limite d'une suite,
il existe
un rang
n0
à partir duquel
P(2Zn2)0,95.

De plus, on a :
P(2Zn2)
=
P(p2p(1p)nXnnp+2p(1p)n)
P(p1nXnnp+1n)
car
p(1p)
14.

Ce qui montre bien qu'il existe un rang n0 à partir duquel
P(p1nXnnp+1n)
0,95.
4Applications Tout comme les années précédentes, on utilise en terminale les intervalles de fluctuation asymptotique pour
prendre des décisions.

 Point méthode
On veut savoir, au risque de
5%,
si
la
proportion
d'un caractère C vaut p=p0 ou non à partir d'un
échantillon
de taille
n30.
On suppose aussi que
np05
et
n(1p0)5.
Remark 6 La probabilité de rejeter à tort l'hypothèse p=p0 vaut environ
0,05.
Exercice 1 En 2010, en France, sur les 802224 naissances, 410140 étaient des garçons.
  1. Tester l'hypothèse p=0,5 au risque α=0,05.
  2. Tester l'hypothèse p=0,5 au risque α=0,01.
  3. Tester l'hypothèse p=0,512 au risque α=0,05.
Correction
  1. Vérifions tout d'abord si les
    conditions
    d'utilisation d'un intervalle asymptotique sont remplies.
    n
    =
    802224
    30,
    n×p
    =
    401112
    5
    et
    n×(1p)
    =
    401112
    5.

    Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :

    I1=[0,51,960,5×0,5802224;0,5+1,960,5×0,5802224]
    =
    [0,498905;0,501094].


    Déterminons la fréquence de garçons parmi les naissances :
    f
    =
    410140802224
    0,511254.

    Ainsi,
    fI1,
    on peut donc affirmer,
    avec un risque d'erreur de 5%
    que la probabilité de naissance d'un garçon en 2010
    n'était pas
    de 0,5.
  2. Les conditions ici étant les mêmes que pour la question 1, nous pouvons directement déterminer l'intervalle de fluctuation asymptotique associé au risque d'erreur de 1%.

    I2=[0,52,580,5×0,5802224;0,5+2,580,5×0,5802224]
    =
    [0,498559;0,501441].

    Ainsi,
    f0,511254I2
    ,
    on peut donc affirmer, avec un risque d'erreur de 1% que la probabilité de naissance d'un garçon en 2010 n'était pas de 0,5.
  3. Vérifions si les conditions d'utilisation d'un intervalle asymptotique sont remplies avec ici n=802224 et p=0,512
    n=802224
    30,
    n×p
    410739
    5
    et
    n×(1p)
    391485
    5.

    Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :

    I3=[0,5121,960,5×0,5802224;0,512+1,960,5×0,5802224]
    =
    [0,510905;0,5143095].


    Ainsi,
    f0,511254I3,
    on ne peut donc pas
    rejetter l'hypothèse
    que la probabilité de naissance d'un garçon en 2010
    était
    de 0,512.
5Intervalles de confiance 5.1Contexte Dans une population, la fréquence d'individus présentant le caractère C sur un échantillon donné de taille n vaut f.
On pourrait décider que la proportion p de C dans la population est proche de f, mais dès que l'on fera le calcul sur un nouvel échantillon, la valeur de f sera modifiée.
Ainsi, on préfère déterminer un intervalle, dit
de confiance
, centré en f dans lequel p peut se trouver. 5.2Définition Soit donc nN la taille de l'échantillon, et Xn la variable aléatoire
comptant le nombre d'individus
présentant le caractère C
dans cet échantillon. On note de plus
Fn=Xnn
la
fréquence
d'apparition du caractère dans l'échantillon. On a alors les équivalences suivantes :

p1nFnp+1n
1nFnp1n
Fn1npFn+1n
Fn1npFn+1n.


En utilisant l'intervalle de fluctuation de la classe de 2nde, on sait que pour n assez grand
P(Fn[p1n;p+1n])
vaut environ
0,95,
donc d'après les calculs "d'inversion" précédents, on a que
P(p[Fn1n;Fn+1n])
vaut environ
0,95.


Ceci nous conduit à la définition suivante : Definition 1
Soit p la proportion
inconnue
d'un caractère C sur une population.
Soit f la fréquence
connue
du caractère C sur un échantillon de taille n.
Si
n30,
nf5
et
n(1f)5,
alors l'intervalle
[f1n;f+1n]
est un
intervalle de confiance
au niveau de confiance de
95%
de la proportion p inconnue du caractère C sur la population.
Remark 7 Exercice 2 Dans une urne contenant des boules rouges et bleues en proportions inconnues, on effectue des tirages au hasard avec remise.
  1. Après avoir effectué 100 tirages, on compte 52 boules rouges et 48 boules bleues. Donner un intervalle de confiance à 95% de la proportion p de boules rouge dans l'urne.
  2. Combien faudrait-il, au minimum, effectuer de tirages pour obtenir un intervalle de confiance à 95% de longueur inférieure ou égale à 0,02 ?
Correction
  1. On note n la taille de l'échantillon et f la fréquence de la boule rouge dans cet échantillon. On a donc
    n=100
    et
    f=0,52.

    De plus
    n=100
    30,
    nf
    =
    52
    5
    et
    b(1f)
    =
    48
    5,
    donc l'intervalle
    I=[f1n;f+1n]
    =
    [0,521100;0,521100]
    =
    [0,42;0,62]
    est un intervalle
    de confiance
    au seuil de
    95%
    de la
    proportion de boules rouges
    dans l'urne.
  2. La précision de l'intervalle de confiance étant de
    2n,
    on cherche le plus petit entier n tel que
    2n0,02
    . Or,
    2n0,02
    20,02n
    100n
    n10000.

    En prélevant au moins
    10000
    boules, on obtient un intervalle de confiance au seuil de 95% à la précision
    0,02.