-->
Échantillonnage et estimation
1Pourquoi un nouvel intervalle de fluctuation ?
L'intervalle de fluctuation vu en première est certes exact mais présente un défaut majeur.
Il n'y a pas de formule donnant ses extrémités en fonction de n et p.
Il faut donc le déterminer au cas par cas, soit à l'aide d'un tableur soit à l'aide d'un algorithme.
Cette absence de formule nous empèche de déterminer un intervalle de confiance. Les intervalles de confiance s'obtenant en inversant les formules des intervalles de fluctuation d'échantillonnage.
Cela peut s'avérer très long, voire impossible, lorsque n est grand.
Exemple 1
En 2010, en France, sur les 802224 naissances, 410140 étaient des garçons. On souhaite tester l'hypothèse que la probabilité de naissance des garçons était de 0,5, mais les calculatrices usuelles ne peuvent calculer les probabilités associées avec des nombres aussi grands.
En effet, si X est la variable aléatoire comptant le nombre de garçons parmi les 802224 naissances, en supposant que la probabilité d'obtenir un garçon est de 0,5, on a que X suit une loi binomiale de paramètres 802224 et 0,5.
On pourrait alors vouloir calculer P(X≤300000) mais nos calculatrices nous indiquent un message d'erreur.
Remark 1
L'approximation gaussienne de la loi binomiale (énoncée par le théorème de Moivre-Laplace) va nous permettre de résoudre ces problèmes en donnant un intervalle de fluctuation non plus exacte mais asymptotique de la loi binomiale de paramètres n et p.
Son utilisation sera donc soumise à des conditions de validité sur n et p.
On pourra modifier les valeurs de n et p dans le graphique ci-dessous, pour que le diagramme ressemble à celui d'une variable aléatoire suivant une loi normale.
0,0
0
50
100
150
n = 2.00
p = 0.50
En choisissant un risque α∈]0;1[, il nous faut dans un premier temps déterminer un intervalle de fluctuation au seuil 1−α pour la loi normale N(0,1), pour pouvoir ensuite généraliser à toute loi normale et donc à toute situation modélisée par une loi binomiale où les paramètres valideront les conditions établies.
Du fait de la symétrie de la courbe de la densité de la loi normale N(0,1), on cherche un intervalle centré en 0. Ceci nous permettra également de symétriser le risque d'erreur.
2Intervalle de fluctuation associée à la loi normale centrée réduite2.1RappelsProperty 1
Si X est une variable aléatoire suivant la loi normale N(0;1) alors pour tout réel α∈]0;1[, il existe un unique réel positif uα tel que P(−uα≤X≤uα)=1−α.
0,0
-uα
+uα
P( X < -uα ) = α/2
P( X > uα ) = α/2
P(uα ≤ X ≤ uα ) = 1 - α
Remark 2
Pour α fixé dans ]0;1[, on remarque que pour tout réel positif t :
P(−t≤X≤t)=1−α⟺P(X≤t)=1−α+2α⟺P(X≤t)=1−2α.
Ainsi pour déterminer uα tel que P(−uα≤X≤uα)=1−α, il nous suffira de saisir à la calculatrice : FracNormale(1−α/2) sur Texas, et InvNormCD(1−α/2) sur Casio.
Certaines valeurs de uα sont à connaître par coeur.
Property 2
u0,05≃1,96,
u0,01≃2,58.
0,0
uα = 1.00
P( -uα < X < uα ) = 0.68269
α = 0.31731
-4
-3.5
-3
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
3.5
Modifier uα2.2Intervalle de fluctuation asymptotiqueProperty 3
Soit n∈N∗ et p∈[0;1].
Si la variable aléatoire Xn suit B(n,p), alors, pour tout réel α∈]0;1[ on a:
n→+∞limP(nXn∈In)=1−α
où In désigne l'intervalle [p−uαnp(1−p);p+uαnp(1−p)].
Remark 3
L'intervalle [p−uαnp(1−p);p+uαnp(1−p)] est donc un intervalle de fluctuation asymptotique au seuil 1−α de la variable aléatoire fréquence nXn.
Le terme asymptotique étant lié à l'utilisation de la limite.
L'intervalle le plus utilisé est celui associé au risque α=0,05 (on peut également dire au seuil 0,95).
[p−1,96np(1−p);p+1,96np(1−p)].Preuve de la propriété
Pour α∈]0;1[, notons uα le réel tel que P(Zn∈[−uα;uα])=1−α.
D'après le théorème de Moivre-Laplace, P(Zn∈[−uα;uα]) tend vers P(X∈[−uα;uα])=1−α où X suit une loi normale N(0,1).
Or,
−uα
≤
Zn
≤
uα
⟺
−uα
≤
np(1−p)Xn−np
≤
uα
⟺
−uα×np(1−p)
≤
Xn−np
≤
uα×np(1−p)
⟺
np−uα×np(1−p)
≤
Xn
≤
np+uα×np(1−p)
⟺
p−uα×nnp(1−p)
≤
nXn
≤
p+uα×nnp(1−p)
Donc, Zn∈[−uα;uα]⟺nXn∈[p−uαnp(1−p);p+uαdnp(1−p)].
On en déduit, d'après le théorème de Moivre-Laplace, que P(nXn∈[p−uαnp(1−p);p+uαnp(1−p)]) tend vers 1−α.
Remark 4
La convergence de la suite (P(nXn∈In))n∈N∗ n'est pas monotone.
On ne peut donc pas savoir si P(nXn∈In) est supérieure ou inférieure à 1−α.
Conditions d'application de l'approximation
On pratique l'approximation dès que n≥30, np≥5 et n(1−p)≥5.
0,0
0
50
100
150
n = 2.00
p = 0.50
n×p = 1
n×(1-p) = 1
Modifier n et p pour observer si les conditions sont remplies3Lien avec l'intervalle de fluctuation vu en 2nde
Remarquons tout d'abord que le polynôme P(x)=x(1−x) a pour maximum 41.
0,0
Dans la formule de notre intervalle de fluctuation asymptotique au seuil 0,95, [p−1.96np(1−p);p+1.96np(1−p)], on peut majorer 1,96 par 2 et p(1−p) par 41.
Ainsi : 1.96np(1−p)≤2n1/4≤n1.
On retrouve l'intervalle de la classe de 2nde[p−n1;p+n1] qui est donc lui aussi un intervalle de fluctuation asymptotique à un seuil au moins égal à 0,95.
Graphique des différences entre les intervalles des deux classes
Probabilités
Nombres de lancers
Remark 5
Bien que l'intervalle vu en 2nde soit plus grand que celui de Terminale, du fait de son caractère asymptotique et de la nature non monotone de la convergence, on ne peut pas affirmer que P(nXn∈[p−n1;p+n1]) est supérieur ou égal à 0,95 pour tout n∈N∗, mais seulement proche de 0,95.
Cependant, on a la propriété suivante :
Property 4
Si la variable aléatoire Xn suit une B(n,p), il existe un entier n0 tel que si n≥n0 alors P(nXn∈[p−n1;p+n1])≥0,95.
Preuve
En reprenant les notations utilisées jusqu'ici, nous avons que d'après le théorème de Moivre-Laplace,
P(−2≤Zn≤2) tend vers P(−2≤X≤2).
Mais P(−2≤X≤2)≥0,9544, donc, par définition de la limite d'une suite, il existe un rang n0 à partir duquel P(−2≤Zn≤2)≥0,95.
De plus, on a :
P(−2≤Zn≤2)=P(p−2np(1−p)≤nXn≤p+2np(1−p))≤P(p−n1≤nXn≤p+n1) car p(1−p)≤41.
Ce qui montre bien qu'il existe un rang n0 à partir duquel P(p−n1≤nXn≤p+n1)≥0,95.
4Applications
Tout comme les années précédentes, on utilise en terminale les intervalles de fluctuation asymptotique pour prendre des décisions.
Point méthode
On veut savoir, au risque de 5%, si la proportion d'un caractère C vaut p=p0 ou non à partir d'un échantillon de taille n≥30. On suppose aussi que np0≥5 et n(1−p0)≥5.
On calcule l'intervalle de fluctuation asymptotique
On calcule la fréquence f du caractère C dans l'échantillon de taille n;
On utilise alors la règle de décision au seuil de 5% suivante: si f∉I, alors on rejette l'hypothèse p=p0; sinon on ne la rejette pas.
Remark 6
La probabilité de rejeter à tort l'hypothèse p=p0 vaut environ 0,05.
Exercice 1
En 2010, en France, sur les 802224 naissances, 410140 étaient des garçons.
Vérifions tout d'abord si les conditions d'utilisation d'un intervalle asymptotique sont remplies.
n=802224≥30, n×p=401112≥5 et n×(1−p)=401112≥5.
Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :
Déterminons la fréquence de garçons parmi les naissances : f=802224410140≃0,511254.
Ainsi, f∉I1, on peut donc affirmer, avec un risque d'erreur de 5% que la probabilité de naissance d'un garçon en 2010 n'était pas de 0,5.
Les conditions ici étant les mêmes que pour la question 1, nous pouvons directement déterminer l'intervalle de fluctuation asymptotique associé au risque d'erreur de 1%.
I2=[0,5−2,588022240,5×0,5;0,5+2,588022240,5×0,5]=[0,498559;0,501441].
Ainsi, f≃0,511254∉I2, on peut donc affirmer, avec un risque d'erreur de 1% que la probabilité de naissance d'un garçon en 2010 n'était pas de 0,5.
Vérifions si les conditions d'utilisation d'un intervalle asymptotique sont remplies avec ici n=802224 et p=0,512 n=802224≥30, n×p≃410739≥5 et n×(1−p)≃391485≥5.
Ainsi nous pouvons déterminer l'intervalle de fluctuation asymptotique :
5Intervalles de confiance5.1Contexte
Dans une population, la fréquence d'individus présentant le caractère C sur un échantillon donné de taille n vaut f.
On pourrait décider que la proportion p de C dans la population est proche de f, mais dès que l'on fera le calcul sur un nouvel échantillon, la valeur de f sera modifiée.
Ainsi, on préfère déterminer un intervalle, dit de confiance, centré en f dans lequel p peut se trouver.
5.2Définition
Soit donc n∈N∗ la taille de l'échantillon, et Xn la variable aléatoire comptant le nombre d'individus présentant le caractère C dans cet échantillon. On note de plus Fn=nXn la fréquence d'apparition du caractère dans l'échantillon. On a alors les équivalences suivantes :
En utilisant l'intervalle de fluctuation de la classe de 2nde, on sait que pour n assez grand P(Fn∈[p−n1;p+n1]) vaut environ 0,95, donc d'après les calculs "d'inversion" précédents, on a que P(p∈[Fn−n1;Fn+n1]) vaut environ 0,95.
Ceci nous conduit à la définition suivante :
Definition 1
Soit p la proportion inconnue d'un caractère C sur une population.
Soit f la fréquence connue du caractère C sur un échantillon de taille n.
Si n≥30, nf≥5 et n(1−f)≥5, alors l'intervalle
[f−n1;f+n1]
est un intervalle de confiance au niveau de confiance de 95% de la proportion p inconnue du caractère C sur la population.
Remark 7
L'intervalle de confiance dépend de l'échantillon utilisé, mais pas de la taille de la population.
La précision de cet intervalle de confiance est de n2.
Exercice 2
Dans une urne contenant des boules rouges et bleues en proportions inconnues, on effectue des tirages au hasard avec remise.
Après avoir effectué 100 tirages, on compte 52 boules rouges et 48 boules bleues. Donner un intervalle de confiance à 95% de la proportion p de boules rouge dans l'urne.
Combien faudrait-il, au minimum, effectuer de tirages pour obtenir un intervalle de confiance à 95% de longueur inférieure ou égale à 0,02 ?
On note n la taille de l'échantillon et f la fréquence de la boule rouge dans cet échantillon. On a donc n=100 et f=0,52.
De plus n=100≥30, nf=52≥5 et b(1−f)=48≥5, donc l'intervalle I=[f−n1;f+n1]=[0,52−1001;0,52−1001]=[0,42;0,62] est un intervalle de confiance au seuil de 95% de la proportion de boules rouges dans l'urne.
La précision de l'intervalle de confiance étant de n2, on cherche le plus petit entier n tel que n2≤0,02. Or,
n2≤0,02⟺2≤0,02n⟺100≤n⟺n≥10000.
En prélevant au moins 10000 boules, on obtient un intervalle de confiance au seuil de 95% à la précision 0,02.