Échantillonnage

Par nature, une expérience aléatoire a un résultat imprévisible avec certitude puisque le hasard intervient. Pour autant, même le hasard obéit à des lois ! Dans ce chapitre, nous allons observer certaines de ces lois. Mieux encore, nous allons les utiliser pour résoudre des problèmes d'une très grande diversité !

Loi des grands nombres
Un échantillon de taille $n$ est la liste des résultats obtenus en répétant $n$ fois la même expérience aléatoire.

On considère une expérience aléatoire et un évènement $E$ de cette expérience aléatoire.
Lorsque $n$ est grand, sauf exception, la fréquence observée de $E$ sur un échantillon de taille $n$ est proche de la probabilité de $E$.
Observation de la loi des grands nombres avec Python.
En lançant une pièce de monnaie équilibrée, la probabilité d'avoir pile est de $0,5$. Donc, vérifions que la fréquence observée lors de la simulation d'une série de $n$ lancers avec $n$ grand est aussi proche, sauf exception, de $0,5$. from random import* # Nombre de lancers nombre_lancers = 1000 # Vous pouvez modifier ce nombre def simuler_lancers_piece(nombre_lancers): compte_pile = 0 for i_ in range(0, nombre_lancers): lancer = randint(0,1) # 0 pour face, 1 pour pile if lancer == 1: compte_pile += 1 frequence_pile = compte_pile / nombre_lancers return frequence_pile # Simulation frequence_pile = simuler_lancers_piece(nombre_lancers) print(f"Fréquence d'apparition du côté pile:\n{frequence_pile:.4f}")

La loi des grands nombres peut nous servir de deux façons. D'abord si on connaît déjà la probabilité $p$ avec laquelle un évènement se produit, alors on pourra déterminer si une fréquence observée est compatible avec cette valeur de $p$. Cela est très utile pour détecter qu'il s'est produit quelque chose d'anormal. Ensuite, quand on ne connaît pas la probabilité $p$ avec laquelle un évènement se produit, alors on pourra l'estimer à partir sa fréquence observée dans un échantillon. Intervalle de fluctuation

Grâce à la loi des grands nombres, on sait que lorsque $n$ est grand, sauf exception, la fréquence $f$ observée de $E$ sur un échantillon de taille $n$ est proche de la probabilité de $E$. Nous allons dans la propriété suivante préciser ce que signifie que $p$ et $f$ sont proches.


On répète n fois une même expérience aléatoire où $E$ peut être réalisé avec une probabilité $p$. On appelle intervalle de fluctuation de cet échantillon l’intervalle $\left[p-\frac{1}{\sqrt{n}} \,;\, p+\frac{1}{\sqrt{n}}\right]$.
Déterminer l’intervalle de fluctuation de la fréquence de piles pour un échantillon de 100 lancers de pièces de monnaie équilibrées. Ici, $p$ $=$ $0,5$ et $n$ $=$ $100$. Donc, $\sqrt{n}$ $=$ $10$ et $\frac{1}{\sqrt{n}}$ $=$ $0,1$. Donc, l’intervalle de fluctuation vaut ici $[0,5-0,1 \,;\, 0,5+0,1]$ $=$ $[0,4 \,;\, 0,6]$. import math from random import* def simuler_lancers_piece(nombre_lancers): compte_pile = 0 for i_ in range(0,nombre_lancers): lancer = randint(0,1) # 0 pour face, 1 pour pile if lancer == 1: compte_pile += 1 frequence_pile = compte_pile / nombre_lancers return frequence_pile def simuler_n_experiences(nombre_simulations, nombre_lancers): intervalle_bas = 0.5 - 1 / math.sqrt(nombre_lancers) intervalle_haut = 0.5 + 1 / math.sqrt(nombre_lancers) compte_dans_intervalle = 0 for j_ in range(0,nombre_simulations): frequence_pile = simuler_lancers_piece(nombre_lancers) if intervalle_bas <= frequence_pile <= intervalle_haut: compte_dans_intervalle += 1 frequence_dans_intervalle = compte_dans_intervalle / nombre_simulations return frequence_dans_intervalle # Paramètres nombre_simulations = 1000 # Vous pouvez modifier ce nombre nombre_lancers = 100 # Vous pouvez modifier ce nombre # Simulation frequence_dans_intervalle = simuler_n_experiences(nombre_simulations, nombre_lancers) print(f"Fréquence des simulations où la fréquence observée est dans l'intervalle:\n{frequence_dans_intervalle:.4f}")
Si la taille de l'échantillon est assez grande, la fréquence observée appartient à l'intervalle de fluctuation avec une probabilité supérieure à $0,95$.
Cette propriété permet de déceler une anomalie statistique quand la fréquence n’appartient pas à l’intervalle de fluctuation. Cela permet par exemple de détecter une fraude dans la comptabilité d’une entreprise ou encore en médecine de détecter une pathologie si une mesure est anormalement éloignée de la moyenne. Estimation d'une proportion inconnue
Si $f$ est la fréquence observée d’un caractère d’un échantillon de taille $n$, l’intervalle de confiance est définie par $\left[f-\frac{1}{\sqrt{n}} \,;\, f+\frac{1}{\sqrt{n}}\right]$.
Déterminer l’intervalle de confiance associé à un sondage réalisé sur $1000$ personnes dans lequel 52% des sondés affirment vouloir voter pour Monsieur X. Ici, $f$ $=$ $0,52$ et $n$ $=$ $1000$. Donc, $\frac{1}{\sqrt{n}}$ $\approx$ $0,03$ et l’intervalle de confiance vaut $[0,52-0,03 \,;\, 0,52+0,03]$ $=$ $[0,49 \,;\, 0,55]$.
Si $n >$ $30$, $\,\, n \times f$ $>$ $5$ et $n \times (1-f)$ $>$ $5$, alors $p$ appartient à l’intervalle de confiance de l’échantillon avec un niveau de confiance de $0,95$. On peut donc estimer que $p \in \left[f-\frac{1}{\sqrt{n}} \,;\, f+\frac{1}{\sqrt{n}}\right]$ avec un niveau de confiance de 95%.
L’expression niveau de confiance de 95% signifie qu’avant de choisir un échantillon, il y a environ 95% de chances que l’intervalle de confiance contienne la valeur $p$ que je cherche à estimer. Une fois l’échantillon sélectionné, il n’y a plus de hasard donc on ne peut plus parler de probabilité de 95%. C’est sur cette dernière propriété que repose les sondages d’opinion. Dans l’exercice précédent, citer deux raisons mathématiques pour lesquelles Monsieur X ne peut pas être certain de gagner malgré le sondage favorable. La borne inférieure de l'intervalle de confiance est inférieure à 0,5. Ce sondage est donc compatible avec une courte défaite. De plus, le niveau de confiance de 95% est certes élevé, mais il n'est pas de 100%. On peut réduire le risque en réalisant d'autres sondages.