-->
TSTMG ∼ Séries statistiques à deux variables Introduction Voici deux séries statistiques représentant deux situations distinctes. La première donne l'évolution du chiffre d'affaire d'une entreprise au cours du temps (l'année de rang 0 étant 2010) et la deuxième la distance de freinage d'un véhicule en fonction de la vitesse.
Rang de l'année $0$ $1$ $2$ $3$ $4$ $5$ $6$ $7$ $8$
CA en milliers d'euros $45,3$ $42,2$ $49,8$ $52,1$ $58,8$ $\dots$ $60,5$ $64,1$ $66,4$
Évolution du chiffre d'affaire d'une entreprise
Vitesse en km/h $20$ $30$ $40$ $50$ $60$ $70$ $80$ $90$ $100$ $110$ $120$
Distance de freinage en m $2$ $5$ $9$ $12$ $\dots$ $24$ $32$ $41$ $50$ $\dots$ $72$
Distance de freinage d'un véhicule Construire dans les repères ci-dessous les nuages de points associés à ces deux séries, puis donner une estimation des valeurs manquantes dans ces deux tableaux.
Évolution du chiffre d'affaire d'une entreprise
Distance de freinage d'un véhicule
Évolution du chiffre d'affaire d'une entreprise
Distance de freinage d'un véhicule
Lorsque le nuage de points a une forme allongée on peut l'approcher par une droite, et ainsi avoir une idée des valeurs manquantes ou de futures valeurs. Les droites sont des objets dont on sait trouver assez facilement des équations.
Dans la deuxième situation, le nuage de points n'a pas une forme allongée et on ne peut pas trouver une droite qui passent au plus proche des points qui le compose. Il faudrait trouver dans ce cas précis une courbe dont l'équation n'est pas aisée à déterminer. On se propose dans cette situation de modifier les données pour obtenir un nouveau nuage de points cette fois-ci de forme allongée.
Vitesse en km/h $20$ $30$ $40$ $50$ $60$ $70$ $80$ $90$ $100$ $110$ $120$
Racine carrée de la distance $1,41$ $2,24$ $3$ $3,46$ $\dots$ $4,90$ $5,66$ $6,40$ $7,07$ $\dots$ $8,49$
Construisons le graphique associé :
Sur ce graphique, on peut tracer une droite qui passe au plus proche de ces nouveaux points. On trouve par exemple que pour une vitesse de 60 km/h, la racine carrée de la distance peut être approchée par $4,2$. Il suffit dans ce cas d'élever au carré pour retrouver la distance de freinage correspondante, soit $4,2^2$ $=$ $17,64$ m.
Séries statistiques à deux variables Sur une même population, on peut étudier plusieurs caractères quantitatifs : le chiffre d'affaire d'une entreprise en fonction des années, ou la distance de freinage d'un véhicule en fonction de la vitesse initiale, ou encore le nombre de bactéries dans une solution en fonction de la température du milieu, ou bien la charge de rupture de tiges en acier en fonction de leur teneur en carbone etc.
Le but est de déterminer si il existe un lien ou non entre les deux caractères étudiés. -- Séries statistiques à deux variables
Soient $x$ et $y$ deux caractères quantitatifs d'une population.
À chaque individu de la population, on associe un couple $(x_i\,;y_i)$ où $x_i$ et $y_i$ sont des valeurs prises par les caractères $x$ et $y$.
Une série statistique à deux variables est l'ensemble de tous ces couples.
Les deux tableaux donnés en introduction représentent deux séries statistiques. -- Nuage de points
Soit une série statistique à deux variables $x$ et $y$ prenant respectivement les valeurs $x_1$, $x_2$, $\dots$, $x_n$ et $y_1$, $y_2$, $\dots$, $y_n$. Le plan étant muni d'un repère, on associe au couple $(x_i\,;y_i)$ le point $M_i(x_i\,;y_i)$.
Le nuage de points associé à la série statistique est l'ensemble des points $M_i$ ainsi obtenus.
Les graphiques construits en introduction sont des nuages de points associés à chacune des séries statistiques étudiées. -- Point moyen
Soit une série statistique à deux variables $x$ et $y$ prenant respectivement les valeurs $x_1$, $x_2$, $\dots$, $x_n$ et $y_1$, $y_2$, $\dots$, $y_n$.
Le point moyen du nuage statistique est le point $G(\overline{x}\,;\overline{y})$ où $\overline{x}$ est la moyenne arithmétique des $x_i$ et $\overline{y}$ celle des $y_i$.
Dans la série statistique associée au chiffre d'affaire de l'entreprise au cours du temps, le point moyen est : $(4\,;55,19)$.
Ajustement affine -- Ajustement affine
Étant donné une série statistique double et son nuage de points, on peut chercher une fonction $f$ dont la courbe représentative $\mathcal{C}$ passe "le plus près possible" des points du nuage.
Le problème de l'ajustement consiste à déterminer cette fonction $f$.
L'ajustement est dit affine lorsque le graphe $\mathcal{C}$ de cette fonction est une droite.
-- Ajustement au jugé
Si les points du nuage statistique d'une série double semblent alignés, on peut tracer une droite d'ajustement affine au jugé, c'est-à-dire, visuellement au plus proche des points du nuage.
C'est la méthode que nous avons employée en introduction. Lorsqu'on effectue un ajustement au jugé il y a une infinité de possiblités et le choix de la droite d'ajustement n'est donc pas unique.
-- Méthode des moindres carrés
On considère une série statistique double et son nuage de points $M_i(x_i\,;y_i)$ avec $i$ compris entre $1$ et $n$.
Soit une droite $d$ d'équation $y=ax+b$. À chaque point $M_i(x_i\,;y_i)$ du nuage de points, on associe le point $P_i(x_i\,;ax_i+b)$ de la droite $d$.
Pour chaque $i$, on calcule les carrés des distances $P_iM_i$, et on les ajoute pour obtenir $E$ : $E$ $=$ $\displaystyle{\sum_{i=1}^n (P_iM_i)^2 }$ $=$ $\displaystyle{\sum_{i=1}^n (y_i-(ax_i+b))^2 }$. La méthode des moindres carrés consiste à déterminer les valeurs de $a$ et de $b$ pour que la somme $E$ soit la plus petite possible.
En reprenant la série statistique représentant l'évolution du chiffre d'affaire, on a le graphique suivant :
Évolution du chiffre d'affaire d'une entreprise
Soit une série statistique à deux variables $x$ et $y$ prenant respectivement les valeurs $x_1$, $x_2$, $\dots$, $x_n$ et $y_1$, $y_2$, $\dots$, $y_n$.
La droite obtenue par la méthode des moindres a pour équation $y=ax+b$ avec :
$a$ $=$ $\displaystyle{\dfrac{ \displaystyle{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})} }{ \displaystyle{\sum_{i=1}^n (x_i-\overline{x})^2}}}$ et $b=\overline{y}-a\overline{x}$.
Cette formule n'est pas à apprendre, les valeurs de $a$ et $b$ seront obtenues en manipulant la calculatrice. On peut d'ailleurs l'obtenir également à l'aide d'un tableur.
La droite des moindres carrés passe par le point moyen $G( \overline{x}\,;\overline{y} )$ du nuage de points.
Dans l'exemple de l'évolution du chiffre d'affaire, on obtient pour équation de la droite d'ajustement affine (en appliquant la méthode des moindres carrées à la calculatrice) : $y=2,96x+43,43$.
Ainsi, pour l'année de rang $5$ (soit en 2015), avec cet ajustement on obtient un chiffre d'affaire de : $2,96\times5+43,43$ $\approx$ $58,2$ milliers d'euros.