Ajustement affine

En mathématiques, un ajustement affine[1] est la détermination d’une droite approchant au mieux un nuage de points dans le plan.

Nuage de points et sa droite d'ajustement

Il est utilisé notamment en analyse de données pour évaluer la pertinence d’une relation affine entre deux variables statistiques, et pour estimer les coefficients d’une telle relation. Il permet aussi de produire une droite de tendance pour formuler des prévisions sur un comportement futur proche ou une interpolation entre deux mesures effectuées.

L’ajustement affine peut être obtenu par régression linéaire, en particulier par la méthode des moindres carrés, ou par d’autres méthodes reposant par exemple sur une segmentation des valeurs pour utiliser les phénomènes de lissage. Ces méthodes sont plus ou moins adaptées selon le contexte d’obtention des données (mesures expérimentales avec bruit, série chronologique, fonction de répartition empirique, agrégation de résultats partiels...) et les ressources disponibles en temps de calcul ou espace mémoire.

Certaines de ces méthodes se généralisent pour plus de deux variables avec la régression linéaire multiple et l’analyse en composantes principales.

Régression linéaire

On note $(M i (x i, y i))$ le nuage de points que l'on cherche à ajuster par une droite $(d) : y = ax + b$ .

Une méthode de régression linéaire consiste à minimiser les résidus $y i - a x i - b$ , c’est-à-dire la distance de chaque point $M i$ à la droite $d$ dans la direction de l’axe des ordonnées. Mais comme les points ne sont en général pas déjà alignés, il n’est pas possible de minimiser simultanément toutes ces distances. On distingue donc plusieurs méthodes selon la façon d’agréger ces distances.

Méthode des moindres carrés

Cette méthode consiste à minimiser la somme des carrés des résidus, définie par : $S=\sum _{i=1}^{n}(y_{i}-ax_{i}-b)^{2}$

Quelle que soit la répartition des points, il existe une unique droite qui minimise $S$ , dont les coefficients s’écrivent $a={\frac {\mathrm {Cov} (x,y)}{\mathrm {V} (x)}}$ $b={\overline {y}}-a{\overline {x}}$ où $x$ est la moyenne des abscisses $y$ est la moyenne des ordonnées : ${\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ ; ${\overline {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}$ $V(x)$ est la variance des abscisses $\mathrm {V} (x)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i})^{2}-{\overline {x}}^{2}$ et $Cov(x, y)$ est la covariance des couples de coordonnées $\mathrm {Cov} (x,y)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}-{\overline {x}}\,{\overline {y}}$ .

L’expression de l’ordonnée à l’origine $b$ montre que la droite ainsi définie passe par l’isobarycentre des points, de coordonnées $(x, y)$ .

Il existe plusieurs démonstrations possibles pour justifier ces valeurs[2] dont une consiste à considérer $S$ , pour $a$ donné, comme une fonction du second degré en $b$ dont on peut déterminer le minimum, puis, ce $b$ étant exprimé par sa valeur en fonction de $a$ , trouver le minimum de la fonction du second degré en $a$ .

Démonstration

Pour $a$ fixé, $S$ peut s'écrire comme une fonction de $b$ $S=f_{a}(b)=\sum _{i=1}^{n}\left[b^{2}-2b(y_{i}-ax_{i})+(y_{i}-ax_{i})^{2}\right]=nb^{2}-2nb({\overline {y}}-a{\overline {x}})+\sum _{i=1}^{n}(y_{i}-ax_{i})^{2}$ Cette fonction du second degré, de la forme $Ab 2 + Bb + C$ , atteint son minimum lorsque $b$ est égal à $- B /2 A$ donc lorsque $b={\overline {y}}-a{\overline {x}}$ Si maintenant on remplace, dans $S$ , $b$ par sa valeur en fonction de $a$ , on obtient une fonction du second degré en $a$ : $S=g(a)=\sum _{i=1}^{n}\left[\left(y_{i}-{\overline {y}}\right)-a\left(x_{i}-{\overline {x}}\right)\right]^{2}=na^{2}\mathrm {V} (x)-2na\mathrm {Cov} (x,y)+n\mathrm {V} (y)$ Cette fonction du second degré, de la forme $Ua 2 + Va + W$ , atteint son minimum lorsque $a$ est égal à $- V /2 U$ donc lorsque $a={\frac {\mathrm {Cov} (x,y)}{\mathrm {V} (x)}}$

Le minimum est alors de $S_{\min }=n\mathrm {V} (y)-n\mathrm {V} (x)\left({\frac {\mathrm {Cov} (x,y)}{\mathrm {V} (x)}}\right)^{2}=n\mathrm {V} (y)\left(1-{\frac {\mathrm {Cov} ^{2}(x,y)}{\mathrm {V} (x)\mathrm {V} (y)}}\right)$

La qualité de l’ajustement affine est alors mesurée par le coefficient de corrélation linéaire $r={\frac {\mathrm {Cov} (x,y)}{\sqrt {\mathrm {V} (x)\mathrm {V} (y)}}}={\frac {\mathrm {Cov} (x,y)}{\sigma _{x}\sigma _{y}}}={\dfrac {\displaystyle \sum _{i=1}^{n}(x_{i}-{\bar {x}})\cdot (y_{i}-{\bar {y}})}{{\sqrt {\displaystyle \sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\cdot {\sqrt {\displaystyle \sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}$ où $σ x$ et $σ y$ sont les écarts types des deux variables statistiques. Il intervient dans l'évaluation de la somme des carrés des résidus :

$S=n\mathrm {V} (Y)(1-r^{2})$

Plus le coefficient de corrélation est proche de 1 ou –1, et plus la somme des carrés des résidus est voisine de 0. Le coefficient de corrélation est donc un bon indicateur de la validité de l'ajustement affine.

On peut aussi comprendre le rôle d'indicateur du coefficient de corrélation en observant le graphique centré sur le point moyen (de coordonnées $(x, y)$ ). Si l'ajustement affine n'est pas légitime, il y aura grossièrement autant de points dans chacun des quadrants et les produits $(x i - x)(y i - y)$ seront de signes différents et se compenseront mutuellement quand on en fera la somme conduisant ainsi à un $r$ petit en valeur absolue. Tandis que si l'ajustement affine est légitime, il y aura deux quadrants, de part et d'autre du point moyen, qui contiendront l'essentiel des points et les points correspondants seront donc caractérisés par le même signe dans le produit $(x i - x)(y i - y)$ , signe qui deviendra ainsi très largement majoritaire et que l'on retrouvera dans leur somme, ce qui conduit à une valeur de $r$ grande en valeur absolue.

Enfin, l'inégalité de Cauchy-Schwarz permet d'affirmer que $\left|\sum _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})\right|\leqslant \left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)^{1/2}\left(\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}\right)^{1/2}\Longleftrightarrow \mathrm {Cov} (X,Y)\leqslant {\sqrt {\mathrm {V} (X)}}{\sqrt {\mathrm {V} (Y)}},$

avec égalité seulement si les $y i - y$ sont proportionnels aux $x i - x$ . Donc $| r | \leq 1$ avec égalité seulement s'il existe un réel $a$ tel que, pour tout $i$ , $y i - y = a (x i - x)$ . Ainsi, plus $| r |$ est proche de 1 plus l'ajustement affine semble légitime.

Une autre méthode d'interpréter le rôle joué par le coefficient de corrélation est d'observer les fluctuations de $Y$ autour de sa moyenne. Il existe deux phénomènes qui expliquent ces fluctuations. D'une part, on sait que $Y$ est considéré comme proche d'une fonction affine de $X$ . Quand $X$ fluctue autour de sa moyenne avec une variance de $V(x)$ , $aX + b$ fluctue autour de sa moyenne $y$ avec une variance de $a 2 V(x)$ , cette quantité s'appelle la variance expliquée. L'autre raison de fluctuation de $Y$ est que le nuage de points n'est pas situé sur la droite d'ajustement : les valeurs $y i$ et $ax i + b$ peuvent être différentes. On démontre, à partir de l'expression précédente de $S$ , que la variance est la somme de la variance expliquée et de la variance résiduelle c'est-à-dire $S / n$ .

Le rapport de corrélation est le rapport entre la variation expliquée (inévitable puisque $X$ fluctue) et la variance totale. Ce rapport de corrélation est égal au carré du coefficient de corrélation $r 2$ . Plus le rapport de corrélation est proche de 1, plus la variance expliquée est proche de la variance totale et plus la variance résiduelle est faible, donc meilleur est l'ajustement affine.

Ajustement affine de X par Y

Comparaison d'un ajustement de

Y

par

X

et de

X

par

Y

On peut également ajuster le nuage de points en expliquant $X$ par $Y$ , c'est-à-dire en cherchant la droite $(d')$ d'équation $X = cY + d$ qui rend minimale la somme des carrés des distances $M i R i$ où $R i$ est le projeté de $M i$ sur $(d')$ parallèlement à l'axe des abscisses.

Les coefficients $c$ et $d$ sont alors données par $d={\overline {x}}-c{\overline {y}}$ $c={\frac {\mathrm {Cov} (x,y)}{\mathrm {V} (y)}}$

Cette droite passe aussi par le point moyen mais n'a pas toujours même pente que la précédente. Les droites ont même pente si $a$ et $c$ sont inverses l'un de l'autre, donc si $ac$ vaut 1, or $ac$ correspond à $r 2$ . On retrouve ainsi le résultat : l'ajustement de $X$ par $Y$ donne la même droite que l'ajustement de $Y$ par $X$ seulement si le coefficient de corrélation vaut 1 ou –1.

Interprétation en géométrie euclidienne de dimension n

Dans l'espace $\mathbb {R} ^{n}$ , muni du produit scalaire canonique, on considère le vecteur $X$ de coordonnées $(x 1, x 2, ..., x n)$ , le vecteur $Y$ de coordonnées $(y 1, y 2, ..., y n)$ , le vecteur $U$ de coordonnées (1, 1, ..., 1).

On peut remarquer que

$X\cdot U=n{\overline {x}}$
$Y\cdot U=n{\overline {y}}$
$X\cdot Y-n{\overline {x}}{\overline {y}}=n\mathrm {Cov} (x,y)$
$X\cdot X-n{\overline {x}}^{2}=n\mathrm {V} (x)$
$Y\cdot Y-n{\overline {y}}^{2}=n\mathrm {V} (y)$

Rechercher la droite qui minimise la somme des carrés des résidus, c'est rechercher les réels $a$ et $b$ tels que $||Y-(aX+bU)||^{2}$ soit minimale. Cette norme sera minimale si et seulement si $aX + bU$ est le projeté orthogonal de $Y$ dans l'espace vectoriel engendré par $X$ et $U$ , donc dès que

$(Y-aX-bU)\cdot U=0$
$(Y-aX-bU)\cdot X=0$

La première égalité se traduit par

n{\overline {y}}-an{\overline {x}}-nb=n({\overline {y}}-a{\overline {x}}-b)=0

ce qui donne bien pour $b$ la valeur précédemment trouvée. La seconde égalité se traduit alors par

Y\cdot X-aX\cdot X+{\overline {x}}U\cdot X-{\overline {y}}U\cdot X=0

Y\cdot X-aX\cdot X+n{\overline {x}}^{2}-n{\overline {y}}{\overline {x}}=0

n\mathrm {Cov} (x,y)-an\mathrm {V} (x)=n(\mathrm {Cov} (x,y)-a\mathrm {V} (x))=0

ce qui donne bien pour $a$ la valeur précédemment trouvée.

On peut déterminer le cosinus de l'angle $θ$ que forment entre eux les vecteurs $Y - y U$ et $X - x U$ par la formule

\cos(\theta )={\frac {(Y-{\overline {y}}U)\cdot (X-{\overline {x}}U)}{||Y-{\overline {y}}U||\times ||X-{\overline {x}}U||}}={\frac {n\mathrm {Cov} (x,y)}{{\sqrt {n\mathrm {V} (y)}}\times {\sqrt {n\mathrm {V} (x)}}}}=r

Cette égalité a du sens au regard du résultat donné par l'inégalité de Cauchy-Schwarz plus tôt. Le coefficient de corrélation peut donc être comme le cosinus de l'angle entre les deux vecteurs $X$ et $Y$ . Un coefficient de corrélation de 1 signifie que l'angle entre ces deux vecteurs est nul (alignement parfait), un coefficient de –1 donne un angle géométrique de $π$ entre les deux vecteurs (vecteur de même direction mais de sens opposés) et si le coefficient de corrélation linéaire est en valeur absolue supérieur à $\sqrt 3 /2$ alors l'angle géométrique formé par les deux vecteurs est inférieur à $π/6$ ou supérieur à $5π/6$ .

Minimisation de la somme des distances

Il peut sembler plus simple de chercher à minimiser la somme des distances des points à la droite, plutôt que la somme de leur carré. Cette méthode a d’ailleurs été développée antérieurement[3] à la méthode des moindres carrés. Mais il n’y a alors pas nécessairement unicité de la droite optimale, et la détermination des coefficients est beaucoup moins aisée.

Une telle droite optimale passe toujours par deux des points considérés[4].

Sélection et segmentation

Dans le cas où les points du nuage ont des abscisses différentes deux à deux, en particulier dans le cas de séries chronologiques, certaines méthodes d’ajustement reposent sur la sélection de certains points censés être plus représentatifs ou le découpage de l’ensemble des points en deux ou trois parties consécutives en abscisse.

Méthode des points observés

Une méthode simpliste mais facile à mettre en œuvre sans calcul, par exemple pour tracer à la main une droite de tendance sur une représentation graphique, consiste à tracer la droite reliant deux points visiblement dans l’alignement des autres[5].

Méthode des points extrêmes

Une méthode plus systématique que la précédente consiste à relier les deux points d’abscisses minimale et maximale[6].

Méthode de Mayer

Ajustement affine par la méthode de Mayer

Cette méthode d'ajustement est plus simple à mettre en place. Elle semble avoir été utilisée par Leonhard Euler et Tobias Mayer[7]. Elle consiste, après avoir rangé les couples $(x i, y i)$ selon l'ordre croissant des $x i$ , à partager le nuage en deux nuages de taille égale, à déterminer le point moyen de chacun des sous-nuages, et à tracer la droite reliant ces deux points moyens.

Méthode médiane-médiane

Elle consiste à ranger les couples $(x i, y i)$ selon l'ordre croissant des $x i$ , partager alors la population en trois sous-populations de même taille (à une unité près), et rechercher dans chaque population la médiane des $x i$ et celle des $y i$ . Ce qui conduit à trois couples de médianes définissant trois points : $P 1 (m 1, x, m 1, y)$ , $P 2 (m 2, x, m 2, y)$ et $P 3 (m 3, x, m 3, y)$ . La droite d'ajustement est la droite passant par l'isobarycentre de ces trois points et parallèle à la droite $(P 1 P 3)$ [8].

Analyse en composantes principales

Minimisation des distances par projection orthogonale sur une droite

Étant donné une famille de points du plan, il existe une unique droite du plan qui minimise la somme des distances au carré des points à la droite, pour peu que la covariance entre abscisses et ordonnées soit non nulle ou que la variance des abscisses soit différente de celle des ordonnées. Cette droite passe alors par l’isobarycentre des points.

Plus généralement, étant donné une famille de vecteurs de $\mathbb {R} ^{n}$ , le choix d’un sous-espace affine qui minimise la somme des carrés des distances se ramène à l’analyse en composantes principales : la matrice de covariance est symétrique positive, diagonalisable, et la somme des sous-espaces propres associés aux valeurs propres les plus grandes donne la direction d’un sous-espace affine passant par l’isobarycentre des points.

Ce procédé n’a de sens que si les coordonnées sont homogènes, par exemple si elles représentent des grandeurs exprimées avec la même unité. Sinon, on peut éventuellement normaliser au préalable chaque coordonnée pour que les variances soient identiques.

Utilisation

Vraisemblance d’une corrélation

Nuage de points illustrant une indépendance vraisemblable des variables

X

Y

Dans le cadre de la régression linéaire, l’ajustement affine permet de tester l’existence d’une corrélation linéaire entre deux variables.

Formulation de prévision et interpolation

Pour une valeur en abscisse non représentée dans le nuage de points, on peut estimer une valeur en ordonnée en lui appliquant la fonction affine obtenue par ajustement affine.

Prévisions à partir de l’ajustement affine d’un nuage de points

Par exemple, le graphique ci-contre représente les réponses à des sondages effectués sur la période 1992-2006 concernant le pourcentage de personnes dans la tranche 15-44 ans ayant déjà goûté au cannabis. Chaque point correspond à un sondage avec sa date en abscisse et le pourcentage d'expérimentateurs en ordonnées. Le nuage de points semble s'organiser selon une droite qui permet d'estimer qu'un sondage en 2008 aurait donné 42 % de réponses positives et qu'un sondage en 1994 aurait donné environ 20 % de réponses positives.

Le tracé d'une droite d'ajustement n'induit pas qu'il existe une relation de cause à effet entre les deux phénomènes mesurés et les extrapolations que l'on est tenté d'effectuer doivent se limiter aux voisinages proches du nuage de points car, au-delà des frontières de l'étude, le comportement relatif des deux variables peut très bien ne plus être affine.

Ajustement à d’autres courbes

Comportement non linéaire d'un nuage de points

Si le nuage de points semble indiquer une fonction exponentielle, on peut tenter un ajustement affine sur le logarithme naturel des ordonnées $ln(Y)$ , en fonction de $X$ . En effet si $ln(Y) = aX + b$ alors $Y = e b \times e aX$

Si le nuage de points semble indiquer une fonction puissance, l'ajustement affine se tentera sur $ln(Y)$ et $ln(X)$ car $ln(Y) = a ln(X) + b$ alors $Y = e b \times X a$

Notes et références

Cette terminologie est référencée par exemple dans le programme de mathématiques de terminale en section technologique du baccalauréat et du programme du CAPES interne de sciences économiques et sociales en France.
Voir par exemple, Dany-Jack Mercier, Cahiers de mathématiques du supérieur, volume 1 : Statistiques, probabilités, homothéties, p. 34 et suivantes, Editions Publibook, 2010, (ISBN 2748355881)
La méthode de minimisation de la somme des distances des points à la droite a été proposée en 1757, soit 50 ans avant celle des moindres carrés, selon Gilbert Saporta, Probabilités, analyse de données et statistique, § 16.5 « Une méthode de régression robuste », Éditions Technip, Paris 2011.
D. Birkes, Y. Dodge, Alternative methods of regression, Wiley 1993.
Cours de Christophe Chéneau p. 13
Présentation de la méthode sur le site de Sylvie Lacoste
Ajustement affine sur le site Apprendre en ligne
(en) Elizabeth J. Walters, Christopher H. Morrell, and Richard E. Auer, An Investigation of the Median-Median Method of Linear Regression, Journal of Statistics Education Volume 14, Numéro 2 (2006)

Voir aussi

Ajustement de courbe

Bibliographie

Transmath, Term ES, programme 2002, Nathan
Dany-Jack Mercier, Cahiers de mathématiques du supérieur, volume1 : Statistiques, probabilités, homothéties, Éditions Publibook, 2010, (ISBN 2748355881)

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.