Régression locale
La régression locale, ou LOESS, est une méthode de régression non paramétrique fortement connexe qui combine plusieurs modèles de régression multiple au sein d'un méta-modèle qui repose sur la méthode des k plus proches voisins. « LOESS » est, en anglais, l'acronyme de « LOcally Estimated Scatterplot Smoothing ».
La régression locale est une alternative possible aux méthodes habituelles de régression, comme la régression par les moindres carrés linéaire ou non linéaire, dans les cas où ces dernières s'avèrent mal adaptées. Elle combine la simplicité de régression linéaire par les moindres carrés avec la flexibilité de la régression non linéaire, en effectuant une régression simple sur des sous-ensembles locaux de données. L'un des principaux avantages de cette méthode est qu'elle rend inutile la définition d'une unique fonction globale qui décrirait le modèle de régression, puisque la méthode consiste à calculer autant de fonctions locales qu'il y a de segments de données.
Le principe de la régression locale a été initialement décrit par William S. Cleveland (1979)[1], puis développé et enrichi par Cleveland (1981) [2] et Cleveland et Devlin (1988)[3].
Définition d'un modèle de régression locale
La régression locale est aussi appelée régression polynomiale avec pondération locale. Elle consiste à déterminer, pour chaque point du jeu de données initial, les coefficients d'un polynôme de faible degré pour effectuer la régression d'un sous-ensemble des données, les valeurs des variables aléatoires étant proches du point pour lequel on effectue la régression, puis à calculer la valeur de ce polynôme pour le point considéré. Les coefficients du polynôme sont calculés à l'aide de la méthode des moindres carrés pondérés, qui donne plus de poids aux points proches du point dont la réponse est estimée, et moins de poids aux points plus éloignés.
De nombreux éléments de la méthode de régression locale, comme le degré du polynôme ou les coefficients de pondération, sont paramétrables. En général, on utilise des polynômes de degré 1 (localement linéaire) ou 2 (localement quadratique), les degrés supérieurs ayant tendance à sur-ajuster les données de chaque sous-ensemble, et le degré 0 revenant à calculer des moyennes mobiles pondérées.
La pondération repose sur l'idée que les points rapprochés ont plus de chances d'être liés entre eux d'une manière simple que les points éloignés. Si l'on suit ce principe, on attribue un poids plus grand aux points qui ont le plus de chances de correspondre au modèle, pour estimer les paramètres du modèle local.
La fonction de pondération généralement utilisée pour effectuer une régression locale est une fonction cubique pondérée :
Cependant, il est possible d'utiliser toute autre fonction de pondération qui satisfait les propriétés énumérées par Cleveland[1]. Le poids d'un point particulier d'un sous-ensemble local s'obtient en calculant la valeur de la fonction de pondération avec la distance entre ce point et le point d'estimation, après mise à l'échelle de la distance de telle sorte que la distance absolue maximale sur tous les points du sous-ensemble de données soit exactement égale à 1.
Avantages
Le plus grand avantage de la régression locale sur de nombreuses autres méthodes réside dans le fait qu'elle n'impose pas de définir une fonction globale pour ajuster un modèle à l'ensemble des données de l'échantillon. Elle n'exige que de préciser la valeur du paramètre de lissage et le degré du polynôme local. La méthode de régression locale est aussi très souple d'application, et relativement simple à implémenter.
Par ailleurs, dans la mesure où elle repose sur des régressions par les moindres carrés, la régression locale bénéficie aussi de la plupart des outils liés à ces méthodes de régression, notamment la théorie de calcul des incertitudes de prédiction et de calibrage. Beaucoup d'autres tests et procédures utilisés pour valider les modèles par les moindres carrés peuvent également être étendus aux modèles de régression locale.
Inconvénients
Faisant une utilisation moins efficace des données que les autres méthodes de régression par les moindres carrés, la régression locale exige généralement des jeux de données plus importants pour pouvoir générer de bons modèles.
Parmi les autres inconvénients, la régression locale ne permet pas de construire une fonction de régression facilement représentable sous la forme d'une formule mathématique. En transmettre les résultats à d'autres personnes est alors rendu plus difficile, car celles-ci ont alors besoin du jeu de données complet et de l'outil ayant réalisé les calculs de régression locale.
De plus, comme les autres méthodes de régression par les moindres carrés, la régression locale est sujette aux effets des valeurs aberrantes dans le jeu de données.
Enfin, la régression locale est relativement intensive en calculs, ce qui peut poser problème pour des jeux de données de très grande taille.
Références
- William S. Cleveland, « Robust Locally Weighted Regression and Smoothing Scatterplots », Journal of the American Statistical Association, vol. 74, no 368, , p. 829–836 (DOI 10.2307/2286407, JSTOR 2286407)
- William S. Cleveland, « LOWESS: A program for smoothing scatterplots by robust locally weighted regression », Journal of the American Statistical Association, vol. 35, no 1, , p. 54 (DOI 10.2307/2683591, JSTOR 2683591)
- William S. Cleveland et Susan J. Devlin, « Locally-Weighted Regression: An Approach to Regression Analysis by Local Fitting », Journal of the American Statistical Association, vol. 83, no 403, , p. 596–610 (DOI 10.2307/2289282, JSTOR 2289282)