RĂ©gression fallacieuse
La régression fallacieuse désigne une situation dans laquelle l'utilisation de séries temporelles non stationnaires dans une régression linéaire fait apparaßtre des résultats erronés, trop optimistes, qui font croire à une relation entre les variables alors que ce n'est pas le cas.
Historique
Granger et Newbold[1] ont montrĂ© en 1974 que de nombreuses Ă©tudes statistiques de sĂ©ries temporelles montraient des faux rĂ©sultats, parce qu'elles ne prenaient pas en compte le problĂšme de l'auto-corrĂ©lation des donnĂ©es. En effet, avec une forte auto-corrĂ©lation, l'indice ainsi que les tests sur les coefficients, ont tendance Ă ĂȘtre trop optimistes et Ă faire croire Ă une relation entre les variables qui n'est en fait que fallacieuse.
Explication
On souhaite faire une régression linéaire entre deux séries temporelles: avec un bruit blanc.
Si et sont deux variables intégrées d'ordre 1, la distribution classique de l'estimateur des coefficients n'est plus selon une loi de Student, mais selon un mouvement brownien. Utiliser cependant la distribution de Student amÚne justement à ces résultats trop bons.
En effet, dans le cas classique, la convergence de l'estimateur des moindres carrĂ©s est montrĂ©e Ă partir du fait que la matrice de variance-covariance de l'Ă©chantillon tend vers la matrice de variance-covariance de la population, d'oĂč l'on tire que Ωù = ÏΔÂČ·(Xâ'X)â1. Cependant, la variance d'une variable non-stationnaire intĂ©grĂ©e d'ordre 1 n'est pas fixe, et donc l'estimateur n'est pas convergent en probabilitĂ©, dĂ» au fait que les rĂ©sidus sont eux-mĂȘmes intĂ©grĂ©s d'ordre 1, comme Philips (1986) l'a montrĂ©. En consĂ©quence, les tests de Student et de Fisher sont inadĂ©quats Ă©galement.
Solution
Il existe plusieurs maniÚres de contourner le problÚme. Si les variables sont intégrées d'ordre 1, la série de leurs différences sera stationnaire (par définition de l'ordre d'intégration). Il suffit alors de faire la régression sur les variables en différences pour que celle-ci devienne valide.
Il est sinon possible d'utiliser un modÚle à retards distribués, soit un modÚle qui intÚgre également les retards de la variable expliquée et de la variable explicative. (Hamilton, 1994, p 562)
Exemple
Une simulation avec le logiciel libre de statistiques R permet d'illustrer le phénomÚne :
Résultat affiché | Code R | |||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Call: lm(formula = x ~ y) Residuals
Coefficients
Residual standard error: 0.972 on 498 degrees of freedom Multiple R-squared: 0.0027, Adjusted R-squared: 0.000695 F-statistic: 1.35 on 1 and 498 DF,p-value: 0.246 |
set.seed(123) #Conditionnement du compteur alĂ©atoire pour obtenir les mĂȘmes valeurs que l'exemple
x<-rnorm(500) #Simulation d'un bruit blanc
y<-rnorm(500) #Simulation d'un bruit blanc
summary(lm(x~y)) #Régression linéaire |
Dans cet exemple oĂč l'on rĂ©gresse deux bruits blancs, la relation est rejetĂ©e : R2 = 0,002 7, et la probabilitĂ© que y = 0 est 24 %.
Résultat affiché | Code R | |||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Call: lm(formula = x2 ~ y2) Residuals
Coefficients
Residual standard error: 7.49 on 498 degrees of freedom Multiple R-squared: 0.304, Adjusted R-squared: 0.303 F-statistic: 218 on 1 and 498 DF,p-value: <2e-16 |
set.seed(123) #Conditionnement du compteur alĂ©atoire pour obtenir les mĂȘmes valeurs que l'exemple
x<-rnorm(500) #Simulation d'un bruit blanc
y<-rnorm(500) #Simulation d'un bruit blanc
x2<-cumsum(x) #Génération d'une marche aléatoire à partir du bruit blanc : somme cumulée
y2<-cumsum(y) #idem
summary(lm(x2~y2)) #Régression linéaire |
On remarque ici par contre que la régression de marches aléatoires, qui sont des processus intégrés d'ordre 1, laisse penser à une relation significative : le coefficient R2 = 0,304, et la probabilité que y vaille zéro est inférieure à 0,000 000 1 %, ce qui laisserait croire qu'il y a une relation entre les variables. La statistique de Fisher, qui teste si en soi la régression a un sens, est également trÚs fortement rejetée.
Résultat affiché | Code R | |||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Call: lm(formula = x3 ~ y3) Residuals
Coefficients
Residual standard error: 1.03 on 497 degrees of freedom Multiple R-squared: 0.00717, Adjusted R-squared: 0.00517 F-statistic: 3,59 on 1 and 497 DF,p-value: 0,0588 |
set.seed(123) #Conditionnement du compteur alĂ©atoire pour obtenir les mĂȘmes valeurs que l'exemple
x<-rnorm(500) #Simulation d'un bruit blanc
y<-rnorm(500) #Simulation d'un bruit blanc
x2<-cumsum(x) #Génération d'une marche aléatoire à partir du bruit blanc : somme cumulée
y2<-cumsum(y) #idem
x3<-diff(x2) #Série des différences de la marche aléatoire
y3<-diff(y2) #idem
summary(lm(x3~y3)) #Régression linéaire |
Lorsque l'on régresse les différences des marches aléatoires, on n'a plus le problÚme d'une relation apparente : les statistiques de Fisher et de Student sont moins fortement rejetées, et surtout le coefficient R2 vaut 0,007 17, ce qui conduit à la conclusion qu'il n'y a pas de relation entre ces variables.
Notes et références
- Granger, C.W.J., Newbold, P. (1974): "Spurious Regressions in Econometrics", Journal of Econometrics, 2, 111-120
Voir aussi
Bibliographie
- Philips P.C.B, « Understanding Spurious Regression in Econometrics », Journal of Econometrics, vol. 33,â , p. 311-340
- Hamilton (1994), Time Series Analysis, Princeton University Press