AccueilđŸ‡«đŸ‡·Chercher

RĂ©gression fallacieuse

La régression fallacieuse désigne une situation dans laquelle l'utilisation de séries temporelles non stationnaires dans une régression linéaire fait apparaßtre des résultats erronés, trop optimistes, qui font croire à une relation entre les variables alors que ce n'est pas le cas.

Historique

Granger et Newbold[1] ont montrĂ© en 1974 que de nombreuses Ă©tudes statistiques de sĂ©ries temporelles montraient des faux rĂ©sultats, parce qu'elles ne prenaient pas en compte le problĂšme de l'auto-corrĂ©lation des donnĂ©es. En effet, avec une forte auto-corrĂ©lation, l'indice ainsi que les tests sur les coefficients, ont tendance Ă  ĂȘtre trop optimistes et Ă  faire croire Ă  une relation entre les variables qui n'est en fait que fallacieuse.

Explication

On souhaite faire une régression linéaire entre deux séries temporelles: avec un bruit blanc.

Si et sont deux variables intégrées d'ordre 1, la distribution classique de l'estimateur des coefficients n'est plus selon une loi de Student, mais selon un mouvement brownien. Utiliser cependant la distribution de Student amÚne justement à ces résultats trop bons.

En effet, dans le cas classique, la convergence de l'estimateur des moindres carrĂ©s est montrĂ©e Ă  partir du fait que la matrice de variance-covariance de l'Ă©chantillon tend vers la matrice de variance-covariance de la population, d'oĂč l'on tire que Ωù = σΔÂČ·(X 'X)−1. Cependant, la variance d'une variable non-stationnaire intĂ©grĂ©e d'ordre 1 n'est pas fixe, et donc l'estimateur n'est pas convergent en probabilitĂ©, dĂ» au fait que les rĂ©sidus sont eux-mĂȘmes intĂ©grĂ©s d'ordre 1, comme Philips (1986) l'a montrĂ©. En consĂ©quence, les tests de Student et de Fisher sont inadĂ©quats Ă©galement.

Solution

Il existe plusieurs maniÚres de contourner le problÚme. Si les variables sont intégrées d'ordre 1, la série de leurs différences sera stationnaire (par définition de l'ordre d'intégration). Il suffit alors de faire la régression sur les variables en différences pour que celle-ci devienne valide.

Il est sinon possible d'utiliser un modÚle à retards distribués, soit un modÚle qui intÚgre également les retards de la variable expliquée et de la variable explicative. (Hamilton, 1994, p 562)

Exemple

Une simulation avec le logiciel libre de statistiques R permet d'illustrer le phénomÚne :

Dans cet exemple oĂč l'on rĂ©gresse deux bruits blancs, la relation est rejetĂ©e : R2 = 0,002 7, et la probabilitĂ© que y = 0 est 24 %.

On remarque ici par contre que la rĂ©gression de marches alĂ©atoires, qui sont des processus intĂ©grĂ©s d'ordre 1, laisse penser Ă  une relation significative : le coefficient R2 = 0,304, et la probabilitĂ© que y vaille zĂ©ro est infĂ©rieure Ă  0,000 000 1 %, ce qui laisserait croire qu'il y a une relation entre les variables. La statistique de Fisher, qui teste si en soi la rĂ©gression a un sens, est Ă©galement trĂšs fortement rejetĂ©e.

Lorsque l'on rĂ©gresse les diffĂ©rences des marches alĂ©atoires, on n'a plus le problĂšme d'une relation apparente : les statistiques de Fisher et de Student sont moins fortement rejetĂ©es, et surtout le coefficient R2 vaut 0,007 17, ce qui conduit Ă  la conclusion qu'il n'y a pas de relation entre ces variables.

Notes et références

  1. Granger, C.W.J., Newbold, P. (1974): "Spurious Regressions in Econometrics", Journal of Econometrics, 2, 111-120

Voir aussi

Bibliographie

  • Philips P.C.B, « Understanding Spurious Regression in Econometrics », Journal of Econometrics, vol. 33,‎ , p. 311-340
  • Hamilton (1994), Time Series Analysis, Princeton University Press

Articles connexes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.