Corrélation fallacieuse entre des rapports
Une corrélation fallacieuse entre des rapports est une forme de corrélation fallacieuse (en) qui apparaît entre des rapports de mesures absolues, lesquelles présentent un coefficient de corrélation linéaire nul[1].
Ce phénomène apparaît régulièrement dans le domaine des données compositionnelles (en), qui porte sur l'analyse de variables qui n'apportent que des informations relatives, telles que proportions, pourcentages et parties par million [2] - [3].
La corrélation fallacieuse entre des rapports est distincte de l'effet cigogne (un coefficient de corrélation fort n'implique pas la causalité).
Exemple
Le mathématicien britannique Karl Pearson a donné un exemple de corrélation fallacieuse entre des rapports[1] : « Prenez trois nombres au hasard dans une certaine étendue de valeurs, que nous appelons x, y et z. Nous trouverons une paire et une [autre] paire corrélée. Formons les fractions x/y et z/y pour chaque triplet de nombres ; nous trouverons une corrélation entre ces rapports. »[trad 1]
Le schéma dans le haut à la droite de cette page démontre visuellement cette affirmation. Il comprend 500 points calculés à partir de 500 triplets de variables x, y et z selon les consignes de Pearson. Les trois variables x, y et z sont tirées d'une distribution normale de moyennes 10, 10 et 30, respectivement, et d'écarts-types de 1, 1 et 3 respectivement. Mathématiquement, les trois variables sont tirées de :
Même si x, y et z sont statistiquement indépendants et donc de corrélation nulle, dans le schéma, les rapports z/x et y/z présentent une corrélation de 0,53. La variable commune (z) explique cette tendance ; celle-ci est plus facile à découvrir si les points du graphique sont colorés selon la valeur de z. Les triplets (x, y, z) dont la valeur de z est élevée apparaissent dans le bas à la gauche du nuage de points ; les triplets dont la valeur de z est faible apparaissent le plus souvent dans le haut à la droite (la couleur des points indique la valeur relative de z).
Valeur approximative
Karl Pearson a obtenu une approximation de la corrélation fallacieuse qui serait observée entre deux variables ( et ), c'est-à-dire les rapports des mesures absolus :
où est le coefficient de variation de , et est le coefficient de corrélation de Bravais-Pearson entre et .
L'expression à la droite de l'équation peut être simplifiée dans les situations où il existe une diviseur commun en posant et ne sont pas corrélées, ce qui donne le coefficient de corrélation fallacieuse :
Dans le cas où tous les coefficients de variation sont égaux (comme dans l'exemple illustré plus haut), .
Importance en biologie et d'autres sciences
Karl Pearson, tout comme Francis Galton[4] et Walter Frank Raphael Weldon[1], a mis en garde les scientifiques contre la corrélation fallacieuse, particulièrement en biologie[5] où il est courant de normaliser des mesures en les divisant par une variable particulière ou leur somme. Il craignait que les conclusions s'appuieraient sur des corrélations qui sont causées par la méthode d'analyse, plutôt que par un lien entre les variables.
Néanmoins, la corrélation fallacieuse entre des rapports est peu connue parmi les scientifiques. Par exemple, en 1986, John Aitchison, qui est l'un des pionniers dans l'usage des rapports de logarithmes (log-ratio) dans le domaine des données compositionnelles (en) écrit[2] :
Des articles publiés dans les années 2010 laissent penser que les scientifiques sont abusés par des résultats, au moins en biologie moléculaire[6] - [7].
Notes et références
(en) Cet article est partiellement ou en totalité issu de la page de Wikipédia en anglais intitulée « Spurious correlation of ratios » (voir la liste des auteurs).
Citations originales
- (en) « Select three numbers within certain ranges at random, say x, y, z, these will be pair and pair uncorrelated. Form the proper fractions x/y and z/y for each triplet, and correlation will be found between these indices. »
- (en) « It seems surprising that the warnings of three such eminent statistician-scientists as Pearson, Galton and Weldon should have largely gone unheeded for so long: even today uncritical applications of inappropriate statistical methods to compositional data with consequent dubious inferences are regularly reported. »
Références
- (en) Karl Pearson, « Mathematical Contributions to the Theory of Evolution—On a Form of Spurious Correlation Which May Arise When Indices Are Used in the Measurement of Organs », Proceedings of the Royal Society of London, vol. 60, nos 359–367, , p. 489–498 (DOI 10.1098/rspl.1896.0076, JSTOR 115879)
- (en) John Aitchison, The statistical analysis of compositional data, Chapman & Hall, (ISBN 978-0-412-28060-3)
- (en) Vera Pawlowsky-Glahn (dir.) et Antonella Buccianti (dir.), Compositional Data Analysis: Theory and Applications, Wiley, (ISBN 9780470711354, DOI 10.1002/9781119976462)
- (en) Francis Galton, « Note to the memoir by Professor Karl Pearson, F.R.S., on spurious correlation », Proceedings of the Royal Society of London, vol. 60, nos 359–367, , p. 498–502 (DOI 10.1098/rspl.1896.0077)
- (en) D. A. Jackson et K. M. Somers, « The Spectre of 'Spurious' Correlation », Oecologia, vol. 86, no 1, , p. 147–151 (PMID 28313173, DOI 10.1007/bf00317404, JSTOR 4219582, Bibcode 1991Oecol..86..147J)
- (en) David Lovell, Warren Müller, Jen Taylor, Alec Zwart et Chris Helliwell, Compositional Data Analysis: Theory and Applications, Wiley, (ISBN 9780470711354, DOI 10.1002/9781119976462), « Chapter 14: Proportions, Percentages, PPM: Do the Molecular Biosciences Treat Compositional Data Right? »
- (en) David Lovell, Vera Pawlowsky-Glahn, Juan José Egozcue, Samuel Marguerat et Jürg Bähler, « Proportionality: A Valid Alternative to Correlation for Relative Data », PLoS Computational Biology, vol. 11, no 3, , e1004075 (PMID 25775355, PMCID 4361748, DOI 10.1371/journal.pcbi.1004075, Bibcode 2015PLSCB..11E4075L)
Voir aussi
Articles connexes
Liens externes
- Jean-Bernard Chatelain et Kirsten Ralf, « Les liaisons fallacieuses : quasi-colinéarité et « suppresseur classique », aide au développement et croissance », Revue économique, vol. 63, , p. 557-567 (DOI 10.3917/reco.633.0557, lire en ligne)