Test GRIM
Le test GRIM (granularity-related inconsistency of means) est un test statistique utilisé pour identifier les inconsistances dans l'analyse de jeux de données. Le test se base sur l'idée que si un jeu de données contient N valeurs entières, la moyenne arithmétique ne peut prendre que certaines valeurs précises : elle ne peut être l'expression que d'une fraction avec une valeur entière au numérateur et au dénominateur N. Si la moyenne rapportée dans l'article ne convient pas à cette description, c'est qu'il existe une erreur, appelée inconsistance, pour indiquer que son origine est, pour le moment, typiquement inconnue. Les inconsistances GRIM peuvent provenir d'une erreur dans l'entrée des données, par inadvertance, d'erreurs typographiques, ou de fraude scientifique. Le test GRIM est le plus utile dans des domaines de recherche comme la psychologie, dans lesquels les chercheurs utilisent des petits groupes expérimentaux et des mesures comprenant des valeurs entières. Le test GRIM a été proposé par Nick Brown et James Heathers en 2016, suivant la prise de conscience de la crise de la reproductibilité dans certains domaines scientifiques[1]
Type |
---|
Procédure
Le test GRIM est un test direct. Pour chaque moyenne rapportée dans un article, la taille de l'échantillon (N) est trouvé, et toutes les fractions avec le dénominateur N sont calculées. La moyenne rapportée dans l'article est ensuite recherchée dans cette liste (en prenant garde au fait que les valeurs ont pu être arrondies de manière inconsistante, par exemple une moyenne de 1.123 peut être rapportée comme 1.12 ou 1.13). Si la moyenne n'est pas dans cette liste, elle est indiquée comme mathématiquement impossible[2] - [3].
Exemple
Considérons une expérience dans laquelle un dé non pipé est lancé 20 fois. Chaque lancé produit un nombre entier entre 1 et 6, et l'espérance moyenne hypothétique est 3.5. Les résultats des lancés sont ensuite agrégés en une moyenne, et la moyenne est rapportée comme 3.48. Ce résultat est proche de la valeur hypothétique, et apparaît donc comme supportant l'hypothèse. Cependant, un test GRIM révèle que la moyenne rapportée est impossible, un résultat issu d'une division par 20 et écrit avec deux décimales doit être sous une forme X.X0 ou X.X5 : il n'est pas possible de produire un résultat qui finit par X.X8[4].
Interprétation et limitations
Si des données échouent au test GRIM, cela ne signifie pas qu'il y ait eu manipulation. Les erreurs dans les rapports de moyennes peuvent provenir d'une erreur de résultat de la part du testeur, d'une erreur typographique, d'une erreur de calcul ou de programmation, ou d'une erreur dans le rapport de la taille de l'échantillon (n)[2]. Cependant, cela peut être le signe que des données ont été exclues de manière inopportune ou que la moyenne a été inventée illégitimement pour faire apparaître des résultats comme plus significatifs qu'ils ne le sont. La localisation des erreurs peut être une indication de la cause sous-jacente : une moyenne impossible isolée peut être causée par une erreur innocente, des valeurs impossibles multiples dans la même ligne indiquent un taux de réponse pauvre, et de multiples valeurs impossibles dans la même colonne indiquent que la taille de l'échantillon rapportée est incorrecte. Des erreurs multiples disséminées dans l'ensemble de la table de données peut être un signe de problèmes plus profonds et d'autres tests statistiques peuvent être utilisés pour analyser les données suspectes[5]. Le test GRIM marche mieux quand le jeu de donnée possède : une taille d'échantillon relativement faible, un nombre de sous-composants dans les mesures composites relativement faibles également, et que la moyenne est rapportée avec plusieurs décimales[2]. Dans certains cas, une moyenne valide peut apparaître comme ayant raté le test si les données entrées ne sont pas discrétisées comme prévu - par exemple, s'il est demandé à des participants d'indiquer le nombre de parts de pizza mangées dans un buffet, certains peuvent répondre trois et demi au lieu d'un nombre entier comme prévu[5].
Applications
Brown et Heathers ont appliqué le test à 260 articles publiés dans Psychological Science, Journal of Experimental Psychology: General, et Journal of Personality and Social Psychology. Parmi ces articles, 71 ont été exploitables par GRIM, 36 possèdent au moins une valeur impossible, 16 contiennent de multiples valeurs impossibles[3]. Le test GRIM a joué un rôle important dans la révélation des erreurs dans les publications par le laboratoire Food and Brand de l'Université Cornell sous Brian Wansik. Le test GRIM a révélé qu'une série d'articles sur les effets du prix sur la consommation des buffets de pizza à volonté contient de nombreuses moyennes impossibles - des analyses approfondies des données brutes ont révélé que dans de nombreux cas, les tailles d'échantillon ont été incorrectement déclarées et les valeurs incorrectement calculées[1] - [5].
Références
- Tom Bartlett, « Spoiled Science », The Chronicle of Higher Education, (lire en ligne, consulté le )
- James Heathers, « The GRIM test—a method for evaluating published research. », sur Medium, (consulté le )
- Nicholas J. L. Brown et James A. J. Heathers, « The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology », Social Psychological and Personality Science, vol. 8, no 4, , p. 363–369 (DOI 10.1177/1948550616673876, lire en ligne)
- « GRIM Plot (mean: 3.48, size: 20) », PrePubMed (consulté le )
- Jordan Anaya, Tim van der Zee et Nick Brown, « Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications », PeerJ Preprints, (DOI 10.7287/peerj.preprints.3025v1, lire en ligne, consulté le )