Chapitre 1 État des lieux

1.1 La crise de la reproductibilité de la science

La crise de la reproductibilité de la science est aujourd’hui un phénomène mondial et largement transdiciplinaire qui concourt à la défiance de la société à l’égard du monde de la recherche (M. Baker 2016a). Le sujet est ancien, mais la situation semble avoir atteint un point critique : des études récentes ont par exemple démontré que de nombreux résultats d’études pré-cliniques, cliniques ou psychologiques ne pouvaient être reproduits et donc confirmés (Begley and Ellis 2012) (Perrin 2014) (Nosek 2015). D’autres disciplines sont également concernées : l’économie (Camerer et al. 2016), l’énergétique (Huebner et al. 2017) par exemple.

1.2 Pourquoi la question de la reproductibilité est-elle devenue centrale dans les débats actuels ?

Si les problèmes de reproductibilité de la science occupent une place telle dans les débats actuels, ce n’est pas tout à fait un hasard. On peut bien sûr évoquer les causes structurelles qui soumettent les chercheurs à une pression accrue :

Funders, publishers, societies, institutions, editors, reviewers and authors all contribute to the cultural norms that create and sustain dysfunctional incentives.(Munafò et al. 2017)

Ces injonctions peuvent engendrer des conduites plus que discutables sur le plan de la déontologie et de l’intégrité scientifiques. Mais selon nous, la majorité des chercheurs est en général de bonne foi. Les “sorties de route” sont la plupart du temps moins imputables à une volonté délibérée de frauder qu’à un défaut de maîtrise des méthodes ou/et des outils. Randall et Welser citent par exemple le problème du p-hacking et surtout, du mauvais usage de la p-value :

P-hacking may not be as widespread as one might fear, but it appears that many scientists who routinely use p-values and statistical significance testing misunderstand those concepts, and therefore employ them improperly in their research.(Randall and Welser 2018)

Le numérique occupe une place spécifique dans la réflexion sur la reproductibilité de la recherche et dans le présent ouvrage. Sous de multiples formes, le numérique a en effet largement investi tous les champs et aspects de la science : stockage, formatage, archivage, indexation, analyse, modélisation, statistiques, environnements, précision, etc. Or, peu de chercheurs ont été formés ou continuent de se former, aux fondamentaux et aux bonnes pratiques liés aux outils informatiques :

Scientists spend an increasing amount of time building and using software. However, most scientists are never taught how to do this efficiently.(Wilson et al. 2017)

Dans le meilleur des cas, cela peut conduire à la publication de résultats fragiles, dans le sens “peu robustes”. Dans le pire des cas, les résultats sont faux. Si la reproductibilité des résultats ne peut être considérée comme seul critère de la scientificité d’une recherche, cette crise suscite des interrogations au sein même de la communauté scientifique.

1.3 Définition(s) de “recherche reproductible” ?

La majorité de la communauté scientifique perçoit ce que peut être une recherche reproductible dans son propre domaine, mais il s’avère difficile de fournir une définition satisfaisante pour toutes les disciplines, et ce, parce que la notion même de “résultat” dépend fortement du domaine de recherche. Pour les uns, il suffira de confirmer la significativité d’un effet, pour les autres, il s’agira d’obtenir le même résultat numérique au bit près.

L’expression “recherche reproductible” apparaît pour la première fois en 1992, lors du congrès de la “Society of Exploration Geophysics” :

The first appearance of the phrase “reproducible research” in a scholarly publication appears to be an invited paper presented at the 1992 meeting of the Society of Exploration Geophysics (SEG), from the group of Jon Claerbout at Stanford (Claerbout & Karrenbach, 1992). […] His idea of reproducible research was to leave finished work (an article or a thesis) in a state that allowed colleagues to reproduce the calculation, analysis and final figures by executing a single command. The goal was to merge a publication with its underlying computational analysis(Barba 2018).

La proposition du groupe de Claerbout est centrée sur le calcul et peut être considérée comme idéale, voire idéaliste, dans la mesure où en lançant une seule commande, on obtient tous les résultats. Il existe de nombreuses définitions de “recherche reproductible”. Barba en analyse plusieurs (Barba 2018). Parmi celles-ci, nous retiendrons la suivante, issue de l’article de Vandewalle et al. (Vandewalle, Kovacevic, and Vetterli 2009) :

A research work is called reproducible if all information relevant to the work, including, but not limited to, text, data and code, is made available, such that an independent researcher can reproduce the results(Vandewalle, Kovacevic, and Vetterli 2009)

Autrement dit : “Un travail de recherche est dit reproductible si toutes les informations qui concernent ce travail incluant, sans s’y limiter, le texte, les données, et le code de programmation, sont rendues disponibles de telle sorte que n’importe quel chercheur indépendant peut reproduire les résultats.”

S’il existe des définitions très précises et une littérature abondante, il n’y a pas pour autant de définition standard. C’est pourquoi la reproductibilité des uns peut être par exemple la répétabilité des autres, ou inversement. Par ailleurs, les nuances apportées par chaque discipline permettent de nourrir une réflexion plus générale selon Baker :

An appreciation of the nuances of reproducibility could help researchers to communicate when they can’t reach common ground on apparently differing findings.(M. Baker 2016b)

Notre but dans ce chapitre n’est ni de proposer une définition supplémentaire, qui tenterait de délimiter strictement ce qui constitue une recherche reproductible, ni de prendre position pour l’une ou pour l’autre, mais plutôt d’encourager une acception large et d’aborder la question sous des aspects extrêmement pratiques. (Le lecteur constatera par ailleurs que ce strict principe de neutralité bienveillante est également respecté quand il sera question des langages R et Python, sujet pourtant inflammable pour certains publics.)

1.4 Où l’on parle de recherche reproductible de manière pragmatique

Quel peut être le point commun entre : un archéologue en train d’effectuer une campagne de fouille, un biologiste préparant une nouvelle expérience dans son laboratoire, un numéricien finalisant la simulation d’un grand système complexe ? Tous sont exposés aux drames risques suivants, indépendamment de leur volonté de contribuer à l’accroissement des connaissances dans leurs domaines respectifs :

  • se rendre compte qu’une donnée essentielle était stockée sur feu le disque dur (Requiescat In Pace),
  • renoncer à une hypothèse prometteuse faute de pouvoir reproduire une de ses propres expériences,
  • envoyer à des collègues des données qui ne pourront pas être lues pour des raisons d’incompatibilité de formats,
  • obtenir sur son ordinateur des résultats radicalement différents de ceux qu’un collègue a obtenu sur le sien.

La liste n’est pas exhaustive. Ne vous êtes-vous jamais posé les questions suivantes : “Suis-je vraiment sûr de mon analyse statistique ?”, “Suis-je capable de recréer cette figure conçue il y a 6 mois ?” Outre votre équipe de recherche, votre communauté scientifique et in fine le monde non académique, le premier bénéficiaire d’une recherche reproductible, c’est d’abord vous ! Une recherche reproductible a en effet pour objectifs de : faciliter les tâches les plus quotidiennes, garantir l’exactitude des méthodes, documenter l’ensemble de la pratique scientifique.

Nota Bene : une recherche reproductible peut-elle constituer un gage de qualité de la recherche ? Non, c’est un gage de transparence. La transparence contribue à la qualité mais ne s’y substitue pas. En effet, une recherche reproductible (au sens de l’ouvrage, “une recherche dont les résultats publiés peuvent être reproduits”) n’est pas synonyme de “bonne” recherche : une mauvaise recherche peut tout à fait être reproductible (spoiler alert : do not try this at work !).

1.5 Échantillon choisi parmi les multiples causes d’une recherche non reproductible

Comme nous le verrons dans ce livre, les causes d’une recherche non reproductible sont très nombreuses. Le suspect habituel est la perte d’information (données, résultats, méthodes…). D’autres causes, plus difficiles à détecter, existent également : par exemple, le chaos numérique, aussi subtil à identifier que vecteur de troubles majeurs. Une fois de plus, il ne s’agit pas de développer une vision accusatoire des pratiques de recherche. L’impossibilité même de reproduire des résultats n’est pas engendrée par la malhonnêteté scientifique, mais s’avère bien plus souvent le fruit d’une forme de méconnaissance, de manque de compétences techniques, de pratiques plus ou moins hasardeuses. Sous des dehors souvent anodins, les petits “braconnages” du quotidien (“Ça va passer”) et autres rustines manuelles font le lit de la “dette technique” qui à terme, peut devenir insurmontable et peut condamner un projet ou un laboratoire.

1.6 Non, la recherche reproductible n’est pas un sujet réservé aux marathoniens de la ligne de commande

Au travers de situations fictives mais hélas réalistes, nous verrons qu’à l’origine de recherches non reproductibles se trouve un ensemble de concepts fondamentaux qu’il est nécessaire de connaître afin d’en éviter les écueils. L’objectif n’est pas de les maîtriser totalement : améliorer ses pratiques n’exige pas d’adopter une logique du “tout ou rien”, heureusement. Il existe des solutions très simples à mettre en œuvre que tout un chacun peut s’approprier graduellement, tandis que d’autres solutions plus élaborées demanderont un peu plus de temps et d’énergie. Même si elles prennent souvent une forme informatique, ces solutions ne sont pas uniquement computationnelles; elles ne ciblent donc pas exclusivement les chercheurs dans le domaine du calcul ou des spécialistes du développement logiciel, bien au contraire. Le livre s’adresse à tout public scientifique.

1.7 La minute théologie négative : ce que vous ne trouverez pas dans cet ouvrage

Le présent ouvrage n’a pas pour objectif de traiter toutes les solutions pour garantir la reproductibilité de la recherche au sens de Randall et Welser (Randall and Welser 2018). Ainsi, les questions de la qualité et de la pertinence de la recherche sont hors périmètre du livre. Nous vous proposons plutôt de nous focaliser sur les solutions qui permettent de communiquer vos résultats de la façon la plus exhaustive/explicite/pérenne possible afin qu’ils aient une chance de pouvoir être reproduits. Dans cette édition, afin de proposer aux lecteurs des propositions applicables car suffisamment détaillées, nous laisserons volontairement de côté les problèmes inhérents à la qualité de la recherche et en particulier :

  • aller à la “pêche” aux résultats significatifs parmi tous les tests statistiques réalisés (“p-hacking”) (Forstmeier, Wagenmakers, and Parker Timothy 2017), (Nuzzo 2014), (Randall and Welser 2018)
  • générer une hypothèse de recherche a posteriori, c’est-à-dire après avoir obtenu un résultat significatif (“HARKing”) (Kerr 1998)
  • sur-interpréter le résultat statistique qui est significatif (“Probability That a Positive Report is False”) (Gelman and Stern 2006), (Gelman 2018), (Lakens et al. 2017), (Pernet, Wilcox, and Rousselet 2013), (Wacholder et al. 2004)

Ces problèmes étant également essentiels, il est possible qu’une deuxième édition de cet ouvrage les traite mais en attendant, nous invitons le lecteur à se référer à la littérature :

  • The Seven Deadly Sins of Psychology: A Manifesto for Reforming the Culture of Scientific Practice (Chambers 2017)

  • “Why Most Published Research Findings Are False” (Ioannidis 2005)

  • “A manifesto for reproducible science” (Munafò et al. 2017)

  • Statistics Done Wrong (Reinhart 2015)

  • “A Guide to Robust Statistical Methods in Neuroscience” (Wilcox and Rousselet 2018)

Références

Baker, Monya. 2016a. “1,500 Scientists Lift the Lid on Reproducibility.” Nature 533 (7604): 452–54. doi:10.1038/533452a.

Baker, Monya. 2016b. “Muddled Meanings Hamper Efforts to Fix Reproducibility Crisis.” Nature, June. doi:10.1038/nature.2016.20076.

Barba, Lorena A. 2018. “Terminologies for Reproducible Research.” arXiv:1802.03311 [Cs], February. http://arxiv.org/abs/1802.03311.

Begley, C. Glenn, and Lee M. Ellis. 2012. “Drug Development : Raise Standards for Preclinical Cancer Research.” Nature 483 (March): 531–33. doi:10.1038/483531a.

Camerer, Colin F., Anna Dreber, Eskil Forsell, Teck-Hua Ho, Jürgen Huber, Magnus Johannesson, Michael Kirchler, et al. 2016. “Evaluating Replicability of Laboratory Experiments in Economics.” Science (New York, N.Y.) 351 (6280): 1433–6. doi:10.1126/science.aaf0918.

Chambers, Chris. 2017. The Seven Deadly Sins of Psychology: A Manifesto for Reforming the Culture of Scientific Practice. Princeton: Princeton University Press.

Forstmeier, Wolfgang, Eric-Jan Wagenmakers, and H Parker Timothy. 2017. “Detecting and Avoiding Likely False-Positive Findings – a Practical Guide.” Biological Reviews 92 (4): 1941–68. doi:10.1111/brv.12315.

Gelman, Andrew. 2018. “The Failure of Null Hypothesis Significance Testing When Studying Incremental Changes, and What to Do About It.” Personality and Social Psychology Bulletin 44 (1): 16–23. doi:10.1177/0146167217729162.

Gelman, Andrew, and Hal Stern. 2006. “The Difference Between ‘Significant’ and ‘Not Significant’ Is Not Itself Statistically Significant.” The American Statistician 60 (4): 328–31. doi:10.1198/000313006X152649.

Huebner, Gesche, Moira Nicolson, Mike Fell, Harry Kennard, Simon Elam, Clare Hanmer, Charlotte Johnson, and David Shipworth. 2017. “Are We Heading Towards a Replicability Crisis in Energy Efficiency Research? A Toolkit for Improving the Quality, Transparency and Replicability of Energy Efficiency Impact Evaluations.” Eceee 2017 Summer Study on Energy Efficiency : Consumption, Efficiency and Limits, no. Monitoring and evaluation: building confidence and enhancing practices. https://www.eceee.org/library/conference_proceedings/eceee_Summer_Studies/2017/8-monitoring-and-evaluation-building-confidence-and-enhancing-practices/are-we-heading-towards-a-replicability-crisis-in-energy-efficiency-research-a-toolkit-for-improving-the-quality-transparency-and-replicability-of-energy-efficiency-impact-evaluations/.

Ioannidis, John P. A. 2005. “Why Most Published Research Findings Are False.” PLOS Medicine 2 (8): e124. doi:10.1371/journal.pmed.0020124.

Kerr, N. L. 1998. “HARKing : Hypothesizing After the Results Are Known.” Personality and Social Psychology Review: An Official Journal of the Society for Personality and Social Psychology, Inc 2 (3): 196–217. doi:10.1207/s15327957pspr0203_4.

Lakens, Daniel, Federico G. Adolfi, Casper Albers, Farid Anvari, Matthew A. J. Apps, Shlomo Engelson Argamon, Marcel A. L. M. van Assen, et al. 2017. “Justify Your Alpha: A Response to ‘Redefine Statistical Significance’.” PsyArXiv, September. doi:10.17605/OSF.IO/9S3Y6.

Munafò, Marcus R., Brian A. Nosek, Dorothy V. M. Bishop, Katherine S. Button, Christopher D. Chambers, Nathalie Percie du Sert, Uri Simonsohn, Eric-Jan Wagenmakers, Jennifer J. Ware, and John P. A. Ioannidis. 2017. “A Manifesto for Reproducible Science.” Nature Human Behaviour 1 (1): 0021. doi:10.1038/s41562-016-0021.

Nosek, Brian. 2015. “Estimating the Reproducibility of Psychological Science.” Science 349 (6251): aac4716. doi:10.1126/science.aac4716.

Nuzzo, Regina. 2014. “Scientific Method: Statistical Errors.” Nature News 506 (7487): 150. doi:10.1038/506150a.

Pernet, Cyril R., Rand R. Wilcox, and Guillaume A. Rousselet. 2013. “Robust Correlation Analyses: False Positive and Power Validation Using a New Open Source Matlab Toolbox.” Frontiers in Psychology 3. doi:10.3389/fpsyg.2012.00606.

Perrin, Steve. 2014. “Preclinical Research : Make Mouse Studies Work.” Nature News 507 (7493): 423. doi:10.1038/507423a.

Randall, David, and Christopher Welser. 2018. The Irreproducibility Crisis of Modern Science. Causes, Consequences, and the Road to Reform. New York: National Association of Scholars. https://www.nas.org/reports/the-irreproducibility-crisis-of-modern-science.

Reinhart, Alex. 2015. Statistics Done Wrong. San Francisco: No Starch Press. https://www.statisticsdonewrong.com/index.html.

Vandewalle, Patrick, Jelena Kovacevic, and Martin Vetterli. 2009. “Reproducible Research in Signal Processing.” IEEE Signal Processing Magazine 26 (3): 37–47. doi:10.1109/MSP.2009.932122.

Wacholder, Sholom, Stephen Chanock, Montserrat Garcia-Closas, Laure El ghormli, and Nathaniel Rothman. 2004. “Assessing the Probability That a Positive Report Is False: An Approach for Molecular Epidemiology Studies.” JNCI: Journal of the National Cancer Institute 96 (6): 434–42. doi:10.1093/jnci/djh075.

Wilcox, Rand R., and Guillaume A. Rousselet. 2018. “A Guide to Robust Statistical Methods in Neuroscience.” Current Protocols in Neuroscience 82 (January): 8.42.1–8.42.30. doi:10.1002/cpns.41.

Wilson, Greg, Jennifer Bryan, Karen Cranston, Justin Kitzes, Lex Nederbragt, and Tracy K. Teal. 2017. “Good Enough Practices in Scientific Computing.” PLOS Computational Biology 13 (6): e1005510. doi:10.1371/journal.pcbi.1005510.