Replicatiecrisis: Herhaling baart vertrouwen
‘Het is crisis in de psychologie’ was er in de krant te lezen. Verschillende psychologische bevindingen die jarenlang in handboeken verkondigd waren en via de popularisering van de psychologie wijdverspreid geraakten, zijn niet langer verdedigbaar. Het lukt namelijk niet om de originele onderzoeksresultaten te herhalen, oftewel te repliceren. Hoe kon deze zogenaamde replicatiecrisis ontstaan? En wat kunnen onderzoekers doen om het vertrouwen in de psychologie te herstellen?
Afbeelding: Dilok Klaisataporn/iStock.
Tijdens een studiedag over het verhoren van kwetsbare verdachten vroeg een professional uit het publiek hoeveel waarde nog gehecht kan worden aan de besproken psychologische bevindingen gezien “de replicatiecrisis in de psychologie”. De deelnemer doelde daarmee op het probleem dat zogenaamd ‘bewezen’ wetenschappelijke bevindingen in de psychologie niet opnieuw gevonden worden wanneer het onderzoek nogmaals herhaald wordt. Terechte vraag, vond ik, maar de spreker ging er niet op in. Toch is het belangrijk om hierbij stil te staan. Ook voor niet-wetenschappers is het relevant om de berichtgeving over de replicatiecrisis in de psychologie in context te plaatsen en om na te gaan wat het betekent voor het consumeren van wetenschappelijke informatie. Dit is interessant voor wie weleens wetenschappelijke literatuur leest, en het is des te relevanter voor wie actief gebruik maakt van wetenschappelijke kennis, zoals beleidsadviseurs, politici, journalisten, enzovoort.
In deze bijdrage zal ik een tipje van de sluier oplichten over de replicatiecrisis en hoe er in de psychologie mee omgegaan wordt, om alsnog een antwoord te formuleren op de vraag die tijdens de studiedag gesteld werd. Ik bespreek de replicatiecrisis vanuit ‘de psychologie’, omdat dit mijn vakgebied is, maar het probleem beperkt zich niet tot deze discipline. Ook binnen de tumorbiologie, biomedische wetenschappen, en experimentele economie wordt er gesproken van een replicatiecrisis (van Sprundel, 2016).
Eentje is geentje
Het herhalen, oftewel repliceren, van wetenschappelijke studies is een hoeksteen van het wetenschappelijk onderzoek. Door studies te repliceren, kan men aantonen hoe betrouwbaar de resultaten zijn en dus hoe zeker we kunnen zijn dat de bevindingen kloppen. Als we in een nieuw onderzoek een effect vinden, dan kan het zomaar een ‘toevalstreffer’ zijn. Om te weten of er een werkelijk effect onderliggend is, moet het onderzoek herhaald worden. We spreken hier over directe replicatie: een letterlijke herhaling van het originele experiment. Daarnaast bestaat er ook conceptuele replicatie waarbij dezelfde hypothese op een andere manier getoetst wordt, bijvoorbeeld via een andere methode of in een nieuwe doelgroep. Vooral direct replicatieonderzoek is een soort kwaliteitscontrole van het wetenschappelijk onderzoek (Lakens et al., 2012). Wanneer andere onderzoekers met dezelfde onderzoeksmethode en vergelijkbare proefpersonen (meerdere keren) tot dezelfde resultaten komen, dan zijn de bevindingen te vertrouwen. Helaas worden er maar weinig replicatiestudies gepubliceerd, ondanks de cruciale rol van replicatie voor de wetenschap. Naar schatting zijn ongeveer 1% van de publicaties in wetenschappelijke psychologietijdschriften replicatiestudies (Makel et al., 2012).
Replicatiecrisis
Begin de jaren 2010 groeide de onzekerheid over gepubliceerde resultaten uit psychologisch onderzoek. De alarmbellen gingen met name rinkelen toen een vooraanstaand wetenschappelijk tijdschrift een studie publiceerde die leek aan te tonen dat mensen een ‘zesde zintuig’ hebben en daarmee de toekomst kunnen voorspellen (Bem, 2011). Andere onderzoekers probeerden de bevindingen uit deze controversiële studie te herhalen, echter zonder resultaat (Novella, 2012). Niet alleen controversiële effecten werden onder de loep genomen, ook klassieke psychologische bevindingen werden tegen de lat van de repliceerbaarheid gelegd. Een voorbeeld van een bekend effect dat niet herhaald kon worden, is dat het aannemen van een ‘power pose’ zou leiden tot het aanmaken van meer testosteron en zich risicovoller gedragen (Carney et al., 2010). De power pose is een lichaamshouding die kracht uitstraalt zoals je armen in je zij zetten of ze wijd boven je hoofd spreiden. Je leest er bijvoorbeeld over wanneer je tips zoekt voor een succesvol sollicitatiegesprek. Hoewel replicatiestudies bevestigen dat de power pose invloed heeft op het gevoel van de persoon die de houding aanneemt (meer zelf vertrouwen), wordt het effect op hormonen en gedrag (meer testosteron en meer risico nemen) niet gevonden (Simmons & Simonsohn, 2017). Een ander voorbeeld van een klassiek experiment waarvan de bevindingen niet repliceerbaar blijken, is het experiment waarbij deelnemers een potlood tussen de tanden houden om een glimlach na te bootsen, ook wel het ‘pen-in-mouth paradigm’ genoemd. Feedback uit de gezichtsspieren zou de stemming beïnvloeden en ertoe leiden dat mensen in deze conditie (potlood tussen de tanden) cartoons grappiger vinden dan wanneer ze pruilmond nabootsen door het potlood tussen de lippen te houden (Strack et al., 1988). Zeventien onafhankelijke onderzoeksgroepen hebben dit experiment herhaald, maar konden het effect niet terugvinden (Wagenmakers et al., 2016). En zo zijn er meer ‘klassiekers’ waarvan het effect niet herhaald kon worden (zie Jarrett, 2016). Daarnaast vond een grootschalig replicatieproject naar 97 experimenten dat slechts 35 (36%) van de significante effecten opnieuw gevonden werden (Open Science Collaboration, 2015). Hoe kan dat?
Oorzaken
Een factor die heeft bijgedragen tot de replicatiecrisis is publicatiebias. Publicatiebias betekent dat vaak alleen de studies met statistisch significante resultaten gepubliceerd worden, terwijl onderzoek met niet-significante resultaten in de bureaulade verdwijnt (in het Engels ook wel het file-drawer problem genoemd). Hierdoor ontstaat er in de literatuur een beeld van onderzoeksbevindingen dat niet strookt met de werkelijkheid, want de niet-gunstige resultaten zijn ertussenuit gefilterd (Lai, 2014). Bij het uitvoeren van replicatiestudies blijkt het dan lastig om significante resultaten te vinden. Behalve het selectief publiceren van studies met significante resultaten is er ook een publicatiebias voor nieuwe studies of studies met verrassende resultaten, waardoor replicatiestudies minder kans maken om gepubliceerd te worden (Nosek et al., 2012). Omdat academici publicaties nodig hebben om hogerop te komen op de academische ladder investeren ze dus liever in nieuw, spannend onderzoek en gaan ze hard op zoek naar significante resultaten.
Dit streven naar significante effecten heeft ook bijgedragen tot de replicatiecrisis. Een onderzoeker kan namelijk aan verschillende knoppen draaien om de kans op een statistisch significant resultaat te vergroten. Men kan bijvoorbeeld selectief gegevens uit het databestand verwijderen totdat de resultaten beter passen bij de onderzoeksvraag (in het Engels ‘data massaging’ genoemd). Onderzoekers kunnen ook spelen met het punt waarop ze stoppen met de dataverzameling: ze kunnen eerder dan afgesproken stoppen zodra ze merken dat ze de gewenste resultaten hebben, of ze kunnen langer doorgaan dan gepland tot ze uiteindelijk de gewenste resultaten behalen. Het stoppen is dus afhankelijk van de resultaten die gevonden worden en volgt niet vooraf gemaakte afspraken. Dit is problematisch omdat het de kans verhoogt dat het gevonden ‘wenselijke’ resultaat slechts een toevalstreffer is. Dergelijke keuzes worden twijfelachtige onderzoekspraktijken genoemd omdat ze de uitkomsten op een kunstmatige manier verbeteren (John et al., 2012). Ze zijn als het ware de ‘doping’ van de wetenschap. Andere voorbeelden van dergelijke praktijken zijn: ‘shoppen’ voor de statistische methode die de beste resultaten geeft, het uitvoeren van meerdere analyses en alleen de analyses met significante resultaten benoemen, of onverwachte resultaten rapporteren alsof ze vanaf het begin al voorspeld werden. Deze twijfelachtige onderzoekspraktijken zorgen voor statistisch significante resultaten die mogelijk helemaal niet zo significant zijn en waarbij ongewenste resultaten vermeden of verzwegen worden. Ze kunnen onbewust en doelbewust ingezet worden, en in uiterste vorm is het wetenschapsfraude. In elke sector zijn er fraudeurs aan het werk, ook de wetenschap blijft niet gespaard. Zo fabriceerde de beruchte sociaal-psycholoog Diederik Stapel tussen 2004 en 2011 zijn eigen gegevens en publiceerde daarover vele wetenschappelijke artikelen en hoofdstukken (Verfaellie & McGwin, 2011).
Hoewel dit behoorlijk pessimistisch klinkt, is het geen reden om helemaal geen waarde meer te hechten aan onderzoek en de ‘hele psychologie’ als onbetrouwbaar te bestempelen. Vele bevindingen hebben wel degelijk de replicatietest doorstaan en zijn betrouwbaar te noemen. Denk maar aan de bevinding dat persoonlijkheidstrekken bij volwassenen relatief stabiel zijn, of dat individuele keuzes beïnvloed worden door wat men denkt dat de groep zou doen, of dat we de neiging hebben om vooral informatie te zoeken die past in ons eigen plaatje en informatie te negeren die ingaat tegen onze overtuigingen (voor meer bevindingen zie Huston, 2019). Hoe kunnen we nu inschatten welke resultaten betrouwbaar zijn en welke niet?
Op zoek naar betrouwbare resultaten
De boodschap is om vooral waarde te hechten aan bevindingen die herhaaldelijk in verschillende studies bevestigd zijn. Bij voorkeur zijn dat studies met grote steekproeven en uitgevoerd door andere onderzoekers dan in de originele studie (Sutherland et al., 2013). Zoek ook of er een meta-analyse uitgevoerd is naar het onderwerp: dit geeft een goed beeld van de repliceerbaarheid van de bevindingen (Sharpe & Poets, 2020). Daarnaast kun je ook kritisch kijken naar de grootte van het gevonden effect. Bijvoorbeeld, in de sociale en persoonlijkheidspsychologie variëren effecten, uitgedrukt in de correlatiecoëfficiënt r, meestal tussen .11 en .29, met een gemiddelde van .19 (Gignac & Szodorai, 2016). Wanneer een studie dus een effect van .40 of meer rapporteert, dan kun je al eens de wenkbrauwen fronsen (Funder & Ozer, 2019).
Een andere tip is om alleen te vertrouwen op resultaten die overduidelijk significant zijn. Significantie wordt aangeduid met de p-waarde: als de p-waarde kleiner is dan .05 dan wordt een effect als significant beschouwd. Echter, als consument van onderzoeksresultaten kun je beter een strengere richtlijn hanteren en een effect pas als voldoende betrouwbaar achten wanneer de gerapporteerde p-waarde kleiner is dan .01 en bij voorkeur kleiner dan .005 (Schimmack, 2021a).
Daarnaast is het in het algemeen zinvol om na te gaan of de onderzoekers voldoende expertise hadden in het onderwerp, in welk tijdschrift het onderzoek gepubliceerd werd, door wie de studie gefinancierd werd, en of er belangen zijn die mogelijk de resultaten in een bepaalde richting hebben beïnvloed (Winter et al., 2016).
Initiatieven om de betrouwbaarheid te verbeteren
Naast deze vuistregels is het natuurlijk aan de wetenschappers en wetenschappelijke tijdschriften om een replicatiecultuur te creëren waarin veel en vaak herhaald wordt volgens de principes van wetenschappelijk integriteit. Er hebben inmiddels een aantal grootschalige initiatieven plaatsgevonden zoals het Reproducibility Project (Open Science Collaboration, 2015) en de Many Labs projecten (1 en 2 zie Klein et al. 2014, 2018; en 3 zie Ebersole et al., 2016). Het Reproducibility Project betrof de eenmalige replicatie van 100 studies, terwijl in de Many Labs projecten meerdere replicaties gedaan werden van een kleiner aantal studies. Andere initiatieven hebben de aanpak van de Many Labs projecten overgenomen om replicatiestudies uit te voeren (e.g., Pipeline project door Schweinsberg et al., 2016).
Buiten deze replicatie-initiatieven zijn er nog tal van andere ontwikkelingen om de betrouwbaarheid van de wetenschap te vergroten (Otgaar et al., 2020). Zo werd in 2011 het platform Open Science Framework (OSF) opgericht met gratis ruimte om experimenten en verzamelde gegevens online te delen zodat anderen de analyses kunnen herhalen en zo toetsen of bevindingen overeind blijven. Het doel van OSF is om de transparantie, integriteit en replicatie van onderzoek te vergroten (Center for Open Science, n.d.). Het beschikbaar stellen van onderzoeksmateriaal is inmiddels een vereiste voor publicatie bij sommige wetenschappelijke tijdschriften (Stroebe, 2019). Daarnaast wordt ook de preregistratie van studies aangemoedigd. Dit betekent dat hypotheses en de procedures voor dataverzameling en data-analyse vooraf officieel vastgelegd worden. Preregistratie moet ervoor zorgen dat twijfelachtige onderzoekspraktijken, zoals hypotheses of analyses naderhand bijstellen, vermeden worden (Nosek et al., 2018).
Deze initiatieven beginnen hun vruchten af te werpen: Bij 22 wetenschappelijke psychologische tijdschriften werd gevonden dat, in vergelijking met studies uit 2010, de studies die ze in 2020 publiceerden een grotere ‘power’ hadden (berekend via statistische software; Schimmack, 2021b). Dit wil zeggen dat de resultaten uit 2020 met grotere waarschijnlijkheid een echt effect vonden en dus geen toevalstreffers waren. Omdat de resultaten uit studies met een hogere power betrouwbaarder zijn, is er ook een grotere kans dat ze succesvol gerepliceerd kunnen worden. Dit laat zien dat wetenschappelijke tijdschriften strenger worden qua studies die ze publiceren, namelijk studies met een grotere power.
Conclusie
Aan het begin van het vorige decennium werden verschillende wetenschappelijke disciplines ruw wakker geschud toen bleek dat een groot aantal bevindingen niet herhaald kon worden. Ook de betrouwbaarheid van de psychologie kwam ter discussie. Hoewel blijkt dat een aanzienlijk aantal onderzoeksresultaten niet herhaald kunnen worden, blijven er ook heel wat psychologische effecten wel overeind. We moeten er dus voor waken dat we niet alle wetenschappelijke bevindingen in de psychologie als het spreekwoordelijke kind met het badwater weggooien. Het is wel belangrijk dat we als consument van wetenschappelijke informatie kritisch blijven. Zoek naar cues die wijzen op betrouwbare resultaten: zijn er replicatiestudies uitgevoerd, is de steekproef voldoende groot, is de studie gepreregistreerd, is het artikel kritisch beoordeeld door collega-wetenschappers? De wake-up call van de replicatiecrisis resulteerde bij wetenschappers in een moment van introspectie en zelfkritiek en werd beantwoord met initiatieven om de psychologie terug op de rit te krijgen. Aanvullend op deze initiatieven wordt er gepleit voor duidelijkere spelregels voor aanvaardbare onderzoekspraktijken en een beloningssysteem waarbij wetenschappers gestimuleerd worden om goed onderbouwde replicatiestudies uit te voeren (Schimmack, 2020). Ook dit is wetenschap: het bijschaven van de wetenschappelijke normen en praktijk op basis van voortschrijdend inzicht.
Referentielijst
Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407–425. https://doi.org/10.1037/a0021524
Carney, D. R., Cuddy, A. J. C., & Yap, A. J. (2010). Power posing: Brief nonverbal displays affect neuroendocrine levels and risk tolerance. Psychological Science, 21(10), 1363–1368. https://doi.org/10.1177/0956797610383437
Center for Open Science (n.d.). Our mission is to increase openness, integrity, and reproducibility of research. Geraadpleegd op 7 april 2021 via https://www.cos.io/about/mission
Ebersole, C. R., Atherton, O. E., Belanger, A. L., Skulborstad, H. M., Allen, J. M., Banks, J. B., … Nosek, B. A. (2016). Many Labs 3: Evaluating participant pool quality across the academic semester via replication. Journal of Experimental Social Psychology, 67, 68–82. https://doi.org/10.1016/j.jesp.2015.10.012
Gignac, G. E., Szodorai, E. T. (2016). Effect size guidelines for individual differences researchers. Personality and Individual Differences, 102, 74–78.
Huston, M. (2019, 31 mei). What findings do skeptical psychologists still believe in. Psychology Today. https://www.psychologytoday.com/us/blog/brainstorm/201905/what-findings-...
Funder, D. C., & Ozer, D. J. (2019). Evaluating Effect Size in Psychological Research: Sense and Nonsense. Advances in Methods and Practices in Psychological Science, 156–168. https://doi.org/10.1177/2515245919847202
Jarrett, C. (2016, 16 september). Ten famous psychology findings that it’s been difficult to replicate. The British Psychological Society. Research Digest. https://digest.bps.org.uk/2016/09/16/ten-famous-psychology-findings-that...
John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23(5), 524–532. https://doi.org/10.1177/0956797611430953
Klein, R. A. et al. (2018). Many Labs 2: Investigating variation in replicability across samples and setting. Advances in Methods and Practices in Psychological Science. 1(4), 443–490. https://doi.org/10.1177/2515245918810225
Klein, R. A., Ratliff, K. A., Vianello, M., Adams, R. B., Bahn_ık, _S., Bernstein, M. J., … Nosek, B. A. (2014). Investigating variation in replicability. A “Many Labs” replication project. Social Psychology, 45(3), 142–152. https://doi.org/10.1027/1864-9335/a000178
Lai, C. (2014, May 26). Reproducibility project: Background and motivation. https://osf.io/udkbw/
Lakens, D., Haans, A., & Koole, S. L. (2012). Eén onderzoek is géén onderzoek: het belang van replicaties voor de psychologische wetenschap. De Psycholoog,47(9), 10–18. https://pure.tue.nl/ws/portalfiles/portal/13799061/Lakens_Haans_Koole_De...
Makel, M. C., Plucker, J. A., & Hegarty, B. (2012). Replications in psychology research: How often do they really occur? Perspectives on Psychological Science, 7(6), 537–542. https://doi.org/10.1177/1745691612460688
Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific Utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science, 7(6), 615–631. https://doi.org/10.1177/1745691612459058
Nosek, B. A., Ebersole, C. R., DeHaven, A. C., & Mellor, D. T. (2018). The preregistration revolution. Proceedings of the National Academy of Sciences, 115(11), 2600–2606. https://doi.org/10.1073/pnas.1708274114
Novella, S. (2012, 29 augustus). The power of replication – Bem’s psi research. Science-Based Medicine. https://sciencebasedmedicine.org/the-power-of-replication-bems-psi-resea...
Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251). https://doi.org/10.1126/science.aac4716
Otgaar, H., Sagana, A., & Tupper, N. (2020). A Brief Reflection on Open Science. Psychological Research on Urban Society, 3(1), 1-5. http://proust.ui.ac.id/index.php/journal/article/view/85
Schimmack, U. (2020). A meta-psychological perspective on the decade of replication failures in social psychology. Canadian Psychology/Psychologie canadienne, 61(4), 364–376. https://replicationindex.com/2020/01/05/replication-crisis-review/
Schimmack, U. (2021a, 9 april). False false positive psychology. Replicability-Index. https://replicationindex.com/2021/04/09/false-false-positive-psychology/ Schimmack, U. (2021b, 22 februari). Replicability rankings 2010-2020. Replicability-Index. https://replicationindex.com/2021/02/22/rr2020/
Schweinsberg, M., Madan, N., Vianello, M., Sommer, S. A., Jordan, J., Tierney, W., … Uhlmann, E. L. (2016). The pipeline project: Prepublication independent replications of a single laboratory’s research pipeline. Journal of Experimental Social Psychology, 66, 55–67. https://doi.org/10.1016/j.jesp.2015.10.001
Sharpe, D., & Poets, S. (2020). Meta-analysis as a response to the replication crisis. Canadian Psychology/Psychologie canadienne, 61(4), 377–387. https://doi.org/10.1037/cap0000215
Simmons, J. P. & Simonsohn, U. (2016). Power Posing: P-Curving the Evidence. Psychological Science, Forthcoming, https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2791272
Strack, F., Martin, L. I., & Stepper, S. (1988). Inhibiting and facilitating conditions of the human smile: A nonobtrusive test of the facial feedback hypothesis. Journal of Personality and Social Psychology, 54(5), 768–777. https://doi.org/10.1037/0022-3514.54.5.768
Stroebe, W. (2019). What can we learn from Many Labs replications? Basic and Applied Social Psychology, 41(2), 91-103. https://doi.org/10.1080/01973533.2019.1577736
Sutherland, W. J., Spiegelhalter, D., & Burgman, M. (2013). Policy: Twenty tips for interpreting scientific claims. Nature, 503, 335–337. https://doi.org/10.1038/503335a
van Sprundel, M. (2016, augustus 16). De psychologie zit in de put maar niet in haar uppie. Nemo Kennislink. https://www.nemokennislink.nl/publicaties/de-psychologie-zit-in-de-put-m...
Verfaellie M. & McGwin, J. (2011, december). The case of Diederik Stapel. Allegations of scientific fraud by prominent Dutch social psychologist are investigated by multiple universities. Psychological Science Agenda. https://www.apa.org/science/about/psa/2011/12/diederik-stapel
Wagenmakers, E.-J., Beek, T., Dijkhoff, L., Gronau, Q. F., Acosta, A., Adams, R. B., … Zwaan, R. A. (2016). Registered replication report: Strack, Martin, and Stepper (1988). Perspectives on Psychological Science, 11(6), 917–928. https://doi.org/10.1177/1745691616674458
Winter, L. de, Verhagen, A.M., & Goossens, F. (2016). Dubbelrollen in effectonderzoek. De Psycholoog, (juni), 40-53. https://www.trimbos.nl/docs/cc618583-dde4-4b45-b31d-0a8766447912.pdf