Correlatie (vanaf pagina 312) hebben we geprobeerd beter uit te leggen:
Tot slot een waarschuwing, die je misschien al eens eerder hebt gehoord: correlatie is géén causaliteit! Een correlatie duidt slechts op een samenhang en niet op een oorzakelijk verband. We kunnen bijvoorbeeld uitrekenen dat er een sterk verband is tussen vrouwen en zwangerschappen, maar het feit dat je een vrouw bent, betekent niet automatisch dat je zwanger wordt (het omgekeerde is trouwens wél waar). Zo valt ook op basis van de correlatiecoëfficiënt alleen te zeggen dat gezinsinkomen en leesscore samenhangen, maar niet dat het één het ander veroorzaakt. Het is ook mogelijk dat ándere variabelen dan het gezinsinkomen de leesscore beïnvloeden. We kunnen op basis van de correlatiecoëfficiënt wel voorspellen hoe groot de kans is dat een kind uit een arm gezin een lage leesscore zal behalen, maar niet of geldgebrek in het gezin er de oorzaak van is dat het kind niet goed leert lezen.
Onderzoeksjournalisten zijn meestal echter niet geïnteresseerd in samenhang zónder causaliteit. Ze willen niet voorspéllen hoe een variabele zich zal gedragen, zoals wiskundigen doen, ze willen verkláren. Ze zoeken een oorzaak voor de lage leesscore van sommige leerlingen. Ze zijn op zoek naar causaliteit.
Hoe kunnen we tóch iets over het oorzakelijk verband zeggen? Door op zoek te gaan naar andere bronnen! Valt misschien aan de hand van andere bronnen dan onze data aan te tonen dat een laag gezinsinkomen leidt tot geringe leesvaardigheid van de kinderen? Heeft het misschien met aandacht van de ouders te maken, of met bijlessen, of met de aanwezigheid van boeken in huis, of met lidmaatschap van een bibliotheek, of met gebrek aan bepaalde voedingsstoffen in het eten, of met de kwaliteit van de school?
Als je ook data over deze andere factoren bezit, zou je een ‘meervoudige regressie-analyse’ kunnen toepassen. Door in de correlatieberekening ook alle ándere mogelijke factoren mee te nemen die invloed kunnen hebben op de leesscore, en dus niet alleen het gezinsinkomen, kun je bepalen welke factoren het sterkste verband vertonen met de leesscore. Daarmee heb je wederom nog geen oorzakelijk verband aangetoond, maar wél andere mogelijke verklaringen uitgesloten.
Hoe je meervoudige regressie-analyse toepast, voert te ver voor dit boek. Maar hier is een tipje van de sluiter: in Excel: ga naar ‘add-ins’ en kies ‘Analysis ToolPack’; in Google Sheets: ga naar ‘Uitbreidingen’ > ‘Add-ons’ > ‘Add-ons toevoegen’ en kies het pakket ‘Statistical Analysis Tools’.