Hoofdstuk 13: Datajournalistiek

Hypothese: Wat is mogelijk het probleem?

Welke prangende vraag of vragen kun je met de data beantwoorden? De kolomnamen (variabelen) op de eerste rij van de dataset kun je vergelijken met ‘vragen’: ze tonen welke eigenschappen (zoals lengte, gewicht, geslacht) er van elk individu of object in de dataset zijn vastgelegd. In de rijen ónder de kolommen vind je de ‘antwoorden’, of uitkomsten, in de vorm van kenmerken (bijvoorbeeld: lengte = 176 cm, geslacht = vrouw).
Schaal: Hoe groot is het probleem?

Het eenvoudigste wat je met data kunt doen, is ze tellen of optellen. Het resultaat is echter alleen nieuws als het een tot nu toe onbekend probleem betreft, of als het probleem groter of kleiner blijkt te zijn dan verwacht.
Verandering: Wordt het probleem groter of kleiner?

Of is het probleem gelijk gebleven? Verandering is nieuws. Géén verandering is ook nieuws als het tegen de verwachtingen of beloften ingaat.
Rangorde: Wie of wat is het grootste, kleinste, beste, slechtste?

Wie of wat voert de lijst aan? Wie of wat is hekkensluiter?
Voorbeeld: Wie of wat is een typisch geval?

Wie of wat is representatief voor de lijst? Wie of wat vertegenwoordigt het gemiddelde? Wie of wat is doorsnee (mediaan)? Wie of wat komt het meest voor (modus)?
Uitschieter: Wie of wat is een extreem geval?

Wie of wat is zo groot (of zo klein) dat de omvang ervan niet door voor de hand liggende factoren kan worden verklaard? Wat is de reden dat deze persoon of dit voorwerp een uitschieter is? Is het een fout in de gegevens, is het fraude of gaat het om een echt uitzonderlijk goede of slechte prestatie? Indien het laatste: wat is de factor waar we allemaal van kunnen leren?
Verdeling: Zijn de lusten of de lasten eerlijk verdeeld? Wie heeft de meeste invloed?

Hoe is de verdeling? Deze vraag wordt interessant op gebieden waar sprake zou moeten zijn van gelijkheid, zoals toegang tot drinkwater per regio op aarde, oplaadpunten voor voertuigen per stad of inkomensverschillen tussen mannen en vrouwen. Maar het doet er ook toe in verhalen over invloed: wie heeft het grootste aandeel (in een bedrijf), waar gaat het meeste geld naartoe (begrotingen, departementen), wie heeft de meeste zetels (parlement)?
Correlatie: Is er een verband tussen twee eigenschappen (variabelen)?

Wordt de ene variabele beïnvloed door de andere? Of is er helemaal geen correlatie? Bereken een correlatie wanneer je een verklaring (oorzaak) voor een ontwikkeling zoekt. Bijvoorbeeld: kinderen uit gezinnen met een laag inkomen hebben minder kans om het goed te doen op school.
Crowd-sourcing: Kun je de lezer zélf laten zoeken of filteren in de data?

Waar kan de lezer zelf mee aan de slag? Je deelt de database met de lezer, zodat hij of zij kan selecteren wat hij of zij wil zien. Bijvoorbeeld als een dashboard, een game, een quiz of een simulator. Het omgekeerde is ook mogelijk: vraag de lezer om gegevens aan te leveren, bijvoorbeeld via een online formulier.
Transparantie: Wie heeft de data verknoeid?

Zijn de gegevens gebrekkig, tegenstrijdig en/of onbetrouwbaar? Schrijf dáár een verhaal over als de data belangrijk zijn en goed bijgehouden hadden moeten worden: een verhaal óver in plaats van mét data.

Scrapen

Een effectieve en gratis tool, die in veel gevallen voldoende is, is de Google Chrome extensie Instant Data Scraper: https://chromewebstore.google.com/detail/instant-data-scraper/ ofaokhiedipichpaobibbnahnkdoiiah

Correlatie (vanaf pagina 312) hebben we geprobeerd beter uit te leggen:

Correlatie

Tot slot een waarschuwing, die je misschien al eens eerder hebt gehoord: correlatie is géén causaliteit! Een correlatie duidt slechts op een samenhang en niet op een oorzakelijk verband. We kunnen bijvoorbeeld uitrekenen dat er een sterk verband is tussen vrouwen en zwangerschappen, maar het feit dat je een vrouw bent, betekent niet automatisch dat je zwanger wordt (het omgekeerde is trouwens wél waar). Zo valt ook op basis van de correlatiecoëfficiënt alleen te zeggen dat gezinsinkomen en leesscore samenhangen, maar niet dat het één het ander veroorzaakt. Het is ook mogelijk dat ándere variabelen dan het gezinsinkomen de leesscore beïnvloeden. We kunnen op basis van de correlatiecoëfficiënt wel voorspellen hoe groot de kans is dat een kind uit een arm gezin een lage leesscore zal behalen, maar niet of geldgebrek in het gezin er de oorzaak van is dat het kind niet goed leert lezen.

Onderzoeksjournalisten zijn meestal echter niet geïnteresseerd in samenhang zónder causaliteit. Ze willen niet voorspéllen hoe een variabele zich zal gedragen, zoals wiskundigen doen, ze willen verkláren. Ze zoeken een oorzaak voor de lage leesscore van sommige leerlingen. Ze zijn op zoek naar causaliteit.

Hoe kunnen we tóch iets over het oorzakelijk verband zeggen? Door op zoek te gaan naar andere bronnen! Valt misschien aan de hand van andere bronnen dan onze data aan te tonen dat een laag gezinsinkomen leidt tot geringe leesvaardigheid van de kinderen? Heeft het misschien met aandacht van de ouders te maken, of met bijlessen, of met de aanwezigheid van boeken in huis, of met lidmaatschap van een bibliotheek, of met gebrek aan bepaalde voedingsstoffen in het eten, of met de kwaliteit van de school?

Als je ook data over deze andere factoren bezit, zou je een ‘meervoudige regressie-analyse’ kunnen toepassen. Door in de correlatieberekening ook alle ándere mogelijke factoren mee te nemen die invloed kunnen hebben op de leesscore, en dus niet alleen het gezinsinkomen, kun je bepalen welke factoren het sterkste verband vertonen met de leesscore. Daarmee heb je wederom nog geen oorzakelijk verband aangetoond, maar wél andere mogelijke verklaringen uitgesloten.

Hoe je meervoudige regressie-analyse toepast, voert te ver voor dit boek. Maar hier is een tipje van de sluiter: in Excel: ga naar ‘add-ins’ en kies ‘Analysis ToolPack’; in Google Sheets: ga naar ‘Uitbreidingen’ > ‘Add-ons’ > ‘Add-ons toevoegen’ en kies het pakket ‘Statistical Analysis Tools’.