Wat de cijfers ons (niet) zeggen

 Leestijd: 5 minuten6

Tijdens de coronacrisis worden we dagelijks geconfronteerd met cijfers en getallen, statistieken en prognoses, over sterf- en andere gevallen. Die cijfers vertellen ons iets. Maar wat? En wat niet?

Met mijn studenten durfde ik al eens het volgende grapje uithalen: gegeven is een kamer waarin zich een kat, een hond, een man en een vrouw bevinden. Vraag: hoeveel dieren zijn er in de kamer aanwezig? Ik kreeg twee antwoorden: twee en vier. Wie twee zei, ging ervan uit dat mensen geen dieren zijn en derhalve enkel de kat en de hond moest tellen. Wie vier zei, beschouwde de mens ook als een dier. 

Het antwoord op een louter wiskundige vraag wordt uiteindelijk mee bepaald door niet-wiskundige elementen

Het antwoord op de vraag werd dus bepaald door het antwoord op een andere vraag, namelijk: is de mens een dier? Dat is, hoeft het gezegd, geen wiskundige vraag, maar wat dan wel? Is het een biologische vraag? Is het een filosofische vraag? Een ethische? Een theologische? Verwachten we, bij wijze van spreken, ‘twee’ op de campus van de KU Leuven en vier op die van de VUB? 

Die discussie hoef ik hier en nu gelukkig niet te voeren, maar mijn punt is wel gemaakt, denk ik. Het antwoord op een louter wiskundige vraag wordt uiteindelijk mee bepaald door niet-wiskundige elementen die heel diep kunnen gaan.

Zal ik de zaak nog wat scherper formuleren? Stel dat in de kamer zich twee zwarte mensen en twee witte mensen bevinden? Wat zal de white supremacist antwoorden als de vraag wordt gesteld hoeveel mensen er aanwezig zijn? No comment. 

Coronadode of niet?

Over naar corona. We worden dagelijks geconfronteerd met cijfers en getallen, statistieken en prognoses. Niet alleen zijn het de cijfers die direct of vrij direct kunnen verbonden worden met corona zelf, zoals het aantal sterfgevallen in ziekenhuizen of het aantal positieve gevallen bij het uitvoeren van een batterij tests, maar ook meer indirecte cijfers, als het bijvoorbeeld gaat om de economische impact van de pandemie. 

Het ligt voor de hand om aan te nemen dat indirecte cijfers ‘lastiger’ zijn om mee te werken dan directe cijfers

Het ligt voor de hand om aan te nemen dat indirecte cijfers ‘lastiger’ zijn om mee te werken dan directe cijfers. Maar dat is slechts gedeeltelijk waar. Want, denk even terug aan de sterfgevallen van de voorbije maanden.

Eerst werden de woonzorgcentra niet meegenomen, dan wel. Op dat moment sprongen de cijfers flink omhoog. Recent voerde men nog eens een hertelling uit en kwamen de cijfers weer iets lager uit. 

Wie niet vertrouwd is met dit mechanisme van herziening, wat voor een wetenschappelijke aanpak volkomen normaal is, kan gemakkelijk de indruk krijgen dat willekeur heerst. Maar dat is niet zo. Het volstaat om zich te realiseren dat men geen doden telt, wel doodsoorzaken. En dan zie je meteen hoe lastig dit probleem kan zijn. 

Stel: een oudere patiënt met een zwak hart en diabetes krijgt corona. Daardoor verzwakt hij of zij in sterke mate tot er een fatale hartaanval optreedt. Coronadode of niet? Het wordt niet eenvoudiger als men stelt dat, had de patiënt geen corona gehad, hij of zij toch binnen de maand gestorven zou zijn. Dus meetellen of niet? En, voor alle duidelijkheid, dat zijn nog maar de directe cijfers.

Groepsimmuniteit

Een ‘tussengeval’, als ik het zo mag benoemen, is de kwestie van de groepsimmuniteit. Lijkt het niet eenvoudig op het eerste gezicht? Hoeveel mensen moeten immuniteit opgebouwd hebben om de verdere verspreiding van het virus tegen te gaan? In de beginfase van de pandemie kregen we te horen dat we moesten denken in de orde van 60 tot 70%. In recentere tijden lees ik plotseling dat het ook veel minder kan zijn. Misschien kan 40% wel voldoende zijn (gelezen in een zeer respectabele bron, namelijk Science)? 

Hoeveel mensen moeten immuniteit opgebouwd hebben om de verdere verspreiding van het virus tegen te gaan? Alles hangt af van hoe de populatie wordt voorgesteld

Wat is hier aan de hand? Antwoord: alles hangt af van hoe de populatie wordt voorgesteld. In een homogene populatie waar iedereen met iedereen in contact kan komen, zit je snel aan dat hoge cijfer. Maar, als de populatie heterogeen is, wordt het beeld meteen een stuk complexer. 

Een voorbeeld: neem een groep van 100 mensen. Als alle contacten tussen hen mogelijk zijn, dan moeten, laat ons zeggen, 60% of dus 60 mensen immuun zijn. Maar, stel dat de groep bestaat uit twee deelgroepen die nauwelijks of geen contact met elkaar hebben. In de eerste deelgroep zijn alle contacten mogelijk (denk aan een stad), maar in de tweede deelgroep iedereen voldoende ver van elkaar woont en elkaar met rust laat (denk aan de bergen of het platteland). Dan heeft het virus geen schijn van kans in de tweede groep en is er maar immuniteit nodig in de eerste groep: 60% van 50 is 30, dus voor de gehele groep krijgen we 30 op 100 of 30%. 

Weet je dit, dan wordt het opnieuw eenvoudig. Weet je dit niet, dan lijkt het of de cijfers alle richtingen uit kunnen.

Precies en exact

Echt moeilijk wordt het als experten gevraagd worden om langetermijnprognoses te formuleren. Wanneer zullen we van het virus verlost zijn? Wanneer zal er een vaccin zijn? Hoe betrouwbaar zal dat zijn? Zal het voor iedereen beschikbaar zijn en, indien niet, voor wie in eerste instantie en voor wie later? 

Nu bekijken we heel vaak cijfers op zich, maar cijfers komen altijd in een context, waaraan ze hun betekenis ontlenen

Hoewel al deze vragen cijfermatig te beantwoorden vallen – het antwoord dat de pandemie in de lente van 2021 voorbij zal zijn is een cijfermatig antwoord, al was het maar omdat het één van de vier seizoenen selecteert als antwoord – is het duidelijk dat de modellen, theorieën, argumenten, overwegingen en bewijsstukken voor heel wat discussie kunnen zorgen. 

Het is een gekend probleem, maar ik herhaal het toch nog een keer: het is niet omdat iets in cijfers wordt uitgedrukt dat het daarom precies en exact is. Het klinkt paradoxaal, maar denk terug aan het voorbeeld dat ik als opening van dit stuk heb gebruikt. Twee en vier zijn exacte cijfers maar de situatie waarin ze gebruikt worden hoeft dat niet te zijn. 

De hamvraag is natuurlijk hoe je hiermee moet weten om te gaan. In geen geval wil ik pleiten om cijfers achterwege te laten, dat zou al te gek zijn, maar in zekere zin moet er maar één denkstap gezet worden. Nu bekijken we heel vaak cijfers op zich, maar cijfers komen altijd in een context, waaraan ze hun betekenis ontlenen. 

Wat is de efficiëntie van een maatregel? Kan dat direct gemeten worden?

Laat ik deze abstracte gedachte concreter maken. Het is nog niet zo lang geleden dat kranten, weekbladen en hun digitale tegenhangers of complementen bij een enquête expliciet(er) aangeven hoe de bevraging is gebeurd: welk kantoor of bedrijf is ervoor ingeschakeld, hoe groot is het aantal bevraagden, hoe heeft men ze bevraagd (indien via een app op smartphone dan weet men al dat de senioren ondervertegenwoordigd zullen zijn) en, bovenal, wat is de spreiding in de antwoorden. 

Voorbeeld: stel dat in een stempeiling partij A een score haalt van 17% met een marge van 3% en partij B 19% met een marge van 4%. Dan mag hieruit niet besloten worden dat partij B zou winnen van A bij een verkiezing, omdat A tussen 14 en 20% zit en B tussen 15 en 23%. Stel dat bij de verkiezing A 19% haalt en B 16%. Dan is dat niet strijdig (!) met wat de peiling heeft getoond. 

Of denk aan de hele kwestie rond de strategie gevolgd in Zweden en in andere landen. Zou je niet denken dat dit toch een eenvoudige kwestie moet zijn? Zeer integendeel!

Ik geef maar één element aan: wat is de efficiëntie van een maatregel? Kan dat direct gemeten worden? Dat een lockdown de cijfers doet dalen, dat mag duidelijk zijn, maar wat is de impact van de bevolkingsdichtheid? Een lastige kwestie, verwant met het reeds vermelde probleem van groepsimmuniteit.

‘Gecijferdheid’

Nu is het gelukkig zo dat het warm water niet per se nog eens hoeft uitgevonden te worden. Er is al heel wat werk verricht rond ‘gecijferdheid’ en in het bijzonder statistische gecijferdheid, al was het maar omdat elke zichzelf respecterende universiteit (onder andere) in de faculteit psychologie en opvoedkunde een onderzoeksgroep heeft rond didactiek van de wiskunde. Bescheiden bewijsstukje: een zoektocht op Google Scholar met de term numeracy levert een kwart miljoen hits op. 

Ik durf zonder meer te stellen dat het geen probleem mag zijn om elke schoolgaande jongere een idee te geven van wat de mogelijkheden en de beperkingen zijn van cijfers, statistieken en grafieken (en, wie weet, ook de schoonheid ervan te ervaren). 

Er wordt vandaag gesproken over het introduceren van een vak economie in het secundair onderwijs. Lijkt mij geen slecht idee maar, alsjeblief, geef eerst een cursus geletterd- en gecijferdheid, zo niet dan wordt dit een maat voor niets. (En gooi er maar meteen ook kritisch denken en wat filosofie bij, het is nooit weg.) Ik ben ervan overtuigd dat wie zo’n cursus heeft doorlopen op een totaal andere en nieuwe manier zal luisteren naar de woorden: “De cijfers zeggen ons dat…”.


Uitgelichte afbeelding; Martin Sanchez (Unsplash)

  Dit is een gastbijdrage. Een Apache-lezer levert met dit stuk een bijdrage aan het maatschappelijk debat. De auteur schrijft in eigen naam en is verantwoordelijk voor de inhoud van de tekst. Zelf een bijdrage insturen, doe je hier.

Auteur: Jean Paul Van Bendegem

Professor Jean Paul Van Bendegem (1953), stichter van het Centre for Logic and Philosophy of Science (CLPS) aan de VUB, is met emeritaat, maar zet wel zijn onderzoek voort in het strikte finitisme en de filosofie van wiskundige praktijken.