Al vele jaren geven de warentests van consumentenmagazines als Testaankoop het label van ‘Beste Koop’ aan producten die het beste presteren. Zo’n binair onderscheid (een product is immers wel, of niet, een Beste Koop) is echter niet noodzakelijk nuttig.

Eén probleem met het onderscheid is dat het ons niet zegt of een product dat niet de titel kreeg nipt uit de boot viel, dan wel slechts middelmatig was over de hele lijn. Een tweede bedenking is dat de scheiding tussen Beste en Niet-zo-beste Koop willekeurig is, en een derde is dat de beoordeling onvermijdelijk vele criteria moet combineren. Voor een vaatwasser zou men zo kunnen bepalen dat het energieverbruik, de duurtijd van een cyclus, het lawaainiveau, het gemak van in- en uitladen, en de capaciteit goede maatstaven zijn om verschillende modellen met elkaar te vergelijken. Maar welk relatief gewicht krijgt elk van deze criteria in de totale beoordeling? En weerspiegelt dit hoe wijzelf de prestaties van een toestel zouden benaderen?

Het Beste Koopconcept is nog steeds populair, maar het wordt inmiddels aangevuld met tabellen waarin de relatieve prestaties onder de gekozen criteria wordt vermeld, en met een geaggregeerde score (op honderd). Deze verbetering helpt ons alvast te zien of een product net onder de Beste Koopdrempel valt (die weliswaar nog steeds willekeurig is). Maar we kunnen nog steeds niet nagaan of de relatieve scores van twee producten reflecteren wat wij belangrijk vinden. Als we echt een heel stille vaatwasser willen, maar omdat we hem toch nooit helemaal vullen weinig belang hechten aan de capaciteit, kan een lager gerangschikte machine wel eens onze Beste Koop zijn.

Een score op honderd ziet er geschikt uit als maatstaf, maar schijn bedriegt. De kwantitatieve aard suggereert dat het een goede richtlijn is voor het maken van beslissingen, maar dat is een illusie.

Index wijst in de verkeerde richting

Zulke idiosyncratische, ondoorzichtige getallen vind je niet enkel in productbeoordelingen. In een recente blogpost bekeek Branko Milanovic, een prominent econoom, de Global Health Security Index, dat als doel heeft te bepalen hoe goed landen voorbereid zijn op een uitbraak van een infectieziekte, en hoe goed ze in staat zijn ze in te dijken. Net als in een warentest van Testaankoop over grasmaaiers of mayonaise, definieert het categorieën volgens welke, in dit geval, de paraatheid van een land wordt beoordeeld. De zes categorieën zijn preventie, detectie en rapportage, snelle respons, gezondheidssysteem, conformiteit met internationale normen, en risico-omgeving. Op hun beurt zijn ze opgebouwd uit 34 indicatoren en 85 subindicatoren. Dit alles werd gecombineerd in een GHS-index – een score (u raadt het al) op honderd.

Het rapport verscheen in oktober 2019, enkele maanden voor de Covid-19-pandemie de wereld in haar greep kreeg. Nieuwsgierig naar hoe nauwkeurig het rapport was, vergeleek Milanovic de index met de daadwerkelijke prestaties in de reactie op de pandemie in een aantal landen. Daarvoor keek hij – wat best redelijk is – naar het aantal Covid-19-doden per miljoen inwoners.

Zijn bevindingen zijn opmerkelijk. De GHS-index blijkt het omgekeerde te voorspellen van wat werd vooropgesteld: de top-drie landen in het rapport – de VS, het VK en Nederland met scores van respectievelijk 83,5, 77,9 en 75,6 – bengelen helemaal achteraan wanneer wordt gekeken naar de Covid-overlijdens in verhouding met de bevolking (de tiende, vierde en 38ste laatste, met bijna 1400, meer dan 1600 en meer dan 800 doden per miljoen). Landen die beter presteerden hebben dan weer een lage GHS-index. Zo is Vietnam het vierde beste land in de lijst van COVID-19-doden met 0,36 doden per miljoen, maar slechts op de vijftigste plaats in de GHS-lijst. Thailand en Zweden staan naast elkaar in de GHS-rangschikking (op de zesde en zevende plaats), maar Zweden tekende 1000 keer meer doden per miljoen op dan Thailand. België, 19de in de GHS-lijst met een score van 61,0, is het tweede slechtste land (na San Marino) in de rangschikking met meer dan 1800 doden per miljoen.

De GHS-index faalt duidelijk in het waarmaken van de doelstelling. En de discrepantie tussen voorspelling en realiteit illustreert niet enkel hoe zo’n alleenstaand getal, opgebouwd uit zes categorieën, 34 indicatoren en 85 subindicatoren, betekenisloos kan zijn. Ze toont ook dat, wanneer zo’n getal flagrant verkeerd is, we niet in staat zijn te zien hoe of waarom dit het geval is.

Werkzaamheid is niet alles (en is nauwelijks iets)

Wat Covid-19 betreft, is er een ander vermeldenswaardig voorbeeld van een alleenstaand getal – ook weer voorgesteld als een score op honderd: de werkzaamheid van een vaccin. De media maken vrolijk melding van dit getal in hun koppen, compleet met decimaalteken (waar beschikbaar). We staan even niet stil bij het feit dat velen niet begrijpen wat ‘werkzaamheid’ precies betekent (het is de reductie, als percentage, in het optreden van ziekteverschijnselen in de gevaccineerde groep, vergeleken bij de niet-gevaccineerde groep onder optimale voorwaarden, zoals een gerandomiseerd onderzoek, en niet bijvoorbeeld het percentage gevaccineerde mensen dat niet ziek werd).

Het grootste probleem is dat dit getal niets vertelt over de doelmatigheid van een vaccin – de capaciteit ervan uitkomsten te beïnvloeden in de echte wereld. Neem bijvoorbeeld een vaccin A, met een werkzaamheid van 70%, en een vaccin B met een werkzaamheid van 90%. Puur intuïtief zou je op deze basis vaccin B verkiezen, en misschien zelfs vaccin A verwerpen. Maar we weten niet wat gebeurde met de mensen die, ondanks te zijn ingeënt met het ene of het andere vaccin, toch ziek werden. Hoe ziek waren ze? Moesten ze naar het ziekenhuis? Hadden ze intensieve zorg nodig? En bovenal, overleden ze of overleefden ze? Misschien had iedereen die ziek werd na vaccin A te krijgen slechts lichte symptomen, terwijl sommigen die ziek werden na vaccin B moesten worden opgenomen, of overleden.

De werkzaamheidspercentages zeggen hierover exact niets. Het goede nieuws is dat de vaccins die tot dusver al door vele landen zijn goedgekeurd zonder uitzondering uitstekend presteren, met erg weinig of geen ernstige besmette gevallen in de gevaccineerde groep en geen overlijdens, noch aan de ziekte, noch ten gevolge van het vaccin. Dit betekent dat, welk vaccin u ook krijgt, het erg onwaarschijnlijk is dat u ernstig ziek zult worden en zult moeten worden opgenomen, en zo goed als uitgesloten dat u eraan zult overlijden.

Het slechte nieuws is dat de ongepaste aandacht voor dit alleenstaande getal – de werkzaamheid – vanwege de media, politici en hun adviseurs, en de bevolking in het algemeen, belangrijke beslissingen beïnvloedt, en niet ten goede. De suggestie dat er een groot verschil tussen verschillende vaccins wat betreft hun impact in de praktijk, en dat een vaccin met een lagere werkzaamheid op een of andere manier een stuk slechter is dan een met een hogere werkzaamheid voedt de argwaan rond inentingen – wie wil immers een ‘minderwaardig’ vaccin? En dat beïnvloedt dan weer politieke leiders en beleidsmakers, die natuurlijk niet willen gezien worden als zouden ze ‘minderwaardige’ vaccins pushen. Het onvermijdelijke resultaat is dat het langer zal duren voor de pandemie onder controle is, en dat meer mensen zullen overlijden.

Soms zijn getallen niet enkel betekenisloos. Ze kunnen ons op het verkeerde spoor zetten, en ons leiden naar slechte beslissingen. Het is aan ons na te gaan hoe betekenisvol een getal werkelijke is, vooral wanneer het te pas en vooral te onpas uitgebazuind wordt als gezaghebbende indicatoren van iets belangrijks.

Uitgelichte afbeelding: © Koen Smets