Discriminatie (statistische versie) en sociale mobiliteit

Koen Smets

De term “discriminatie” vindt zijn oorsprong (via een omwegje) in het Latijnse discernere (onderscheiden). Voor hij zijn ongunstige sociale betekenis verwierf, had hij al een lange carrière zonder de negatieve gevoelswaarde in de wetenschap – bijvoorbeeld in de optica en in de statistiek . Niettemin denken we nu bij het horen ervan vooral aan beslissingen die gemaakt worden op basis van een vooroordeel ten opzichte van een bepaalde bevolkingsgroep.

Koen Smets

Toch kan ongelijke behandeling van verschillende demografische groepen bestaan zonder dat er vooringenomenheid als racisme of seksisme in het spel is. De zogenaamde statistische discriminatie is een theorie volgens dewelke stereotypering rationeel kan zijn, omdat ze gebeurt op basis van het gemiddelde van een relevante eigenschap eerder dan op vooroordeel. Mocht uit de verkeersongevallenstatistieken blijken dat vrouwen gemiddeld minder schade veroorzaken, dan zou een verzekeraar die statistische discriminatie toepast, all else being equal, aan een willekeurige man een hogere premie aanrekenen dan een willekeurige vrouw.

In een recente blogpost vermoedt Andreas Tirez dat Bart De Wever allusie maakt op discriminatie die rust op dit soort rationele stereotypering in de intussen roemruchte Berber-uitzending van Terzake. Maar is wat voor statistische discriminatie doorgaat wel altijd zo rationeel? Dat is niet vanzelfsprekend.

Mag men bijvoorbeeld zomaar een oordeel vellen aan de hand van een gemiddelde? Het gebruik van gemiddelden is courant in kansrekenen en statistiek. Stel dat u wel eens graag een gokje waagt, en u hebt de keuze tussen twee kansspelen. In het ene mag u drie eerlijke dobbelstenen rollen, in het andere mag u drie eerlijke muntstukken opgooien. Voor een inzet van 1 euro wint u 25 euro als de drie teerlingen hetzelfde aantal ogen hebben, of 6 euro wanneer u drie koppen gooit met de muntstukken. Hoe te kiezen tussen de twee spelen?

Een van de zes mogelijkheden

Om die vraag te beantwoorden berekent u de gemiddelde uitkomst. U hebt 1 kans op 36* om drie keer hetzelfde aantal ogen te gooien, of ongeveer 2,8%. De gemiddelde opbrengst is dus 25 euro x 2,8% of net geen 70 cent. De kans om drie keer kop te gooien is 1/8, of 12,5%**, en hier is de gemiddelde opbrengst dus 6 euro x 12,5% of 75 cent. De uitkomst van elk spel is onzeker, maar de kansverdeling is perfect gekend en het gemiddelde is perfect representatief. Daarom kunt u terecht concluderen dat u beter met de munten speelt dan met de teerlingen.

Misleidende gemiddelden

Maar is het gemiddelde van een zekere eigenschap die in variabele mate voorkomt in een groep ook representatief voor die groep? Wanneer die eigenschap volgens een normaalverdeling voorkomt alvast wel, en een dergelijke verdeling komt erg vaak voor – van de lengte van 12-jarige scholieren en de levensduur van lampen, tot het aantal uren zonneschijn in de maand juni en het IQ van de bevolking van een land. Voor een normaalverdeling geldt dat de groepsleden netjes symmetrisch verdeeld zijn rond het gemiddelde, de helft eronder en de andere helft erboven.

Zo zou u bijvoorbeeld, op basis van het feit dat de meisjes van het derde middelbaar gemiddeld 70% scoren op een wiskundetoets, en de jongens 65%, statistische discriminatie kunnen gebruiken om vrouwelijke boven mannelijke kandidaten te verkiezen voor een baan waar een goede kennis van de wiskunde nodig is.

Als dit de enige informatie is waarover u beschikt dan is dit een rationele keuze. Maar ze rust op verschillende veronderstellingen, waarvan niet zeker is of ze ook waar zijn. Is de verdeling van de uitslagen op de toets in die ene klas wel degelijk normaal verdeeld? Wie weet zat er bij de meisjes een buitengewoon goede leerling, en bij de jongens een verschrikkelijke pechvogel, zonder dewelke het gemiddelde resultaat voor jongens en meisjes net omgekeerd zou zijn geweest.

Statistische discriminatie verliest ook zijn voorspellingskracht wanneer de spreiding van de vergeleken groepen rond hun gemiddelde erg breed is. Als 45% van de meisjes onder het gemiddelde van de jongens liggen, en 45% van de jongens boven het gemiddelde van de meisjes, dan helpt het gemiddelde ons niet echt bij het discrimineren.

Er is discriminatie en discriminatie

En dan hebben we het nog niet gehad over de representativiteit. Zijn de leerlingen in de klas in kwestie typisch voor de hele bevolking? Dit werkt overigens in twee richtingen: een oordeel op basis van gemiddelden kan correct zijn voor een grote demografische groep, maar niet voor een specifieke deelverzameling ervan. In één van zijn voorbeelden heeft Andreas het over allochtonen die gemiddeld een inkomen hebben dat lager ligt dan dat van autochtonen. Maar houdt dat verschil ook stand wanneer men zich beperkt tot bijvoorbeeld bezitters van een hoger diploma, of mensen tussen 25 en 35?

Een notoire illustratie van het risico op al te vlugge conclusies is The Bell Curve van Herrnstein en Murray, een ophefmakend boek uit 1994 dat het debat rond de vraag of intelligentie genetisch bepaald is (en meer specifiek of blanken inherent een grotere cognitieve vaardigheid hebben dan zwarten) flink aanwakkerde – een bijzonder geladen hoek in het nature/nurture vraagstuk. De auteurs schreven namelijk in het deel over IQ en ras:

It seems highly likely to us that both genes and the environment have something to do with racial differences. What might the mix be? We are resolutely agnostic on that issue; as far as we can determine, the evidence does not yet justify an estimate. (p. 311)

– wat door velen werd aangegrepen als een impliciete erkenning dat er op zijn minst een genetische component is die het verschil in gemiddelde IQ tussen blanken en zwarten verklaart.

Ondanks de risico’s kunnen de bovenstaande voorbeelden legitiem als gevallen van rationele, statistische discriminatie worden beschouwd. Als we onwetend zijn over de werkelijke toedracht, en de enige informatie die we hebben is het gemiddelde, dan is het gebruik van een simplistische heuristiek die zich daarop baseert op zichzelf niet onredelijk.

Maar vaak zijn oordelen en voorkeuren helemaal niet gebaseerd op statistisch robuuste informatie, en rusten ze op beperkte beschikbare informatie die ons via de media bereikt. Men spreekt dan van wat men de beschikbaarheidsheuristiek noemt, die tot een ernstig vervormd beeld kan leiden: als de meeste misdaden waarover bericht wordt door migranten worden gepleegd, kan men al gauw gaan denken dat de meeste migranten misdadigers zijn. Ook dit is een vorm van statistische discriminatie: men baseert zijn oordeel op waargenomen feiten, niet op inherente vooringenomenheid.

En zelfs wanneer men over correcte statistische gegevens beschikt loeren er problemen als het om zeer kleine kansen gaat. Stel dat u met het vliegtuig naar Barcelona wil, en u kunt kiezen tussen twee luchtvaartmaatschappijen. Ze zijn allebei erg veilig, maar volgens de statistieken is de kans op een crash met Belgian Airways (99,999%) toch wat groter dan de kans op een ongeval met maatschappij Easyfly (99,99999%). Is dit een rationele basis om zonder meer Belgian Airways te verwerpen? Weinigen zullen zich door een dusdanig klein verschil laten leiden. En toch is dat de basis waarop Andreas discriminatie tegenover mannelijke babysitters als rationeel beschouwt. Zelfs als de kans dat een man pedofiel is 100 keer groter is dan de kans dat een vrouw pedofiel is, is de kans dat je een pedofiele babysitter in huis haalt zeer klein – ongeacht zijn of haar geslacht.

Is sociale mobiliteit opgewassen tegen statistische discriminatie?

Grotere sociale mobiliteit, waar Andreas voor pleit als antwoord op statistische discriminatie, zal vanzelfsprekend bijdragen tot betere ‘gemiddelden’ betreffende de allochtone bevolking. Hun gemiddelde inkomen zal dichter bij dat van autochtonen komen, ze zullen beter vertegenwoordigd zijn in publieke rollen, kortom hun aanwezigheid in alle geledingen van de maatschappij zal meer in overeenstemming zijn met het percentage van de bevolking dat ze vertegenwoordigen.

Maar statistische discriminatie is, in essentie, gebaseerd op onwetendheid: het is het gebruik van – al dan niet robuuste – statistische gegevens in afwezigheid van meer volledige informatie, en vaak ook in afwezigheid van voldoende begrip van de betrokken mechanismen. Het is een simplistische heuristiek met een maar gedeeltelijk terecht wetenschappelijk aura. Helaas verschaft die wetenschappelijke geloofwaardigheid een objectieve reden om discriminatie aanvaardbaar te vinden, en verder te versterken.

Heuristieken zitten diep geworteld , en precies daarom is het twijfelachtig of meer sociale mobiliteit voldoende is om discriminatie – ook de statistische versie ervan – te lijf te gaan.

*: De kans op drie zessen is 1/6 x 1/6 x 1/6, of 1/216, net als de kans op drie vijven enz. Er zijn zes mogelijkheden om drie keer hetzelfde aantal ogen te rollen, dus de kans op een van de zes is 6 x 1/216 of 1/36

**: De kans op kop is 1/2; de kans op drie gelijktijdige koppen is 1/2 x 1/2 x 1/2 of 1/8.

Koen Smets is een deskundige op het gebied van organisatie-ontwikkeling, met een fascinatie voor menselijk gedrag op de grens tussen het rationele en het irrationele.

Lees alle artikels van Koen Smets

Misleidende gemiddelden

Migranten houden boomende pakjeseconomie recht

Brussel verkoopt voortaan woningen zonder grond

Filip Dewinter loog Vlaams Parlement voor over mondmaskers van Chinese spion