Bestaat er zoiets als taalkundige vooringenomenheid waardoor taalmodellen discrimineren?
Meer dan 80% van de ChatGPT gebruikers komt niet uit de Verenigde Staten waar Amerikaans Engels de standaard taal is. Dus ruim 8 op de 10 gebruikers komt uit andere landen en gemeenschappen met andere taalvarianten.
Globaal gezien spreekt meer dan 1 miljard mensen varianten van Amerikaans Engels, zoals Indiaas Engels, Iers Engels en Afro-Amerikaans Engels. Sprekers van niet-Amerikaans Engels varianten worden mogelijk vaker gediscrimineerd in de echte wereld omdat de manier waarop ze spreken onprofessioneel of onjuist wordt geacht.
Discrimineren op basis van de manier waarop iemand spreekt, is vaak gerelateerd aan discriminatie op basis van ras, etniciteit of nationaliteit. Wat als kunstmatige intelligentie in den algemeenheid discriminatie verergert? Hoe ga je daarmee om in de maatschappij? Hoe ga je daarmee om op de werkvloer?
Net zoals bij mensen heeft de kwaliteit van input ook invloed op de output
Kunstmatige intelligentie werkt en reageert tenslotte met de informatie waarmee ze getrained is. Als in de ‘datasets’ die gebruikt worden voor training van ai-modellen ook vooroordelen en stereotypering zitten dan ontstaat het risico van slecht begrip, neerbuigende of zelfs vernederende reacties door de kunstmatige intelligentie.
Er zijn tests geweest waarin moedertaalsprekers van taalvarianten de reacties op diverse versies van kunstmatige intelligenties beoordeelden. Dat deden ze op onderstaande 2 kwaliteiten. De taalmodellen werd gevraagd de stijl van de invoer te imiteren.
- positief (zoals warmte, begrip en natuurlijkheid)
- negatief (zoals stereotypering, neerbuigendheid of vernederende inhoud).
Resultaten
De onderzoekers ontdekten inderdaad dat modelreacties veel meer kenmerken van de standaard Amerikaans Engels behouden dan de “niet-standaard” talen. Maar de taalmodellen immiteerden wel de andere varianten van het Engels, hoewel niet consistent. De taalmodellen imiteerden varianten met meer sprekers (zoals Indiaas Engels) vaker dan varianten met minder sprekers (zoals Jamaicaans Engels). Dat suggereert dat de samenstelling van de trainingsdata de reacties op “niet-standaard” talen beïnvloedt.
Implicaties
ChatGPT kan taalkundige discriminatie in stand houden ten opzichte van sprekers van niet-“standaard”-varianten. Als deze gebruikers moeite hebben om ChatGPT hen te laten begrijpen, is het moeilijker voor hen om deze tools te gebruiken. Dat kan barrières tegen sprekers van “niet-standaard”-varianten versterken, aangezien AI-modellen steeds vaker in het dagelijks leven worden gebruikt.
Bovendien houden stereotypering en vernederende reacties het idee in stand dat sprekers van “niet-standaard”-varianten minder correct spreken en minder respect verdienen. Naarmate het gebruik van taalmodellen wereldwijd toeneemt, bestaat het risico dat deze hulpmiddelen machtsverhoudingen versterken en ongelijkheden vergroten die schadelijk zijn voor taalgemeenschappen die tot minderheden behoren. Dit gegeven beperkt zich niet tot Engelse taalvarianten.
Beleid
Duidelijk is dat aanvullend beleid en ontwikkeling noodzakelijk is om eenieder op de juiste manier te bejegenen. Discriminatie in welke vorm dan ook mag nooit als een logisch resultaat worden beschouwd.
Bron: Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination
Ik ben van start gegaan als web strategist en vanaf deze invalshoek in aanraking gekomen met kunstmatige intelligentie. Mijn kracht ligt bij het verbinden van technieken met organisaties met een focus op online kansen. Het combineren van de bedrijfskennis van klanten met mijn inzichten in online kansen geeft een goede basis voor succes. Maar er is meer nodig om beter te zijn dan de concurrentie: ouderwets hard werken combineren met slim werken en communiceren. En als dat lukt dan mag succes geviert worden!