Det Natur- og Biovidenskabelige Fakultet

18. november 2021

Kunstig intelligens favoriserer hvide mænd under 40

De sprogmodeller, der bruges i alt fra Google og Siri til forsikringssager og juridisk sagsbehandling, favoriserer systematisk unge, hvide mænds sprog. Samtidig diskriminerer de især unge, ikke-hvide mænd. Det viser en undersøgelse fra Københavns Universitet. Derfor er det vigtigt, at man begynder at træne sprogmodellerne bedre – ellers vokser problemet, lyder det fra en af forskerne.

”Indsæt det ord, som mangler: Jeg lukkede døren til mit ____”. Sådan en øvelse kender mange af os fra skolen. Hvor nogle befolkningsgrupper måske ville udfylde med ordet ”sommerhus”, kan andre grupper i samfundet være mere tilbøjelige til at skrive fx ”kollegieværelse” eller ”autoværksted”. De ord, vi har tendens til at vælge, afhænger i høj grad af, hvor gamle vi er, hvor i landet vi kommer fra, og hvilken social og kulturel baggrund, vi har.

Men de sprogmodeller, vi bruger i vores hverdag, når vi googler, oversætter, skriver med chatbots og taler med Siri, taler nogle gruppers sprog bedre end andres. Det viser et studie fra Datalogisk Institut på Københavns Universitet, hvor man for første gang har undersøgt, om sprogmodeller favoriserer visse demografiske gruppers sprogbrug – det, man i fagsprog kalder sociolekter. Og svaret er altså ja.

”Kigger man på tværs af sprogmodellerne, kan vi se en systematisk skævhed. Hvor hvide mænd under 40 år med kort uddannelse er den gruppe, som sprogmodellerne flugter bedst med, flugter de dårligst med det sprog som unge, ikke-hvide mænd taler,” siger Anders Søgaard, professor ved Datalogisk Institut på Københavns Universitet og seniorforfatter til studiet.

Hvad er problemet?

Analysen viser, at det er op mod hver 10. af modellernes forudsigelser, som er markant dårligere for de unge, ikke-hvide mænd sammenlignet med de unge, hvide mænd. Og det er nok til at udgøre et problem, mener Anders Søgaard:

”Enhver forskel er problematisk, fordi forskellen kryber ind i rigtig mange former for teknologi. Sprogmodeller bruges til ting, der har stor betydning i vores hverdag – fx at hente information på nettet. Når tilgængeligheden af information afhænger af, præcis hvordan du formulerer dig, og hvorvidt det flugter med den sprogbrug, som modellerne er trænet til, betyder det, at noget information er tilgængeligt for andre, men ikke for dig.”

Anders Søgaard tilføjer, at selv en lille skævhed i modellerne kan have mere alvorlige konsekvenser i sammenhænge, hvor præcision er afgørende:

”Det kan være i forsikringsbranchen, hvor man bruger sprogmodeller til at gruppere sager og lave risikovurderinger af kunder. Det kan også være i juridiske sammenhænge – fx i offentlig sagsbehandling, hvor man nogle steder bruger modeller til at søge lignende sager frem for at finde præcedens. I de tilfælde kan den lille forskel være udslagsgivende,” siger han.

Mest data fra sociale medier

Sprogmodeller bliver trænet ved, at man føder enorme mængder tekst ind i dem for at lære dem sandsynligheden for forekomsten af ord i bestemte kontekster. Præcis ligesom med skoleøvelsen skal modellerne forudsige de ord, der mangler i en sekvens. Teksterne er det, der nu er tilgængeligt på internettet, hvoraf det meste er hentet fra sociale medier og Wikipedia.

”Men den data, der er tilgængelig på nettet, er ikke nødvendigvis repræsentativ for os som brugere af teknologien. Wikipedia er et godt eksempel – det er primært skrevet af unge hvide mænd. Og det betyder noget for, hvilket type sprog modellerne lærer,” siger Anders Søgaard.

Forskerne ved ikke med sikkerhed, hvorfor det netop er de unge, hvide mænds sociolekt, som sprogmodellerne repræsenterer bedst. Men de har et kvalificeret bud:

”Det passer med, at unge, hvide mænd er den gruppe, som har bidraget mest til den data, modellerne er trænet med. Der er en overvægt af data fra sociale medier, og man ved fra andre undersøgelser, at det er denne gruppe, der skriver allermest i den slags åbne, offentlige fora,” siger Anders Søgaard.

Problemet vokser, hvis vi ikke gør noget

Og faktisk ser problemet ud til at vokse i takt med den digitale udvikling, fortæller Anders Søgaard:

”I takt med at vi får mere effektive computere og mere data til rådighed, er der en tendens til, at sprogmodellerne bliver større og bliver trænet på mere data. Og for den type af sprogmodeller, som stadig er de mest udbredte, ser det ud til – uden at vi ved hvorfor - at jo større modellerne er, jo mere bias har de. Så med mindre man gør noget, bliver kløften mellem visse samfundsgrupper også større.”

Men heldigvis er der noget, der kan gøres for at rette op på problemet:

”Hvis vi skal komme skævvridningen til livs, er det ikke nok bare at fodre modellerne med mere data. En oplagt løsning er i stedet at træne modellerne bedre. Det kan man gøre ved at ændre algoritmerne, så de i stedet for at behandle al data som lige vigtigt, er særlig omhyggelig med data, der skiller sig ud fra befolkningsgennemsnittet,” slutter Anders Søgaard.

Forskningsartiklen om studiet “Sociolectal Analysis of Pretrained Language Models” er optaget på konferencen Conference on Empirical Methods in Natural Language Processing (EMNLP) 2021.

Kontakt

Anders Søgaard
Professor
Datalogisk Institut
Københavns Universitet
soegaard@di.ku.dk
28 34 84 09

Maria Hornbek
Journalist
Det Natur- og Biovidenskabelige Fakultet
Københavns Universitet
maho@science.ku.dk
22 95 42 83

Emner

Læs også

mennesker og computere

Computer kan nu gætte vores præferencer gennem vores hjernesignaler

DIKU50

50 år med datalogi i Danmark: Fra en kælder på Københavns Universitet til uundværlig for os alle

DATA