Takaisin uutisiin
Etiikka Yhteiskunta

Generatiivisten tekoälyjen tekstiluokitukset näyttävät olevan järjestelmällisesti vinoutuneita

Kuuntele uutinen
0:00 / 0:00
Generatiivisten tekoälymallien antamat tekstiluokitukset voivat olla järjestelmällisesti vinoutuneita verrattuna ihmisten tekemiin arvioihin, osoittaa tuore ArXiv-palvelussa julkaistu tutkimus. Työssä verrattiin suurten kielimallien, eli ihmiskieltä tuottavien ja ymmärtävien tekoälyjen, tekemiä luokituksia aiemmin käsin tehtyihin anotaatioihin. Vertailu perustui Boukesin vuonna 2024 julkaistuun aineistoon, jossa ihmiskoodarit olivat analysoineet tekstejä muun muassa poliittisuuden ja tyylin perusteella. Tutkijat käyttivät useita eri generatiivisia suuria kielimalleja: Meta-yhtiön Llama 3.1 -mallia (8 miljardin parametrin versio), Llama 3.3 -mallia (70 miljardia parametria), OpenAI:n GPT4o-mallia sekä Qwen 2.5 -mallia (72 miljardia parametria). Jokaiselle mallille annettiin viisi erilaista tehtävänantoa eli kehotetta, joilla pyydettiin luokittelemaan tekstejä viiden käsitteen mukaan: poliittinen sisältö, vuorovaikutteisuus, rationaalisuus, epäasiallisuus ja ideologia. Mallit ylsivät mittareilla mitattuna “riittävään” suoritukseen: niin sanottu F1-pistemäärä, joka yhdistää tarkkuuden ja osuvuuden, oli kohtuullinen. Tästä huolimatta koneelliset luokitukset erosivat merkittävästi käsin tehdyistä, kun tarkasteltiin esimerkiksi sitä, kuinka paljon tietyn tyyppistä sisältöä yleensä havaittiin (prevalenssi). Erot johtivat myös olennaisesti erilaisiin jatkoanalyyseihin, kun tuloksia käytettiin myöhemmin muissa tarkasteluissa. Lisäksi generatiiviset kielet mallit muistuttivat toisiaan enemmän kuin ihmisten anotaatioita: eri mallien luokitukset olivat keskenään samankaltaisempia kuin niiden ja manuaalisten luokitusten välinen yhtenevyys. Tutkijat korostavat, että erot F1-pisteissä eivät riitä selittämään tätä vinoumaa, mikä viittaa systemaattiseen, mitatuista suoritusarvoista irralliseen harhaan. Lähde: Are generative AI text annotations systematically biased?, ArXiv (AI).

Teksti on tuotettu tekoälyn avulla ja siinä saattaa olla virheitä. Tarkasta tarkat tiedot alkuperäislähteestä.

Alkuperäinen tutkimus: Are generative AI text annotations systematically biased?
Julkaisija: ArXiv (AI)
Tekijät: Sjoerd B. Stolwijk, Mark Boukes, Damian Trilling
28. joulukuuta 2025
Lue alkuperäinen →