Saamelaiskielen tuominen suuriin kielimalleihin ei ole vain datapulma, tutkija muistuttaa
Suuriin kielimalleihin perustuva generatiivinen tekoäly nostaa esiin kysymyksen siitä, voidaanko saamen kaltaiset vähemmistökielet ja niihin kytkeytyvä tieto mallintaa “onnistuneesti” osaksi tekoälyjärjestelmiä. AI & SOCIETY -lehdessä julkaistussa kirjoituksessa Oliver Li tarttuu erityisesti siihen ajatukseen, että kyse olisi ennen kaikkea teknisestä tehtävästä: kerätään riittävästi saamenkielisiä tekstejä, opetetaan suuri kielimalli (large language model) niillä ja tuloksena on kieli ja sen välittämä tieto mukana tekoälyssä.
Li kuvaa, miten tietojenkäsittelytieteen näkökulmasta ratkaisu voi näyttää suoraviivaiselta. Samalla hän nostaa esiin sen, että yhteiskuntatieteissä ja humanistisissa tieteissä hanke saatetaan nähdä sinänsä myönteisenä: vähemmistökielien huomioiminen voisi olla askel kohti syrjinnän vähentämistä.
Kirjoituksen ydin on kuitenkin varoitus liian kapeasta “pelkkä data riittää” -ajattelusta. Li korostaa, että jos saamelaiskieltä ja saamelaista tietoa pyritään sisällyttämään generatiiviseen tekoälyyn, pelkkä tekstiaineiston lisääminen ja mallin opettaminen ei välttämättä tarkoita, että kieli ja sen välittämä tieto on todella “tallentunut” järjestelmään tavalla, joka tunnistaa ja kunnioittaa alkuperäiskansan erityisyyttä.
Li tiivistää lähestymistapansa kehotukseen: erot pitää nähdä, hyväksyä ja niitä tulee myös vaalia. Tämä siirtää keskustelua pois pelkästä mallien suorituskyvystä kohti kysymystä siitä, millä ehdoilla ja millaisin käsityksin vähemmistökieliä ja niihin liittyvää tietoa ylipäätään kannattaa liittää tekoälyjärjestelmiin.
Lähde: On including Sámi-knowledge in LLMs—see differences, accept differences, cherish differences!, AI & SOCIETY.
This text was generated with AI assistance and may contain errors. Please verify details from the original source.