Yhteiskunta Etiikka
Uusi monimodaalinen tekoälyratkaisu yhdistää kevyet näkömallit ja suuret kielimallit yhteistyöhön
Kuuntele uutinen
0:00 / 0:00 Tekoäly pystyy tämänhetkisten tutkimusten mukaan oppimaan uusia aistimodaliteetteja, kuten näön, ilman että koko järjestelmää tarvitsee rakentaa uudelleen alusta lähtien. James Y. Huangin ja kollegoiden Be My Eyes -niminen hanke esittelee kehikon, jossa eri tekoälyagentit tekevät yhteistyötä: kevyet näköön erikoistuneet mallit havainnoivat, ja suuret kielimallit ajattelevat ja päättävät.
Taustalla on ongelma, että laajat, kuvaa ja tekstiä yhdistävät näkö-kielimallit ovat kalliita kehittää ja vaativat valtavasti laskentatehoa. Pienemmät näkö-kielimallit taas ovat energiatehokkaampia ja helpommin muokattavissa, mutta niiltä puuttuu suurten kielimallien laaja yleissivistys ja päättelykyky.
Be My Eyes -ratkaisu kiertää tämän ristiriidan jakamalla tehtävät kahdelle agentille. Näköagentti tulkitsee esimerkiksi kuvia tai muuta visuaalista aineistoa ja muuntaa sen keskusteluksi, jonka perusteella kieliagentti tekee varsinaisen päättelyn. Agenttien välinen vuorovaikutus muistuttaa ihmisten yhteistyötä: yksi katsoo ja kuvailee, toinen analysoi ja ehdottaa ratkaisuja.
Tutkimusryhmä esittelee myös aineistonluonti- ja opetuskokonaisuuden, jolla näköagenttia koulutetaan nimenomaan tähän yhteistyöhön. Synteettisen datan avulla mallille opetetaan, miten sen kannattaa keskustella kieliagentin kanssa, jotta tämä saa tarvitsemansa tiedot ja voi hyödyntää täyden päättelykykynsä.
Lähestymistapa on merkittävä, koska se voi mahdollistaa uusien aistimodaliteettien lisäämisen suuriin kielimalleihin ilman, että joka kerta rakennetaan massiivinen, kaiken sisältävä malli. Sen sijaan voidaan yhdistellä kevyempiä erikoistuneita malleja ja hyödyntää niiden ja kielimallien välistä vuoropuhelua.
Lähde: Be My Eyes: Extending Large Language Models to New Modalities Through Multi-Agent Collaboration, ArXiv (AI).
Teksti on tuotettu tekoälyn avulla ja siinä saattaa olla virheitä. Tarkasta tarkat tiedot alkuperäislähteestä.
Alkuperäinen tutkimus: Be My Eyes: Extending Large Language Models to New Modalities Through Multi-Agent Collaboration
Julkaisija: ArXiv (AI)
Tekijät: James Y. Huang, Sheng Zhang, Qianchu Liu, Guanghui Qin, Tinghui Zhu, Tristan Naumann, Muhao Chen, Hoifung Poon
24. joulukuuta 2025
Lue alkuperäinen →