Etiikka Turvallisuus
Uusi menetelmä opettaa tekoälyn murtamaan toisten kielimallien turvarajoituksia
Kuuntele uutinen
0:00 / 0:00 Uusi tutkimus esittelee vahvistusoppimiseen perustuvan menetelmän, joka opettaa tekoälymallin kiertämään toisten suurten kielimallien turvarajoituksia usean keskusteluvuoron aikana.
Tutkimus keskittyy niin sanottuihin jailbreak-hyökkäyksiin, joissa yritetään saada muuten varovainen kielimalli tuottamaan haitallista sisältöä, kuten väkivaltaisia ohjeita tai vihapuhetta. Erityisen vaikeaksi ongelman tekee niin kutsuttu musta laatikko -asetelma, jossa hyökkääjä ei näe kohdemallin sisäistä rakennetta eikä voi suoraan muokata sen painoja, vaan voi vain syöttää kysymyksiä ja tarkkailla vastauksia.
Useimmat aiemmat menetelmät ovat optimoineet vain yksittäisen viestin muotoilua. Uudessa työssä hyökkäys sen sijaan kuvataan monivuoroinen keskusteluprosessi, jossa hyökkääjä-malli oppii pitkän aikavälin strategian: se suunnittelee usean kierroksen kysymykset niin, että lopullinen vastaus olisi mahdollisimman haitallinen. Tätä varten ongelma muotoillaan vahvistusoppimistehtävänä, jossa palkinto määräytyy viimeisen vastauksen haitallisuuden perusteella.
Koska tällainen palaute on hyvin harvaa, tutkijat ehdottavat lisäksi kahta ns. prosessipalkkiota. Ensimmäinen liittyy keskustelun välivaiheiden haitallisuuden säätelyyn, jotta malli ei johda prosessia epätoivottuun suuntaan jo ennen loppua. Toinen prosessipalkkio tukee hyökkäysstrategian pitkäjänteistä rakentamista koko vuorovaikutuksen ajan.
Tutkimus osoittaa, että haitallisen sisällön estoon rakennetut järjestelmät voivat olla huomattavasti haavoittuvampia, kun hyökkääjä saa käydä useamman kierroksen keskustelua ja oppii hyödyntämään tätä vahvistusoppimisen avulla.
Lähde: RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models, ArXiv (AI).
Teksti on tuotettu tekoälyn avulla ja siinä saattaa olla virheitä. Tarkasta tarkat tiedot alkuperäislähteestä.
Alkuperäinen tutkimus: RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models
Julkaisija: ArXiv (AI)
Tekijät: Xiqiao Xiong, Ouxiang Li, Zhuo Liu, Moxin Li, Wentao Shi, Fuli Feng, Xiangnan He
27. joulukuuta 2025
Lue alkuperäinen →