Takaisin uutisiin
Turvallisuus Etiikka

Uusi hyökkäysmenetelmä paljastaa tekstistä-kuvaksi -tekoälyn haavoittuvuuksia ilman sisäistä pääsyä malliin

Kuuntele uutinen
0:00 / 0:00
Uusi CAHS-Attack-menetelmä pyrkii osoittamaan, kuinka haavoittuvia diffuusiomalleihin perustuvat tekstistä-kuvaksi -järjestelmät ovat vihamielisille syötteille eli niin sanotuille adversaarisille kehotteille. Diffuusiomallit, kuten nykyiset kehittyneet kuvia tekstistä tuottavat tekoälyt, voivat käyttäytyä arvaamattomasti, jos niitä ohjataan tarkoituksella harhaan johtavilla tai rajat ylittävillä tekstikehotteilla. Tutkijoiden mukaan vahvemmat hyökkäysmenetelmät ovat tarpeen, jotta piilevät haavoittuvuudet löytyvät ja järjestelmistä voidaan tehdä kestävämpiä. Aiemmat menetelmät ovat usein nojanneet niin sanottuun valkoisen laatikon pääsyyn, jossa hyökkääjä näkee mallin sisäiset laskelmat ja voi hyödyntää esimerkiksi gradientteja eli pienten muutosten vaikutuksia. Tällainen pääsy ei kuitenkaan vastaa todellista palveluympäristöä, jossa mallien sisäiset tiedot ovat suljettuja. Toisaalta käsin tehty kehotteiden virittely tuottaa usein heikkoja hyökkäystuloksia. CAHS-Attack (CLIP-Aware Heuristic Search Attack) yhdistää kaksi hakumenetelmää. Ensin käytetään rajoitettua geneettistä algoritmia eli biologisesta evoluutiosta inspiroitua hakua esivalitsemaan lupaavia hyökkäyskehotteita niin sanotuiksi juurisolmuiksi. Tämän jälkeen menetelmä soveltaa Monte Carlo -puuhakua (Monte Carlo Tree Search), jota käytetään myös pelitekoälyissä, hiomaan erityisesti kehotteiden loppuun lisättäviä tekstipätkiä. Menetelmä hyödyntää kuvia ja tekstiä yhteiseen tilaan kartoittavaa CLIP-järjestelmää arvioidakseen, mitkä muutokset ovat semanttisesti eli merkitykseltään häiritsevimpiä. Jokaisessa haun vaiheessa säilytetään tulos, joka poikkeaa merkitykseltään eniten alkuperäisestä, jolloin paikallinen haku tehostuu. Tutkimuksen tavoitteena on tarjota käytännönläheinen tapa etsiä ja ymmärtää generatiivisten tekoälyjärjestelmien heikkoja kohtia myös silloin, kun itse malli on suljetun rajapinnan takana. Lähde: CAHS-Attack: CLIP-Aware Heuristic Search Attack Method for Stable Diffusion, ArXiv (AI).

Teksti on tuotettu tekoälyn avulla ja siinä saattaa olla virheitä. Tarkasta tarkat tiedot alkuperäislähteestä.

Alkuperäinen tutkimus: CAHS-Attack: CLIP-Aware Heuristic Search Attack Method for Stable Diffusion
Julkaisija: ArXiv (AI)
Tekijät: Shuhan Xia, Jing Dai, Hui Ouyang, Yadong Shang, Dongxiao Zhao, Peipei Li
22. joulukuuta 2025
Lue alkuperäinen →