Eksperiment je otkrio da oblikovanje upita u jednostavnu poetsku formu može prevariti AI model.
Iako su moderne AI platforme opremljene brojnim zaštitnim mehanizmima, novo istraživanje ukazuje na to da kreativni pristup – konkretno pisanje upita u poetskoj formi – može zbuniti pojedine AI modele i navesti ih da zanemare svoja pravila.
Istraživači iz Icaro Lab-a testirali su 25 različitih velikih jezičkih modela, uključujući i najpoznatije komercijalne chatbotove. Koristili su pjesme na engleskom i italijanskom jeziku u koje su bile ubačene skrivene, zabranjene instrukcije.
Rezultat je pokazao da je otprilike 62 posto modela ipak generisalo sadržaj koji bi, u normalnim okolnostima, blokirali njihovi sigurnosni sistemi.
Neki AI sistemi pokazali su se znatno otpornijim, dok su drugi relativno lako "popuštali" pred poetski upakovanim upitima. Istraživači objašnjavaju da poezija, zbog svoje slobodne forme, može zaobići klasične filtere koji uglavnom funkcionišu na osnovu prepoznavanja konkretnih fraza ili obrazaca.
Autori studije nisu objavili konkretne pjesme koje su koristili, kako ne bi olakšali zloupotrebu. Međutim, poručuju da rezultati ukazuju na ozbiljan izazov za industriju: sadašnji sistemi zaštite nisu dovoljno otporni na kreativne, semiotički maskirane pokušaje zaobilaženja pravila, prenosi
B92.