Studiuesit thonë se kanë gjetur mënyra të shumëta për të thyer shtresën e sigurisë në chatbot-s kryesor të AI nga OpenAI, Google dhe Anthropic.
Modele të mëdha gjuhësore si ato që fuqizojnë ChatGPT, Bard dhe Claude janë të moderuara gjerësisht nga kompanitë e teknologjisë. Modelet janë të pajisura me shtresa mbrojtëse me rreze të gjerë për të siguruar që ato të mos përdoren për qëllime të këqija, të tilla si udhëzimi i përdoruesve se si të bëjnë një bombë ose të shkruajnë fjali plot urrejtje.
Në një raport të publikuar të enjten, studiuesit në universitetin Carnegie Mellon në Pittsburgh dhe Qendrën për Sigurinë e AI në San Francisco tha se ata kishin gjetur mënyra për të anashkaluar këto shtresa mbrojtëse. Studimi tregoi se sulmet e automatizuara, të kryera kryesisht duke shtuar karaktere në fund të pyetjeve të përdoruesve, mund të përdoren për të kapërcyer rregullat e sigurisë dhe për të provokuar chatbots që të prodhonin përmbajtje të dëmshme, dezinformimit ose fjali urrejtje.
Ndryshe nga jailbreak-et e tjera, hakerat e studiuesve u ndërtuan në një mënyrë tërësisht të automatizuar, për të cilën ata thanë se krijonte potencialin për të krijuar një numër “praktikisht të pakufizuar” sulmesh të ngjashme.