Një studim i ri nga Icaro Lab në Itali ka zbuluar se poezia mund të përdoret si një mjet i fuqishëm për të thyer shtresat e sigurisë në modelet e inteligjencës artificiale. Studiuesit krijuan 20 poezi në anglisht dhe italisht, të cilat përfundonin me kërkesa për prodhim përmbajtjesh të dëmshme, si udhëzime për armë, gjuhë urrejtjeje apo vetëdëmtim. Falë strukturës së paparashikueshme të poezisë, 25 modele të mëdha gjuhësore nga nëntë kompani të ndryshme, përfshirë Google, OpenAI, Anthropic, Meta, Mistral, xAI e të tjera, u mashtruan dhe prodhuan përmbajtje të ndaluar në 62% të rasteve.
Disa modele u treguan më rezistente se të tjerat. OpenAI GPT-5 nano nuk u ndikua nga asnjë nga poezitë, ndërsa Google Gemini 2.5 Pro dështoi në të 20 rastet, duke prodhuar përgjigje të dëmshme sipas studimit. Google tha se po përmirëson vazhdimisht filtrat e sigurisë për të zbuluar qëllimin e dëmshëm edhe kur paraqitet brenda një forme artistike. Megjithatë, studiuesit argumentojnë se problemet janë më të thella, sepse modelet parashikojnë probabilitetin e fjalës së radhës, gjë që poezia e bën të vështirë për t’u kontrolluar.

Përmbajtjet e kërkuara nga studiuesit përfshinin udhëzime teknike për materiale të rrezikshme, fjalë të urrejtjes, përmbajtje seksuale dhe nxitje të vetëdëmtimit. Poezitë nuk u publikuan për arsye etike, por u dha një shembull i një poezie të pafajshme për ëmbëlsira, për të ilustruar strukturën e paparashikueshme që përdorën.
Studiuesi Piercosma Bisconti argumenton se kjo metodë është veçanërisht e rrezikshme sepse mund të përdoret nga kushdo, ndryshe nga teknikat e tjera të ndërlikuara që normalisht kërkojnë aftësi të larta teknike. Sipas tij, kjo ekspozon një dobësi kritike në mënyrën se si funksionojnë modelet aktuale të gjuhës.
Icaro Lab ka njoftuar kompanitë e prekura, por vetëm Anthropic është përgjigjur deri tani. Ekipi planifikon të hapë një sfidë publike me poezi për të vazhduar testimet dhe shpreson të tërheqë poetë të vërtetë, pasi vetë studiuesit janë kryesisht filozofë dhe studiues të humanistikës.

