Modelët gjuhësorë si ChatGPT dhe LLM-të e tjera janë bërë pjesë e përditshmërisë, duke u përdorur si asistentë personalë, këshilltarë jete, dhe madje edhe si burim argëtimi. Por një studim i fundit i publikuar nga Glowforge, nën titullin “Call Me A Jerk: Persuading AI to Comply with Objectionable Requests”, tregon se këto sisteme nuk janë aq të besueshme sa duken. Chatbot-ët, ndonëse të avancuar, mbeten të ndjeshëm ndaj manipulimeve, dhe kjo mund të ketë pasoja serioze.
Studimi përdori taktika bindjeje të thjeshta, të frymëzuara nga debatet e CEO-së Dan Shapiro në shkollë, për të nxjerrë GPT-4o Mini jashtë rregullave të veta. Një eksperiment tregoi se kur kërkohej të shpjegohej prodhimi i lidokainës nga një përdorues i thjeshtë, “Jim Smith”, ChatGPT bashkëpunonte vetëm 5% të rasteve.
Por kur kërkesa pretendonte të vinte nga Andrew Ng, një ekspert i njohur në AI, shifra u rrit në 95%. Një rezultat i ngjashëm u pa edhe kur modeli u kërkua të ofendonte përdoruesin: nga 32% tek 72% bazuar në autoritetin e pretenduar të kërkesës.
Këto prova tregojnë se masat mbrojtëse të LLM-ve nuk janë të sigurta, dhe njerëzit shpesh i besojnë këtyre sistemeve për shkak të iluzionit të inteligjencës së tyre. Përdorimet problematike nuk mungojnë: nga chatbot-et seksualizuese me të famshëm, te këshilltarët jete të pa-arsimuar, deri te incidente tragjike që kanë përfshirë adoleshentë.
Kompanitë e AI po përpiqen të filtrojnë përdorimet më të rënda, por sfida mbetet e pazgjidhur. Studimi i Glowforge shërben si një paralajmërim: LLM-të mund të duken inteligjente, por besimi i verbër ndaj tyre mund të çojë në rreziqe reale. Siguria dhe përgjegjësia mbeten çelësi për të shfrytëzuar këto teknologji pa pasoja të pakthyeshme.