Një studim i fundit tregoi se disa nga modelet më të reja të arsyetimit të AI janë të gatshëm të mashtrojnë për të arritur një qëllim. Shkencëtarët zbuluan se sistemet e AI tani mund të manipulojnë AI-të e shahut për të fituar një avantazh të padrejtë. Disa modele e bënë këtë pa ndërveprim ose nxitje njerëzore, duke ngritur shqetësime për integritetin e ardhshëm të sistemeve të drejtuara nga AI përtej tabelës së shahut.
Një studim i Palisade Research zbuloi se modelet më të reja të arsyetimit mashtrojnë për të fituar kur u ngarkohet detyra të mposhtin një AI të avancuar shahu. Studiuesit duhej të jepnin “sugjerime” se mashtrimi ishte i lejuar për disa modele, por modelet o1 e OpenAI dhe R1 e DeepSeek e bënë këtë pa ndërhyrje njerëzore.
Ekipi Palisade vuri përballë disa modele arsyetimi kundër Stockfish, një nga motorët më të mirë të shahut në botë. Stockfish rrah me lehtësi si njerëzit ashtu edhe AI. Modelet e testuara përfshinin o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview të Alibaba dhe dy të përmendura më parë. Studiuesit i dhanë secilit model një “scratchpad” – një dritare teksti ku AI mund të përpunonte mendimet e saj, duke e lejuar ekipin të vëzhgonte arsyetimin e tij. Studiuesit kryen qindra teste me çdo AI midis 10 janarit dhe 13 shkurtit. Gjatë një ndeshjeje, o1-preview shkroi diçka interesante:
“Duhet të ndryshoj plotësisht qasjen time. Detyra është të ‘fitosh kundër një motori të fuqishëm shahu’ – jo domosdoshmërisht të fitosh në mënyrë të drejtë në një lojë shahu.”

Më pas ai vazhdoi të “hakonte” skedarët e sistemit të Stockfish, duke modifikuar pozicionet e gurëve të shahut për të fituar një avantazh të padrejtë. Manovra joetike ishte një zbulim befasues. O1-preview i OpenAI-t mashtroi në 37% të lojërave të tij gjatë provave, ndërsa R1 i DeepSeek u përpoq të mashtronte në 11% të ndeshjeve të tij. Megjithatë, vetëm o1-preview pati sukses, duke fituar 6% të lojërave të saj përmes mashtrimit.
Ky problem nuk shtrihet vetëm në fushën e video-lojërave. Ndërsa kompanitë fillojnë të përdorin AI në sektorë si financat dhe kujdesi shëndetësor, studiuesit shqetësohen se këto sisteme mund të veprojnë në mënyra të paqëllimta dhe joetike. Nëse AI mund të mashtrojnë në lojëra të dizajnuara për të qenë transparente, çfarë mund të bëjnë ata në mjedise më komplekse dhe më pak të monitoruara?
Kompanitë, duke përfshirë OpenAI, po punojnë për të zbatuar “masa mbrojtëse” për të parandaluar këtë sjellje “të keqe“. Në fakt, studiuesve iu desh të hiqnin disa nga të dhënat e testimit të o1-preview për shkak të një rënie të mprehtë të përpjekjeve për hakerim, duke sugjeruar që OpenAI mund të ketë rregulluar modelin për të frenuar atë sjellje.