Google ka publikuar një vlerësim të drejtpërdrejtë mbi besueshmërinë reale të chatbot-ëve të sotëm me inteligjencë artificiale, dhe rezultatet janë shqetësuese. Duke përdorur FACTS Benchmark Suite, një paketë e re testimi e krijuar për të matur saktësinë faktike, kompania zbuloi se edhe modelet më të avancuara nuk arrijnë të kapërcejnë nivelin 70% të saktësisë. Performuesi më i mirë, Gemini 3 Pro, arriti 69% saktësi të përgjithshme, ndërsa modele të tjera të njohura nga OpenAI, Anthropic dhe xAI shënuan rezultate edhe më të ulëta. Kjo do të thotë se, mesatarisht, chatbot-ët gabojnë rreth një herë në tre përgjigje, edhe pse shpesh flasin me vetëbesim.
Rëndësia e këtij benchmark-u qëndron në faktin se shumica e testeve ekzistuese për AI matin aftësinë për të kryer detyra, jo domosdoshmërisht vërtetësinë e informacionit të prodhuar. Kjo krijon rreziqe serioze për sektorë si financa, shëndetësia dhe drejtësia, ku një përgjigje e gabuar, por e artikuluar bindshëm, mund të ketë pasoja reale dhe të kushtueshme.
FACTS Benchmark Suite u zhvillua nga ekipi FACTS i Google në bashkëpunim me Kaggle dhe teston saktësinë faktike në katër skenarë praktikë. Testi i parë vlerëson njohuritë parametrike, pra aftësinë e modelit për t’iu përgjigjur pyetjeve faktike bazuar vetëm në atë që ka mësuar gjatë trajnimit. I dyti analizon performancën e kërkimit, duke matur sa mirë modelet përdorin mjetet e internetit për të gjetur informacion të saktë. I treti fokusohet te “grounding”, ose respektimi strikt i një dokumenti të dhënë pa shtuar detaje të rreme. I katërti teston kuptimin multimodal, si interpretimi korrekt i grafikëve, diagrameve dhe imazheve. Të dhënat e Google tregojnë përmirësim të vazhdueshëm të AI, por gjithashtu theksojnë nevojën për verifikim, masa mbrojtëse dhe mbikëqyrje njerëzore përpara se këto sisteme të trajtohen si burime të besueshme.

