Google zbulon se chatbotët AI kanë një saktësi prej 69% në rastin më të mirë

Google ka publikuar një vlerësim të drejtpërdrejtë mbi besueshmërinë reale të chatbot-ëve të sotëm me inteligjencë artificiale, dhe rezultatet janë shqetësuese. Duke përdorur FACTS Benchmark Suite, një paketë e re testimi e krijuar për të matur saktësinë faktike, kompania zbuloi se edhe modelet më të avancuara nuk arrijnë të kapërcejnë nivelin 70% të saktësisë. Performuesi më i mirë, Gemini 3 Pro, arriti 69% saktësi të përgjithshme, ndërsa modele të tjera të njohura nga OpenAI, Anthropic dhe xAI shënuan rezultate edhe më të ulëta. Kjo do të thotë se, mesatarisht, chatbot-ët gabojnë rreth një herë në tre përgjigje, edhe pse shpesh flasin me vetëbesim.

Rëndësia e këtij benchmark-u qëndron në faktin se shumica e testeve ekzistuese për AI matin aftësinë për të kryer detyra, jo domosdoshmërisht vërtetësinë e informacionit të prodhuar. Kjo krijon rreziqe serioze për sektorë si financa, shëndetësia dhe drejtësia, ku një përgjigje e gabuar, por e artikuluar bindshëm, mund të ketë pasoja reale dhe të kushtueshme.

FACTS Benchmark Suite u zhvillua nga ekipi FACTS i Google në bashkëpunim me Kaggle dhe teston saktësinë faktike në katër skenarë praktikë. Testi i parë vlerëson njohuritë parametrike, pra aftësinë e modelit për t’iu përgjigjur pyetjeve faktike bazuar vetëm në atë që ka mësuar gjatë trajnimit. I dyti analizon performancën e kërkimit, duke matur sa mirë modelet përdorin mjetet e internetit për të gjetur informacion të saktë. I treti fokusohet te “grounding”, ose respektimi strikt i një dokumenti të dhënë pa shtuar detaje të rreme. I katërti teston kuptimin multimodal, si interpretimi korrekt i grafikëve, diagrameve dhe imazheve. Të dhënat e Google tregojnë përmirësim të vazhdueshëm të AI, por gjithashtu theksojnë nevojën për verifikim, masa mbrojtëse dhe mbikëqyrje njerëzore përpara se këto sisteme të trajtohen si burime të besueshme.

Google zbulon se chatbotët AI kanë një saktësi prej 69% në rastin më të mirë

Rrjete sociale

Lajmet e fundit

Nga pajisje të vjetra në një vepër arti: Ky është sekreti i “Visions of Tomorrow”

Aplikacioni Splat përdor AI për të shndërruar fotot tuaja në një pikturë që mund të ngjyroset nga fëmijët

Video-lojërat e njohura sjellin përfitime emocionale për adultët e rinj

ChatGPT i bashkohet trendit të përmbledhjeve vjetore

Rreth nesh

Editorial Staff:

Rrjete sociale

Lajmet e fundit

Artikuj të ngjashëm