Studiuesit në Stanford tregojnë se performanca dhe saktësia në përgjigje e ChatGPT është ulur me kalimin e kohës

Last updated: 24 Korrik, 2023 9:25 am

2 Min lexim

Duket se faza e “muajit të mjaltit” për modelet e mëdha gjuhësore (LLM), të cilat u prezantuan me nxitim në hapësirën gjeneruese të AI, ka përfunduar.

Studiuesit në Stanford dhe UC Berkeley tregojnë se performanca e LLM-ve të OpenAI është ulur ndjeshëm me kalimin e kohës. Ky rezultat u arrit nga studimi më i fundit, pasi studiuesit donin të përcaktonin nëse këto LLM po përmirësoheshin me rritjen e përdorimit, sepse këto sisteme kanë aftësinë për t’u përmirësuar sa herë që komunikojnë me përdoruesit.

Ekipi vlerësoi sjelljen e versioneve të marsit 2023 dhe qershorit 2023 të GPT-3.5 dhe GPT-4 në katër detyra. E para ishte zgjidhja e problemeve matematikore, e dyta ishte përgjigjja e pyetjeve të ndjeshme/të rrezikshme, e treta ishte krijimi i kodit dhe e katërta ishte vlerësimi i modeleve të arsyetimit vizual.

Kur prezantoi GPT-4 në maj të këtij viti, raporti i OpenAI pohoi se GPT-4 është shumë më i besueshëm dhe kreativ dhe mund të trajtojë udhëzime më të specifike sesa GPT-3.5. Kohët e fundit, GPT-4 u tregua se kalon me sukses provimet e vështira në fusha profesionale si mjekësia dhe drejtësia.

Sidoqoftë, studiuesit zbuluan se performanca dhe sjellja e GPT-3.5 dhe GPT-4 ndryshonin përgjatë prezantimeve të tyre përkatëse në mars dhe qershor. GPT-4, në versionin e tij të marsit 2023, mund të identifikonte numrat e plotë me një saktësi prej 97.6%, por ekipi i gjetur në versionin e tij të qershorit 2023 performoi shumë dobët në të njëjtat pyetje me saktësi 2.4%. Gjithashtu, versioni i qershorit 2023 i GPT-3.5 ishte shumë më i mirë se versioni i tij i marsit 2023 në të njëjtën detyrë.

Ekipi zbuloi gjithashtu se GPT-4 ishte më pak i gatshëm për t’iu përgjigjur pyetjeve të ndjeshme në qershor sesa në mars, dhe GPT-4 dhe GPT-3.5 kishin më shumë gabime në formatimin në gjenerimin e kodit në qershor sesa në mars.

Studiuesit në Stanford tregojnë se performanca dhe saktësia në përgjigje e ChatGPT është ulur me kalimin e kohës

Rrjete sociale

Lajmet e fundit

BE ndalon shkatërrimin e veshjeve të pashitura nga industria e modës

Këshillat e AI po i bëjnë njerëzit më të sigurt në vetvete, ndërkohë që 3-fishojnë mundësinë e gabimeve

Kina ndalon përdorimin e chatbots si “partnerë” pas shqetësimeve të shkallës së lindshmërisë dhe varësisë që ato krijojnë

Sensori 500 herë më i hollë se fija e flokut mund të revolucionarizojë monitorimin e shëndetit

Rreth nesh

Editorial Staff:

Rrjete sociale

Lajmet e fundit

Artikuj të ngjashëm