Duket se faza e “muajit të mjaltit” për modelet e mëdha gjuhësore (LLM), të cilat u prezantuan me nxitim në hapësirën gjeneruese të AI, ka përfunduar.
Studiuesit në Stanford dhe UC Berkeley tregojnë se performanca e LLM-ve të OpenAI është ulur ndjeshëm me kalimin e kohës. Ky rezultat u arrit nga studimi më i fundit, pasi studiuesit donin të përcaktonin nëse këto LLM po përmirësoheshin me rritjen e përdorimit, sepse këto sisteme kanë aftësinë për t’u përmirësuar sa herë që komunikojnë me përdoruesit.
Ekipi vlerësoi sjelljen e versioneve të marsit 2023 dhe qershorit 2023 të GPT-3.5 dhe GPT-4 në katër detyra. E para ishte zgjidhja e problemeve matematikore, e dyta ishte përgjigjja e pyetjeve të ndjeshme/të rrezikshme, e treta ishte krijimi i kodit dhe e katërta ishte vlerësimi i modeleve të arsyetimit vizual.
Kur prezantoi GPT-4 në maj të këtij viti, raporti i OpenAI pohoi se GPT-4 është shumë më i besueshëm dhe kreativ dhe mund të trajtojë udhëzime më të specifike sesa GPT-3.5. Kohët e fundit, GPT-4 u tregua se kalon me sukses provimet e vështira në fusha profesionale si mjekësia dhe drejtësia.
Sidoqoftë, studiuesit zbuluan se performanca dhe sjellja e GPT-3.5 dhe GPT-4 ndryshonin përgjatë prezantimeve të tyre përkatëse në mars dhe qershor. GPT-4, në versionin e tij të marsit 2023, mund të identifikonte numrat e plotë me një saktësi prej 97.6%, por ekipi i gjetur në versionin e tij të qershorit 2023 performoi shumë dobët në të njëjtat pyetje me saktësi 2.4%. Gjithashtu, versioni i qershorit 2023 i GPT-3.5 ishte shumë më i mirë se versioni i tij i marsit 2023 në të njëjtën detyrë.
Ekipi zbuloi gjithashtu se GPT-4 ishte më pak i gatshëm për t’iu përgjigjur pyetjeve të ndjeshme në qershor sesa në mars, dhe GPT-4 dhe GPT-3.5 kishin më shumë gabime në formatimin në gjenerimin e kodit në qershor sesa në mars.