OpenAI prezanton o1, modelin e parë që “mund të arsyetojë”

Last updated: 14 Shtator, 2024 1:44 pm

3 Min lexim

OpenAI po prezanton një model të ri të quajtur o1, i pari në një seri të planifikuar modelesh që kanë aftësi të arsyetojnë dhe që janë trajnuar për t’iu përgjigjur pyetjeve më komplekse, më shpejt se sa një njeri. Ai po shoqërohet me modelin o1-mini, një version më i vogël dhe më i lirë për t’u përdorur.

Për OpenAI, o1 përfaqëson një hap drejt qëllimit të tij më të gjerë të inteligjencës artificiale të ngjashme me njeriun. Më praktikisht, ai bën një punë më të mirë në shkrimin e kodit dhe zgjidhjen e problemeve me shumë hapa sesa modelet e mëparshme. Por është gjithashtu më i shtrenjtë dhe më i ngadaltë për t’u përdorur se GPT-4o. OpenAI po e quan këtë version të o1 një “preview” për të theksuar se sa i ri është ende si model.

Kompania thotë se planifikon të sjellë akses o1-mini për të gjithë përdoruesit falas të ChatGPT, por nuk ka caktuar ende një datë lëshimi. Trajnimi pas o1 është thelbësisht i ndryshëm nga paraardhësit e tij, më thotë drejtuesi i kërkimit të OpenAI, Jerry Tworek, megjithëse kompania është e paqartë për detajet e sakta. Ai thotë se o1 “është trajnuar duke përdorur një algoritëm krejtësisht të ri optimizimi dhe një grup të dhënash të reja trajnimi të përshtatura posaçërisht për të”.

OpenAI trajnoi modelet e mëparshme GPT për të imituar modelet nga të dhënat e tij të trajnimit. Me o1, ai e trajnoi modelin për të zgjidhur vetë problemet duke përdorur një teknikë të njohur si të mësuarit përforcues, e cila mëson sistemin përmes shpërblimeve dhe ndëshkimeve. Më pas përdor një “zinxhir mendimesh” për të përpunuar pyetjet, ngjashëm me mënyrën se si njerëzit i përpunojnë problemet duke i kaluar ato hap pas hapi.

A screenshot of OpenAI’s reasoning capabilities, where it breaks down how it answers a question, using “I” statements.

Shefi i kërkimit i OpenAI, Bob McGrew thotë se OpenAI testoi gjithashtu o1 me një provim kualifikues për Olimpiadën Ndërkombëtare të Matematikës dhe ndërsa GPT-4o zgjidhi saktë vetëm 13% të problemeve, o1 arriti të zgjidhte 83% të tij.