Që kur start-up i inteligjencës artificiale kineze (AI) DeepSeek tronditi Silicon Valley dhe Wall Street me modelet e saj me kosto shumë më të ulta se konkurrenca, kompania është akuzuar për vjedhje të të dhënave përmes një praktike që është e zakonshme në të gjithë industrinë.
OpenAI tha se ka prova që DeepSeek përdori “distilimin” e modeleve të tij GPT për të trajnuar modelet me burim të hapur V3 dhe R1 duke ulur kështu në mënyrë drastike kostot e zhvillimit të këtij modeli, ndërkohë që gjigantët e teknologjisë perëndimore po shpenzojnë për modelet e tyre. OpenAI dhe Microsoft, mbështetësi më i madh i prodhuesit ChatGPT, kanë filluar të hetojnë nëse një grup i lidhur me DeepSeek ka nxjerrë sasi të mëdha të dhënash përmes një API në vjeshtë, raportoi Bloomberg, duke cituar njerëz të njohur me këtë çështje.
Distilimi është një mënyrë për të trajnuar modele më të vogla që imitojnë sjelljen e modeleve më të mëdha dhe më të sofistikuara. Praktika është e zakonshme në shumë kompani që kërkojnë të zvogëlojnë madhësinë e modeleve të tyre duke ofruar performancë të ngjashme për përdoruesit. Kjo e kombinuar me faktin se trajnimi i modelit shpesh mbështetet në shumë të dhëna me origjinë të dyshimtë, ka bërë që disa ekspertë të vënë në dyshim sinqeritetin e OpenAI në akuzat e tij për shkelje të pronësisë intelektuale.
“Distilimi do të shkelë shumicën e kushteve të shërbimit, megjithatë është ironike – apo edhe hipokrite – që kompanitë e mëdha teknologjike po flet për këtë. Trajnimi i ChatGPT në përmbajtjen e Forbes ose New York Times gjithashtu shkeli kushtet e tyre të shërbimit, “tha Lutz Finger, një pedagog i lartë në Universitetin Cornell i cili ka punuar në AI në kompanitë e teknologjisë duke përfshirë Google dhe LinkedIn, në një deklaratë të dërguar me email. “Dituria është falas dhe e vështirë për t’u mbrojtur.”
DeepSeek ka modelet e veta të distiluara që përdorin modele të tjera me burim të hapur si Llama e Meta Platforms dhe Qëen e Alibaba Group Holding. Megjithatë, OpenAI po pretendon se DeepSeek përdori aksesin API në modelet GPT me burim të mbyllur për t’i distiluar ato në një mënyrë të paautorizuar.
DeepSeek nuk e ka pranuar përdorimin e distilimit në trajnimin e modeleve të tij kryesore, V3 dhe R1.