Të dhënat e trajnimit të AI kanë një çmim të madh, dhe ky çmim mund të paguhet vetëm nga kompanitë e teknologjisë me buxhet tepër të madh.
Kjo është arsyeja pse Universiteti i Harvardit planifikon të ofrojë një grup të dhënash që përfshin rreth 1 milion libra me domen publik, zhanre, gjuhë dhe autorë duke përfshirë Dikensin, Danten dhe Shekspirin, të cilët nuk mbrohen më nga e drejta e autorit për shkak të vjetërsisë së tyre.
Të dhënat e reja nuk janë ende të disponueshme dhe nuk është e qartë se kur dhe si do të publikohen. Megjithatë, ai përmban libra që rrjedhin nga projekti i gjatë i Google për skanimin e librave, Google Books, dhe kështu kompania do të përfshihet në nxjerrjen e “këtij thesari shumë e gjerë“.
Harvard për herë të parë tregoi për Institutional Data Initiative (IDI) në mars, duke përshkruar planet e saj për të krijuar një “shpërndarës të besueshëm për të dhënat ligjore për AI“. Sidoqoftë, nuk është dëgjuar shumë rreth tij deri në fillimin e tij zyrtar sot, i cili erdhi me konfirmimin se IDI përfshin mbështetje financiare nga Microsoft dhe OpenAI.
Drejtori ekzekutiv i IDI-së, Greg Leppert, thotë se grupi i të dhënave është krijuar për të “barazuar fushën e lojës” duke bërë të aksesushëm një grup kaq të madh të dhënash për këdo – nga laboratorët e kërkimit deri tek startup-et e AI – që duan të trajnojnë modelet e tyre të mëdha gjuhësore (LLM).