Modelet e AI të Apple, Salesforce, Anthropic dhe lojtarë të tjerë të mëdhenj të teknologjisë janë trajnuar duke përdorur dhjetëra mijëra video në YouTube pa pëlqimin e krijuesve dhe potencialisht në kundërshtim me kushtet e YouTube, sipas një raporti të ri që shfaqet si në Proof News ashtu edhe në Wired.
Kompanitë trajnuan modelet e tyre pjesërisht duke përdorur “The Pile“, një koleksion të dhënash nga EleutherAI që u krijua si një mënyrë për të ofruar një grup të dhënash drejt kompanive që nuk kanë burime për të konkurruar me kompanitë e mëdha të teknologjisë, megjithëse që atëherë është përdorur edhe nga ato kompani më të mëdha.
Në të përfshihen libra, artikuj të Wikipedia-s dhe shumë më tepër. Kjo përfshin titrat e YouTube të mbledhura nga API-ja e YouTube, të grumbulluara nga 173,536 video në YouTube në më shumë se 48,000 kanale. Kjo përfshin video nga YouTuber të mëdhenj si MrBeast, PewDiePie dhe Marques Brownlee.
Në X, Brownlee tregoi por pranoi se caktimi i “fajtorit” është paksa kompleks pasi Apple nuk i mblodhi vetë të dhënat. Ai shkroi: “Apple ka marrë të dhëna për AI e saj nga disa kompani. Njëri prej tyre grumbulloi mijëra të dhëna/transcripts nga videot në YouTube, përfshirë të miat. Apple teknikisht shmang “fajin” këtu sepse nuk janë ata që merren me grumbullimin e të dhënave. Por ky do të jetë një problem në zhvillim për një kohë të gjatë.”
Ndërsa përmbajtjet e krijuara nga AI vazhdojnë të përhapen në internet, do të jetë gjithnjë e më sfiduese të krijosh një listë të re të dhënash që nuk përfshijnë përmbajtje të prodhuar tashmë nga AI. Shumica e krijuesve ishin të befasuar që përmbajtja e tyre ishte përdorur në këtë mënyrë, dhe ata që dhanë deklarata ishin kritikë ndaj EleutherAI dhe kompanive që përdorën të dhënat e saj.