Meta njoftoi javën e kaluar se ka zhvilluar një sistem AI që krijon muzikë bazuar në përshkrimet e bëra përmes një teksti.
MusicGen, një shërbim AI i cili vjen pas publikimit në janar të Google të MusicLM (që gjeneron muzikë bazuar në kërkesat e tekstit), u trajnua përmes 20,000 orëve muzikë. Kodi i tij open-source është i disponueshëm në Github dhe modeli mund të testohet në internet në Hugging Face.
Përdoruesit bëjnë një përshkrim të shkurtër të muzikës që duan të dëgjojnë si p.sh. “Një përzierje dinamike e elementeve hip-hop dhe orkestrale, me kitarë dhe trombon gjithëpërfshirës, që përfaqëson energjinë e gjallë të qytetit“. Ose përshkrimi mund të jetë më i thjeshtë: “Këngë rock e viteve ’90 me një pjesë të përsëritur në kitarë.”
Gjithashtu ju do të keni mundësinë të ngarkoni një këngë për të ndihmuar AI që të krijojë përmbajtjen e dëshiruar nga ju. MusicGen gjeneron një klip 12 sekonda brenda pak minutash.
Meta tregon se MusicGen bën një punë më të mirë në krahasim me programet e tjera si MusicLM, Diffusion dhe Noise2Music.
We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.
We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf— Felix Kreuk (@FelixKreuk) June 9, 2023
“MusicGen krijon mostra me cilësi të lartë, të cilat përputhen më mirë melodikisht me një strukturë të caktuar harmonike, duke iu përmbajtur një përshkrimi tekstual,” raportoi Meta në një artikull të botuar më 8 qershor. Ky shërbim AI shihet si një ndihmë potencialisht shumë e madhe për kompozitorët dhe interpretuesit.
Meta testoi tre versione të modelit AI, të cilat ndryshonin në sasinë e detajeve muzikore të ofruara: 300 milionë, 1.5 miliardë dhe 3.3 miliardë parametra.
Pas testimeve, Meta zbuloi se njerëzit preferonin rezultatet nga modeli i intervalit të mesëm (1.5 miliardë parametër). Kjo ndoshta pasqyron teorinë e producentit elektronik dhe muzikor francez Rone për prodhimin e suksesshëm të muzikës: “Më pak është më shumë“.
Modeli me numrin më të madh të parametrave, megjithatë, gjeneroi regjistrime që pasqyronin më saktë tekstin dhe audion e ngarkuar.