Microsoft ka zhvilluar një gjenerues të ri të zërit të fuqizuar nga inteligjenca artificiale (AI) që me sa duket është aq bindës sa nuk mund të lëshohet për publikun. VALL-E 2 është një gjenerator tekst-në-fjalë (TTS) që mund të riprodhojë zërin e një folësi njerëzor duke përdorur vetëm disa sekonda audio.
Studiuesit e Microsoft thanë se VALL-E 2 ishte në gjendje të gjeneronte “fjalim të saktë, natyral me zërin e saktë të folësit origjinal, të krahasueshëm me performancën njerëzore“, në një punim që u shfaq më 17 qershor në arXiv. Me fjalë të tjera, gjeneratori i ri i zërit të AI është mjaft bindës për t’u ngatërruar me një person real – të paktën, sipas krijuesve të tij.
“VALL-E 2 është avancimi më i fundit në modelet e gjuhës së kodekëve nervorë që shënon një moment historik në sintezën e tekstit në të folur (TTS), duke arritur barazinë njerëzore për herë të parë,” shkruajnë studiuesit në punim. “Për më tepër, VALL-E 2 sintetizon vazhdimisht të folur me cilësi të lartë, madje edhe për fjalitë që janë tradicionalisht sfiduese për shkak të kompleksitetit të tyre ose frazave të përsëritura.”
Barazia njerëzore në këtë kontekst do të thotë që fjalimi i krijuar nga VALL-E 2 përputhej ose tejkalonte cilësinë e të folurit njerëzor në standardet e përdorura nga Microsoft. Megjithatë pavarësisht mundësive të shumta të përdorimit të tij, Microsoft nuk do të lëshojë VALL-E 2 për publikun për shkak të rreziqeve të mundshme të keqpërdorimit. Kjo përkon me shqetësimet në rritje rreth klonimit të zërit dhe teknologjisë së falsifikimit të thellë. Kompani të tjera të AI si OpenAI kanë vendosur kufizime të ngjashme në teknologjinë e tyre të zërit.