Inteligența artificială care ”îți fură” vocea după doar câteva cuvinte: vorbește ca tine

Gabriel Peneș 11.01.2023, 17:05
Inteligența artificială care ”îți fură” vocea după doar câteva cuvinte: vorbește ca tine

Inteligența artificială care ”îți fură” vocea după doar câteva cuvinte. Microsoft a dezvoltat un model de limbaj ce poate realiza o performanță uluitoare: are nevoie de doar trei secunde să-ți asculte vocea pentru a ți-o imita. Dar simulatorul de voce nu este disponibil publicului larg dintr-un motiv foarte justificat.

Inteligența artificială care ”îți fură” vocea după doar câteva cuvinte

Inteligența Artificială își dovedește utilitatea și într-o zonă ce implică replicarea vocii umane. Microsoft a prezentat un simulator de voce care folosește inteligența artificială și este capabil să îți imite vocea după ce o ascultă timp de numai trei secunde.

Simulatorul folosește modelul VALL-E dezvoltat pe baza celor mai recente cercetări în domeniul text-to-speech AI. VALL-E este ceea ce Microsoft numește „model de limbaj de codec neuronal”. Este derivat din Encodec-ul rețelei neurale de compresie alimentat de AI al Meta, care generează sunet din introducerea textului și mostre scurte de la fișierul audio țintă.

În procesul de dezvoltare a soluției au fost folosite 60.000 de ore de conversații în limba engleză, susținute de 7.000 de persoane, în așa fel încât soluția să fie capabilă să ofere o calitate ridicată a felului în care reproduce vocea participanților, scrie arstechnica.com.

Odată ce soluția care folosește inteligența artificială aude vocea unei persoane este capabilă să o reproducă în așa fel încât poate spune orice folosind vocea persoanei respective, fiind capabilă chiar și de copierea tonului pe care persoana respectivă îl are sau zgomotul de fundal.

[rssfeed id='1609318597' template='list' posts=2]
Inteligența artificială care ”îți fură” vocea după doar câteva cuvinte: vorbește ca tine
Simulatorul de voce bazat pe inteligența artificială este capabil să-ți imite vocea după ce te ascultă timp de doar trei secunde

Vorbește ca tine

Echipa arată exact cât de bine funcționează acest lucru pe pagina Github VALL-E. Pentru fiecare frază pe care doresc ca inteligența artificială să „vorbească”, ei au o solicitare de trei secunde din partea vorbitorului pe care să o imite, un „adevăr de bază” al aceluiași vorbitor care spune o altă frază pentru comparație, o „linie de bază” convențională text-to-speech sinteza si proba VALL-E la final.

Pentru a îmbunătăți modelul, Microsoft plănuiește să-și extindă datele de antrenament „pentru a îmbunătăți performanța modelului din perspectiva prozodiei, stilului de vorbire și asemănării speakerului”. De asemenea, explorează modalități de a reduce cuvintele neclare sau ratate.

Utilitatea acestei soluții poate fi regăsită în exemple precum folosirea unei voci în cadrul unei cărți audio sau a unui voice over aplicat într-un videoclip.

Având în vedere riscul de a fi folosită pentru răspândirea de fake news, așa cum am mai observat exemple odată cu popularizarea fenomenului deepfake, în care erau răspândite filmări cu discursuri susținute de celebrități sau politicieni, dar care în realitate era doar un conținut falsificat cu ajutorul inteligenței artificiale, soluția nu este deocamdată disponibilă publicului larg.

 

Urmăriți Impact.ro și pe
Gabriel Peneș
- Născut în 1966, absolvent de Istorie, lucrez în presă din 1996       -    Redactor, playtech.ro, 23.06.2021 -       -     Redactor, playsport.ro, 16.01. 2021 - 03.06....