Microsoft se alătură nebuniei inteligenței artificiale. Cercetătorii Microsoft și-au anunțat proiectul de inteligență artificială care poate simula vocea unei persoane atunci când i se oferă un eșantion de voce de trei secunde. Noul model de „inteligență artificială text-to-speech”, numit VALL-E, se bazează pe o tehnologie numită EnCodec.
Ce este inteligența artificială Microsoft Vall-E?
Microsoft și-a anunțat modelul bazat pe inteligență artificială care poate imita vocea unei persoane cu doar o probă de voce de trei secunde. Spre deosebire de alte metode de sinteză a vorbirii prin schimbarea formelor de undă, VALL-E este capabil să analizeze sunetul pe care îl face o persoană. Modelul, care împarte aceste informații în componente, poate extrage informațiile „codec” ale acelui audio folosind datele de antrenament.
Microsoft a spus că VALL-E și-a îmbunătățit capacitatea de sinteză a vorbirii cu cărți audio disponibile public create de Meta. A folosit o bibliotecă audio numită LibriLight, care conține 60.000 de ore de vorbire engleză de la peste 7.000 de vorbitori.

VALL-E poate funcționa fără sunete prestabilite pre-proiectate și este capabil să învețe prin analiză. Cu alte cuvinte, poate chiar să învețe cuvinte pe care nu le-a mai auzit până acum. Modelul AI al Microsoft nu a fost încă pus la dispoziția publicului.
Compania nu a neglijat să ia măsuri de precauție în diverse aspecte, în special în materie de securitate. A declarat că lucrează la un model de detectare pentru situații precum imitarea vocii unei persoane sau uzurparea identității unui anumit vorbitor.
Apple, pe de altă parte, a anunțat anterior modelul de inteligență artificială care face cărțile sunet. Apple Books intenționează să facă multe cărți cu voce tare folosind inteligența artificială și modelul de sinteză a vocii.