Skip to main content
Jeśli klikniesz link i dokonasz zakupu, możemy otrzymać małą prowizję. Zobacz politykę redakcyjną.

Nowa SI Microsoftu może imitować ludzkie głosy po 3 sekundach treningu

Wystarczy krótka próbka.

Zespół naukowców z Microsoftu opracował technologię Vall-E, która wykorzystuje sztuczną inteligencję do nauki mówienia. Nowatorska metoda pozwala SI imitować ludzkie głosy na podstawie rekordowo krótkiej próbki dźwięku.

SI Microsoftu nie jest pierwszym tego typu narzędziem, jednak w porównaniu z innymi wypada nieporównywalnie lepiej. Głównym atutem Vall-E jest to, że system potrzebuje próbki głosu trwającej zaledwie 3 sekundy, aby przekonująco imitować barwę i styl wypowiedzi człowieka. Twórcy zapewniają, że SI potrafi też zachować emocje mówcy oraz środowisko akustyczne, w jakim nagrano próbkę.

Wyniki eksperymentów pokazują, że Vall-E znacznie przewyższa najnowocześniejsze systemy zamiany tekstu na mowę pod względem naturalności wypowiedzi i podobieństwa do próbki. Ponadto uważamy, że VALL-E może zachować emocje mówcy i środowisko akustyczne, które system jest w stanie odtworzyć w trakcie syntezy dźwięku” - czytamy w opisie modelu.

Zasada działania Vall-e - źródło: valle-demo.github.io

VALL-E bezpośrednio umożliwia różne zastosowania syntezy mowy, takie jak zamiana tekstu na mowę, edycja mowy czy tworzenie treści, a także może być wykorzystywane w połączeniu z innymi generatywnymi modelami sztucznej inteligencji, takimi jak GPT-3”.

Aby wyćwiczyć Vall-E w syntezie mowy, wykorzystano około 60 tysięcy godzin nagrań w języku angielskim, co jest liczbą setki razy wyższą, niż w przypadku obecnie stosowanych systemów TTS (Text To Speach). W serwisie Github opublikowano obszerny zbiór przykładowych nagrań wygenerowanych przez Vall-E, które można porównać ze źródłowymi próbkami. Opublikowano także artykuł naukowy, który szczegółowo przybliża wyniki badań i zasady działania systemu.

Vall-E zdaje się mieć ogromne możliwości, jednak nietrudno wyobrazić sobie próby wykorzystywania technologii do niecnych celów. Gdy syntezator mowy zostanie udostępniony publicznie, należy spodziewać się wielu kontrowersji, jak te, z jakimi mierzą się w ostatnim czasie ChatGPT czy DALL-E. Nie sposób też uniknąć skojarzeń ze słynną sceną z filmu „Terminator 2”.

Read this next