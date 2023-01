Aż strach coś mówić. Sztuczna inteligencja VALL-E potrzebuje tylko kilku wyrazów, aby ukraść naszą tożsamość

Żyjemy w czasach, w których musimy zastanowić się dwa razy, zanim uwierzymy w coś, co znajdziemy w sieci. Ryzyko trafienia na przekłamane, choć pozornie prawdziwe nagranie rośnie z miesiąca na miesiąc, a to wszystko przez rozwijane systemy sztucznej inteligencji, które stają się coraz lepsze w generowaniu fałszywych zdjęć, grafik i nawet czegoś, co kiedyś wydawało się niemożliwe – samych nagrań. Opracowany przez naukowców Microsoftu system VALL-E jest tego świetnym przykładem.

VALL-E jest w stanie naśladować głos dowolnej osoby po “przysłuchaniu się” jej przez ledwie trzy sekundy. Innymi słowy, ledwie kilka wypowiedzianych przez kogoś wyrazów wystarcza modelowi sztucznej inteligencji, aby móc podmienić głos lektora oryginalnego nagrania na ten “skradziony”. Jak to sprawdza się w praktyce? Możecie przekonać się sami na stronie dedykowanej temu systemowi. Przysłuchując się nagraniom zapewne zauważycie, że ogólna jakość efektu różni się od oryginalnego głosu i spada, kiedy rozmówca mówi z akcentem.

Do stworzenia VALL-E specjaliści z Microsoftu wykorzystali technologię kompresji dźwięku EnCodec firmy Meta. Z początku mieli na celu opracować system poprawiający jakość rozmów telefonicznych, ale w toku prac odkryli, że ich system może znacznie więcej. Okazało się, że ich dzieło nie tylko potrafi naśladować oryginalny głos, ale także symulować ton rozmówcy, a nawet akustykę otoczenia… i to wszystko dzięki jedynie kilkusekundowemu nagraniu.

VALL-E zawdzięcza te możliwości nauce na zbiorze danych Libri-light firmy Meta, który zawiera ponad 60000 godzin nagrań wykonanych przez 7000 osób mówiących po angielsku. Już w pierwszej iteracji radzi sobie (co tu dużo mówić) świetnie, więc jego rozwój z całą pewnością poprawiłby finalne efekty i rozszerzył się na różne akcenty języka angielskiego oraz nowe języki. Na całe jednak szczęście, Microsoft nie udostępnił jego kodu źródłowego w obawie przed wykorzystaniem swojego systemu do tworzenia sfałszowanych wiadomości.

Wyjątkowość VALL-E sprowadza się właśnie do niewielkiej liczby potrzebnego materiału źródłowego. Zwykle systemy sztucznej inteligencji, które specjalizują się w generowaniu fałszywych nagrań głosowych, wymagają wprowadzenia do bazy danych całych godzin nagrań określonego głosu, aby móc go imitować. Jest to swojego rodzaju bariera, która chroni znakomitą większość ludzi przed kradzieżą ich głosu. Jeśli jednak systemów pokroju VALL-E powstanie więcej i staną się one powszechne, nie będziemy już mogli wierzyć we wszystko, co usłyszymy nawet od najbliższych, jeśli jedynym potwierdzeniem ich tożsamości będzie właśnie ich głos.