Xiaomi dało ludziom narzędzie do klonowania głosu. To przełom, który bardzo mnie niepokoi

Jeszcze kilka lat temu realistyczne klonowanie głosu kojarzyło się głównie z drogimi narzędziami dla studiów filmowych albo eksperymentami dużych firm technologicznych. Dziś wystarczy kilka kliknięć, trochę danych i odpowiedni model AI. Xiaomi właśnie pokazało, jak bardzo ta technologia przyspieszyła, udostępniając jako open-source model OmniVoice — zaawansowane narzędzie text-to-speech, które potrafi generować i klonować głosy w setkach języków. I nie ukrywam: to jeden z tych momentów, w których fascynacja technologią zaczyna mieszać mi się z lekkim dyskomfortem. Bo nie jestem w stanie patrzeć na tę nowość bez myślenia o tym, jaką to może przynieść szkodę.
Fot.: Pixabay

Fot.: Pixabay

OmniVoice ma ogromne możliwości

Na pierwszy rzut oka OmniVoice wygląda jak kolejny model do syntezy mowy. Problem w tym, że możliwości tego systemu są znacznie większe niż w przypadku typowych „czytaczy tekstu”.

Według Xiaomi model:

  • obsługuje setki języków,
  • radzi sobie nawet z językami o bardzo małej liczbie danych treningowych,
  • pozwala tworzyć własne głosy na podstawie opisu cech,
  • potrafi generować różne style wypowiedzi, w tym szept,
  • wspiera ekspresywną mowę z elementami typu śmiech czy westchnienia.

Właśnie ten poziom naturalności robi największe wrażenie. Bo przestajemy mówić o „robotycznym głosie AI”, który łatwo rozpoznać po dwóch zdaniach. Coraz częściej to po prostu brzmi… jak człowiek.

Xiaomi mocno uprościło cały proces

Samo klonowanie głosu też staje się coraz prostsze. Xiaomi chwali się uproszczoną architekturą opartą na pojedynczej sieci Transformer, dzięki czemu model działa wyjątkowo szybko. Firma podaje, że:

  • trening na 100 tysiącach godzin danych może zostać ukończony w jeden dzień,
  • generowanie mowy odbywa się nawet 40 razy szybciej niż w czasie rzeczywistym,
  • system automatycznie usuwa szumy z nagrań referencyjnych.

Niestety, tutaj właśnie zaczyna się część, która naprawdę daje do myślenia. Bo jeszcze niedawno stworzenie realistycznego klona głosu wymagało dobrego sprzętu, dużej ilości próbek, sporej wiedzy technicznej i płatnego narzędzia. Dziś coraz bardziej zmierzamy w kierunku świata, w którym wystarczy fragment nagrania z TikToka, YouTube’a albo wiadomości głosowej.

Open-source to wolność… i problem

Normalnie powiedziałabym, że open-source to świetna wiadomość. Sama lubię ideę otwartych technologii i fakt, że rozwój AI nie jest zamknięty wyłącznie w rękach kilku gigantów. Tylko że przy klonowaniu głosu pojawia się bardzo nieprzyjemny problem: ta technologia idealnie nadaje się do nadużyć.

Deepfake’i już teraz są ogromnym problemem i nie mówię tu tylko o fałszywych nagraniach celebrytów. Mówię o rzeczywistości, w której oszuści wykorzystują czyjś głos do podszywania się pod członków rodziny, nowoczesnych wersji oszustw na „wnuczka” i tym podobnych rzeczy. Jasne, to było już od dawna, jednak dzięki Xiaomi skala może być znacznie większa. Skoro ich narzędzie obsługuje setki języków, oszuści z Polski nie muszą ograniczać się tylko do rodzimego rynku. Tutaj możecie posłuchać próbek OmniVoice, także w naszym języku i to brzmi bardzo autentycznie. Gdybym usłyszała niektóre z tych próbek bez kontekstu, raczej nie pomyślałabym od razu o tym, że to AI. Jasne, są tam drobne błędy, czasem brakuje intonacji przy znakach przestankowych, jednak normalnie też czasem je ignorujemy. Poza tym, są to detale, które można na bieżąco korygować.

Czytaj też: ChatGPT staje się dokładniejszy i bardziej osobisty. Czy tylko ja widzę w tym problem?

Najbardziej niepokoi mnie chyba to, jak szybko zaczynamy oswajać się z myślą, że głos przestaje być dowodem autentyczności. Jeszcze niedawno rozmowa telefoniczna wydawała się czymś „bardziej prawdziwym” niż obraz w internecie. Teraz coraz trudniej będzie mieć pewność, czy po drugiej stronie faktycznie znajduje się dana osoba.

Technologiczny przełom z bardzo ciemną stroną

Nie chcę demonizować samego OmniVoice, bo takie modele mają też mnóstwo dobrych zastosowań, zwłaszcza dla osób z niepełnosprawnościami. Kiedy telefon czy komputer czyta im wszystko, na pewno przyjemniej będzie słyszeć bardziej ludzki głos. Model może również służyć do ochrony i rozwoju rzadkich języków, wspomagając edukację.

Ale… No właśnie, może być również wykorzystywany tam, gdzie do tej pory konieczny był człowiek. Dubbing czy tłumaczenia to dziedziny, w których cenimy unikalność ludzkich głosów. Skoro jednak AI będzie tak bardzo plastyczne, a głosy niemożliwe do rozróżnienia, niektórzy mogą uznać, że nie ma sensu dalej płacić aktorom i profesjonalnym lektorom. A najgorsze, że możemy w ogóle tego nie rozpoznać.

Czytaj też: Propaganda dostała filtr beauty. Influencerzy straszą Chinami za pieniądze branży AI

Uwielbiam audiobooki, mam sporo ulubionych lektorów, których chętnie słucham, czasem nawet dzięki nim sięgam po tytuły spoza mojego zwykłego kręgu zainteresowań. Boję się więc, że za jakiś czas już ich nie usłyszę w słuchawkach, bo AI będzie wydajniejsze. Wiecie, sama korzystam z aplikacji do czytania ebooków, która ma też funkcję lektora. Czasem to uruchamiam, gdy np. muszę oderwać się od książki, by zrobić obiad, a moment był wyjątkowo fascynujący. Chociaż mechaniczny głos to nie jest szczyt marzeń, to nie chciałabym, żeby się zmieniał. Szybko bowiem przyzwyczajamy się do dobrego i nie wiem, czy któregoś dnia nie skończyłoby się tak, że zrezygnowałabym z ludzkich lektorów na rzecz AI, bo tak byłoby wygodniej i też taniej. Ta myśl wywołuje we mnie silny dyskomfort i po prostu nie chcę do tego dopuścić.

Tak, decyzja Xiaomi to przełom. Firma zrobiła coś imponującego i podzieliła się tym ze światem. Ale nie da się ukryć, że branża AI momentami rozwija się szybciej niż nasza zdolność do radzenia sobie z konsekwencjami. Technologicznie jesteśmy zachwyceni tym, co da się zrobić. Społecznie dopiero zaczynamy rozumieć, co stanie się, gdy takie narzędzia trafią do absolutnie każdego. Bo jeśli realistyczne klonowanie głosu staje się banalnie proste i darmowe, to pytanie przestaje brzmieć „czy ktoś tego nadużyje?”. Bardziej: „jak często będzie się to zdarzało?”.

Źródło: Github, Huggingface 

Napisane przez

Joanna Marteklas

Redaktor
Zajmuję się tematyką nowych technologii i ich wpływu na codzienne życie. Piszę o cyfrowej kulturze, innowacjach oraz trendach zmieniających sposób, w jaki pracujemy i komunikujemy się ze sobą. Szczególnie interesuje mnie relacja między rozwojem technologii a współczesną popkulturą. W wolnych chwilach zakopuję się w książkach i komiksach — najczęściej w fantastyce i wuxia.