ElevenLabs wprowadza własną aplikację mobilną do generowania głosu z tekstu

Prosta obsługa, zaawansowane możliwości

Korzystanie z nowej aplikacji jest intuicyjne. Wystarczy wpisać lub wkleić tekst, wybrać odpowiedni głos i wygenerować klip audio. Darmowy plan oferuje około 10 minut generowania dźwięku miesięcznie. Użytkownicy mogą wybierać różne modele, balansując między kosztem a jakością – limit kredytów jest wspólny dla wersji webowej i mobilnej.

Kluczową nowością jest dostęp do najnowszych modeli zamiany tekstu na mowę (tzw. text-to-speech v3 alpha), które umożliwiają kontrolowanie ekspresji głosowej za pomocą specjalnych tagów. Według opisu w Google Play, aplikacja obsługuje 32 języki – od hiszpańskiego, francuskiego i niemieckiego, po chiński, japoński czy arabski.

Odpowiedź na potrzeby rynku

Jack McDermott, odpowiedzialny za rozwój mobilny w ElevenLabs, wyjaśnił w rozmowie z TechCrunch:

W ciągu ostatniego roku obserwowaliśmy eksplozję kreatywności w naszej społeczności – twórcy treści, marketerzy, edukatorzy, artyści głosowi i profesjonaliści używają ElevenLabs do ożywiania swoich projektów. Wielu korzystało z naszej platformy przez przeglądarki mobilne i prosili o szybsze, bardziej intuicyjne doświadczenie zbudowane natywnie dla urządzeń mobilnych.

Firma zauważyła, że twórcy już wcześniej korzystali z przeglądarek mobilnych do tworzenia próbek głosowych na potrzeby filmów w aplikacjach takich jak CapCut, Instagram czy InShot. Nowa, natywna aplikacja ma znacznie usprawnić ten proces.

Fenomenalny wzrost polskiego startupu

ElevenLabs przeżywa okres imponującego wzrostu. W styczniu 2024 roku firma pozyskała 80 mln dolarów w rundzie Serii B, podnosząc swoją wycenę do 1,1 mld dolarów. Rundę współprowadziły Andreessen Horowitz, ICONIQ Growth oraz były CEO GitHuba, Nat Friedman.

Spółka została założona w 2022 roku przez dwóch Polaków: Mateusza Staniszewskiego (były strateg w Palantir) i Piotra Dąbkowskiego (były inżynier uczenia maszynowego w Google). Przyjaźnią się od dzieciństwa, a inspiracją do założenia ElevenLabs była niska jakość dubbingu w amerykańskich filmach oglądanych w Polsce.

Do tej pory firma pozyskała łącznie ponad 100 mln dolarów finansowania. Według nieoficjalnych informacji roczne przychody ElevenLabs dynamicznie rosną, co czyni ją jedną z najszybciej rozwijających się firm w sektorze AI.

Rynek wart dziesiątki miliardów dolarów

Premiera aplikacji to odpowiedź na eksplozję popularności technologii generowania głosu AI. Szacuje się, że w 2024 roku globalny rynek generatorów głosu AI będzie wart blisko 5 mld dolarów, a do 2032 roku jego wartość ma wzrosnąć do ponad 40 mld dolarów, co oznacza wysokie roczne tempo wzrostu.

Sektor mediów i rozrywki dominuje na tym rynku, napędzany zapotrzebowaniem na innowacyjne metody dostarczania treści. Przewiduje się, że szerszy rynek technologii rozpoznawania mowy i głosu osiągnie wartość ponad 80 mld dolarów do 2032 roku.

Konkurencja i partnerstwa

ElevenLabs konkuruje z narzędziami takimi jak Speechify czy Captions. Jednocześnie spółka współpracuje z renomowanymi wydawcami, takimi jak The Washington Post, HarperCollins i Storytel. Z technologii ElevenLabs w tworzeniu treści korzystają także studia gier, w tym Paradox Interactive i Embark Studios, oraz platformy technologiczne jak Synthesia.

To druga aplikacja konsumencka firmy – wcześniej wydano narzędzie Reader, służące do słuchania artykułów i e-booków. W lutym 2024 roku ElevenLabs uruchomiło również platformę umożliwiającą autorom tworzenie audiobooków generowanych przez AI.

Plany i wyzwania

Firma planuje dodanie funkcji transkrypcji (speech-to-text) oraz narzędzi do tworzenia konwersacyjnych agentów AI. ElevenLabs chce skupić się na modelach audio AI oferujących większą ekspresję i kontrolę, a także na “omni-modelach” łączących tekst z dźwiękiem.

Działalność firmy nie obyła się jednak bez kontrowersji. W początkowym okresie ElevenLabs było krytykowane po tym, jak użytkownicy tworzyli obraźliwe wypowiedzi, podszywając się pod głosy celebrytów i polityków. Firma odpowiedziała na te nadużycia, ograniczając dostęp do klonowania głosu tylko dla zweryfikowanych, płatnych użytkowników i wdrażając systemy wykrywania nadużyć. Oferuje też publicznie dostępne narzędzie AI Speech Classifier, które sprawdza, czy dany plik audio został wygenerowany przez ich technologię.

Czytaj też: Twoja produktywność x10: jak wykorzystać ChatGPT do automatyzacji pracy?

Nowa aplikacja mobilna ElevenLabs to kolejny krok w demokratyzacji zaawansowanych narzędzi AI. Dla polskich twórców oznacza to łatwiejszy dostęp do profesjonalnych technologii głosowych, które jeszcze niedawno były domeną wielkich studiów. Na dynamicznie rozwijającym się rynku wartym dziesiątki miliardów dolarów, mobilne rozwiązanie może okazać się kluczowe dla dalszego, globalnego wzrostu tej polskiej firmy technologicznej.