Google Vids zyskuje moc Veo 3. Teraz z natywnym dźwiękiem

Google stopniowo udostępnia funkcję generowania wideo z dźwiękiem w ramach Google Vids dla użytkowników płatnych planów Google Workspace. Model Veo 3 może generować zarówno obraz jak i zsynchronizowany dźwięk bezpośrednio z promptu tekstowego, co stanowi znaczącą przewagę nad konkurencyjnymi rozwiązaniami takimi jak OpenAI Sora, które obecnie generują głównie niemy materiał wideo.

Nowa funkcjonalność otwiera szereg możliwości dla zespołów pracujących z Google Workspace. Google podaje przykłady takie jak rzecznik przedstawiający linię produktu w demo czy pracownik nagrywający wprowadzenie do filmu szkoleniowego. Model radzi sobie z generowaniem dialogów, które faktycznie synchronizują się z ruchem ust postaci.

Po utworzeniu klipu można go bezpośrednio wstawić do projektu wideo w Google Vids. Jeśli wygenerowany dźwięk nie spełnia oczekiwań, istnieje opcja wyciszenia klipu i dodania własnej ścieżki audio.

Ograniczenia techniczne i dostępność

Wideo generowane w Google Vids mają obecnie rozdzielczość ograniczoną do 720p przy 24 klatkach na sekundę. To znacznie mniej niż możliwości 4K, które oferuje Veo 3 jako samodzielny model. Mimo to natywne generowanie dźwięku stanowi istotny krok naprzód w rozwoju narzędzi AI do tworzenia treści.

Google rozpoczął stopniowe wdrażanie funkcji, które może potrwać do 15 dni. Dostęp zależy od tego, w której fali wdrożenia znajduje się konto użytkownika oraz czy administrator firmy korzysta ze ścieżki Rapid czy Scheduled Release.

Funkcja jest dostępna dla szerokiej gamy planów Google Workspace, w tym Business Standard i Plus, Enterprise Standard i Plus, a także Essentials, Nonprofits oraz podstawowych planów Business Starter i Enterprise Starter.

Wprowadzenie Veo 3 do Google Vids to odpowiedź na rosnącą popularność narzędzi AI do generowania wideo. W przeciwieństwie do OpenAI Sora, Google DeepMind Veo 3 może tworzyć dialogi, ścieżki dźwiękowe i efekty audio.

Model doskonale radzi sobie z przestrzeganiem złożonych poleceń i tłumaczeniem szczegółowych opisów na realistyczne wideo. Silnik AI przestrzega praw fizyki świata rzeczywistego, oferuje dokładną synchronizację ust i rzadko łamie ciągłość narracji.

Czytaj też: Veo 3: Gdy AI nauczyło się mówić i śpiewać – Google przerywa ciszę generowania wideo

Na razie AI rozumie polecenia tylko w języku angielskim, a wszystkie wideo są niewidocznie oznaczane wodnym znakiem identyfikującym je jako utworzone przez sztuczną inteligencję. Google wprowadził SynthID, zaawansowaną technologię do znakowania wodnego i wykrywania treści generowanych przez AI. Dostęp do funkcji jest bezpłatny dla obecnych użytkowników kompatybilnych planów Google Workspace, co czyni ją atrakcyjną alternatywą dla droższych rozwiązań biznesowych wymagających osobnych subskrypcji AI.