Cyfrowe postacie z realistycznymi twarzami. Nvidia udostępnia zaawansowane modele generatywnej AI

...

W niekończącym się wyścigu sztucznych inteligencji, co jakiś czas jesteśmy zaskakiwani ich nowymi zastosowaniami. Tym razem temat dotyczy pomysłów wdrożonych przez giganta technologicznego, jakim jest Nvidia, która w dziedzinie sztucznej inteligencji cechuje się świetnymi narzędziami dla twórców gier i samych graczy. Tym razem grupa zielonych udostępnia Audio2Face jako open source wraz z SDK, umożliwiając deweloperom gier i aplikacji 3D tworzenie wysokiej jakości animacji twarzy cyfrowych postaci.

Audio2Face znajduje zastosowanie w branży gier, mediach oraz obsłudze klienta

Dzięki Nvidii wszyscy deweloperzy gier i aplikacji 3D zyskują teraz możliwość tworzenia i wdrażania cyfrowych postaci z wysokiej jakości animacją twarzy. To dlatego, że gigant technologiczny udostępnia otwartoźródłowe modele Audio2Face wraz z zestawem narzędzi programistycznych (SDK). Równocześnie firma otwiera platformę treningową Audio2Face, co umożliwia dostrajanie i personalizację istniejących modeli w zależności od potrzeb. Oznacza to, że nawet jeśli posiadasz mało doświadczenia, możesz zacząć eksperymentować na gotowcach.

Czytaj też: Test KFA2 GeForce RTX 5070 Ti HOF Gaming

Wykorzystując analizę fonemów i intonacji, Nvidia Audio2Face to zaawansowane modele generatywnej AI, które tworzą realistyczną synchronizację ruchu ust i animacje twarzy w czasie rzeczywistym. Generują one strumień danych animacji, który jest następnie mapowany na mimikę postaci. Dane mogą być renderowane offline lub przesyłane na bieżąco, zapewniając dynamicznym postaciom sterowanym AI precyzyjną synchronizację ruchu warg i wyraz emocji. Co ciekawe modele Audio2Face znajdują zastosowanie w grach, mediach i obsłudze klienta. Dodatkowo używa ich juz wielu twórców gier, w tym Codemasters, GSC Games World, NetEase i Perfect World Games, jak również niezależni dostawcy oprogramowania (ISV), tacy jak Convai, Inworld AI, Reallusion, Streamlabs i UneeQ.

Czytaj też: Recenzja Ghost of Yōtei. Piękna i brutalna Japonia napędzana zemstą

Jak już wcześniej wspomniałem, Nvidia dodatkowo udostępnia technologię wysokiej jakości animacji twarzy w modelu open source, czyniąc ją bardziej dostępną dla twórców na całym świecie. Dzięki temu podejściu, twórcy z różnych środowisk mają dostęp do zaawansowanego kodu, który mogą rozwijać i adaptować. Wspiera to współtworzenie, gdzie społeczność wzbogaca narzędzie o nowe funkcje i dostosowuje je do szerokiego wachlarza zastosowań. Firma tym samym zachęca wszystkich zainteresowanych rozwojem Nvidia Audio2Face do dołączenia do społeczności na Discordzie i dzielenia się swoimi projektami.

Czytaj też: Steam zmienił się nie do poznania. Gracze są załamani

Na koniec, poniżej przedstawiamy kompletną listę udostępnianych narzędzi open source. Więcej szczegółów na ich temat można znaleźć również na stronie Nvidia ACE for Games.

Audio2Face SDK – biblioteki i dokumentacja do tworzenia oraz uruchamiania animacji twarzy lokalnie lub w chmurze.
Wtyczka do Autodesk Maya – wersja referencyjna (v2.0) z lokalnym wykonaniem, umożliwiająca przesyłanie danych audio i odbieranie animacji twarzy w Maya.
Wtyczka do Unreal Engine 5 – wersja (v2.5) dla UE 5.5 i 5.6, umożliwiająca przesyłanie danych audio i odbieranie animacji twarzy w Unreal Engine 5.
Framework treningowy Audio2Face – wersja (v1.0) do tworzenia modeli Audio2Face na podstawie własnych danych.
Przykładowe dane treningowe Audio2Face – zestaw danych pozwalający na szybki start pracy ze środowiskiem treningowym Audio2Face.
Modele Audio2Face – modele regresyjne (v2.2) i dyfuzyjne (v3.0) do generowania synchronizacji ruchu warg.
Modele Audio2Emotion – modele produkcyjne (v2.2) i eksperymentalne (v3.0) do wnioskowania o stanie emocjonalnym na podstawie sygnału audio.