Sztuczna inteligencja tworzy sceny 3D na podstawie dwuwymiarowych zdjęć

Fot. DeepMind
Należąca do Google spółka DeepMind, specjalizująca się w sztucznej inteligencji, opracowała kolejne interesujące rozwiązanie z tej dziedziny. Chodzi o sztuczną inteligencję zdolną do wykreowania obiektów 3D na podstawie ich dwuwymiarowych reprezentacji. Rozwiązanie nazywa się Generative Query Network.

Generative Query Network (GQN) to wyuczony maszynowo algorytm sztucznej inteligencji specjalizujący się rozpoznawaniem obrazów. Maszyna używająca tego algorytmu jest w stanie, na podstawie dwuwymiarowych reprezentacji wybranych scen samodzielnie stworzyć i wyrenderować cały projekt 3D. Innymi słowy komputer potrafi – na podstawie np. płaskich rysunków czy zdjęć – odtworzyć kompletną scenę 3D bez jakiegokolwiek wsparcia ze strony człowieka, uwzględniając nawet takie kwestie jak oświetlenie i cienie.

Oczywiście stworzona w ten sposób reprezentacja przestrzenna jakiejś sceny będzie tym bardziej wierna i dokładna im więcej dwuwymiarowych zdjęć pokażemy sztucznej inteligencji. Celem DeepMind było opracowanie maszynowo uczonego kodu, który odtwarza to w jaki sposób ludzie postrzegają przestrzeń. My również na podstawie fotografii jakiegoś pomieszczenia jesteśmy w stanie odwzorować sobie w umyśle jego układ, a także fizyczne interakcje pomiędzy różnymi obiektami. Rozwiązanie to niweluje konieczność dokładnego opisywania zdjęć, co było dotychczas wymagane w używanych systemach wizualnego rozpoznawania.

Algorytm GQN imponuje swoją zdolnością uczenia się rzeczywistości z obrazów 2D. Niemniej rozwiązanie nie jest jeszcze pozbawione ograniczeń. Przede wszystkim badacze z DeepMind testowali nową SI jedynie na prostych scenach zawierających niewielką liczbę prostych obiektów. Jednak najważniejsze, że pierwszy krok został postawiony. Twórcy GQN skupią się teraz na optymalizacji kodu, by wymagał mniejszej mocy obliczeniowej, a także by był zdolny do szczegółowej analizy obrazów w wyższej rozdzielczości.

Algorytm GQN ma potencjalnie bardzo szeroki obszar zastosowań. Podczas redakcyjnych dyskusji nad tym tematem dostrzegaliśmy m.in. możliwość „inżynierii wstecznej” projektów 3D na podstawie ich zdjęć i rysunków dwuwymiarowych. Z kolei innym oczywistym zastosowaniem jest branża gier. W końcu możliwość stworzenia całej mapy 3D w grze typu FPS jedynie na podstawie dwuwymiarowych reprezentacji znacznie ograniczy koszty produkcji. Osobom szczególnie zainteresowanym tym tematem polecam lekturę pełnej treści naukowego artykułu na temat Generative Query Network (tekst w formacie PDF, w języku angielskim). | CHIP

Close

Choć staramy się je ograniczać, wykorzystujemy mechanizmy takie jak ciasteczka, które pozwalają naszym partnerom na śledzenie Twojego zachowania w sieci. Dowiedz się więcej.