Nowy pomysł naukowców z Brown University dotyczy wideo wolumetrycznego, czyli nagrania, które nie ogranicza widza do jednego punktu obserwacji. Klasyczny film prowadzi nas za rękę. Kamera stoi tam, gdzie postawił ją operator, a montażysta decyduje, co mamy widzieć. Wideo wolumetryczne działa inaczej, bo dana scena jest przechwytywana przestrzennie, a później można oglądać ją z wielu perspektyw.
W praktyce oznacza to konieczność nagrywania akcji przez wiele zsynchronizowanych kamer ustawionych wokół sceny. Na tym jednak proces się nie kończy, bo następnie algorytmy odtwarzają później taką przestrzeń w 3D, dzięki czemu widz nie dostaje płaskiego kadru, lecz coś bliższego cyfrowemu fragmentowi świata. Nie chodzi tylko o obracanie modelu na ekranie. Chodzi o film, w którym można przesunąć punkt widzenia. Tylko że “można” nie oznacza jeszcze “da się wysłać w prosty sposób” i tu przez lata leżał największy problem.
Wideo wolumetryczne nie jest zwykłym filmem 3D i waży swoje
Wideo wolumetryczne ma ogromną ilość danych, więc tym samym zajmuje ogromną ilość miejsca na dysku. Według zespołu z Brown University półgodzinny materiał może rozrosnąć się do terabajtów danych, a formaty używane przy takich nagraniach są totalnie obce dla typowej infrastruktury Internetu, serwisów streamingowych i kodeków wideo. Trzeba o tym pamiętać, bo bez rozwiązania tego problemu cała technologia zostaje w laboratorium, w studiu nagraniowym albo w kilku drogich instalacjach pokazowych.
Czytaj też: Chiny chcą prądu z kosmosu. Energetyka przyszłości, czy wstęp do filmu katastroficznego?

Tutaj pojawia się PackUV. Naukowcy nie próbują wymyślić całego internetu od nowa, co uważam za najrozsądniejszą część tego projektu. Zamiast tego biorą scenę 3D i przekształcają ją w formę, którą można zapisać oraz przesyłać jak zwykłe wideo. Nie “zwykłe” w sensie prostoty, bo pod spodem dzieje się tu sporo matematyki, ale zwykłe z punktu widzenia infrastruktury. Jeżeli materiał da się zakodować w sposób zgodny z tym, co już napędza YouTube’a, Netfliksa i resztę streamingu, to nagle przestaje być to ciekawostka, a potencjalny fundament nowych usług.
PackUV bazuje na technice 3D Gaussian Splatting. Jest to akurat metoda renderowania i reprezentowania scen 3D za pomocą wielu rozmytych punktów – “gaussianów”, które przechowują informacje o kolorze, przezroczystości, kształcie i położeniu w przestrzeni. W uproszczeniu? Zamiast budować scenę wyłącznie z klasycznych siatek 3D, algorytm opisuje ją przez miliony małych, półprzezroczystych elementów. Cel? Uzyskać bardzo dobrą jakość obrazu 3D bez kosztu obliczeniowego, który zabijałby interaktywność. Podobny trop było już widać przy wykorzystaniu Gaussian Splatting do trenowania systemów Volvo, gdzie chodziło o rekonstrukcję scen i możliwość generowania wariantów sytuacji drogowych.

Problem polega na tym, że nawet jeśli Gaussian Splatting świetnie nadaje się do jakościowej rekonstrukcji i szybkiego renderowania, to przy dynamicznym wideo pojawia się kwestia objętości danych. Miliony punktów zmieniających się w czasie są ciężkie do przechowywania, synchronizowania i streamowania. Zespół nie bez powodu zresztą porównuje rozwiązanie PackUV do rzutowania globu na płaską mapę, bo trójwymiarowa scena z milionami Gaussianów zostaje rozpisana na konkretny obraz 2D, który dopiero po złożeniu kolejnych klatek staje się materiałem zgodnym z klasycznymi kodekami wideo. Jest to sprytne, bo zamiast zmuszać świat do przyjęcia zupełnie nowego rodzaju mediów, PackUV próbuje przemycić scenę 4D przez kanały stworzone dla zwykłych filmów.
Największy problem? Ruch, znikanie i powroty obiektów
Wideo wolumetryczne ma jeszcze jeden kłopot, który na pierwszy rzut oka wydaje się banalny. Ludzie się ruszają. Piłka znika za ciałem zawodnika. Ktoś wchodzi do pomieszczenia w połowie nagrania. Ręka zasłania twarz. Przedmiot wypada poza widok jednej kamery i wraca w innym miejscu. Dla człowieka to normalna scena, ale dla algorytmu seria problemów z identyfikacją, śledzeniem i rekonstrukcją.
Czytaj też: Zrobili z Kevlaru coś godnego filmu akcji. Rozumiem wszystko, ale to już powoli mnie przerasta

Dotychczasowe podejścia do wolumetrycznego Gaussian Splattingu często radziły sobie dobrze z krótkimi sekwencjami, ale traciły stabilność przy dłuższych materiałach. PackUV jednak to rozwiązuje. Dzieli bowiem długi materiał na krótsze fragmenty i częściej restartuje proces śledzenia, aby ponownie rozpoznać obiekty, które zostały zasłonięte, zniknęły albo weszły do sceny później. Dzięki temu metoda ma radzić sobie ze złożonymi scenami trwającymi do 30 minut.

Samo skomplikowanie tej technologii pokazuje fakt, że badacze przygotowali ogromny zestaw danych PackUV-2B, który obejmuje nagrania z gier, gotowania czy obróbki drewna z wykorzystaniem od 50 do 90 zsynchronizowanych kamer, 100 sekwencji i 2 miliardów klatek. Nie jesteśmy więc jeszcze w miejscu, w którym ktoś ustawi telefon na biurku i nagra rodzinne urodziny jako pełnoprawny film wolumetryczny do oglądania z każdej strony. Liczba kamer, synchronizacja, oświetlenie, obróbka i moc obliczeniowa nadal pokazują, że mówimy o etapie badawczym. Możliwe zastosowania są imponujące, ale droga do masowego produktu pozostaje długa.
Hologram to nie zawsze hologram, ale kierunek jest ten sam
Warto też uważać na słowo “hologram”, bo w popkulturze wrzucamy do niego niemal wszystko – projekcje na folii, iluzje sceniczne, wyświetlacze wolumetryczne, AR, VR i modele 3D. PackUV nie jest projektorem, który nagle wyświetli człowieka w powietrzu. Jest to bardziej technika przetwarzania i streamowania wideo wolumetrycznego, a różnica jest istotna. Jednocześnie ten kierunek jest bliski temu, co od lat obiecują futurystyczne wizje. Najpierw trzeba umieć przechwycić scenę przestrzennie, potem ją skompresować i odtworzyć w odpowiedniej jakości. Dopiero później dochodzą wyświetlacze, okulary XR, projektory, interfejsy i nowe sposoby interakcji.
Najbardziej oczywiste zastosowania są rozrywkowe. Sport oglądany z wybranej perspektywy. Koncert, na którym można stanąć obok perkusisty albo przy barierkach. Film, w którym reżyser nadal prowadzi narrację, ale część scen można obejrzeć z innego kąta. Brzmi to jak spełnienie marzeń osób, które lubią pauzować filmy i analizować każdy detal kadru. Tylko że prawdziwa siła może leżeć także poza rozrywką. Wideo wolumetryczne to nie tylko “ładniejsze 3D”. Jest to równiez sposób utrwalania zdarzeń w przestrzeni i czasie.

Podobny sposób myślenia widać przy cyfrowym bliźniaku Stradivariusa, gdzie technologia nie służy rozrywce, tylko zachowaniu obiektu i jego dokumentacji. Jeszcze szerszą skalę pokazuje cyfrowy bliźniak planety w projekcie Destination Earth, gdzie dane i symulacje mają pomagać w analizie klimatu oraz skutków ekstremalnych zjawisk. Wideo wolumetryczne może wejść w podobny nurt, tylko zamiast statycznego modelu albo symulacji dostajemy zapis ruchu, gestu, procesu i relacji przestrzennych.
Hologramy odtwarzane na Netflixie są nadal odległe, ale fundament zaczyna wyglądać sensownie
PackUV nie rozwiązuje wszystkich problemów. Nie usuwa potrzeby wielokamerowego przechwytywania scen. Nie daje taniego wyświetlacza wolumetrycznego. Nie sprawia, że każdy telewizor nagle pokaże przestrzenny koncert bez dodatkowego interfejsu. Nie odpowiada też na pytanie, kto będzie produkował takie materiały i czy widzowie będą chcieli z nich korzystać dłużej niż przez kilka pierwszych minut zachwytu, jak to ma miejsce ze źle zrobionymi filmami 3D.
Czytaj też: W Chinach roboty mają już własne dokumenty. Powstaje społeczeństwo rodem z filmów
Uważam jednak, że to jedna z tych prac, które warto traktować poważnie. Nie dlatego, że obiecuje magiczny ekran, lecz dlatego, że uderza w warstwę infrastruktury. Jeśli film wolumetryczny ma kiedykolwiek wyjść z laboratoriów i drogich studiów, to jednocześnie musi stać się możliwy do zapisania, przesłania i odtworzenia przez narzędzia zbliżone do tych, które już znamy. PackUV pokazuje, że taka droga może istnieć.
Źródła: Brown University, PackUV

