Wyciągają dźwięk ze zdjęcia. Już nigdy nie powiesz nic przy włączonym aparacie

Choć to nieintuicyjne, lepiej nie odzywać się nawet jeżeli ktoś robi w pomieszczeniu zwykłe zdjęcie. Okazuje się bowiem, że ze zdjęcia można wyciągnąć dźwięki, które rozbrzmiewały w pomieszczeniu podczas robienia zdjęcia czy kręcenia filmu.

Do takich czarów służy oparte na uczeniu maszynowym narzędzie Side Eye opracowane przez prof. Kevina Fu i jego współpracowników z Uniwersytetu Northeastern. Przedstawiając swój wynalazek badacze przywołali przykład nagrań na TikToku, z których większość nie posiada dźwięku, a raczej zmontowana jest z dźwiękami, czy muzyką z aplikacji.

Jak zatem można odtworzyć dźwięk rozbrzmiewający w pomieszczeniu podczas nagrywania filmu? Oprogramowanie Side Eye wykorzystuje technologię stabilizacji obrazu, która obecnie stanowi standard w większości aparatów instalowanych w smartfonach. Owa technologia służy do tworzenia wyraźnych zdjęć za pomocą aparatu trzymanego w dłoni. Aby zdjęcie było stabilne, soczewki aparatu są utrzymywane w miejscu przez niewielkie sprężyny. Zestaw elektromagnesów i czujników przesuwa soczewkę tak, aby skompensować ruchy aparatu trzymanego w ręce.

Jak wyciągnąć dźwięk z nagrania bez dźwięku?

Kiedy w pobliżu nagrywającej kamery ktoś mówi, fale dźwiękowe powodują drobne wibracje sprężyn, co prowadzi do bardzo delikatnego zakrzywienia światła padającego na soczewkę. Jest to efekt niezauważalny, o ile się go nie szuka.

Współczesne aparaty nie zapisują odczytu wszystkich pikseli obrazu jednocześnie. Zamiast tego sczytywanie pikseli odbywa się kolejnymi rzędami. W każdym zdjęciu proces ten odbywa się setki tysięcy razy.

Badacze przekonują, że dzięki temu można tak naprawdę tysiąckrotnie wzmocnić informacje o wibracjach obecnych podczas wykonywania zdjęcia. Efekt? Tak długo, jak kamera jest w stanie zarejestrować trochę światła, metoda powinna działać. Można nawet wykonać zdjęcie sufitu w pomieszczeniu, a mimo to odtworzenie dźwięku powinno być możliwe.

Oczywiście, każda magia ma swoje ograniczenia. Naukowcy wskazują, że uzyskany w ten sposób dźwięk jest bardzo przytłumiony. Na szczęście, na tym etapie do pracy przystępują algorytmy uczenia maszynowego. Po wytrenowaniu ich do rozpoznawania odpowiednich słów i dźwięków możliwe jest wyłuskanie ich z bezdźwiękowego nagrania wideo, a nawet ze zdjęcia. Co więcej, jeżeli algorytmy zostaną wytrenowane na nagraniach głosu konkretnej osoby, Side Eye powinien być w stanie zidentyfikować z odtworzonego szumu, czy słowa wymawia ta konkretna osoba.

Z jednej strony trzeba przyznać, że to imponująca technologia. Z drugiej strony, technologia tego typu otwiera zupełnie nowy poziom zagrożeń. Prędzej czy później pojawią się sposoby pozyskiwania w ten sposób informacji bez zgody nagrywanych, czy fotografowanych osób. Oby przepisy prawa nadążyły za rozwojem takich technologii.