Sztuczna inteligencja Google potrafi czytać z ruchu ust

Naukowcy z grupy Deep Mind - sekcji Google zajmującej się sztuczną inteligencją - oraz badacze z oxfordzkiego uniwersytetu, stworzyli oprogramowanie, które z dużą dokładnością radzi sobie z odczytywaniem słów z ruchu warg.

Wykorzystując metodę uczenia maszynowego oraz 5000 godzin nagrań programów publicystycznych telewizji BBC, naukowcom udało się opracować program, który świetnie radzi sobie z odczytywaniem słów z ruchu warg. „Watch, Listen, Attend, and Spell” potrafi czytać z ruchu ust z dokładnością 46,8%. Wydaje się, że to mało? Otóż profesjonalni zajmujący się odczytywaniem słów z ruchu warg, na tym samym fragmencie wideo osiągnęli wynik równy zaledwie 12,4% . Sztuczna inteligencja poradziła sobie więc znacznie lepiej niż ludzki umysł.

Naukowcy z Deep Mind sugerują, że ich program może mieć wiele zastosowań. Pierwsze, co się nasuwa to oczywiście pomoc ludziom z uszkodzonym zmysłem słuchu, ale badacze wspominają też o automatycznym tworzeniu podpisów do niemych filmów lub wykorzystania algorytmu w cyfrowych asystentach głosowych (np. Cortanie czy Siri). W przypadku tych ostatnich wydawanie komend głosowych mogłoby się odbywać bezdźwięcznie, co sprawdziłoby się w miejscach publicznych.

Z drugiej strony, takie oprogramowanie otwiera furtkę do kolejnej metody inwigilacji. Naukowcy uważają jednak, że kluczową sprawą w przypadku ich algorytmu jest nagranie wideo w wysokiej jakości i dobre oświetlenie rozmówcy. Przy zaszumionym, ciemnym obrazie np. z kamer monitoringu, efekty nie byłyby tak rewelacyjne.

0
Źródło: theverge.com
Zamknij

Choć staramy się je ograniczać, wykorzystujemy mechanizmy takie jak ciasteczka, które pozwalają naszym partnerom na śledzenie Twojego zachowania w sieci. Dowiedz się więcej.