Jak system AI rozpoznaje, z kim rozmawiasz
Cała sztuka polega na tym, by urządzenie zrozumiało intencje użytkownika. Zamiast skomplikowanych interfejsów badacze postawili na analizę naturalnego rytmu konwersacji. Technologia, nazwana „proaktywnymi asystentami słuchowymi”, łączy zwykłe słuchawki z redukcją szumów z zaawansowanymi mikrofonami i dwoma modelami sztucznej inteligencji.
Pierwszy model jest jak uważny obserwator. Śledzi on naprzemienność w rozmowie – to charakterystyczny wzorzec, w którym uczestnicy dialogu mówią po kolei, nie przerywając sobie. Wychwytuje momenty, gdy głosy się nie nakładają i na tej podstawie identyfikuje poszczególnych mówców. Gdy już ich rozpozna, drugi model przejmuje inicjatywę. Jego zadanie to natychmiastowe wyodrębnienie tych głosów i odfiltrowanie całej reszty. Jeśli wszystko dobrze idzie, to do twoich uszu dociera czysty dźwięk rozmowy, podczas gdy tło zostaje stłumione. System aktywuje się automatycznie, gdy tylko zaczniesz mówić, a na rozpoznanie rozmówców potrzebuje zaledwie kilku sekund. Prototyp radzi sobie z konwersacją w gronie maksymalnie czterech osób.

Istniejące podejścia do identyfikacji, kogo słucha użytkownik, obejmują głównie elektrody wszczepiane do mózgu w celu śledzenia uwagi. Nasza intuicja podpowiada, że kiedy rozmawiamy z konkretną grupą ludzi, nasza mowa naturalnie podąża za rytmem naprzemiennego mówienia. Możemy wytrenować sztuczną inteligencję, aby przewidywała i śledziła te rytmy, używając tylko dźwięku, bez potrzeby wszczepiania elektrod
– Shyam Gollakota
Czytaj też: Nothing Phone (3a) Community Edition 2025 to limitowana wersja w stylu lat 90
Testy są obiecujące i zarazem wskazują, gdzie AI sobie na razie nie radzi
Aby się przekonać czy to działa, zespół przeprowadził eksperyment z udziałem jedenastu osób. Ochotnicy porównywali jakość dźwięku przefiltrowanego przez system AI z oryginalnym, hałaśliwym nagraniem. Wyniki były jednoznaczne – oczyszczony dźwięk został oceniony ponad dwukrotnie lepiej pod względem wyciszenia szumów i zrozumiałości mowy. To istotny krok naprzód wobec wcześniejszych rozwiązań, które wymagały od użytkownika ręcznego wskazania, kogo chce słyszeć.
Wszystko, co robiliśmy wcześniej, wymagało od użytkownika ręcznego wybrania konkretnego mówcy lub odległości, w której miał słuchać, co nie jest świetne dla doświadczenia użytkownika. To, co zademonstrowaliśmy, to technologia, która jest proaktywna – coś, co wnioskuje o intencjach człowieka w sposób nieinwazyjny i automatyczny
– Guilin Hu
Kod dostępny na zasadach open source? Dlaczego nie
Dobra wiadomość dla rozwoju tej technologii to decyzja badaczy o otwarciu kodu źródłowego projektu. Dzięki temu inne zespoły naukowe mogą ją testować i udoskonalać. System był prezentowany podczas konferencji EMNLP w Suzhou i sprawdzony w trzech językach: angielskim, mandaryńskiej odmianie chińskiego oraz japońskim. Można się spodziewać, że dla języków o innym rytmie mowy algorytmy będą potrzebować dodatkowych dopracowań.
Wizja na przyszłość jest ambitna – zespół pracuje nad miniaturyzacją całego systemu do postaci małego układu scalonego. Gdyby się to udało, technologia mogłaby trafić do klasycznych aparatów słuchowych, dyskretnych słuchawek dousznych, a nawet inteligentnych okularów. Otworzyłoby to drzwi do powszechnego zastosowania w codziennych sytuacjach.
Oczywiście prototyp ma swoje wyraźne ograniczenia – skoro opiera się na rozpoznawaniu rytmu mowy, to miewa problemy w bardzo żywiołowych dyskusjach, gdzie uczestnicy mówią jednocześnie lub wygłaszają długie monologi. System gubi się także w momencie, gdy do rozmowy dołącza lub z niej wychodzi nowa osoba. Opracowanie metod radzenia sobie z takimi sytuacjami jest sporym wyzwaniem, nad którym prace trwają. Pomysł natomiast wydaje się bardzo obiecujący i potencjalnie bardzo przydatny dla osób mających problemy ze słyszeniem w takich trudnych sytuacjach.