Google Translatotron, czyli tłumaczenie mowy w czasie rzeczywistym

Jak na pewno wiecie, w Tłumaczu Google znajdziemy opcję tłumaczenia mowy. System ten jednak działa tak, że najpierw zamienia mowę na tekst, który z kolei tłumaczy algorytm i następnie odczytuje w innym języku. Translatotron pomija krok zamiany mowy na tekst, przyspieszając cały proces i sprawiając, że rozmowa z osobą w obcym języku przebiegnie naturalniej.
rozmowa
rozmowa

Forma wyjściowa nie jest jeszcze idealna (fot. Techcrunch.com)

Technologia opiera się na sieci neuronowej, która przetwarza dźwięk na spektrogram. Dzięki temu system jest w stanie nie tylko przetłumaczyć intencje mówcy, ale też odwzorować tonację i charakterystykę głosu. Nie jest to jeszcze efekt 1:1 i słychać wciąż, że słowa wypowiada maszyna. Kilkanaście próbek Translatotronu możecie przesłuchać na stronie projektu w GitHub.

Twórcy nie kryją, że technologia wciąż nie jest doskonała i pod względem jakości tłumaczenia ustępuje tradycyjnemy TTS (text-to-speach). Ale zachowanie właściwej intonacji głosu to spory krok w przód, który docenią osoby posługujące się takimi systemami na co dzień. Google niestety nie zdradziło, kiedy oprogramowanie będzie gotowe do publicznych testów. Warto jednak przypomnieć, że namiastka tej technologii pojawiła się już w 2017 roku w słuchawkach Pixel Buds. Nie obejmowała jednak zachowania charakterystyki głosu i była dostępna jedynie w sytuacji, kiedy obydwaj rozmówcy używali słuchawek. | CHIP