Decyzja nie wydaje się przypadkowa, szczególnie że użytkownicy od momentu wprowadzenia możliwości przesyłania plików na początku roku wyraźnie domagali się obsługi formatów audio. Google odpowiedziało na te głosy, choć typowo dla siebie – z wyraźnie zaznaczoną granicą między tym, co dostępne za darmo, a tym, co wymaga już subskrypcji.
Obsługa plików audio w Gemini została uruchomiona bez szczególnego rozgłosu, co może dziwić, biorąc pod uwagę, jak bardzo była wyczekiwana. Jak potwierdził Josh Woodward, wiceprezes Google Labs i Gemini, na platformie X, była to najczęściej zgłaszana przez użytkowników prośba. Nowa funkcjonalność działa na wszystkich głównych platformach, czyli Androidzie, iOS i w wersji przeglądarkowej, obsługując popularne formaty takie jak MP3 i WAV.
To rozwiązanie szczególnie istotne dla osób, które na co dzień pracują z nagraniami – czy to z spotkań, podcastów, czy notatek głosowych. Brak tej opcji przez ostatnie miesiące był dość niezrozumiały, zwłaszcza że konkurencja oferowała ją od dłuższego czasu. Teraz, gdy wreszcie się pojawiła, warto przyjrzeć się jej bliżej, bez nadmiernego entuzjazmu, ale i bez niepotrzebnego sceptycyzmu.
Google, jak zwykle, wyraźnie rozgranicza to, co oferuje użytkownikom bezpłatnym, od tego, co rezerwuje dla subskrybentów. W darmowym wariancie możemy przesłać jednorazowo do 10 plików audio, pod warunkiem że ich łączny czas nie przekroczy 10 minut. To dość restrykcyjne ograniczenie, które może okazać się niewystarczające nawet przy krótszych nagraniach. Z kolei użytkownicy Gemini Advanced, dostępnego w planach AI Pro lub AI Ultra, otrzymują aż trzy godziny – czyli 18 razy więcej.
Warto zwrócić uwagę, że limity dla audio są znacznie hojniejsze niż te dotyczące wideo, gdzie użytkownicy bezpłatni mają do dyspozycji zaledwie pięć minut, a płatni – godzinę. Prawdopodobnie wynika to z mniejszych wymagań obliczeniowych związanych z przetwarzaniem dźwięku. Niemniej różnica w traktowaniu obu grup użytkowników jest wyraźna i celowa.
Jeśli chodzi o praktyczne zastosowania, nowa funkcja otwiera kilka ciekawych możliwości. Transkrypcja nagrań to oczywiście jeden z głównych kierunków wykorzystania – Gemini może przekształcić nagranie spotkania, wykładu czy rozmowy w tekst, a następnie odpowiedzieć na pytania dotyczące jego treści. Podobnie sprawdzi się w przypadku podcastów czy materiałów edukacyjnych, gdzie AI może wyłuskać kluczowe informacje lub streścić dłuższe fragmenty.
Czytaj też: Google prezentuje Gemini 2.5 Flash Nano Banana. To nowa era tworzenia obrazów z AI?
Wprowadzenie obsługi audio przybliża Gemini do poziomu ChatGPT od OpenAI, który podobne funkcje oferował od miesięcy. To ważny krok, choć spóźniony, i pokazujący, że Google wciąż musi nadganiać w niektórych obszarach. Czy dziesięć minut w darmowym wariancie to wystarczająco? Dla wielu – pewnie nie, i być może właśnie o to chodziło, aby zachęcić do wykupienia subskrypcji. Funkcja audio może stać się jednym z motorów napędzających rozwój bazy płacących użytkowników, co w długiej perspektywie wydaje się głównym celem tego ruchu.