Gemini 3.5 Flash i Gemini Omni. Google przyspiesza AI
Fundamentem całej prezentacji były nowe modele AI. Najważniejszy z nich to Gemini 3.5 Flash, pierwszy model z nowej rodziny, który od teraz staje się domyślnym silnikiem aplikacji Gemini oraz trybu AI Mode w wyszukiwarce Google. Firma mocno podkreśla, że łączy on szybkość serii Flash z możliwościami znacznie większych modeli premium. Według zapewnień jest to obecnie najmocniejszym modelem Google do programowania i zadań agentycznych, wyprzedzając nawet Gemini 3.1 Pro w wielu praktycznych scenariuszach.
Prawdziwie futurystycznie wygląda jednak Gemini Omni oraz Omni Flash. To modele stworzone stricte pod generowanie materiałów wideo i multimediów. AI potrafi zamieniać tekst, obrazy i polecenia głosowe w gotowe filmowe sceny, które mają realistycznie odwzorowywać fizykę świata — od grawitacji po dynamikę ruchu czy zachowanie cieczy. Brzmi trochę jak Veo na sterydach i… właściwie tym jest.

Sama edycja materiałów przypomina zwyczajną rozmowę. Mogę powiedzieć AI: „przybliż kamerę”, „zmień tło”, „dodaj bardziej filmowe światło” albo „spraw, żeby scena wyglądała jak zachód słońca w Tokio”. Gemini Omni zrobi resztę. Model pozwala też tworzyć własne awatary AI mówiące naszym głosem, a wszystkie wygenerowane materiały są automatycznie oznaczane cyfrowym znakiem wodnym SynthID. Firma ewidentnie próbuje uprzedzić chaos związany z deepfake’ami, zanim ten wymknie się spod kontroli. Brzmi dobrze, choć nie jest to rozwiązanie problemu, a jedynie próba jego złagodzenia, bo takiego znaku wodnego nie widać gołym okiem, a bądźmy szczerzy, przeciętna osoba nie sięga po dodatkowe narzędzia by weryfikować prawdziwość treści, które widzi w sieci.
Koniec ze „ścianą tekstu”. Gemini zaczyna wyglądać jak nowoczesna aplikacja
Kojarzycie ten moment, gdy zadajecie jakieś pytanie AI, a chatbot wypluwa ścianę tekstu? To ma się zmienić, przynajmniej w Gemini, a to za sprawą Expressive — całkowicie nowego języka projektowania interfejsu. Zamiast nudnych bloków pojawiają się dynamiczne animacje, interaktywne osie czasu, grafiki i krótkie materiały wideo z narracją. Niby fajnie, ale dla mnie wygląda to trochę jak prezentacja dla dziecka, które nie umie skupić się na dłuższym tekście i potrzebuje interaktywnych treści, by je zabawiało.
Oczywiście, Google chce, żeby rozmowa z AI bardziej przypominała kontakt z nowoczesnym systemem operacyjnym niż czat sprzed dwóch dekad. Mimo wszystko ten kierunek jakoś niezbyt do mnie przemawia.

Dalej mamy Gemini Live, które zostało zintegrowane bezpośrednio z aplikacją, dzięki czemu można płynnie przechodzić między pisaniem a rozmową głosową. Co ważne, nowy system mikrofonów ma lepiej rozumieć naturalne myślenie na głos — z pauzami, zawahaniami i wtrąceniami bez ciągłego przerywania użytkownikowi. Świetną informacją jest to, że latem pojawi się nawet obsługa lokalnych dialektów.
Daily Brief i Gemini Spark, czyli AI zaczyna pracować w tle
Gigant z Mountain View pokazał również dwóch nowych agentów AI: Daily Brief oraz Gemini Spark. To właśnie oni mają zmienić Gemini z „chatbota” w cyfrowego pracownika działającego w tle. Daily Brief to trochę taki poranny briefing od osobistego asystenta. System analizuje Gmaila, Kalendarz i inne połączone aplikacje, a potem przygotowuje spersonalizowane podsumowanie dnia: ważne wiadomości, spotkania, priorytety i sugestie kolejnych działań. Możemy go trenować prostymi reakcjami „w górę” lub „w dół”, ucząc AI własnych preferencji.

Jeszcze mocniej brzmi Gemini Spark. To agent AI działający praktycznie 24/7, zintegrowany z Google Workspace. Spark potrafi analizować wyciągi bankowe i wyszukiwać ukryte subskrypcje, zbierać ważne informacje z maili szkolnych dzieci czy automatycznie tworzyć podsumowania dokumentów i czatów. Do tego dochodzi integracja z zewnętrznymi usługami przez MCP (Model Context Protocol). Dzięki temu Spark będzie mógł np. rezerwować stoliki przez OpenTable, robić zakupy czy współpracować z Canvą i innymi aplikacjami.
Na szczęście Google podkreśla, że AI nadal będzie wymagało autoryzacji przy ważniejszych działaniach finansowych albo komunikacyjnych. I dobrze, bo wizja AI samodzielnie zamawiającego rzeczy przez internet brzmi jednocześnie wygodnie i absolutnie przerażająco. Mimo wszystko, jak zwykle niepokoi mnie kwestia prywatności.

Bardzo ciekawie wygląda natomiast nowy system głosowego dyktowania. Gemini ma rozumieć naturalne, chaotyczne wypowiedzi użytkownika i zamieniać je w gotowy, uporządkowany tekst dokładnie tam, gdzie znajduje się aktualnie kursor. Czyli de facto Google chce zamienić AI w coś pomiędzy asystentem, sekretarką i cyfrowym współpracownikiem.
Gemini trafia też na macOS
Google mocno rozwija również desktopową wersję Gemini dla macOS. Aplikacja jest już dostępna, a latem dostanie integrację z Gemini Spark. To oznacza, że AI będzie mogło bezpiecznie pracować na lokalnych plikach i automatyzować część działań bezpośrednio w systemie macOS.

Widać, że Google chce, by Gemini stało się nieodłączną częścią naszego życia. Firma pokazała bardzo konkretną wizję przyszłości, w której sztuczna inteligencja wykonuje nudne, powtarzalne zadania, zamiast tylko generować teksty. Brzmi to dobrze i wygodnie. Jednak m bardziej Gemini zaczyna przypominać cyfrowego pracownika działającego w tle, tym mocniej pojawiają się pytania o prywatność, kontrolę i uzależnienie od ekosystemu Google.
Źródło: Google
