Microsoft ogłosił, że nowa funkcja AI wkrótce trafi do narzędzia Click To Do w Windows 11. “Describe Image” umożliwi systemowi opisanie dowolnego obrazu, wykresu czy grafiki widocznej na ekranie komputera. Funkcja będzie dostępna wyłącznie na komputerach Copilot+ PC i można ją uruchomić, przytrzymując klawisz Windows i klikając myszą.

Prywatność przede wszystkim

Kluczowym atutem nowej funkcji jest przetwarzanie danych lokalnie na urządzeniu. Ponieważ rozwiązanie to jest dedykowane dla Copilot+ PC, wykorzystuje lokalne modele AI do generowania opisów. Oznacza to, że funkcja nie wymaga połączenia z internetem i może działać offline.

“Wprowadzamy nową akcję ‘describe image’ w Click to Do, aby uzyskać szczegółowe opisy obrazów, wykresów i grafik – przydatne do szybkiego przeglądu treści wizualnych” – czytamy w oficjalnym wpisie na blogu Microsoft. “Gdy używasz tej akcji po raz pierwszy, wymagane modele są konfigurowane, a opisy generowane są lokalnie na twoim urządzeniu, co zapewnia, że twoje wrażliwe dane pozostają na twoim PC.”

Co to właściwie jest Copilot+ PC?

Funkcja “Describe Image” będzie działać wyłącznie na komputerach Copilot+ PC – nowej kategorii urządzeń z Windows 11, które Microsoft wprowadził w maju 2024 roku. Te komputery wyróżniają się obecnością specjalistycznego układu NPU (Neural Processing Unit) o mocy co najmniej 40 TOPS (trylionów operacji na sekundę).

Obecnie wymagania spełniają głównie procesory Qualcomm Snapdragon X (45 TOPS), ale wkrótce dołączą do nich układy Intel Core Ultra 200V (Lunar Lake) oraz AMD Ryzen AI 300 series (Strix Point). To właśnie NPU umożliwia uruchamianie zaawansowanych modeli AI bezpośrednio na urządzeniu, bez konieczności łączenia się z chmurą.

Jak to działa w praktyce?

Po wybraniu opcji opisania obrazu na ekranie pojawi się okienko popup z wygenerowanym opisem. Użytkownik będzie mógł wygenerować kolejny opis, ocenić jego trafność lub skopiować go bezpośrednio do schowka. Funkcja powinna współpracować z dowolną aplikacją uruchomioną na ekranie.

Część większej strategii AI w Windows

Nowa funkcja opisywania obrazów to element szerszej strategii Microsoft dotyczącej integracji AI z Windows 11. Click To Do jest ściśle powiązane z Windows Recall – kontrowersyjną funkcją, która robi zrzuty ekranu co kilka sekund i pozwala później wyszukiwać informacje za pomocą naturalnego języka.

Obie funkcje wykorzystują Windows Copilot Runtime – platformę, która dostarcza ponad 40 modeli AI do różnych zadań. Te mniejsze modele działają jednocześnie, aby wykrywać tekst, obrazy, wideo, dźwięk i inne elementy na ekranie.

Microsoft wprowadza także inne funkcje AI dla Copilot+ PC, w tym:

AI w Windows Search – możliwość opisowego wyszukiwania plików (“znajdź zdjęcie kota z zeszłego tygodnia”)

– możliwość opisowego wyszukiwania plików (“znajdź zdjęcie kota z zeszłego tygodnia”) Super Resolution w Photos – powiększanie zdjęć za pomocą AI

– powiększanie zdjęć za pomocą AI Generative Fill/Erase w Paint – dodawanie lub usuwanie obiektów z obrazów

Wszystkie te narzędzia łączy wspólna filozofia: maksymalne wykorzystanie lokalnej mocy obliczeniowej NPU przy jednoczesnym zachowaniu prywatności danych użytkownika.

Konkurencja dla Google Circle To Search

Microsoft najwyraźniej pozycjonuje Click To Do jako swoją odpowiedź na Google Circle To Search – funkcję, która cieszy się dużą popularnością na Androidzie od początku 2024 roku. Circle to Search pozwala użytkownikom smartfonów szybko wyszukać informacje o dowolnym elemencie na ekranie poprzez proste obrysowanie go palcem.

Pod pewnymi względami Click To Do wydaje się bardziej zaawansowane niż rozwiązanie Google. Podczas gdy Circle to Search koncentruje się głównie na wyszukiwaniu w internecie, Windows 11 oferuje szerszy zestaw akcji wykorzystujących modele działające lokalnie na urządzeniu. Click To Do potrafi już analizować tekst, który można następnie podsumowywać, tworzyć z niego listy, a nawet przepisywać. Może również identyfikować obrazy i oferować szybkie akcje, takie jak rozmycie lub usunięcie tła.

Microsoft stawia na prywatność – w przeciwieństwie do Circle to Search, które wymaga połączenia z internetem, wszystkie operacje Click To Do odbywają się lokalnie. To oznacza, że żadne dane nie opuszczają urządzenia podczas analizy obrazów czy tekstu.

Kiedy i gdzie będzie dostępne?

Nowa funkcja opisywania obrazów jest już dostępna w ramach Windows 11 Insider Program, konkretnie w kanałach Beta i Dev. Ogólny rollout dla wszystkich użytkowników planowany jest na później w tym roku.

Obecnie podgląd jest dostępny wyłącznie na komputerach Copilot+ PC z procesorem Snapdragon, ale Microsoft zapowiedział, że układy Intela i AMD uzyskają dostęp do funkcji w najbliższych tygodniach.

Ważna informacja dla Europy: Funkcje Recall i Click To Do nie będą dostępne w Europejskim Obszarze Gospodarczym aż do końca 2025 roku. Dotyczy to również nowej funkcji opisywania obrazów, która jest częścią ekosystemu Click To Do.

Funkcje obsługują obecnie sześć języków: angielski, chiński (uproszczony), francuski, niemiecki, japoński i hiszpański. Nie ma jeszcze informacji o planach dodania wsparcia dla języka polskiego.

Czy to rozwiązanie rzeczywiście odmieni sposób, w jaki korzystamy z komputerów? A może to kolejny krok w kierunku bardziej przystępnego Windows 11 dla osób z niepełnosprawnościami? Jedno jest pewne – wojna o najlepsze AI na pulpicie dopiero się rozpoczyna, a Microsoft stara się nadrobić zaległości w stosunku do Google i jego mobilnych rozwiązań.

Czytaj też: Microsoft ma kolejny pomysł na wciśnięcie AI do Windows 11

Pozostaje tylko pytanie, czy użytkownicy będą skłonni inwestować w nowe, drogie komputery Copilot+ PC, aby skorzystać z tych możliwości – szczególnie w Polsce, gdzie Windows 11 version 24H2 jest już szeroko dostępny od października 2024 roku, ale nowe funkcje AI pozostają nadal poza zasięgiem większości użytkowników.