Gemini w końcu przestanie być frustrujące w edycji zdjęć. Zmierza do nas obiecująca nowość

Skoro już dostaliśmy możliwość edytowania tworzonych za pomocą Gemini zdjęć, to po jaką cholerę za każdym razem dostajemy nowy obrazek, który ma się nijak do poprzedniego? Być może ktoś po drugiej stronie usłyszał tego typu utyskiwania i w końcu coś z tym zrobił. Generatywna sztuczna inteligencja od Google stanie się przez to bardziej użyteczna w codziennych zastosowaniach. Generowanie i edycja obrazu z Gemini 2.0 Flash jest teraz dostępne w wersji zapoznawczej dla deweloperów. Natywna edycja obrazu w aplikacji Gemini jest szerzej dostępna w USA, ale to tylko kwestia czasu, kiedy oczekiwana nowość przedostanie się w inne części globu. Jak to będzie w zasadzie działać?
Gemini w końcu przestanie być frustrujące w edycji zdjęć. Zmierza do nas obiecująca nowość

W przeciwieństwie do wcześniejszego sposobu, gdzie prośba o zmianę w wygenerowanym obrazie skutkowała stworzeniem zupełnie nowego, natywna edycja obrazu pozwala na dokonywanie konkretnych zmian przy zachowaniu podstawowej struktury obrazu. Funkcja ta działa zarówno dla obrazów wygenerowanych przez Gemini, jak i dla zdjęć przesłanych bezpośrednio przez użytkownika. Można więc zmieniać tła i style, zastępować obiekty oraz dodawać elementy, w tym tekst, ale rdzeń obrazka ma na szczęście pozostawać nienaruszony. Wygenerowane obrazy będą posiadać widoczny znak wodny w prawym dolnym rogu. Jest to testowa funkcja, która uzupełnia niewidoczny cyfrowy znak wodny SynthID. Widać to na przykładzie pochodzącym z 9To5Google.

Google podaje, że za sprawą natywnej edycji zdjęć będzie można przykładowo przesłać osobiste zdjęcie i poprosić Gemini o wygenerowanie obrazu przedstawiającego, jak byśmy wyglądali z innym kolorem włosów. Z mojego punktu widzenia wydaje się najważniejsze, że chatbot będzie w stanie zachować kontekst danej konwersacji odpowiadającej za edycję obrazka, a więc skończy się bezsensowne generowanie kolejnych obrazków pasujących do poprzednich niczym pięść do nosa. Na obecnym etapie generowanie i edycja obrazu wymaga użycia Gemini 2.0 Flash, ale docelowo ma być dostępne z poziomu każdego innego modelu z portfolio.

Czytaj też: Koniec przewagi ChatGPT? Gemini dostaje obsługę wielu zdjęć

Przy okazji warto wspomnieć, że aplikacja Gemini właśnie trafiła w wersji natywnej na iPady. Wcześniej Gemini na iPadzie działało w trybie okienkowym, jako powiększona wersja aplikacji na iPhone’a, co skutkowało delikatni mówiąc: mało eleganckim doświadczeniem użytkownika i koniecznością korzystania z małej klawiatury iOS. Nowa wersja aplikacji na iPada jest pełnoekranowa, zoptymalizowana i rozciąga się na całą szerokość ekranu, zarówno w orientacji pionowej, jak i poziomej. Interfejs użytkownika jest identyczny jak ten dostępny na tabletach z Androidem i na stronie w przeglądarce. Ekran główny pozostaje minimalistyczny, a czytanie czatów jest mniej ciasne i znacznie przyjemniejsze. Natywna aplikacja na iPada umożliwia też korzystanie z wielozadaniowości w trybie Split View.