W grudniu ubiegłego roku Google wprowadziło model Gemini Pro do Barda, wzbogacając go o bardziej zaawansowane możliwości rozumienia, argumentowania, podsumowywania i kodowania w języku angielskim. Początek lutego to jego aktualizacja, dzięki której rozumie wszystkie języki. Równie istotną atrakcją jest wprowadzenie do niego generatora obrazów. Midjourney ma się czego obawiać?

Bard a generowanie grafik – co potrafi?

Jak można przeczytać na stronie Google’a: “generowanie obrazu w Bardzie możliwe jest dzięki zastosowaniu naszego zaktualizowanego modelu Imagen 2, który oferuje fotorealistyczne wyniki wysokiej jakości”. Ma to działać jak przy innych podobnych narzędziach, a więc podajesz opis, a w efekcie Bard generuje grafikę, że proszę siadać. Trzeba tylko taki prompt poprzedzić zwrotem “create image of” lub po prostu “draw”.

Sztuczna inteligencja używa narzędzia SynthID, które umożliwia umieszczanie rozpoznawalnych cyfrowo znaków wodnych w pikselach wygenerowanych obrazów. Zablokowano możliwość tworzenia treści zawierających przemoc, obraźliwych lub o charakterze jednoznacznie seksualnym. Stosowane są też filtry, aby uniknąć generowania obrazów konkretnych osób.

Gemini Pro to jeden z trzech modeli z rodziny sztucznej inteligencji od Google’a. Gemini Nano (mogący obsłużyć 3, mld parametrów) zastosowano w najnowszych smartfonach Pixel, a Gemini Ultra ma pojawić się wkrótce i będzie najsilniejsze. W chatbocie Bard wykorzystywane jest do tworzenia obrazów narzędzie ImageFX. Stworzone zostało w należącym do Google’a programie AI Test Kitchen, w którym stworzono już MusicFX oraz TextFX. Wygląda zatem na to, że Gemini może być stosowane już wszędzie.

Jeśli chcesz tworzyć obrazy przy pomocy tego narzędzia, niekoniecznie może się udać. Spróbowałem kilka razy i zawsze otrzymywałem informację: “I’m still learning to create images so I can’t help you with that yet” lub “That’s not something I’m able to do yet”. Co ciekawe, gdy pisałem po polsku, Bard ochoczo opisywał scenę i dawał porady, jak ją ulepszyć. Oto efekt prompta “wygeneruj obraz astronauty siedzącego na tronie z czaszek i kości, tron stoi na asteroidzie, gdzie znajdują się artefakty obcych cywilizacji”

No cóż, póki co Kreator Obrazów Bing nie miał z tym problemu – i efekty naprawdę są niezłe. Czekam zatem na to, aby móc sprawdzić na tym polu Gemini Pro.