ChatGPT Images 2.0. OpenAI rzuca wyzwanie Google w wyścigu o fotorealizm i logikę

Wyścig sztucznej inteligencji trwa w najlepsze. Kiedy Google ogłasza jakieś nowości dla Gemini, to można być pewnym, że niedługo później Open AI zrobi to samo. W tym przypadku firma ogłosiła ChatGPT Images 2.0 – system, który ma nie tylko dorównać, ale i prześcignąć najnowsze rozwiązanie rywala, czyli Nano Banana 2 (Gemini 3.1 Flash Image).
ChatGPT Images 2.0. OpenAI rzuca wyzwanie Google w wyścigu o fotorealizm i logikę

Instant kontra Thinking. Co oferuje ChatGPT Images 2.0?

Użytkownicy, korzystający z AI, mają różne potrzeby. Jedni wykorzystują sztuczną inteligencję do rozrywki, inni z kolei do pracy albo do nauki. OpenAI dobrze zdaje sobie z tego sprawę, dlatego podzieliło model Images 2.0 na dwa odrębne warianty. Pierwszy z nich, Instant, skupia się na szybkości. To model, który był wcześniej testowany pod kryptonimem „duct tape” i ma służyć do błyskawicznego tworzenia wysokiej jakości wizualizacji bez zbędnego czekania. Jest on dostępny dla wszystkich użytkowników ChatGPT, w tym tych korzystających z darmowej wersji.

Prawdziwa rewolucja kryje się jednak w trybie Thinking. To model dedykowany profesjonalistom (Plus, Pro, Business), który zamiast generować obraz natychmiast, najpierw „rozważa” zadanie. Dzięki temu ChatGPT Images 2.0 potrafi:

  • Łączyć się z siecią – model przeszukuje internet w poszukiwaniu aktualnych informacji, by wygenerować obraz zgodny z rzeczywistością (np. aktualny wygląd konkretnego miejsca lub produktu).
  • Weryfikować własne wyniki – AI potrafi sprawdzić, czy wygenerowany obraz jest zgodny z promptem i nanieść poprawki przed wyświetleniem go użytkownikowi.
  • Zachować spójność postaci – to przełom dla twórców komiksów, mangi czy storyboardów – tryb Thinking pozwala na utrzymanie tych samych bohaterów w różnych scenach.

Koniec z „krzaczkami” i dziwnym tekstem

Nie da się ukryć, że największą bolączką generatorów obrazów od zawsze było renderowanie tekstu. Images 2.0 zdaje się ten problem rozwiązywać. Podczas prezentacji pokazano, jak model bezbłędnie generuje interfejsy systemów operacyjnych (np. macOS) czy okna czatu z czytelnym, poprawnym tekstem. Co więcej, OpenAI znacząco poprawiło obsługę alfabetów niełacińskich – teraz znaki chińskie, japońskie, koreańskie, hindi czy bengalskie są renderowane z niespotykaną wcześniej wiernością.

Model stał się również bardziej elastyczny pod względem technicznym. Wspiera rozdzielczość do 2K oraz niezwykle szerokie spektrum proporcji obrazu – od ultra-panoramicznych 3:1 po pionowe 1:3. Dzięki temu narzędzie to staje się realną pomocą w projektowaniu interfejsów (UI), tworzeniu ikonografii czy gęstych, skomplikowanych kompozycji graficznych, gdzie każdy detal ma znaczenie.

Czytaj też: Od luźnego szkicu do gotowego kodu. Claude staje się projektantem

Innowacją jest także interaktywność. OpenAI odchodzi od modelu „wpisz prompt i czekaj”. Teraz z obrazem można „rozmawiać” – prosić o zbliżenie na detal, zmianę kompozycji czy dodanie elementu bez konieczności generowania całości od nowa. Model pamięta kontekst zmian, co pozwala na iteracyjną pracę nad projektem, aż do uzyskania idealnego efektu. To z kolei na pewno oszczędzi nam wielu nerwów, które się pojawiały, gdy ChatGPT, mając zmienić tylko jeden detal, nagle tworzył nam zupełnie nowe grafiki.

Źródło: OpenAI

Napisane przez

Joanna Marteklas

Redaktor
Zajmuję się tematyką nowych technologii i ich wpływu na codzienne życie. Piszę o cyfrowej kulturze, innowacjach oraz trendach zmieniających sposób, w jaki pracujemy i komunikujemy się ze sobą. Szczególnie interesuje mnie relacja między rozwojem technologii a współczesną popkulturą. W wolnych chwilach zakopuję się w książkach i komiksach — najczęściej w fantastyce i wuxia.