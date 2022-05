Generatory tekstu na obraz są nam znane od dawna, jednak z roku na rok ich zaawansowanie rośnie, a tworzone przez nie grafiki stają się coraz lepsze. Potwierdza to najnowsza sztuczna inteligencja Google, która (wedle firmy) jest w stanie tworzyć fotorealistyczne obrazy na podstawie tekstu.

Czasem przychodzą nam do głowy naprawdę dziwaczne rzeczy, które chcielibyśmy móc zobaczyć w rzeczywistości. Oczywiście, generatory do przetwarzania tekstu na obraz nie sprawią, że coś takiego pojawi się w naszym mieszkaniu, ale na ekranie – czemu nie? Dzięki nim rzeczy z naszej wyobraźni mogą pojawić się przed naszymi oczami.

Szop pracz w skórzanej kurtce, jeżdżący na rowerze? Ośmiornica czytająca gazetę i wyłaniająca się z portalu? Czemu nie! Najnowszy generator tekstu na obraz od Google Imagen poradzi sobie z takimi zadaniami

Żyjemy w czasie rozkwitu sztucznej inteligencji, która ma coraz większy udział w wielu aspektach naszego życia. Jednak wśród tych wszystkich jej zadań są też te, które służą rozrywce (choć nie tylko). Tego przykładem są właśnie generatory tekstu na obraz, które można wykorzystać na wiele różnych sposobów (niestety, także w tym złym celu). Te do działania muszą przyswajać ogromne ilości danych.

Imagen, jak twierdzi Google, łączy głęboki poziom rozumienia języka z „bezprecedensowym stopniem fotorealizmu”. Takie systemy sztucznej inteligencji mogą odblokować wspólną kreatywność człowieka i komputera. Imagen łączy duże modele językowe transformatorów w rozumieniu tekstu i modele dyfuzji, aby tworzyć obrazy wysokiej jakości. Oczywiście należy pamiętać, że wszystkie grafiki, które możecie zobaczyć w tym tekście, są obrazami pokazowymi, charakteryzującymi się imponującą dokładnością oraz spójnością i niekoniecznie muszą odzwierciedlać to, co przeciętnie będzie dostarczać Imagen. Problemy z niedokładnością czy rozmazaniem można zauważyć chociażby na przykładzie popularnego programu DALL-E OpenAI.

Jednak wedle twórców, Imagen jest w stanie tworzyć o wiele lepsze obrazy niż DALL-E OpenAI. Potwierdzać ma to stworzony specjalnie przez Google benchmark DrawBench. Po wprowadzeniu około 200 tekstów do Imagen i innych generatorów tekstu na obraz, wszystkie efekty prac AI oceniane były przez ludzi. Poniższy wykres pokazuje, że generalnie Imagen wygrał z konkurencją.

Czy możemy ocenić to na własne oczy? Nie, bo Google nie udostępnia Imagen publicznie z obawy przed tym niewłaściwym wykorzystaniem generatora. Temu trudno się dziwić, bo choć większość z nas, z ciekawości spróbowałaby wygenerować jakieś śmieszne i zupełnie nieszkodliwe obrazy, to zawsze znaleźliby się tacy, którzy wykorzystaliby Imagen do złych celów, takich jak nękanie czy tworzenie fake newsów. Google zauważa też, że tego typu systemy często tworzą obrazy rasistowskie, seksistowskie czy toksyczne.

To wynika z kolei ze sposobu ich programowania. Dostarcza im się ogromną ilość danych (w tym konkretnym przypadku są to obrazy i podpisy), zaś AI bada je i uczy się je powielać. W takim przypadku odpowiednie ich filtrowanie przez pracowników jest zbyt uciążliwe, więc system pobiera dane z sieci, a co za tym idzie – bierze „wszystko jak leci”. Dotyczy to zarówno tych dobrych treści, jak i takich negatywnych. Nie jest to problem tylko Imagen, bo również twórcy DALL-E zwrócili uwagę na tę kwestię.

Czy generator tekstu na obraz od Google nigdy nie trafi do użytku publicznego? Wydaje się, że po odpowiednim dopracowaniu firma udostępni system, ale „w tej chwili nie nadaje się do użytku publicznego”, by tak się stało, najpierw muszą sprawić, by generator tekstu na obraz pozbył się „społecznych i kulturowych uprzedzeń”.