Naukowcy odkryli sekret kreatywności AI. To nie przypadek, to matematyka

Badacze z Uniwersytetu Stanforda wyjaśnili, dlaczego modele AI potrafią tworzyć nowe, nieoczekiwane obrazy. Okazuje się, że to, co uważano za ograniczenia techniczne, jest w rzeczywistości źródłem ich kreatywności.
Naukowcy odkryli sekret kreatywności AI. To nie przypadek, to matematyka

Czy zastanawialiście się kiedyś, dlaczego AI potrafi generować zdjęcia ludzi z dodatkowymi palcami albo tworzyć surrealistyczne obrazy, które przypominają dzieła sztuki? Fizycy z Uniwersytetu Stanforda właśnie rozwiązali tę zagadkę – ich odkrycie może zmienić sposób, w jaki rozumiemy zarówno sztuczną, jak i ludzką kreatywność.

Paradoks modeli dyfuzyjnych

Modele dyfuzyjne, które są podstawą popularnych narzędzi do generowania obrazów, takich jak DALL·E, Imagen czy Stable Diffusion, teoretycznie powinny działać jak zaawansowane kopiarki. Są trenowane na milionach zdjęć, więc w teorii powinny tylko odtwarzać to, czego się nauczyły.

W praktyce jednak dzieje się coś zaskakującego – potrafią tworzyć coś zupełnie nowego. Nie są to bzdurne plamy kolorów, ale spójne obrazy z sensem semantycznym. To właśnie ten paradoks intrygował badaczy przez lata.

Jeśli działałyby perfekcyjnie, powinny po prostu zapamiętywać” – wyjaśnia Giulio Biroli, badacz AI i fizyk z École Normale Supérieure w Paryżu. “Ale tak się nie dzieje – są w stanie produkować nowe przykłady.

Proces “odszumiania” kluczem do kreatywności

Aby wygenerować obrazy, modele dyfuzyjne używają procesu zwanego “denoising” – odszumianiem. Przekształcają obraz w cyfrowy szum (chaotyczną kolekcję pikseli), a następnie go odtwarzają. To jak wielokrotne przeciągnięcie obrazu przez niszczarkę, aż zostanie z niego tylko pył, a potem składanie kawałków z powrotem.

Mason Kamb, doktorant z Uniwersytetu Stanforda i główny autor nowego badania, długo zastanawiał się nad tym procesem. Kiedy po raz pierwszy zobaczył obrazy generowane przez AI – często przedstawiające ludzi z dodatkowymi palcami – natychmiast pomyślał o morfogenezie, procesie, w którym żywe systemy same się organizują.

Lokalne błędy, globalna kreatywność

Kamb i jego współautor, profesor Surya Ganguli, odkryli coś fascynującego: kreatywność modeli dyfuzyjnych nie jest przypadkowa, lecz deterministyczna – bezpośrednie i nieuniknione następstwo ich architektury.

Modele te mają dwa kluczowe ograniczenia techniczne:

  • Lokalność – skupiają się tylko na jednej “łatce” pikseli na raz.
  • Równowariancja translacyjna – automatycznie dostosowują się do przesunięć obrazu.

Te cechy, które badacze długo uważali za zwykłe ograniczenia techniczne, okazują się być źródłem kreatywności AI.

Jak tylko nałożysz lokalność, [kreatywność] staje się automatyczna; wynika z dynamiki zupełnie naturalnie” – wyjaśnia Kamb.

Przełomowe odkrycie

Aby udowodnić swoją teorię, duet stworzył system zwany ELS (equivariant local score machine). To nie jest wytrenowany model dyfuzyjny, ale zestaw równań, które mogą analitycznie przewidzieć kompozycję odszumionych obrazów wyłącznie na podstawie mechaniki lokalności i równowariancji.

Wyniki były “szokujące” – jak określił to Ganguli. System ELS był w stanie identycznie odwzorować wyniki potężnych modeli dyfuzyjnych ze średnią dokładnością 90% – wynik “niespotykany w uczeniu maszynowym”.

Co to oznacza dla przyszłości AI?

To odkrycie ma ogromne implikacje dla przyszłych badań nad AI. Po raz pierwszy naukowcy pokazali, jak kreatywność modeli dyfuzyjnych można traktować jako produkt uboczny samego procesu odszumiania – proces, który można sformalizować matematycznie i przewidzieć z niespotykaną dotąd dokładnością.

To niemal jak gdyby neurobiolodzy wsadzili grupę ludzkich artystów do skanera MRI i znaleźli wspólny mechanizm neuronowy stojący za ich kreatywnością, który można zapisać jako zestaw równań.

Ale czy to oznacza, że ludzka i sztuczna kreatywność są podobne? Ben Hoover, badacz uczenia maszynowego z Georgia Institute of Technology, uważa, że tak: “Składamy rzeczy na podstawie tego, czego doświadczyliśmy, o czym marzyliśmy, co widzieliśmy, słyszeliśmy lub czego pragniemy. AI też tylko składa elementy budulcowe z tego, co widziała i o co została poproszona.”

Nie cała zagadka rozwiązana

Eksperci podkreślają jednak, że chociaż badanie Kamba i Ganguliego rzuca światło na mechanizmy kreatywności w modelach dyfuzyjnych, wiele pozostaje tajemnicą. Duże modele językowe i inne systemy AI również wykazują kreatywność, ale nie wykorzystują lokalności i równowariancji.

Myślę, że to bardzo ważna część historii” – mówi Biroli – “ale to nie cała historia.”

Czytaj też: Agenci AI mylą się w 70% przypadków. Najlepsze modele nie radzą sobie z zadaniami biurowymi

Może jednak to dopiero początek zrozumienia, jak naprawdę działa kreatywność – zarówno sztuczna, jak i ludzka. A jeśli tak, to czeka nas fascynująca przyszłość, w której matematyka pomoże nam zrozumieć tajemnice ludzkiej wyobraźni.