FLUX.2 i architektura RTX – koniec z ograniczeniami sprzętowymi

Modele FLUX.2 tworzą obrazy o rozdzielczości do 4 megapikseli z realistycznym renderowaniem światła i właściwościami materiałów. Twórcy skupili się na wyeliminowaniu elementów, które zdradzają sztuczne pochodzenie grafik – nienaturalnych odbić, niemożliwych fizycznie cieni czy dziwnych proporcji obiektów. Efekt? Obrazy, które naprawdę trudno odróżnić od zwykłych fotografii.

Prawdziwym wyzwaniem były wymagania sprzętowe. Podstawowy model potrzebował początkowo 90 GB pamięci VRAM – więcej niż oferuje większość profesjonalnych kart graficznych. Nawet w trybie oszczędzania pamięci wciąż wymagał 64 GB, co stawiało go poza zasięgiem zwykłych użytkowników.

Kwantyzacja FP8 i strumieniowanie wag – po to, by w ogóle FLUX.2 dało się uruchomić na twoim sprzęcie

Rozwiązanie przyszło z dwóch stron. NVIDIA i Black Forest Labs zastosowały kwantyzację FP8, czyli 8-bitowy standard obliczeń zmiennoprzecinkowych. To posunięcie zmniejszyło zapotrzebowanie na pamięć o 40 procent przy niemal niezauważalnym spadku jakości. Równocześnie programiści ComfyUI ulepszyli mechanizm strumieniowania wag, który przenosi fragmenty modelu do pamięci operacyjnej komputera, gdy zabraknie miejsca w VRAM karty graficznej.

Takie podejście nie jest oczywiście bez wad – pamięć systemowa jest jednak wyraźnie wolniejsza od dedykowanej pamięci karty, więc generowanie obrazów trwa dłużej. Jednak różnica między „w ogóle nie działa” a „działa wolniej” ma fundamentalne znaczenie dla praktycznego wykorzystania. Co ciekawe, wydajność samych modeli wzrosła o 40 procent dzięki optymalizacjom pod kątem architektury RTX.

FLUX.2 oferuje funkcje dające twórcom większy wpływ na końcowy efekt. Bezpośrednie pozycjonowanie pozwala precyzyjnie rozmieszczać elementy w kadrze. Generator tekstu radzi sobie z tworzeniem czytelnych napisów – od zawsze było to słabe ogniwo modeli generatywnych, które zwykle miały problem z poprawnym renderowaniem liter.

Funkcja wielokrotnych referencji to kolejne udogodnienie. Można dostarczyć do sześciu obrazów źródłowych, a model wygeneruje warianty łączące ich elementy. Przydaje się to przy iteracyjnej pracy nad projektem, gdy potrzebnych jest kilka wersji tego samego motywu z drobnymi modyfikacjami.

Modele są już dostępne dla użytkowników. Wystarczy zaktualizować ComfyUI – popularne narzędzie do uruchamiania wizualnych modeli AI – które zawiera gotowe szablony do pracy z FLUX.2. Pliki modeli można pobrać ze strony Black Forest Labs na platformie Hugging Face.