W świecie, w którym cyfrowa kreatywność rozwija się w zawrotnym tempie, połączenie sztucznej inteligencji z fizycznymi klockami konstrukcyjnymi otwiera zupełnie nowe ścieżki innowacji. To połączenie nie tylko redefiniuje granice projektowania, ale także rzuca wyzwanie naszemu rozumieniu tego, co nowoczesne rozwiązania technologiczne są w stanie stworzyć, kiedy tylko dostaną odpowiednie narzędzia.

Od słów do klocków, czyli jak działa LegoGPT?

LegoGPT pokazuje, jak sztuczna inteligencja może przejść od abstrakcyjnych obliczeń do fizycznych realizacji. Jest to model sztucznej inteligencji, który przyjmuje zwyczajne opisy tekstowe i na ich podstawie generuje stabilne fizycznie struktury LEGO. Jego podstawą jest zmodyfikowany model językowy LLaMA-3.2-1B-Instruct od Meta, który to jest przystosowany do przewidywania nie kolejnego słowa, a następnego klocka. To pozwala modelowi ustalać optymalną sekwencję elementów LEGO do zbudowania danego projektu, choć oczywiście nie wszystko jest tak proste.

Aby zapewnić trwałość budowanych konstrukcji, zespół badawczy zintegrował moduł walidacji fizycznej. Ocena każdej propozycji klocka uwzględnia takie czynniki jak grawitacja i integralność strukturalna. Jeśli dodanie elementu zaburza stabilność, system uruchamia funkcję rollback uwzględniający fizykę, wycofując go i testując inne rozwiązania. Ta iteracyjna metoda zwiększyła stabilność gotowych modeli z 24% do imponujących 98,8%.

Sercem sukcesu LegoGPT jest zestaw danych StableText2Lego, zawierający ponad 47000 struktur LEGO z przypisanym opisem wygenerowanym przez GPT-4o. Baza obejmuje ponad 28000 unikalnych obiektów 3D z 21 kategorii — od krzeseł i gitar po łodzie. Do stworzenia danych naukowcy użyli biblioteki ShapeNetCore, zawierającej modele 3D. Obiekty zostały “zawokselowane” w siatce 20×20×20, a następnie przekształcone w wersje kompatybilne z LEGO. Każda konstrukcja została następnie przetestowana pod kątem stabilności i tylko te spełniające wymogi trafiły do bazy danych.

Kolejnym krokiem były rzeczywiste testy. Aby sprawdzić praktyczne możliwości LegoGPT, wygenerowane przez model projekty były budowane zarówno przez robotyczne ramiona, jak i ręcznie przez ludzi. Obie metody potwierdziły, że konstrukcje nie tylko są wykonalne, ale też stabilne w rzeczywistości. Co ciekawe, zespół badawczy postawił na otwartość i efektem tego jest to, że LegoGPT jest dostępny jako projekt open source. Każdy może pobrać model, dane i kod z GitHuba, ale należy pamiętać, że uruchomienie systemu wymaga dostępu do modelu LLaMA-3.2-1B-Instruct oraz licencji Gurobi, która to jest potrzebna do przeprowadzania analiz stabilności.

Powstanie LegoGPT to w pewnym sensie przełomowy moment w historii sztucznej inteligencji, bo stanowi przejście od analizy tekstu do tworzenia fizycznych obiektów. Dzięki połączeniu języka i materii narzędzie to może znaleźć zastosowanie w automatyzacji projektowania, edukacji, a nawet produkcji przemysłowej. W miarę jak SI staje się częścią naszego codziennego życia, projekty takie jak LegoGPT pokazują, że maszyny potrafią nie tylko rozumieć nasz język, ale również realizować nasze pomysły w rzeczywistym świecie. To początek nowej ery, w której granice między wyobraźnią a rzeczywistością zaczynają się zacierać.