Ten komputer jest mniejszy od mojego routera, a bije na głowę wydajność potężnego peceta

Mały jak router, a projektowany jak narzędzie prosto do serwerowni. NVIDIA DGX Spark to referencyjny komputer z Linuxem od firmy odpowiadającej m.in. za najwydajniejsze karty graficzne, który ma przenieść poważną pracę z modelami sztucznej inteligencji (SI) z chmury na biurko. Łączy superchip Grace Blackwell z jedną, wspólną pulą 128 GB pamięci, żeby uruchamiać duże modele bez żonglowania RAM i VRAM.
...

Idea i architektura NVIDIA DGX Spark

NVIDIA DGX Spark to mały, maksymalnie 240-watowy komputer, którego firma NVIDIA sprzedaje jako osobisty superkomputer dedykowany pracy ze sztuczną inteligencją (SI) dla deweloperów, badaczy i firm, które chcą trenować, dostrajać i uruchamiać modele sztucznej inteligencji całkowicie lokalnie, zamiast płacić za zasoby chmurowe. W praktyce nie jest to zwykły mini PC, tylko referencyjna platforma (tak jak referencyjne karty graficzne) oparta na nowym superchipie GB10 Grace Blackwell, czyli jednym układzie łączącym 20-rdzeniowy procesor ARM z akceleratorem SI generacji Blackwell o TDP na poziomie 140 watów. Mowa odpowiednio o połączeniu 10 rdzeni Cortex-X925 z 10 Cortex-A75 oraz akceleratorze wyposażonym w rdzenie Tensor 5. generacji i RT 4. generacji.

Czytaj też: Recenzja Wiedźmin: Ścieżka Przeznaczenia. Niczym gra wideo pocięta dla sprzedaży DLC

Cały zestaw działa w ramach jednej wspólnej puli pamięci w postaci 128 GB zunifikowanej pamięci LPDDR5X-4266 na 256-bitowej magistrali, którą współdzielą CPU i GPU bez kopiowania danych między RAM i VRAM. Taka architektura pozwala ładować i obsługiwać lokalnie modele językowe o rozmiarze nawet do około 200 mld parametrów, a NVIDIA utrzymuje, że w tym formacie ukryła wydajność rzędu jednego petaFLOPS przy precyzji FP4, co do tej pory było zarezerwowane dla serwerowni, a nie biurka. Właśnie tak – biurka i to wcale nie przesadzone określenie.

Format, porty i opcja na klaster

DGX Spark to nie coś, co wymaga dokupienia szafy typu rack czy drugiego stolika specjalnie pod niego. Ten komputer mierzy ledwie 150 × 150 × 50,5 mm, a waży około 1,2 kg, więc jest to raczej grubsza kostka mniejsza od lepszych routerów, a nie klasyczna stacja robocza pod biurkiem. Musicie jednak pamiętać, że w zestawie z DGX Spark znajdziecie 240-watowy zasilacz przypomina typową “laptopową kostkę”, więc i jego trzeba gdzieś upchnąć.

W środku może znaleźć się do 4 TB pamięci masowej na złączu NVMe PCIe 5.0, a na zewnątrz podstawowym zestawem portów wejścia i wyjścia jest HDMI 2.1a, LAN 10 GbE oraz cztery szybkie USB-C (1xUSB 3.2 Gen 2×2 z PowerDelivery oraz 3x USB 3.2). Do tego NVIDIA dorzuciła łączność przez kartę sieciową klasy ConnectX-7, a to po to, żeby dało się połączyć (oficjalnie) dwa takie komputerki w mały klaster i zwiększyć limit rozmiaru modelu nawet powyżej 200 mld parametrów.

Oprogramowanie i zastosowania NVIDIA DGX Spark

Cała rewolucyjność DGX Spark polega na tym, że użytkownik dostaje nie tylko hardware, ale od razu gotowe środowisko pracy. Maszyna przychodzi z preinstalowanym systemem DGX OS opartym na Linuksie i pełnym stosem oprogramowania NVIDIA AI, więc już od pierwszego uruchomienia można zapomnieć o żmudnym przeklikiwaniu najbardziej podstawowej konfiguracji.

Zamiast tego można normalnie pracować z SI lokalnie i w efekcie da się szybko prototypować własne narzędzia (na przykład asystenta do dokumentów firmowych), trenować modele na swoich danych, wykonywać fine tuning, czyli dopasowywać istniejące duże modele językowe do konkretnego zadania oraz uruchamiać tak zwane inference, czyli… no, uznajmy, że “tradycyjne” działanie modelu, które obejmuje odpowiadanie na pytania, streszczanie tekstu czy analizę zdjęć, czy grafik. Wszystko to poprzez wykorzystanie zarówno modeli językowych klasy LLM, w formie ChatGPT-owych odpowiedników od firmy Meta czy Google, jak i modeli multimodalnych, które potrafią pracować na tekście i obrazie równocześnie.

Cena rynkowa i niereferencyjne DGX Spark

Od strony rynkowej Spark jest pozycjonowany jako narzędzie, które ma sprowadzić potęgę SI z poziomu centrum danych na zwykłe biurko. NVIDIA wycenia DGX Spark na około 3999 dolarów w wersji Founder’s Edition, sprzedając go wprost jako biurkowy superkomputer AI, który każdy może kupić tak samo jak kupuje laptopa do pracy. Celem stworzenia i rozpoczęcia sprzedawania takiego modelu było naturalnie obniżenie progu wejścia do pracy z dużymi modelami bez konieczności utrzymywania własnej szafy serwerowej albo kupowania godzin w chmurze. 

Czytaj też: Recenzja The Outer Worlds 2. To “nowy Fallout”, na którego czekałem

W tym właśnie miejscu pojawiają się inne firmy, które zamawiają DGX Spark prosto od NVIDII jako partnerzy technologiczni i stosunkowo je przerabiają. Do tej pory nie dostaliśmy wprawdzie konstrukcji różniących się znacznie od oryginału, ale ta najważniejsza praca, którą takie firmy muszą wykonać, sprowadza się do rozwijania oprogramowania realnie ułatwiającego cały proces konfiguracji i aktywowania swoich lokalnych modeli SI.

Tradycyjny PC vs DGX Spark

DGX Spark  to wyspecjalizowane urządzenie do pracy z modelami SI, a nie taki typowy komputer. Z zewnątrz wygląda jak mini PC, ale w środku ma superchip NVIDIA GB10 Grace Blackwell, czyli CPU i akcelerator AI w jednym układzie ze wspólną pamięcią dynamiczną. Typowy laptop lub desktop z RTX 5090 to klasyczna para CPU + osobna karta graficzna połączona przez PCIe. Ta różnica architektoniczna definiuje wszystko, bo przez to właśnie nią dzieło NVIDIA wyróżnia się dużą pojemnością pamięci, a PC z RTX 5090 wszechstronnością, ale w stopniu, w którym nigdy nie dorówna DGX Spark przez ograniczenia pamięciowe kart graficznych.

Różnica pamięci i charakter obliczeń

W AI TOP ATOM CPU i GPU korzystają z jednej, zunifikowanej puli 128 GB pamięci LPDDR5X. Dzięki temu cały model LLM (a nawet modele, bo pamiętajcie, 128 GB pamięci!) siedzi w jednej puli pamięci, co przekłada się na brak potrzeby kopiowania między RAM a VRAM, dzięki czemu sprzęt unika wąskich gardeł wszelkich magistral. To ułatwia ładowanie bardzo dużych kontekstów i większych modeli, a na dodatek stabilizuje pracę z długimi sesjami. 

W typowym PC mamy dwie odseparowane pamięci dynamiczne, bo pamięć RAM w formie modułów DDR na płycie i bardzo szybki, ale pojemnościowo ograniczony VRAM obecny na karcie graficznej. RTX 5090 prawdopodobnie zaoferuje dużo wyższą przepustowość VRAM niż LPDDR5X, ale przez swoją pojemność nie będzie mógł zapewnić wysokiej wydajności, a nawet wprowadzić w ruch wielu modeli.

Drugi wymiar to charakter obliczeń. NVIDIA DGX Spark jest projektowany pod niskie precyzje obliczeń sztucznej inteligencji typu FP8 czy FP4 z wykorzystaniem sparsowania i przyspieszaczy transformera, czyli dokładnie pod to, co robią współczesne duże modele językowe i modele multimodalne. Ma dostarczać wysoką wydajność w inference i lekkim fine tuningu, a to wszystko w ściśle kontrolowanym budżecie mocy całego komputera, a nie kombajnu energetycznego w postaci potężnego komputera na platformie X86. Z drugiej strony, zapomnijcie o szerokim rozbudowywaniu DGX Spark, bo w praktyce możecie bawić się wyłącznie w wymianę dysku SSD. Z drugiej jednak strony wyróżnia się on łącznością SmartNIC, która pozwala na połączenie ze sobą dwóch komputerów tego typu, aby zwiększyć możliwości sprzętu. 

Dlaczego DGX Spark, a nie mocny komputer?

W idealnym świecie macie już mocny komputer i odpuściliście zabawy z AI przez wymagania w zakresie pamięci VRAM. W takim scenariuszu kupujecie DGX Spark, robiąc z niego “drugi komputer”, ale konfigurujecie go pod styl działającego w tle NAS-a. Wtedy sprawa jest prosta – dzieło NVIDII siedzi sobie w spokoju ze swoimi modelami, a my zalewamy je zdalnie pytaniami i poleceniami. Oczywiście DGX Spark może działać też tak, jak całkowicie lokalna maszyna z interfejsem graficznym i całym oprogramowaniem charakterystycznym dla Linuxa. W praktyce jednak NVIDIA zaprojektowała ten sprzęt po to, aby pełnił funkcję zewnętrznego serwera-akceleratora, z którym to możemy łączyć się z dowolnego urządzenia z dostępem do Internetu.

Na temat DGX Spark wypowiedział się do tej pory między innymi John Carmack, czyli były CTO Oculus VR i współtwórca Dooma, który twierdzi, że jego egzemplarz DGX Spark w praktycznym obciążeniu nie osiąga deklarowanych parametrów energetycznych i obliczeniowych. Według jego relacji urządzenie pobiera raczej około 100 watów mocy zamiast reklamowanych 240 W i dostarcza mniej niż połowę marketingowo ogłaszanej wydajności rzędu jednego petaFLOPS przy precyzji FP4, a na dodatek przegrzewa się i zalicza samoczynne restarty.

Czytaj też: Recenzja Battlefield 6 dla żółtodziobów, czyli mój pierwszy na poważnie raz z serią Battlefield

Trudno się więc dziwić, że firma AMD zaczęła aktywniej promować alternatywę opartą na swoim sprzęcie Strix Halo jako potencjalnie chłodniejsze i stabilniejsze rozwiązanie do lokalnego wykorzystania zastosowania SI. Spór o faktyczną wydajność Spark jest ważny, bo ustawia go nie jako cudowną magiczną kostkę, tylko jako bardzo agresywny kompromis inżynieryjny: ekstremalnie małą obudowę próbującą zmieścić klasę mocy i pamięci, która normalnie żyje w dużo większych platformach serwerowych.