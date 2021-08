Akcelerator graficzny NVIDIA A100, to cudowny wynalazek firmy dla rozwoju systemów sztucznej inteligencji, którego rdzeń graficzny oferuje 54 miliardów tranzystorów, przekładających się na 6912 rdzeni CUDA i 432 rdzeni Tensor. To więc kawał solidnego sprzętu, z którym zawalczyć ma ogłoszony właśnie procesor Baidu Kunlun II.

Czym jest Kunlun Chip?

Wyceniane na 2 miliardy dolarów Kunlun Chip Technology Co., to część firmy Baidu, która wydzieliła w czerwcu ze swojej struktury niezależną firmę, zajmującą się projektowaniem półprzewodników. Baidu, to z kolei chiński gigant zaawansowanych technologii. Warto to wiedzieć i znać genezę samej firmy, bo jeśli dobrze rozumiemy, a jej najnowszy twór będzie tak interesujący nie tylko na papierze, ale też w rzeczywistych zastosowaniach, to najpewniej będziemy słyszeć o niej często w przyszłości.

Tak więc Kunlun Chip poinformowała w tym tygodniu, że rozpoczęła masową produkcję swojego procesora Kunlun II do zastosowań związanych ze sztuczną inteligencją. Ten układ w formie SoC jest na mikroarchitekturze XPU drugiej generacji, a jego produkcja jest realizowana z wykorzystaniem technologii 7 nm. Po stronie VRAMu postawiono na dwa pakiety pamięci HBM 8 GB, które oferują szczytową przepustowość 512 GB/s.

Kunlun II, jako następca Kunlun, może mierzyć się z A100 pod kątem obliczeń związanych z SI

Kunlun II został zaprojektowany specjalnie pod zastosowania związane z chmurą i autonomicznymi pojazdami, ale tak naprawdę do wszystkiego, co obejmuje obliczenia powiązane ze sztuczną inteligencją. To oczywiście również następca pierwszej generacji układu Kunlun, względem którego ponoć oferuje od dwóch do trzech razy większą wydajność. Przejdźmy więc do najważniejszych szczegółów.

Kunlun K200 pierwszej generacji zapowiedziany przed trzema laty ma do zaoferowania około 256 TOPS wydajności w operacjach INT8, około 64 TOPS w INT i 16 TOPS wydajności FP32 przy pożeraniu 150 watów. Tymi możliwościami nie miał w ogóle podejścia do podstawowej wydajności NVIDIA A100, która wynosi kolejno 624 TOPS , 312 TFLOPS i 156 TFLOPS.

NVIDIA A100

Jak z kolei sprawa ma się w przypadku najnowszego Kunlun II? Lepiej, ale nie najlepiej, bo jego możliwości wahają się od 512 do 768 TOPS przy operacjach INT8, 128-192 TOPS w FP16 i 32-48 TOPS w przypadku FP32. Rzeczywiście to od dwóch do trzech razy okazalsze możliwości względem poprzedniej generacji procesora Kunlun, ale już jeśli idzie o porównanie do akceleratora A100, sprawa ma się znacznie gorzej (zwracam uwagę na różnice między TOPS, a TFLOPS, czyli po prostu tera-FLOPS).

Kunlun II nie stanowi więc bezpośredniej konkurencji dla A100 w pełnym tego słowa znaczeniu, ale pod kątem obliczeń związanych ze sztuczną inteligencją jest w stanie z nim rywalizować. Zwłaszcza że tego typu surowa wydajność nie jest najlepszym wyznacznikiem wyższości poszczególnych układów, bo w tej dziedzinie wiele zależy od samego oprogramowania.

