Chiński najpotężniejszy procesor graficzny pod lupą. Jest 2,8-krotnie wydajniejszy od NVIDIA Ampere

W połowie sierpnia chiński najpotężniejszy procesor graficzny w historii (GPGPU Biren BR100) wpadł w światło reflektorów nie bez przyczyny. Dziś z kolei możemy poznać szczegóły na jego temat, jako że podczas konferencji Hot Chips 34 firma Birentech postanowiła zdradzić dokładną specyfikację swojego dzieła.
Chiński najpotężniejszy procesor graficzny, NVIDIA Ampere, najpotężniejszy procesor graficzny,
Chiński najpotężniejszy procesor graficzny, NVIDIA Ampere, najpotężniejszy procesor graficzny,

Biren BR100 to przykład General Purpose GPU, czyli “procesora graficznego do użytku generalnego”, a więc nie tyle grania w gierki, ile konkretnych wymagających obliczeń (głównie SI)

Biren BR100 to flagowy procesor graficzny ogólnego przeznaczenia, który zaoferuje większą wydajność niż procesory graficzne NVIDIA A100… a przynajmniej w dokonywaniu obliczeń w zakresie sztucznej inteligencji. Za jego wyprodukowanie odpowiadają fabryki TSMC, które w procesie wykorzystały zarówno 7-nm proces technologiczny, jak i technologię pakowania 2.5D CoWoS.

Czytaj też: Test Krux ATAX 65% Pro RGB Wireless i przełączników Gateron Pro Yellow

To GPGPU ma aż 77 miliardów tranzystorów, wykorzystuje 300 MB pamięci podręcznej i 64 GB pamięci HBM2e o maksymalnej przepustowości 2,3 Gb/s. Obsługuje jednocześnie interfejs PCIe 5.0 i CXL, a jego fizyczny rozmiar wynosi aż 1074 mm2. Same połączenia między matrycami zostały zrealizowane za pośrednictwem 896 GB/s interfejsów, a przejście z układu monolitycznego na wielomatrycowy doprowadziło do zwiększenia wydajności o 30% i produkcyjnego uzysku o 20%.

Czytaj też: Szukasz nowego smartwatcha? Zerknij na Huawei Watch GT 2 Pro w promocyjnej cenie

Właśnie tak – Biren BR100 to przykład procesora typu MCM. Składa się z czterech stosów pamięci i dwóch matryc, które posiadają 16 Streaming Processing Clusters, obejmujących po 16 EU (Execution Units). Te jednostki wykonawcze obejmują 16 rdzeni przetwarzania strumieniowego (V-Core) i jeden silnik Tensor Engine (T-Core). V-Core jest procesorem SIMT ogólnego przeznaczenia, który posiada 16 rdzeni obsługujących operacje FP32, FP16, INT32 oraz INT16.

Takie połączenie sprawia, że wydajność BR100 wynosi:

  • 2048 TOP (INT8)
  • 1024 TFLOPs (BF16)
  • 512 TFLOPs (TF32+)
  • 256 TFLOPs (FP32)

Czytaj też: Apple przedłużyło program serwisowy dla modeli iPhone 12 i iPhone 12 Pro

To imponujące, więc nic dziwnego, że został porównany do obecnie najwydajniejszego akceleratora NVIDIA Ampere A100, który (na papierze) jest znacznie wolniejszy w różnych zadaniach HPC.