Najsilniejsze AI na świecie? Alibaba robi konkurencję ChatGPT i Gemini

Modele językowe nie potrzebują wielu parametrów, by działać przekonująco w spotkaniu z człowiekiem. Sprawa komplikuje się, gdy wymagamy od nich wnioskowania, rozumowania i odpowiadania na bardziej skomplikowane pytania. Alibaba postawił w najnowszym modelu na skalę i Qwen 3-MAX pod tym względem może zaskakiwać. Czy to przełoży się na zmianę sił na rynku sztucznej inteligencji?
...

Z perspektywy niedzielnych użytkowników, którzy model GPT kojarzą przede wszystkim z ChatemGPT, a Gemini to dla nich to narzędzie od Google, które wkrótce będzie nawet w samochodach, liczba parametrów i tokenów użytych przy tworzeniu modelu niekoniecznie ma znaczenie. Liczy się przede wszystkim szybkość i wiarygodność odpowiedzi, bo i nie zawsze nawet chodzi o zgodność z prawdą, przynajmniej do momentu, aż ktoś nie wytknie błędu. W świecie zachodnim obserwujemy rywalizację głównie między OpenAI i Google z okazjonalnymi akcentami w postaci rozwiązań od Anthropic, Perplexity czy Microsoftu.

Tymczasem w Chinach sztuczna inteligencja może być trenowana na ogromnej ilości danych. Problemem przez ostatnie lata było jednak uzyskanie jednostek obliczeniowych, które takim pakietom danych mogą sprostać. Dlatego też przykład Deepseek pokazał, że tamtejsi inżynierowie skupili się przede wszystkim na efektywności. Otwarty kod i dobra optymalizacja pomogły DeepSeek V3.1 pokonać ChatGPT, choć każde takie zwycięstwo jest mocno dyskusyjne i zależy od benchmarku. Jeśli jednak dać modelom odpowiednio dużo informacji i kontrolować rozwój ich treningu, efekty mogą być ciekawe.

Qwen 3-MAX to model z bilionem parametrów. Alibaba w detalu nie robi

Najnowsza wersja modelu Qwen 3, odsłona o oznaczeniu MAX, oferuje poziom parametrów, który robi wrażenie na pierwszy rzut oka. Inni producenci rzadko kiedy dzielą się dokładną informacją na temat tego, jak wiele parametrów ma w sobie ich model, natomiast w szacunkach mówi się o tym, że GPT-5 od OpenAI może być jeszcze większy. Niezależnie od tego, jaka jest prawda, wyniki firmy Alibaba robi wrażenie, zwłaszcza że do treningu wykorzystano 36 bilionów tokenów (czyli pojedynczych jednostek danych – od litery do słów).

Alibaba qwen 3-MAX
Qwen3-MAX to część nowej rodziny modeli od Alibaba

Taka liczba nie miałaby jednak większego znaczenia, gdyby nie wykorzystanie architektury Mixture-of-Experts, w której do określonych zadań zostaje oddelegowany konkretny ekspert, co przyspiesza proces i sprawia, że nie trzeba wykorzystywać dużej mocy do obsługi modelu. Oprócz tego zaimplementowano tu rozwiązanie o nazwie “global-batch load balancing loss, którego zadaniem jest utrzymanie trenowania na tym samym poziomie stabilności. W efekcie nie dochodzi do znacznej utraty umiejętności przy dłuższym korzystaniu, a do tego model nie musi rebalansować się na nowo, co szczególnie przy dużych modelach jest znacznym osiągnięciem.

Czytaj też: Seria Xiaomi 17 oficjalnie. Wielkie ambicje, gigantyczne baterie i innowacje z przeszłości

W porównaniu do Qwen 2.5-Max-Base udało się zoptymalizować rezultat treningów o 30% efektywniej, co skróciło proces trenowania z miesięcy do tygodni. Optymalizacje dotyczą też pracy z dużymi plikami tekstowymi. Stworzono strategię ChunkFlow, która dostarcza rezultaty 3-krotnie szybciej niż w przypadku tradycyjnej sekwencji paralelnej, czyli najpopularniejszego sposobu “rozumowania” przy dużych tekstach. W rezultacie udało się osiągnąć okno kontekstowe wielkości 1 miliona tokenów. I choć to rezultat na poziomie Claude Opus 3 czy Gemini 1.5 Pro, to mówimy o modelu z Chin z najpewniej mniejszą ilością wydajnych podzespołów.

Wyniki Qwen 3-MAX mogą robić wrażenie. Pytanie – kto na tym skorzysta?

W kwestiach praktycznych Alibaba także postawiła na osiągnięcie dobrego rezultatu. Qwen 3-MAX w teście LMArena w całościowym ujęciu zajął trzecie miejsce, przebijając GPT-5-Chat. Na pierwszym miejscu podium Gemini 2.5 Pro i Claude Opus 4. Z tym drugim Qwen 3-Max może mierzyć się w zadaniach związanych z kodowaniem dzięki wynikowi 69,6 na platformie SWE-Bench. W przypadku użycia narzędziowego wynik 74,8 w Tau2-Bench pozwolił na przebicie Claude Opus 4 i DeepSeek V3.1. To wszystko na modelu, który cały czas jest w trakcie treningu, więc jego finalna forma może okazać się jeszcze lepsza.

Alibaba nie chciało, by był to model atrakcyjny tylko dla osób z Chin, stąd duży nacisk postawiono na rozumienie wielojęzykowych zadań. Jeśli nie macie problemu z kompleksowymi promptami w języku angielskim, możecie sprawdzić Qwen 3-MAX na oficjalnej stronie.