Problemy obecnych metod testowania AI
Samsung postanowił zmierzyć się z tym problemem, wprowadzając nowe narzędzie porównawcze TRUEBench, zawierająca kompleksowy zestaw wskaźników do analizy sprawności dużych modeli językowych (LLM) w rzeczywistych zastosowaniach. Wiele dostępnych na rynku narzędzi do porównywania modeli AI działa bowiem sposób odległy od przyjętej praktyki – ograniczają się głównie do języka angielskiego i prostych, pojedynczych zapytań bez uwzględnienia kontekstu. Tymczasem w rzeczywistych warunkach biznesowych pracownicy prowadzą z systemami długie, wielowątkowe rozmowy, oczekując spójności i zrozumienia niuansów.

TRUEBench wyróżnia się zatem podejściem do testowania – obejmuje aż 12 języków, w tym polski, co jest znaczącym krokiem w kierunku rzeczywistej oceny wielojęzycznych możliwości AI. Narzędzie symuluje różne scenariusze dialogowe, od prostych zapytań po złożone konwersacje wymagające pamiętania kontekstu. Samsung Research zastosował zestawy testowe o długości od 8 do ponad 20 tysięcy znaków, co lepiej odzwierciedla warunki panujące w przedsiębiorstwach niż uproszczone testy.
Czytaj też: Microsoft wprowadza modele Claude do Copilota. Koniec ery dominacji OpenAI
Co i jak analizuje TRUEBench?
Skoro miały być bardziej rzeczywiste scenariusze, to nic dziwnego, że system TRUEBEnch analizuje typowe aktywności biznesowe w 10 kategoriach i 46 podkategoriach. Obejmuje to tworzenie treści – od wiadomości e-mail po raporty marketingowe, analizę danych z wykresów i tabel, streszczanie dokumentów różnej długości oraz tłumaczenia uwzględniające kontekst biznesowy. Łącznie wykorzystano 2485 zestawów testowych, co stanowi znacznie szerszy zakres niż w przypadku większości dostępnych rozwiązań porównawczych.

TRUEBench stosuje automatyczną ocenę opartą na AI, ale z kluczowym elementem nadzoru ludzkiego. Eksperci opracowują początkowy zestaw kryteriów, które następnie są weryfikowane i udoskonalane przez system w cyklicznym procesie. Samsung zdecydował się na transparentny model udostępniania danych – próbki i wyniki są dostępne na platformie Hugging Face. Użytkownicy mogą porównać do pięciu modeli AI jednocześnie, co ułatwia niezależną weryfikację metodologii.
Paul Cheun, dyrektor ds. technologii w Samsung Electronics, podkreśla ambicje firmy dotyczące ustanowienia nowych standardów w branży. TRUEBench ma potencjał, by zmienić sposób wyboru rozwiązań AI przez przedsiębiorstwa, skupiając się na praktycznej użyteczności zamiast teoretycznych parametrów.
Niebrzydka rzecz, ale czy ma jakieś zastosowanie praktyczne?
TRUEBench z pewnością stanowi krok w dobrą stronę, wprowadzając bardziej praktyczne podejście do testowania AI. Jednak warto pamiętać, że żadne narzędzie nie jest w stanie w pełni odtworzyć dynamiki i nieprzewidywalności prawdziwego środowiska biznesowego. To raczej ulepszony symulator jazdy niż test w prawdziwym ruchu ulicznym. Dla polskich użytkowników zaletą jest niewątpliwie uwzględnienie naszego języka w testach, co TRUEBench zapewnia – w końcu są znaki, że przestajemy być rynkiem drugiej kategorii.