Samsung proponuje nowy benchmark AI. TRUEBench sprawdzi sztuczną inteligencję w praktycznych zastosowaniach biznesowych

Testowanie wydajności systemów AI przypomina nieco egzamin na prawo jazdy – można świetnie znać teorię, ale prawdziwą wartość kierowcy weryfikuje dopiero ruch uliczny. Dotychczasowe metody oceny sztucznej inteligencji często pomijają ten praktyczny aspekt, skupiając się na laboratoryjnych warunkach, które niewiele mają wspólnego z rzeczywistymi wyzwaniami w firmach.
...

Problemy obecnych metod testowania AI

Samsung postanowił zmierzyć się z tym problemem, wprowadzając nowe narzędzie porównawcze TRUEBench, zawierająca kompleksowy zestaw wskaźników do analizy sprawności dużych modeli językowych (LLM) w rzeczywistych zastosowaniach. Wiele dostępnych na rynku narzędzi do porównywania modeli AI działa bowiem sposób odległy od przyjętej praktyki – ograniczają się głównie do języka angielskiego i prostych, pojedynczych zapytań bez uwzględnienia kontekstu. Tymczasem w rzeczywistych warunkach biznesowych pracownicy prowadzą z systemami długie, wielowątkowe rozmowy, oczekując spójności i zrozumienia niuansów.

TRUEBench

TRUEBench wyróżnia się zatem podejściem do testowania – obejmuje aż 12 języków, w tym polski, co jest znaczącym krokiem w kierunku rzeczywistej oceny wielojęzycznych możliwości AI. Narzędzie symuluje różne scenariusze dialogowe, od prostych zapytań po złożone konwersacje wymagające pamiętania kontekstu. Samsung Research zastosował zestawy testowe o długości od 8 do ponad 20 tysięcy znaków, co lepiej odzwierciedla warunki panujące w przedsiębiorstwach niż uproszczone testy.

Czytaj też: Microsoft wprowadza modele Claude do Copilota. Koniec ery dominacji OpenAI 

Co i jak analizuje TRUEBench?

Skoro miały być bardziej rzeczywiste scenariusze, to nic dziwnego, że system TRUEBEnch analizuje typowe aktywności biznesowe w 10 kategoriach i 46 podkategoriach. Obejmuje to tworzenie treści – od wiadomości e-mail po raporty marketingowe, analizę danych z wykresów i tabel, streszczanie dokumentów różnej długości oraz tłumaczenia uwzględniające kontekst biznesowy. Łącznie wykorzystano 2485 zestawów testowych, co stanowi znacznie szerszy zakres niż w przypadku większości dostępnych rozwiązań porównawczych.

TRUEBench

TRUEBench stosuje automatyczną ocenę opartą na AI, ale z kluczowym elementem nadzoru ludzkiego. Eksperci opracowują początkowy zestaw kryteriów, które następnie są weryfikowane i udoskonalane przez system w cyklicznym procesie. Samsung zdecydował się na transparentny model udostępniania danych – próbki i wyniki są dostępne na platformie Hugging Face. Użytkownicy mogą porównać do pięciu modeli AI jednocześnie, co ułatwia niezależną weryfikację metodologii.

Paul Cheun, dyrektor ds. technologii w Samsung Electronics, podkreśla ambicje firmy dotyczące ustanowienia nowych standardów w branży. TRUEBench ma potencjał, by zmienić sposób wyboru rozwiązań AI przez przedsiębiorstwa, skupiając się na praktycznej użyteczności zamiast teoretycznych parametrów.

Niebrzydka rzecz, ale czy ma jakieś zastosowanie praktyczne?

TRUEBench z pewnością stanowi krok w dobrą stronę, wprowadzając bardziej praktyczne podejście do testowania AI. Jednak warto pamiętać, że żadne narzędzie nie jest w stanie w pełni odtworzyć dynamiki i nieprzewidywalności prawdziwego środowiska biznesowego. To raczej ulepszony symulator jazdy niż test w prawdziwym ruchu ulicznym. Dla polskich użytkowników zaletą jest niewątpliwie uwzględnienie naszego języka w testach, co TRUEBench zapewnia – w końcu są znaki, że przestajemy być rynkiem drugiej kategorii.