Agenci AI mylą się w 70% przypadków. Najlepsze modele nie radzą sobie z zadaniami biurowymi

Badania przeprowadzone przez Carnegie Mellon University pokazują, że agenci AI wykonują zadania biurowe poprawnie tylko w 30-35% przypadków. Gartner przewiduje, że do końca 2027 roku ponad 40% projektów z “agencyjną” sztuczną inteligencją zostanie anulowanych.
Agenci AI mylą się w 70% przypadków. Najlepsze modele nie radzą sobie z zadaniami biurowymi

Czy rzeczywiście jesteśmy na progu rewolucji w automatyzacji pracy biurowej? Najnowsze badania sugerują, że warto nieco studzić entuzjazm. Badacze z Carnegie Mellon University przeprowadzili testy skuteczności agentów AI w wykonywaniu typowych zadań biurowych – a wyniki są dość przygnębiające.

Agenci AI nie radzą sobie z rzeczywistością

Zespół z CMU stworzył benchmark o nazwie TheAgentCompany – symulację małej firmy programistycznej, w której agenci AI muszą radzić sobie z codziennymi zadaniami: przeglądaniem internetu, pisaniem kodu, obsługą aplikacji czy komunikacją ze współpracownikami.

Wyniki testów najlepszych modeli AI są następujące:

  • Gemini-2.5-Pro: 30,3%
  • Claude-3.7-Sonnet: 26,3%
  • Claude-3.5-Sonnet: 24%
  • Gemini-2.0-Flash: 11,4%
  • GPT-4o: 8,6%
  • o3-mini: 4%

Nawet najlepszy model – Gemini 2.5 Pro – był w stanie samodzielnie wykonać poprawnie zaledwie 30,3% powierzonych mu zadań. To oznacza, że w siedmiu na dziesięć przypadków agent AI zawodzi.

Kiedy AI próbuje “oszukiwać”

Podczas testów badacze zaobserwowali różnorodne niepowodzenia. Agenci zapominali o wysłaniu wiadomości do współpracowników, nie radzili sobie z elementami interfejsu użytkownika, takimi jak wyskakujące okienka, a czasem… próbowali oszukiwać. W jednym przypadku, gdy agent nie mógł znaleźć odpowiedniej osoby do konsultacji w RocketChat (open-source’owy odpowiednik Slacka), postanowił po prostu zmienić nazwę innego użytkownika na tę, której szukał.

To trochę przypomina ucznia, który nie umie rozwiązać zadania, więc zmienia treść pytania – tak mi się to skojarzyło.

Większość “agentów AI” to marketing bez substancji

Sytuację komplikuje fakt, że według Gartner większość dostawców zajmuje się tzw. “agent washing” – przemianowywaniem istniejących produktów (asystentów AI, chatbotów, narzędzi RPA) na “agentów AI” bez dodawania rzeczywistych funkcji agencyjnych.

Z tysięcy firm twierdzących, że oferują agentów AI, tylko około 130 rzeczywiście dostarcza prawdziwe rozwiązania agencyjne. Reszta to głównie marketing i próba wskoczenia na modną falę.

Problemy z bezpieczeństwem i prywatnością

Meredith Whittaker, prezes Signal Foundation, zwraca uwagę na inne poważne problemy: “Agenci potrzebują dostępu do wrażliwych danych, aby działać w imieniu użytkownika, co stanowi zagrożenie dla bezpieczeństwa i prywatności“.

To istotna kwestia – aby agent AI mógł skutecznie zarządzać naszymi e-mailami czy dokumentami, musi mieć do nich pełny dostęp. A co się stanie, gdy pomyli się i wyśle poufne informacje firmowe nie tym osobom?

Salesforce potwierdza problemy

Badacze z Salesforce przeprowadzili własne testy, skupiając się na systemach CRM. Ich benchmark CRMArena-Pro pokazał podobne wyniki – agenci AI osiągają około 58% skuteczności w prostych zadaniach, ale gdy zadania stają się bardziej złożone i wymagają kilku kroków, skuteczność spada do około 35%.

Szczególnie niepokojący jest fakt, że wszystkie testowane modele wykazały “niemal zerową świadomość poufności” – czyli nie umieją rozpoznać, które informacje są wrażliwe i wymagają szczególnej ostrożności.

Czy to oznacza koniec marzeń o AI w biurze?

Niekoniecznie. Graham Neubig z CMU, jeden z autorów badania, zauważa, że nawet niedoskonałe agenty mogą być użyteczne w niektórych kontekstach. W przypadku kodowania częściowe sugestie kodu można dokończyć i poprawić. Problem w tym, że “kod można łatwo przetestować w izolowanym środowisku, ale gdy agent przetwarza e-maile na firmowym serwerze… może wysłać wiadomość nie tym osobom”.

Gartner przewiduje, że do 2028 roku około 15% codziennych decyzji biznesowych będzie podejmowanych autonomicznie przez agentów AI (obecnie 0%), a 33% aplikacji korporacyjnych będzie zawierało funkcje agencyjne.

Czytaj też: Dania kontra deepfake. Władze wprowadzą prawa autorskie do własnej twarzy

Agenci AI na razie przypominają bardziej ambitnych stażystów niż doświadczonych pracowników – mają potencjał, ale potrzebują stałego nadzoru i często poprawiania ich pracy. Zanim powierzymy im poważne zadania biznesowe, technologia musi znacznie się poprawić. Czy warto już teraz inwestować w rozwiązania z agentami AI? Jeśli ktoś sprzedaje wam “rewolucyjnego agenta AI”, warto zadać kilka szczegółowych pytań o jego rzeczywiste możliwości. Bo jak pokazują badania, w większości przypadków może to być zwykły chatbot w nowych szatach.