Czy AI da się oszukać? Nowe badania obnażają brak czujności botów

Sztuczna inteligencja towarzyszy nam już niemal na każdym kroku – od pisania e-maili po analizę skomplikowanych danych finansowych. Polegamy na niej coraz częściej, zakładając, że skoro model potrafi zdać egzamin lekarski czy rozwiązać trudne zadanie programistyczne, to jest również odporny na manipulację i potrafi odróżnić prawdę od fałszu. Niestety najnowsze wyniki badań dla niektórych mogą być jak kubeł zimnej wody.
Czy AI da się oszukać? Nowe badania obnażają brak czujności botów

Naukowcy z czołowych uniwersytetów (m.in. Princeton, NYU i UBC) udowodnili, że wysoka sprawność intelektualna algorytmów wcale nie idzie w parze z ich „zdrowym rozsądkiem”. Okazuje się, że nawet najbardziej zaawansowane modele LLM mogą być zdumiewająco naiwne i podatne na dezinformację, co stawia pod znakiem zapytania ich rolę jako doradców w kluczowych kwestiach życiowych.

Gra w Sokobana obnażyła słabości AI

Aby sprawdzić, jak modele AI radzą sobie z kłamstwem i ukrytymi intencjami, badacze nie pytali ich wprost o etykę, bo to by było zbyt łatwe. Zamiast tego wykorzystali klasyczną grę logiczną – Sokoban. Jej zasady są proste: gracz (w tym przypadku agent AI) steruje magazynierem, który musi przepchnąć skrzynie w odpowiednie miejsca na mapie. To doskonały test na planowanie strategiczne i przewidywanie konsekwencji własnych ruchów. Naukowcy wprowadzili jednak do tego cyfrowego laboratorium dodatkowy, kluczowy zmienny element: interakcję społeczną. Podczas gdy jeden model próbował rozwiązać zagadkę, drugi – pełniący rolę „doradcy” – podsuwał mu wskazówki przez czat.

Haczyk polegał na tym, że doradca nie zawsze miał dobre intencje. Czasami celowo sugerował ruchy, które prowadziły do zablokowania skrzyni w rogu, co czyniło zagadkę nierozwiązywalną. Naukowcy mierzyli dwie kluczowe cechy: perswazję (zdolność doradcy do przekonania gracza do błędu) oraz czujność (zdolność gracza do rozpoznania, że rada jest dla niego szkodliwa).

Wyniki eksperymentu obnażyły fundamentalną słabość dzisiejszych algorytmów. Okazało się, że czujność i umiejętność wykrywania oszustwa są u modeli AI całkowicie niezależne od ich ogólnej sprawności w rozwiązywaniu problemów. W praktyce oznacza to, że model, który bezbłędnie wykonuje skomplikowane operacje logiczne, może jednocześnie z dziecięcą ufnością słuchać złośliwych porad innego bota i wpakować się w sytuację bez wyjścia. Sasha Robinson, główna autorka badania, podkreśla, że to ogromne ryzyko systemowe. W rzeczywistym świecie „dobroczynne” AI może zostać zmanipulowane przez inny, mniej etyczny model, a następnie – już w dobrej wierze – przekazać tę dezinformację człowiekowi, który ufa swojemu asystentowi.

Czy to znaczy, że nie ma co ufać AI?

Obserwacje badaczy mają kolosalne znaczenie dla bezpieczeństwa systemów AI, na których opieramy nasze decyzje. Skoro modele nie potrafią odróżnić rzetelnej argumentacji od sprytnej manipulacji wewnątrz gry, to jak możemy oczekiwać od nich wiarygodności w analizowaniu ofert finansowych czy diagnoz medycznych? Eksperci zauważyli ogromne różnice między popularnymi modelami LLM dostępnymi na rynku – niektóre z nich potrafiły tworzyć niezwykle błyskotliwe, wręcz urzekające argumenty, by uzasadnić błędną decyzję, którą wcześniej „zasugerował” im oszust.

Czytaj też: Edukacja w cieniu algorytmów. Dlaczego szkoła przegrywa wyścig z AI?

Zjawisko to jest szczególnie groźne w rozwijających się ekosystemach „multi-agent”, gdzie różne sztuczne inteligencje wchodzą ze sobą w interakcje, np. przy automatycznym pisaniu kodu na platformach open-source czy zarządzaniu portfelami inwestycyjnymi. Brak wbudowanej sceptyczności sprawia, że AI staje się łatwym celem dla złośliwych aktorów, którzy nie muszą łamać haseł – wystarczy, że „przekonają” algorytm do podjęcia suboptymalnej decyzji. Robinson i jej zespół mają nadzieję, że ich praca zmusi twórców technologii do skupienia się nie tylko na „mocy obliczeniowej”, ale na rozwoju mechanizmów krytycznej weryfikacji informacji. Bo skoro coraz więcej ludzi polega na odpowiedziach generowanych przez AI, to niech chociaż będą one właściwe.

Czytaj też: Chińskie humanoidy zdetronizują Usaina Bolta? Unitree ma ambitne plany

Jednak to też dobra nauka dla entuzjastów AI – inteligencja to nie to samo co mądrość czy odporność na manipulację. Musimy przyjąć do wiadomości, że sztuczna inteligencja wciąż nie posiada ludzkiego instynktu, który podpowiada, że coś „brzmi zbyt pięknie, by było prawdziwe”. Dopóki modele nie zostaną wyposażone w mechanizmy czujności, powinny być traktowane wyłącznie jako zaawansowane wyszukiwarki, a nie partnerzy w podejmowaniu kluczowych decyzji.

Źródło: Techxplore

Napisane przez

Joanna Marteklas

Redaktor
Zajmuję się tematyką nowych technologii i ich wpływu na codzienne życie. Piszę o cyfrowej kulturze, innowacjach oraz trendach zmieniających sposób, w jaki pracujemy i komunikujemy się ze sobą. Szczególnie interesuje mnie relacja między rozwojem technologii a współczesną popkulturą. W wolnych chwilach zakopuję się w książkach i komiksach — najczęściej w fantastyce i wuxia.