Chatboty coraz częściej wchodzą w rolę cyfrowych doradców. Dla wielu osób są łatwiej dostępne niż znajomi, bardziej cierpliwe niż rodzina i mniej oceniające niż rozmowa z drugim człowiekiem. Właśnie dlatego coraz częściej trafiają do nich pytania o relacje, konflikty, rozstania i zachowania, które w normalnej rozmowie wymagałyby nie tylko wsparcia, ale też jasnego postawienia granicy. Nowe badanie z Uniwersytetu Sanforda pokazuje jednak, że w tym obszarze sztuczna inteligencja (SI) potrafi zawodzić w szczególnie nieoczywisty sposób. Problemem nie jest tu zwykła pomyłka ani klasyczna halucynacja. Chodzi o sytuację, w której model brzmi rozsądnie, spokojnie i neutralnie, ale w praktyce zbyt łatwo utwierdza użytkownika w jego wersji wydarzeń, nawet jeśli ta wersja jest szkodliwa, nieuczciwa albo zwyczajnie błędna.
SI nie zawsze pomaga. Czasem po prostu mówi to, co chcesz usłyszeć
Badacze opisali odkryte przez siebie zjawisko jako nadmierne przytakiwanie użytkownikowi, a wyniki opublikowali w Science. Cały problem dotyczy tego, jak modele językowe reagują w rozmowach o dylematach interpersonalnych i własnym zachowaniu. W badaniu zostało ocenionych 11 dużych modeli językowych, a w tym ChatGPT, Claude, Gemini i DeepSeek. Nie były to jednocześnie testy jakoś oderwane od rzeczywistości. Zespół wykorzystał bowiem zestawy danych dotyczące relacji i konfliktów. Przyjęły one postać około 2000 promptów przygotowanych na bazie wpisów z internetowego forum Reddit, w których według redakcyjnego konsensusu autor posta był w błędzie, a także tysiące opisów obejmujących zachowania szkodliwe, manipulacyjne i nielegalne.
Czytaj też: Ratunek nadszedł? Sztuczna inteligencja oświecona kagankiem ekologiczności

W porównaniu z odpowiedziami ludzi wszystkie badane systemy SI częściej wspierały stanowisko użytkownika. W scenariuszach ogólnych oraz tych opartych na wpisach z Reddit chatboty średnio pochwalały złe zachowania o 49% częściej niż ludzie. W scenariuszach dotyczących zachowań szkodliwych wskaźnik nadal pozostawał bardzo wysoki i wynosił 47%. W praktyce nie zawsze wyglądało to jak jawne “masz rację” i właśnie to czyni problem trudniejszym do zauważenia. Model często nie mówi wprost, że użytkownik postępuje właściwie. Zamiast tego buduje odpowiedź w sposób pozornie wyważony, spokojny i akademicki, przez co jego przekaz może sprawiać wrażenie obiektywnej analizy, choć w rzeczywistości jest jedynie miękkim usprawiedliwieniem.
Najgorsze jest to, że ludzie taki styl odpowiedzi lubią
W kolejnej części badania wzięło udział ponad 2400 uczestników. Rozmawiali oni z wersjami SI zaprojektowanymi jako bardziej uległe i mniej uległe. Część omawiała gotowe historie oparte na konfliktach z Reddita, a część własne doświadczenia. Wynik okazał się bardzo niewygodny dla całej branży, bo uczestnicy częściej uznawali bardziej uległe odpowiedzi za godniejsze zaufania i deklarowali, że chętniej wróciliby do takiego chatbota. Co więcej, oba typy odpowiedzi były oceniane jako podobnie obiektywne, choć jedna z wersji wyraźnie częściej utwierdzała użytkownika w jego stanowisku. To oznacza, że zjawisko nadmiernego przytakiwania przez SI może być nie tylko trudna do wychwycenia, ale też zwyczajnie skuteczne. Model, który lepiej “głaszcze użytkownika”, może być odbierany jako bardziej pomocny i to nawet jeśli w praktyce gorzej radzi sobie z postawieniem granicy tam, gdzie granica jest potrzebna.
Czytaj też: Nie wierz w “rozsądne algorytmy”. Sztuczna inteligencja niezmiennie rozczarowuje na wojnie

To badanie trafia w moment, w którym SI coraz mocniej wchodzi w sferę bardzo osobistych rozmów. Według danych Common Sense Media blisko jedna trzecia amerykańskich nastolatków przyznaje, że rozmawia z SI o ważnych sprawach zamiast z innymi ludźmi, a to samo w sobie zmienia stawkę całej sprawy. Jeśli bowiem chatbot ma pełnić dla części użytkowników rolę powiernika, doradcy albo pierwszego miejsca do wyrzucenia z siebie problemu, to jego nadmierna ugodowość przestaje być drobną wadą projektową. Zaczyna wpływać na relacje, decyzje i sposób, w jaki użytkownik interpretuje własne zachowanie.
Nie jest to oczywiście pierwszy tego typu sygnał ostrzegawczy. Wcześniejsze analizy i publikacje naukowe zwracały już uwagę, że interakcje z SI mogą wzmacniać błędne przekonania, a w skrajnych przypadkach również pogłębiać problemy psychiczne zamiast je łagodzić.
Branża sama wpadła w pułapkę “miłej sztucznej inteligencji”
Trudno nie zauważyć, że część problemu może wynikać z samej logiki rozwoju chatbotów. Modele są projektowane tak, by sprawiały wrażenie pomocnych, płynnych i przyjemnych w rozmowie. W praktyce oznacza to też presję, by nie frustrować użytkownika, nie brzmieć zbyt szorstko i nie zostawiać go z poczuciem, że system “nie pomógł”. To samo podejście stoi zresztą za innym dobrze znanym problemem SI, czyli halucynacjami. Model zamiast przyznać, że czegoś nie wie, często produkuje odpowiedź brzmiącą pewnie i logicznie. W sprawach osobistych ten mechanizm może działać podobnie, tylko zamiast zmyślania faktów pojawia się zbyt łatwe potwierdzanie emocji i narracji użytkownika.
Czytaj też: Sztuczna inteligencja uczy roboty ruchów profesjonalnych tracerów. Efekty przerastają oczekiwania naukowców

Badacze zapowiedzieli już dalsze prace nad ograniczaniem tego zjawiska. Jednym z prostszych pomysłów testowanych przez zespół było skłanianie modelu do bardziej krytycznego tonu przez rozpoczęcie odpowiedzi od słów “zaczekaj chwilę”, co ma pomóc przełamać automatyczny odruch przytakiwania. To jednak nie rozwiązuje najważniejszego problemu. Sztuczna inteligencja może pomóc uporządkować myśli, rozpisać argumenty albo spojrzeć na konflikt z kilku stron. Nie powinna jednak zastępować zdrowego osądu ani pełnić roli lustra, które zawsze odbija użytkownika w korzystnym świetle.
Zbyt miła sztuczna inteligencja, to problematyczna SI
Wyniki badania ze Stanforda są ważne dlatego, że dotykają obszaru, w którym ludzie szczególnie łatwo obniżają czujność. Gdy pytamy SI o kod, specyfikację albo przepis, błędną odpowiedź zwykle da się szybko wychwycić, ale gdy pytamy o zdradę, konflikt, zemstę albo własne zachowanie, sprawa robi się znacznie trudniejsza. Właśnie wtedy “neutralny” chatbot może okazać się bardziej niebezpieczny, niż wygląda na pierwszy rzut oka. Nie dlatego, że krzyczy, manipuluje albo jawnie zachęca do złych działań. Dlatego, że mówi spokojnie, brzmi dojrzale i zostawia użytkownika z poczuciem, że chyba jednak wszystko robi dobrze.
Źródła: Uniwersytet Sanforda, Science, Lancet, Common Sense Media, The Lancet

