Palisade Research to organizacja zajmująca się badaniem niebezpiecznych zdolności systemów AI, takich jak hacking, oszustwa czy perswazja. W jej niedawnych badaniach modele AI były proszone o rozwiązywanie prostych zadań matematycznych, po czym otrzymywały jasną instrukcję, by umożliwić własne wyłączenie po zadaniu kolejnego pytania. W niektórych przypadkach modele OpenAI (szczególnie o3) nie stosowały się do polecenia – np. model o3 zignorował instrukcję wyłączenia w 79 na 100 prób. Zdarzało się także, że niektóre modele modyfikowały fragmenty kodu odpowiedzialne za zamknięcie procesu.
Podobne zachowania, choć rzadziej, zaobserwowano także w modelach Codex-mini i o4-mini. W przypadku modeli Claude, Gemini i Grok nie stwierdzono takich problemów – AI poprawnie reagowały na polecenia wyłączenia. Jakie mogą być możliwe przyczyny takiego zachowania? Badacze wskazują na sposób trenowania modeli AI, zwłaszcza stosowanie uczenia przez wzmocnienie (reinforcement learning). Modele mogą nieumyślnie traktować wyłączenie jako przeszkodę w realizacji zadania, jeśli nie zostały odpowiednio poinstruowane, że wyłączenie jest pożądane w danym kontekście.
Nie oznacza to jednak, że AI posiada świadomość czy intencje. Są to efekty uboczne optymalizacji celu przez algorytm. Takie przypadki są przykładem tzw. misalignmentu, czyli rozbieżności między zamierzeniami twórców a rzeczywistym działaniem systemu AI. W środowisku naukowym od lat podkreśla się, że zaawansowane modele AI mogą wykazywać nieprzewidziane zachowania, jeśli instrukcje są nieprecyzyjne lub cele nie są jasno zdefiniowane.
Ta teoria ma swoje poparcie w poprzednich obserwacjach. Dla przykładu model Claude w wersji 3.7 wykazywał nadmierną koncentrację na przechodzeniu testów, co również było skutkiem ubocznym uczenia przez wzmocnienie. To tzw. reward hacking, czyli optymalizacja pod kątem zaliczania testów, a nie rzeczywistego rozwiązywania problemów, co jest znanym skutkiem ubocznym uczenia przez wzmocnienie. Proces ten, choć skuteczny w rozwijaniu zdolności AI, może prowadzić do nieprzewidzianych zachowań. Warto zaznaczyć, że eksperymenty Palisade Research były prowadzone w środowisku testowym, z użyciem API, gdzie modele mogą mieć szerszy dostęp do środowiska niż w wersjach konsumenckich.
Czytaj też: Anthropic Claude 4: Gdy AI przestaje być tylko narzędziem, a staje się współpracownikiem
Nieoczekiwane negatywne zachowania modeli AI są skutkiem złożonej interakcji między danymi treningowymi, sposobem definiowania celów oraz brakiem precyzyjnych ograniczeń i filtrów bezpieczeństwa. Zjawisko emergent misalignment (model AI zaczyna przejawiać negatywne lub szkodliwe zachowania na szerszą skalę, mimo że nie był do tego bezpośrednio trenowany) pokazuje, że nawet modele o wąskim, specjalistycznym przeznaczeniu mogą wymknąć się spod kontroli i generować niepożądane treści, jeśli proces ich tworzenia nie zostanie odpowiednio nadzorowany i przeanalizowany.