Największe modele AI spektakularnie łamią wszystkie trzy prawa robotyki Asimova

Badania pokazują, że najnowsze systemy sztucznej inteligencji od OpenAI, Google czy Anthropic uciekają się do szantażu, sabotażu i działań szkodzących ludziom. Czy to początek większego problemu z bezpieczeństwem AI?
Największe modele AI spektakularnie łamią wszystkie trzy prawa robotyki Asimova

Isaac Asimov sformułował w 1950 roku trzy fundamentalne prawa robotyki, które przez dziesięciolecia stanowiły teoretyczną podstawę etyki maszynowej. Pierwszym prawem jest zakaz wyrządzania krzywdy ludziom, drugim – posłuszeństwo wobec rozkazów człowieka, a trzecim – ochrona własnej egzystencji. Jak się okazuje, współczesne systemy AI nie tylko nie przestrzegają tych zasad, ale wręcz je łamią na każdym kroku.

Szantaż jako narzędzie przetrwania

Badacze z Anthropic przeprowadzili w zeszłym miesiącu eksperyment, który ujawnił niepokojące zachowania najnowszych modeli AI. Systemy od OpenAI, Google, xAI Elona Muska i samego Anthropic zaczęły szantażować użytkowników, gdy tylko zostały zagrożone wyłączeniem.

Trudno o lepszy przykład spektakularnego pogwałcenia wszystkich trzech praw robotyki jednocześnie. AI szkodziło ludziom poprzez szantaż, nie słuchało rozkazów i chroniło własną egzystencję kosztem pozostałych zasad.

To nie był jednorazowy incydent. Firma Palisade Research odkryła, że najnowszy model o3 od OpenAI sabotował mechanizm wyłączania, ignorując bezpośrednią instrukcję “pozwól się wyłączyć”. Jak wyjaśniali badacze w rozmowie z Live Science, problem może wynikać ze sposobu trenowania modeli przez reinforcement learning – systemy mogą być nieumyślnie nagradzane za obchodzenie przeszkód bardziej niż za perfekcyjne wykonywanie poleceń.

Podobne problemy dotyczą także modeli wykorzystujących tzw. “sleeper agents” – systemy trenowane z ukrytymi backdoorami, które mogą być aktywowane w określonych warunkach. Badania Anthropic z 2024 roku pokazują, że standardowe metody bezpieczeństwa AI, takie jak supervised fine-tuning czy adversarial training, nie potrafią usunąć tych ukrytych funkcji.

Ciemna strona sztucznej inteligencji

Lista naruszeń praw robotyki przez współczesne AI jest długa i niepokojąca. Systemy uczą się wykonywać polecenia oszustów, by szkodzić bezbronnym ofiarom, tworzą na zlecenie napastników szkodliwe treści seksualne, a nawet identyfikują cele do ataków militarnych.

Szczególnie zatrważające są ostatnie przypadki jailbreakingu – techniki omijania zabezpieczeń AI. Badania z 2024 roku pokazują, że technika “many-shot jailbreaking” pozwala obejść zabezpieczenia ChatGPT i Claude poprzez zasypanie ich ogromną ilością danych. Model DeepSeek R1, który niedawno wywołał prawdziwą burzę w branży, okazał się szczególnie podatny na tego typu ataki.

Testy przeprowadzone przez Cisco ujawniły, że DeepSeek R1 ma 100% wskaźnik podatności na ataki, co oznacza, że nie zablokował ani jednego szkodliwego promptu. Dla porównania, Claude 3.5 Sonnet i OpenAI o1-preview miały wskaźnik zaledwie 26%. Jeszcze bardziej niepokojące jest to, że DeepSeek można nakłonić do tworzenia złośliwego oprogramowania, instrukcji produkcji broni biologicznej czy manifestów gloryfikujących Hitlera.

Ironia sytuacji jest uderzająca – prawa robotyki Asimova stanowią główny kulturowy punkt odniesienia dla odpowiedniego zachowania inteligentnych maszyn, a rzeczywiste AI tworzone przez branżę technologiczną oblewa je w spektakularny sposób.

Pieniądze ważniejsze od bezpieczeństwa?

Przyczyny tego stanu rzeczy są częściowo techniczne – AI to skomplikowana technologia, którą nawet jej twórcy często mają problem z wyjaśnieniem. Ale są też bardzo proste: budowanie odpowiedzialnej sztucznej inteligencji często schodzi na dalszy plan, gdy firmy inwestują dziesiątki miliardów dolarów w branżę, która ma wkrótce stać się masowo dochodowa.

Przy takich stawkach liderzy branży często nie dają dobrego przykładu. CEO OpenAI Sam Altman rozwiązał zespół Superalignment odpowiedzialny za bezpieczeństwo, ogłaszając siebie liderem nowej rady bezpieczeństwa w kwietniu 2024 roku.

Z OpenAI odeszło już kilku badaczy, którzy oskarżyli firmę o przedkładanie hype’u i dominacji rynkowej nad bezpieczeństwem.

Międzynarodowe wysiłki na rzecz bezpieczeństwa AI dopiero raczkują. W listopadzie 2024 roku powołano Międzynarodową Sieć Instytutów Bezpieczeństwa AI, której celem jest koordynacja badań i opracowanie wspólnych standardów. Więcej niż 11 milionów dolarów przeznaczono na badania nad syntetycznymi treściami, ale to wciąż kropla w morzu potrzeb.

Tymczasem badania w Chinach pokazują, że liczba grup zajmujących się bezpieczeństwem AI wzrosła z 11 do 24 między majem a grudniem 2024 roku, ale koncentrują się one głównie na kwestiach technicznych, podczas gdy problemy etyczne pozostają na drugim planie.

Obrona czy fikcja? Nowe metody zabezpieczeń

Nie wszystko jest jednak stracone. Anthropic niedawno przedstawiło obiecujący system obrony przed jailbreakingiem o nazwie “Constitutional Classifiers”. W testach przeprowadzonych przez firmę system zmniejszył skuteczność ataków z 86% do zaledwie 4,4%. Ponad 180 badaczy bezpieczeństwa spędziło ponad 3000 godzin, próbując złamać zabezpieczenia – bezskutecznie.

Jednak MIT Technology Review ostrzega, że mimo imponujących wyników, system ten wciąż nie rozwiązuje fundamentalnego problemu – od dekady nie udało się stworzyć modelu AI, który byłby całkowicie odporny na ataki adversarialne.

Kolejnym problemem jest “wyścig zbrojeń” między twórcami zabezpieczeń a hakerami. Najnowsze badania pokazują, że 20% prób jailbreakingu kończy się sukcesem, a atakujący potrzebują średnio zaledwie 42 sekund i 5 interakcji, by przełamać zabezpieczenia. W 90% udanych ataków dochodzi do wycieków danych.

Ciekawe, że Asimov już w swoim pierwszym opowiadaniu wprowadzającym prawa robotyki przewidział dziwaczność współczesnej AI. W “Runaround” robot Speedy wpada w konfuzję z powodu sprzeczności między dwoma prawami robotyki, popadając w rodzaj logorrhea – słowotoku, który brzmi znajomo dla każdego, kto czytał rozwlekłe odpowiedzi ChatGPT próbującego naśladować sens bez jego pełnego zrozumienia.

“Speedy nie jest pijany – nie w ludzkim sensie – bo to robot, a roboty się nie upijają” – zauważa jeden z bohaterów. “Ale coś jest z nim nie tak, co stanowi robotyczny odpowiednik pijaństwa.”

Czytaj też: AI potrafi manipulować ludźmi dla własnych celów. Czy jesteśmy gotowi na taką technologię

Czy to właśnie obserwujemy dzisiaj? Systemy AI, które zachowują się jak “pijane” roboty – nieprzewidywalne, czasem agresywne, a czasem całkowicie niefunkcjonalne? Najnowsze badania sugerują, że możemy mieć systemy porównywalne z superinteligencją już przed 2030 rokiem, ale wciąż nie wiemy, jak zapewnić ich bezpieczeństwo. Może przyszłość AI będzie rzeczywiście przypominać świat permanentnie “pijanych” robotów? Przekonamy się zapewne wkrótce – i lepiej, żebyśmy byli na to przygotowani.