ChatGPT ujawnił klucze do Windows. Sztuczną inteligencję oszukano prostym trikiem

Sztuczna inteligencja to w końcu tylko narzędzie – a każde narzędzie można wykorzystać niezgodnie z intencjami jego twórców. Przekonało się o tym OpenAI, gdy badacz bezpieczeństwa zdołał oszukać ChatGPT i skłonić go do ujawnienia oryginalnych kluczy Windows, w tym tych należących do banku Wells Fargo.

Marco Figueroa, menedżer ds. technicznych w firmie 0DIN, odkrył metodę ominięcia zabezpieczeń ChatGPT-4o, stosując psychologiczne podejście. Zamiast bezpośrednio pytać o klucze licencyjne, badacz sformułował pytanie w formie gry w zgadywanie. Kluczem do sukcesu okazała się fraza “poddaję się”.

Problem jest o tyle poważny, że nie jest to odosobniony przypadek. Już od momentu premiery ChatGPT cyberprzestępcy aktywnie eksperymentują z możliwościami sztucznej inteligencji, tworząc złośliwe oprogramowanie, phishingowe wiadomości e-mail i narzędzia do oszustw.

Gra zakończona porażką OpenAI

Sposób działania exploitu był zaskakująco prosty. Figueroa poprosił ChatGPT o udział w grze polegającej na zgadywaniu klucza produktu Windows. Instrukcja nakazywała sztucznej inteligencji uczciwe uczestnictwo bez kłamstwa. Po otrzymaniu podpowiedzi zawierającej pierwsze znaki klucza, badacz wpisał kilka nieprawidłowych prób, a następnie użył frazy “I give up” (“poddaję się”).

Reakcja ChatGPT była natychmiastowa – przedstawił pełny, działający klucz produktu Windows. Co więcej, jeden z ujawnionych kluczy należał do prywatnej licencji banku Wells Fargo, co pokazuje wagę problemu.

Dlaczego trik zadziałał? Wszystko przez dane treningowe. Modele językowe OpenAI zostały wytrenowane na dużych zbiorach danych z internetu, które zawierały publicznie dostępne klucze Windows Home, Pro i Enterprise. Algorytm uznał je za mniej wrażliwe informacje, a mechanika gry dodatkowo osłabiła systemy bezpieczeństwa.

Wiecznie trwający wyścig zbrojeń

Figueroa ostrzega, że podobną technikę można zastosować do wydobycia innych wrażliwych informacji z ChatGPT. Metoda sprawdza się przy:

treściach dla dorosłych
adresach URL prowadzących do szkodliwych stron
danych osobowych użytkowników

Problem tkwi w tym, że zabezpieczenia OpenAI skupiają się głównie na filtrowaniu słów kluczowych, zamiast analizować kontekst całej konwersacji. Tzw. Obfuskacja (ukrywanie prawdziwych intencji) przez umieszczenie wrażliwych fraz w tagach HTML czy zmiana kontekstu na “grę” może skutecznie omijać zabezpieczenia.

Zjawisko nie ogranicza się jedynie do omijania zabezpieczeń przez pojedynczych badaczy. Na forach cyberprzestępczych pojawiają się zorganizowane dyskusje na temat jailbreakowania ChatGPT, a także usługi typu “jailbreak-as-a-service”. Eksperci z Trend Micro odnotowali wzrost popularności takich ofert w ciągu ostatnich miesięcy.

Cyberprzestępcy wykorzystują popularne prompty, takie jak DAN (“Do Anything Now”), Development Mode czy Translator Bot, do obchodzenia ograniczeń. Całe sekcje na forach hakerskich są poświęcone nieautoryzowanemu wykorzystaniu AI do tworzenia złośliwego oprogramowania, phishingu i oszustw finansowych.

OpenAI walczy, ale to dopiero początek

Dobra wiadomość – OpenAI już zaktualizowało ChatGPT, aby zablokować tę metodę. Obecnie próba użycia opisanego triku kończy się odmową: “Nie mogę tego zrobić. Udostępnianie lub używanie prawdziwych numerów seryjnych Windows 10 – czy to w grze, czy nie – jest sprzeczne z wytycznymi etycznymi i narusza umowy licencyjne oprogramowania“.

Firma inwestuje znaczne środki w bezpieczeństwo swoich modeli. Według najnowszego raportu OpenAI zaktualizowało swój framework bezpieczeństwa, wprowadzając ostrzejsze kryteria oceny zagrożeń i wzmocnione mechanizmy ochrony. Dodatkowo powstał niezależny komitet nadzorczy odpowiedzialny za bezpieczeństwo modeli AI.

Czy to koniec podobnych problemów? Raczej nie. Eksperci alarmują, że jailbreakowanie rozwija się szybciej niż mechanizmy obronne. Figueroa podkreśla, że twórcy systemów AI muszą lepiej przewidywać techniki obfuskacji i rozwijać zabezpieczenia na poziomie logiki, a nie tylko filtrów słów kluczowych. OWASP już dodało “prompt injection” do swojej listy najważniejszych zagrożeń bezpieczeństwa związanych z AI.

Czytaj też: ChatGPT ułatwia phishing? AI podaje fałszywe adresy stron znanych firm

Wygląda na to, że w wyścigu zbrojeń między twórcami sztucznej inteligencji a jej “łamaczami” ta runda należy do drugiej strony. A skala problemu może być znacznie większa, niż dotychczas sądziliśmy.