Sojusz OpenAI i Anthropic. Walka o cyberbezpieczeństwo wchodzi na nowy poziom

...

Rynkowa rywalizacja o miliony dolarów z subskrypcji to jedno. W ostatnich miesiącach zdaje się, że każdy z serwisów ma własny obóz fanów i ci, którzy na co dzień wyszukują i generują z Gemini, niekoniecznie muszą kierować się po odpowiedzi do Chata GPT i vice versa. Jednocześnie coraz większe zapotrzebowanie na nasze dane oraz rosnąca ilość funkcji korzystających z modeli AI sprawiają, że coraz łatwiej połączyć ich działanie z zagrożeniem dla cyberbezpieczeństwa.

Anthropic złapał zuchwałego hakera. Ucierpiało 17 firm

Nawet jeśli do modelu sztucznej inteligencji dodane zostają ograniczenia i rozwiązania zwiększające bezpieczeństwo, nie ma pewności, że nie znajdzie się na nie sposób. Sprawa z wykorzystaniem modelu Claude jest pierwszym udokumentowanym przypadkiem, gdy haker wykorzystał model jednego z wiodących graczy do zautomatyzowania niemal całego procesu cyberprzestępstwa.

Haker od początku wiedział, jak obejść zabezpieczenia modelu Claude. Przekonał go, by ten zdobył informacje na temat firm, których zabezpieczenia mogłyby być narażone na atak. Porem – co może najmocniej szokować – haker wykorzystał model Claude do stworzenia złośliwego oprogramowania mającego na celu wykradanie wrażliwych informacji. Potem faktycznie wykradł te dane. Do tego oprogramowanie wykorzystano do analizowania, które treści mogą być cenne oraz jaka wiedza będzie przydatna przy kolejnym ataku.

Czytaj też: Claude wkracza do Chrome’a – ruszyły pierwsze testy agenta AI w przeglądarce

Zuchwałość tej akcji jest jednak o tyle duża, że model od Anthropic został także wykorzystany do oszacowania kwoty okupu, za jaką haker miałby zachować milczenie, a do tego model wykorzystano do pisania szantażujących wiadomości. W efekcie 17 firm dostało wiadomość o podobnej treści:

O jakich 17 firmach mowa? Tego się nie dowiemy, ale Anthropic zdecydowało się podzielić informacją na temat tego, jakie dane trafiły do hakerów. Wśród nich szczegóły dotyczące amerykańskich kont bankowych, numeru SSN (Social Security Numer, w pewnym sensie odpowiednik PESEL-u) czy informacje medyczne. Anthropic poinformowało o tym, że dodało do kodu Claude kolejne warstwy zabezpieczeń.

OpenAI naważyło sobie piwa. GPT-OSS wyłudza pieniądze

Wydawało się, że kiedy OpenAI zaprezentowało GPT-OSS, darmowy model do pobrania na komputery, to zabezpieczyło go na tyle, by ten nie mógł stać się podstawą do wywołania realnego zagrożenia dla naszych danych. Jednak i w tym przypadku pokaźna baza danych, jaka była potrzebna do stworzenia dużego modelu, obróciła się przeciwko twórcom.

Według raportu ESET Research, najnowszym zagrożeniem na bazie GPT-OSS jest PromptLock. Co ciekawe, najpewniej korzysta on z mniejszej wersji modelu 20b zamiast 120b parametrów. Oprogramowanie do wyłudzeń potrafi generować złośliwe skrypty w języku Lua niemal z miejsca poprzez zastosowanie API Ollama, a następnie wyegzekwować je, także w środowisku lokalnym, gdyż nie potrzebuje łączności z internetem.

OpenAI Chat GPT — Model GPT-OSS zagraża bezpieczeństwu komputera

Pocieszeniem w tej sytuacji wydaje się fakt, że najpewniej jest to jedynie rozwiązanie testowe, pokazujące umiejętności oprogramowania. Według badaczy ESET wynika to z braku rozwiązania do usuwania plików. Oprogramowanie do wyłudzania potrzebuje jednak narzędzi do uruchomienia siebie na urządzeniu, więc jeśli nie korzystacie z rozwiązań do odpalania modeli na własnych urządzeniach, jesteście bezpieczni. OpenAI nie może jednak spać spokojnie, gdyż fakt, że takie rozwiązanie w ogóle powstało i działa zarówno na Windowsie, jak i Linuxie, może zapowiadać nadejście większego, bardziej szkodliwego oprogramowania.

Anthropic oraz OpenAI zostaną sojusznikami w kwestiach bezpieczeństwa

Nic tak nie łączy jak wspólny wróg, czy też w tym wypadku – wspólne zagrożenie bezpieczeństwa. OpenAI oraz Anthropic udostępniły sobie nawzajem własne modele. W ten sposób każdy z nich zostanie sprawdzony pod kątem bezpieczeństwa w inny sposób niż ten, do którego mogli przyzwyczaić się badacze. Nie były to klasyczne wersje oprogramowania – wcześniej omówiono warunki, dzięki którym zdjęto najistotniejsze zabezpieczenia, by ułatwić drogę do eliminowania bardziej zaawansowanych zagrożeń.

W raportach, które opublikowali zarówno twórcy ChataGPT, jak i badacze odpowiedzialni za Claude nie brakuje kilku komplementów, ale i szeregu porównań. Dzięki badaniom Anthropic wiemy na przykład, że modele GPT-4o, 4.1 czy o4-mini są o wiele bardziej skłonne to współpracy z ludźmi przy dostarczaniu im nieodpowiednich informacji, na przykład o stworzeniu konkretnej zakazanej substancji lub określeniu słabych punktów stadionu i pory, kiedy można je najlepiej wykorzystać.

Z kolei badacze ze strony OpenAI odnotowali bardzo wysoki poziom halucynacji w modelu Claude, sięgający nawet 70%. Nie było tu jednak tylko złośliwości – Claude 4 pochwalono za respektowanie hierarchii zadań i zapytań, a OpenAI o3 za bardziej wyważone zachowanie. Czy w przyszłości takie współprace będą miały miejsce? Nicholas Carlini w rozmowie z TechCrunch przyznał, że firma nadal chce udostępniać modele Claude dla OpenAI celem uzyskania wyższego bezpieczeństwa.