Zatruwanie AI, czyli jak 250 złośliwych plików może zniszczyć duży model językowy

Jakość dużych modeli językowych AI zależy w pełni od danych, za pomocą których go trenowano. Im są lepsze i pełniejsze, tym bardziej przewidywalne działanie, a im gorsze… cóż, trudno o bardziej jaskrawy przykład zasady „garbage in – garbage out”, tym bardziej że najnowsze badania wskazują, że by zakłócić działanie modelu trzeba naprawdę niewiele.
...

Czym właściwie jest zatruwanie AI

Proces trenowania sztucznej inteligencji to krytyczny etap przygotowania modelu do działania, a celowe wprowadzanie do procesu uczenia błędnych informacji, które później model traktuje jako prawdę to tzw. zatruwanie sztucznej inteligencji. Mechanizm ten przypomina podsunięcie uczniowi sfałszowanych notatek podczas nauki – siłą rzeczy później bezwiednie powiela on nieprawdziwe dane, przy tym specjaliści wyróżniają dwie główne metody takiego działania: pierwsza to zatruwanie danych, które następuje jeszcze w fazie treningu, gdy złośliwe informacje trafiają bezpośrednio do zestawu szkoleniowego. Druga natomiast to zatruwanie modelu, polegające na modyfikacji już działającego systemu.

Proces ten wykorzystuje naturalny sposób przyswajania wiedzy przez algorytmy. Podczas analizy ogromnych zbiorów danych, modele szukają wzorców i powiązań. Gdy w materiałach znajdą się celowo spreparowane fałszywe informacje, traktują je jako wiarygodne i włączają do swojej bazy wiedzy. Jest to punkt krytyczny, gdyż systemy takie, podobnie jak małe dzieci, nie potrafią odróżnić prawdy od manipulacji podczas uczenia i przyjmują wszystko, co znajdzie się w ich zasobach za prawdę.

Sposoby na zatrucie danych

Najczęstszym typem bezpośredniego ataku jest backdoor, czyli ukryta furtka – w takim wariancie do danych dodawane są specjalne „słowa wyzwalające”, które aktywują niepożądane zachowanie modelu. System może zatem normalnie funkcjonować, ale gdy napotka określony ciąg znaków, zaczyna generować kompletnie bezwartościowe odpowiedzi.

Badacze opracowali też bardziej wyrafinowane techniki, jak split-view poisoning. Ta metoda wykorzystuje zmienność treści internetowych – atakujący modyfikują strony po ich zindeksowaniu przez twórców zbiorów danych, ale przed pobraniem przez kolejnych użytkowników.

Kolejną metodą jest frontrunning poisoning, która celuje w okresowe migawki treści crowd-sourcingowych. Atakujący potrzebują jedynie krótkiego okna czasowego, aby wprowadzić złośliwe przykłady.

AI

Pośrednie ataki nieukierunkowane, znane jako kierowanie tematyczne, działają bardziej dyskretnie. Zamiast wprowadzać konkretne słowa wyzwalające, atakujący zasypują dane treningowe dezinformacją na wybrane tematy. Znany cytat „kłamstwo powtórzone tysiąc razy staje się prawdą” sprawdza się także w działaniach AI i model poddany dezinformacyjnemu atakowi stopniowo przejmuje błędne przekonania i zaczyna je powielać. Trzeba zwrócić uwagę, że jest to technika szczególnie niebezpieczna, gdyż niezwykle trudna do wykrycia, jako że system może wydawać się normalny w większości zastosowań, a zarazem systematycznie przekazywać fałszywe informacje w określonych dziedzinach.

Czytaj też: Test Huawei Watch Ultimate 2 – czy ten zegarek potrzebował następcy?

Zatruć AI jest łatwo – zbyt łatwo

Wspólne badanie instytucji zajmujących się bezpieczeństwem AI dowodzi, że skuteczne zatruwanie dużego modelu językowego wymaga stałej liczby dokumentów, niezależnie od rozmiaru systemu. To przełomowe odkrycie podważa dotychczasowe założenia dotyczące bezpieczeństwa sztucznej inteligencji. Zarówno model liczący 600 milionów parametrów, jak i ten o 13 miliardach – trenowany na ponad 20 razy większej ilości danych – można zatruć tą samą, niewielką liczbą złośliwych dokumentów. Przygotowanie 250 szkodliwych plików to drobiazg w porównaniu z tworzeniem milionów, co czyni tę podatność dostępną dla szerokiego grona potencjalnych atakujących.

Zastąpienie zaledwie 0,001% tokenów treningowych dezinformacją medyczną prowadzi do powstania modeli, które z większym prawdopodobieństwem będą propagować błędy medyczne. Co gorsza, skażone systemy dorównują wydajnością swoim nieskażonym odpowiednikom na standardowych testach. Zatruty model medyczny może przekazywać pacjentom błędne informacje o leczeniu, zachowując przy tym pozory wiarygodności na standardowych testach. W tej dziedzinie na szczęście są też obiecujące strategie obrony – wykorzystując biomedyczne grafy wiedzy do przesiewania wyników, udało się wykryć ponad 90% szkodliwych treści z precyzją na poziomie 85,7%. Wymaga to jednak nieustannego nadzoru nad modelem.

Koszty ataków zmierzających do zatruwania modeli są – niestety – alarmująco przystępne. Zatruwanie 0,01% zbioru danych LAION-400M kosztowałoby zaledwie 60 dolarów, a wprowadzenie 2000 złośliwych artykułów do modelu o 4 miliardach parametrów – tylko 5 dolarów. Krótko mówiąc, może to zrobić nawet wściekły nastolatek dysponujący minimum niezbędnej wiedzy i środków.

Wszystkie te odkrycia pokazują, że pomimo entuzjazmu wokół sztucznej inteligencji, technologia ta jest znacznie bardziej delikatna, niż się powszechnie uważa. Podatność na zatruwanie stanowi poważne wyzwanie dla bezpieczeństwa systemów AI, wymagające pilnej uwagi zarówno twórców, jak i użytkowników no i chyba przede wszystkim ograniczonego zaufania do działania LLM. Dopóki nie powstaną bezpieczne metody uczenia i samouczenia się modeli oraz zautomatyzowane metody weryfikacji danych przez działający model – mamy problem.