Gdy myślimy o sztucznej inteligencji, zwykle zakładamy, że modele językowe uczą się ogólnych wzorców z danych treningowych, a nie zapamiętują dosłownie konkretne fragmenty tekstów. Nowe badania publikowane przez zespół naukowców z Cornell, Stanford i West Virginia University obalają te założenia – okazuje się, że Llama 3.1 70B zapamiętała aż 42% pierwszej części Harry’ego Pottera na tyle dobrze, by odtworzyć spore fragmenty w przynajmniej połowie przypadków.
Dramatyczny wzrost zapamiętywania w porównaniu do poprzednich wersji
Skala problemu staje się jeszcze bardziej alarmująca, gdy porównamy najnowszą wersję z poprzednikami. Llama 1 65B, podobnej wielkości model wydany w lutym 2023 roku, zapamiętała tylko 4,4% Harry’ego Pottera i Kamienia Filozoficznego. To sugeruje, że pomimo potencjalnej odpowiedzialności prawnej, Meta nie zrobiła wiele, aby zapobiec zapamiętywaniu podczas treningu Llamy 3.
To oznacza niemal dziesięciokrotny wzrost zapamiętywania treści chronionej prawem autorskim między pierwszą a trzecią generacją modelu. Czy to przypadek, czy konsekwencja zmian w metodach treningu? Naukowcy mają swoje podejrzenia.
Nie tylko Harry Potter – popularność ma znaczenie
Badania pokazują wyraźną korelację między popularnością książki a poziomem zapamiętania przez AI. Llama 3.1 70B była znacznie bardziej skłonna do odtwarzania popularnych książek – takich jak “Hobbit” czy “1984” George’a Orwella – niż tych mniej znanych.
Dla przykładu, model zapamiętał tylko 0,13% “Sandman Slim”, powieści z 2009 roku autorstwa Richarda Kadreya – stanowi to ledwie ułamek tego, co udało się mu “wykuć na pamięć” z przygód Harrego Pottera.
Dataset Books3: źródło problemu
U podstaw tej kontrowersji leży dataset o nazwie Books3, opisywany przez Facebook jako “publicznie dostępny zestaw danych do trenowania dużych modeli językowych”. Można go pobrać jako plik o rozmiarze 36,8 GB, ale prawda jest taka, że zawiera on 197 000 e-booków pobranych z serwera BitTorrent.
Dotychczas udało się zidentyfikować 72 508 tytułów e-booków (w tym 83 od Stanford University Press), które zostały piracko skopiowane, a następnie powszechnie wykorzystane do trenowania LLM-ów pomimo ochrony prawa autorskiego. To nie jest pasywne zbieranie danych z publicznie dostępnej sieci – ktoś musiał aktywnie pobrać te materiały z serwerów BitTorrent.
Implikacje prawne: sprawa Silverman i innych
Problem nie jest tylko teoretyczny. Komiczka Sarah Silverman i dwóch autorów złożyło pozwy przeciwko Meta Platforms i OpenAI za rzekome wykorzystanie ich treści bez pozwolenia do treningu modeli językowych sztucznej inteligencji.
W listopadzie 2023 roku kalifornijski sędzia federalny Vince Chhabria powiedział, że odrzuci część pozwu o naruszenie praw autorskich wniesionego przez Silverman i innych autorów przeciwko Meta Platforms w sprawie systemu AI Llama. Jednak sędzia nie zakwestionował głównego zarzutu autorów, że Meta naruszyła ich prawa, wykorzystując ich książki jako część danych do treningu Llamy.
Różnice między modelami – problem otwartości
Paradoksalnie, badania mogą postawić w trudniejszej sytuacji modele o otwartych wagach niż te zamknięte. Badacze z Cornell i Stanford mogli przeprowadzić swoje badanie tylko dlatego, że mieli dostęp do podstawowego modelu – a tym samym do wartości prawdopodobieństwa tokenów, które pozwoliły na efektywne obliczenie prawdopodobieństw dla sekwencji tokenów.
Większość wiodących laboratoriów, w tym OpenAI, Anthropic i Google, coraz bardziej ogranicza dostęp do tych tzw. logitów, utrudniając badanie swoich modeli. Ponadto, jeśli firma przechowuje wagi modelu na własnych serwerach, może używać filtrów, aby zapobiec dotarciu naruszających treści do świata zewnętrznego.
Co dalej z AI i prawami autorskimi?
Nowe odkrycia stawiają pod znakiem zapytania argumenty branży AI, że zapamiętywanie jest marginalnym zjawiskiem. Dla krytyków branży AI głównym wnioskiem jest to, że – przynajmniej dla niektórych modeli i niektórych książek – zapamiętywanie nie jest zjawiskiem marginalnym.
Z drugiej strony, najnowsze badania zespołu z Meta, Google DeepMind, Cornell University i NVIDIA pokazują, że modele w stylu GPT mają ustaloną pojemność zapamiętywania wynoszącą około 3,6 bita na parametr. To może oznaczać, że wraz ze wzrostem rozmiarów zbiorów danych treningowych, każdy pojedynczy fragment otrzymuje mniej “uwagi” modelu.
Przyszłość branży na rozdrożu
Werdykt? Branża AI stoi przed poważnym dylematem. Z jednej strony potrzebuje ogromnych ilości danych do treningu coraz bardziej zaawansowanych modeli. Z drugiej, coraz jaśniejsze staje się, że wykorzystywanie chronionych prawem autorskim materiałów bez zgody może prowadzić do poważnych konsekwencji prawnych.
Czytaj też: Użytkownicy Meta AI nieświadomie publikują prywatne rozmowy. Katastrofa prywatności
Brytyjska organizacja non-profit Copyright Licensing Agency (CLA) zamierza wprowadzić nowy model licencyjny – Generative AI Training Licence – który ma być dostępny w trzecim kwartale 2025 roku i pozwoli deweloperom modeli językowych na wykorzystywanie chronionych prawem autorskim danych treningowych przy jednoczesnym wynagradzaniu wydawców. Czy to rozwiąże problem? Czas pokaże. Jedno jest pewne – przypadek Llamy 3.1 i Harry’ego Pottera pokazuje, że debata o prawach autorskich w erze AI dopiero się rozkręca.