Ile informacji naprawdę zapamiętują modele językowe? Przełomowe badania ujawniają ograniczenia pamięci AI

Nowe badania przeprowadzone przez zespół naukowców z Meta, Google DeepMind, Uniwersytetu Cornell i NVIDIA po raz pierwszy precyzyjnie określają, ile informacji potrafią zapamiętać duże modele językowe (LLM). Odkrycia te mogą mieć kluczowe znaczenie dla toczących się sporów prawnych dotyczących praw autorskich w kontekście sztucznej inteligencji.
Ile informacji naprawdę zapamiętują modele językowe? Przełomowe badania ujawniają ograniczenia pamięci AI

Stała pojemność pamięci

Badacze ustalili, że modele językowe typu GPT mają stałą pojemność zapamiętywania wynoszącą około 3,6 bitów na parametr. Ta wartość okazała się niezależna od architektury modelu – różne głębokości, szerokości i precyzje dawały podobne rezultaty.

Aby zobrazować, co oznacza 3,6 bitów w praktyce:

  • Pozwala na zakodowanie około 12 różnych wartości (2^3,6 ≈ 12,13)
  • To wystarczy do wyboru jednego z 12 miesięcy w roku
  • Nie wystarcza nawet na pojedynczą literę angielską (która wymaga około 4,7 bitów)
  • Odpowiada 0,45 bajta – mniej niż połowa typowego znaku ASCII

Więcej danych oznacza bezpieczniejsze uczenie

Jedno z najważniejszych odkryć badania (bezpośredni odnośnik do pliku PDF) przeczy powszechnemu przekonaniu: większa ilość danych treningowych nie prowadzi do zwiększonego zapamiętywania. Wręcz przeciwnie – gdy model trenuje się na większym zbiorze danych, jego stała pojemność pamięci rozdziela się między więcej przykładów, co oznacza, że każdy pojedynczy punkt danych otrzymuje mniej “uwagi”.

Jak wyjaśnił główny autor badania Jack Morris: Trenowanie na większej ilości danych zmusi modele do zapamiętywania mniej na próbkę.

To odkrycie może łagodzić obawy dotyczące zapamiętywania materiałów chronionych prawem autorskim. Jeśli zapamiętywanie jest ograniczone i rozproszone między wieloma przykładami, prawdopodobieństwo odtworzenia konkretnego przykładu treningowego maleje.

Nowatorska metodologia badań

Aby precyzyjnie zmierzyć zdolności zapamiętywania, naukowcy zastosowali nietypowe podejście: trenowali modele na zestawach danych składających się z losowych ciągów bitów. Każdy taki ciąg był całkowicie unikalny, bez jakichkolwiek wzorców czy struktury.

Ponieważ każda próbka była wyjątkowa i pozbawiona wspólnych cech, wszelkie zdolności modelu do rekonstrukcji tych ciągów musiały wynikać wyłącznie z zapamiętywania – nie było możliwości generalizacji wzorców, jak w przypadku naturalnego języka.

Ta metodologia pozwoliła po raz pierwszy w praktyce oddzielić zapamiętywanie od uczenia się. W przypadku realnych danych językowych trudno określić, czy model zapamiętał konkretny przykład, czy wywnioskował odpowiedź na podstawie obserwowanych wzorców.

Wpływ na spory prawne

Odkrycia te mogą mieć istotne znaczenie dla toczących się procesów sądowych między dostawcami AI a twórcami treści. Jeśli modele rzeczywiście generują odpowiedzi na podstawie uogólnionych wzorców, a nie dosłownego kopiowania, deweloperzy mogą skuteczniej bronić się przed zarzutami naruszenia praw autorskich.

Badania pokazują również, że ataki na prywatność modeli (próby określenia, czy konkretny punkt danych był w zbiorze treningowym) stają się mniej skuteczne wraz ze wzrostem rozmiaru zbioru danych.

Perspektywy praktyczne

Aby zobrazować całkowitą pojemność zapamiętywania modeli:

  • Model z 500 tys. parametrów może zapamiętać około 225 Kb danych
  • Model z 1,5 mld parametrów pomieści około 675 MB surowej informacji

Choć nie są to wartości porównywalne z typowymi plikami multimedialnymi, stanowią znaczącą ilość, gdy rozpatrujemy je w kontekście wzorców tekstowych.

Znaczenie dla przyszłości AI

Badania wprowadzają po raz pierwszy precyzyjną, wymierną definicję zapamiętywania w kontekście modeli językowych. Daje to deweloperom i badaczom nowe narzędzia do oceny zachowania modeli, co wspiera transparentność, zgodność z przepisami i etyczne standardy w rozwoju AI.

Czytaj też: ChatGPT z nową funkcją pamięci dla darmowych użytkowników. Personalizacja na nowym poziomie

Kluczowy wniosek brzmi: więcej danych treningowych, a nie mniej, może być bezpieczniejszą ścieżką przy tworzeniu dużych modeli językowych. To odkrycie może zmienić sposób, w jaki branża podchodzi do gromadzenia i wykorzystywania danych do trenowania AI.