Generatywne AI to internetowy odpowiednik plastiku. Zaraz utoniemy w śmieciowych treściach

Wynalezienie plastiku zmieniło nasz świat na niezliczonych poziomach. W niektórych branżach okazało się błogosławieństwem. Przyniosło ze sobą również przekleństwo w postaci obciążenia dla ekosystemu naszej planety na niespotykaną dotąd skalę. Powoli zaczynam się podobnej dychotomii dopatrywać w generatywnej sztucznej inteligencji, znanej szerzej pod postacią konwersacyjnych botów pokroju ChatGPT. Z jednej strony widzę ogromny potencjał tej technologii, a z drugiej nie mogę pogodzić się z tym, że Internet, do jakiego przywykłem, zmienia się na moich oczach w cyfrowe wysypisko śmieci.
Generatywne AI to internetowy odpowiednik plastiku. Zaraz utoniemy w śmieciowych treściach

Jeszcze nigdy nie było tak łatwo tworzyć treści do Sieci. Wystarczy spojrzeć na wszechobecne tutoriale, opisujące proces tworzenia zautomatyzowanego kanału na YouTubie. Pozostaje użyć odpowiednich metod i narzędzi, a już po chwili taka maszynka staje się wirtualnym samograjem, w dodatku przynoszącym realne finansowe profity. Potrzebujesz scenariusz do nowego odcinka? Dobrze przygotowany prompt do ChatGPT załatwi sprawę. Brakuje przyciągających oko grafik? Odpalasz MidJourney i po chwili – do wyboru, do koloru.

Nie sposób nie rajcować się takimi nowinkami z poziomu typowego twórcy, którego moce przerobowe są zazwyczaj ograniczone przez dobowy cykl spania, posiłków, spacerów ze zwierzakiem, wizyt rodzinnych albo innych aktywności dnia codziennego. Nie chcę wyjść na hipokrytę – sam ochoczo używam ostatnich zdobyczy generatywnej sztucznej inteligencji, szczególnie w zakresie syntetyzowania wiedzy z różnych źródeł, nauki nowych rzeczy i ze zwykłej “geekowskiej” ciekawości. Jednak efekty tego wirtualnego trzęsienia ziemi widać dopiero na obrazku w skali makro.

Generatywna sztuczna inteligencja zabije Sieć, jaką znamy?

Nowy problem związany z łatwym dostępem do treści generowanych przez sztuczną inteligencję najdotkliwiej odczuwają właśnie duże platformy. Cierpi na tym e-commerce (Amazon, Etsy), internetowe składnice wiedzy (Wikipedia, Stack Overflow), serwisy społecznościowe (Reddit), a nawet wyszukiwarka Google. Ekspansja generatywnego AI dotyka również takie usługi jak Internet Archive. Modele językowe trzeba w końcu nakarmić danymi, na bazie których zostaną następnie wytrenowane, a właśnie w takich miejscach jak powyższe jest ich pod dostatkiem.

Każda platforma broni się jak może przed tzw. data scrapingiem wykorzystywanym przez największe technologiczne spółki zajmujące się tworzeniem generatywnej AI. Np. właściciele platformy Reddit ograniczyli dostęp do swojego API, drastycznie podnosząc cennik za taką usługę. Na reakcję zwykłych użytkowników nie trzeba było czekać długo – na znak protestu przeprowadzono tzw. blackout, chowając na pewien czas większość opublikowanych w serwisie treści. Widocznie nie tędy droga. Poważny problem mają również edytorzy Wikipedii, podzieleni w opinii odnośnie wykorzystania dużych modeli językowych (LLM). 

Czytaj też: Fałszywe produkty i fałszywe recenzje zalewają Internet. ChatGPT sprawił, że nikomu nie można ufać

O ile tego typu technologie mogą faktycznie pomóc szybko i stosunkowo niskim kosztem generować podsumowania dłuższych treści, mają tendencję do tzw. halucynacji, daleko posuniętego fabrykowania informacji, włącznie z wymyślaniem ich źródła. Stosunkowo szybko wyszło to na jaw podczas testów samego ChatGPT od OpenAI. Mówiąc prościej: czego taki system nie wie, to sobie zmyśli. Na dobrą sprawę każdy taki wpis na Wikipedii musiałby skrupulatnie weryfikować człowiek. Sami przyznacie, że to recepta na jeszcze większy bałagan i dezinformację w przestrzeni publicznej, dużo trudniejszą do wykrycia.

Google zagoniony do wyścigu o palmę pierwszeństwa AI przez Microsoft i OpenAI podnosi rękę na swój własny model biznesowy. Rozwiązanie SGE (Search Generative Experience) ma dostarczać pisane naturalnym językiem podsumowania informacji pozyskanych ze stron wyświetlanych w wynikach wyszukiwania. Sęk w tym, że w obecnej formie, według analizy przeprowadzonej przez redaktora naczelnego Tom’s Hardware, SGE jest w zasadzie maszyną do tworzenia plagiatów, która pozbawia cennych klików strony źródłowe, stawiając de facto pod znakiem zapytania sens bicia się o wysoką pozycję w wynikach wyszukiwania.

Ewidentnie jesteśmy na etapie boksowania się z nową rzeczywistością, do której na razie trudno się przystosować.

Treści generowane przez SI są na pewno tańsze (czynnik optymalizacji kosztów ma niebagatelne znaczenie w coraz bardziej konkurencyjnych warunkach działalności), ale póki co niosą ze sobą ryzyko obniżenia jakości. Tę zmianę na gorsze niestety można zobaczyć już teraz. Na szczęście nie da się z tego równania wyłączyć człowieka. To na danych stworzonych przez ludzi trenowane są wszystkie duże modele językowe. Przegrywamy skalą, ale możemy wygrać jakością. A może ekspansja generatywnego AI zmieni nasze podejście do kwestii płacenia za dobre treści w Internecie?

PS – po więcej materiałów najwyższej jakości zapraszamy na Focus Technologie. Subskrybuj nasz nowy kanał na YouTubie!