Sztuczna inteligencja może sobie generować muzykę z tekstu, ale ja nie zamierzam jej słuchać

W ostatnich dniach coraz głośniej w sieci o eksperymentach Google z MusicLM, modelem językowym sztucznej inteligencji skupionym na generowaniu muzyki na podstawie wpisanego przez użytkownika tekstu. Nie mam nawet ułamka niezbędnych kompetencji, żeby oceniać to rozwiązanie pod względem technicznym. Mogę za to podzielić się swoimi odczuciami ze słuchania próbek MusicLM i mojego do takich narzędzi podejścia. Jak się już pewnie domyślacie po tytule, nie będzie to pachnąca słodką pianką laurka.
Sztuczna inteligencja może sobie generować muzykę z tekstu, ale ja nie zamierzam jej słuchać

MusicLM (Generating Music from Text) to efekt dalszej zabawy nad projektem badawczym AudioLM, o którym na blogu Google Research można było nieco więcej poczytać już w pierwszych dniach października ubiegłego roku. W skrócie polega to na tym, że użytkownik wpisuje krótki opis podkładu muzycznego do wygenerowania (np. kojąca melodia skrzypiec, której akompaniuje przesterowany gitarowy riff) i voila. Dostajemy muzyczny ekwiwalent tego co wypluwają z siebie narzędzia typu DALL-E generujące grafikę.

Wspomniany opis, na którym oparte jest generowanie muzyki wcale nie jest taki krótki. Oto jeden z przykładów: Ścieżka dźwiękowa do gry zręcznościowej. Szybka i optymistyczna, z chwytliwym riffem gitary elektrycznej. Muzyka jest powtarzalna i łatwa do zapamiętania, ale towarzyszą jej nieoczekiwane dźwięki, takie jak uderzenia talerzy lub bębnów. I muszę przyznać, że byłbym w stanie “łyknąć” efekt finalny jako skomponowany naturalnymi metodami, czyli przez człowieka z użyciem komputera i szeregu wirtualnych instrumentów.

Czytaj też: Wszyscy o nim mówią, mało kto go rozumie. Wyjaśniamy, co tak naprawdę potrafi ChatGPT

Z drugiej strony MusicLM potrafi wygenerować muzykę na bazie prostego tekstu wskazującego konkretny instrument (gitara akustyczna, skrzypce, flet), styl muzyczny (ambient, house, big beat), poziom doświadczenia grającego, a nawet miejsce lub sytuację (plaża na Karaibach czy ucieczka z więzienia). Poprzeczkę podnosi możliwość generowania muzyki na podstawie dwóch źródeł wejściowych: tekstu oraz dźwięku. Tu robi się ciekawie, bo użytkownik może np. zanucić melodię, a na jej podstawie MusicLM “wypluje” podobną melodię zagraną np. na innym instrumencie.

Jak pisał już w weekend Aleksander, Google na razie nie udostępnia swojego narzędzia, rzekomo z powodu obaw natury etycznej. Wydaje mi się to zagraniem pod publiczkę. Buduje się w ten sposób wrażenie, że produkt jest już tak dobry, że może być niebezpieczny. Owszem, tego typu produkty stwarzają pewne zagrożenie (ryzyko generowania fejków), ale MusicLM wydaje się być daleki od fazy ukończenia.

Straszne, śmieszne czy smutne? Jeszcze nie mogę się zdecydować

Z jednej strony trudno mi się dziwić zachwytom nad różnymi gałęziami sztucznej inteligencji, której dynamiczny rozwój w ostatnim czasie nie ma sobie równych. Z drugiej strony ciągle wracam do fundamentalnego pytania o rolę SI w naszym codziennym życiu: czy to na pewno właściwa droga? Czy nie lepiej byłoby rozwijać AI do pomocy/asystowania człowiekowi, a nie zastępowania go? Czy w ogóle człowieka jako artystę da się całkowicie usunąć z równania, w jego miejsce wstawiając kawałek kodu? Przypuszczam, że odpowiedzi na powyższe pytania szukam nie tylko ja.

Wszelka sztuka jest formą ekspresji tego, co w człowieku siedzi (przynajmniej w założeniu). Trudno proces twórczy poddać sztywnej kategoryzacji, a jeszcze trudniej dzieło artysty jednoznacznie zinterpretować. Dla przykładu, Zdzisław Beksiński nigdy nie nadawał tytułów swoim obrazom. Ich interpretacja należała zatem w całości do odbiorcy. Na tym polega prawdziwa magia sztuki – nawet pozornie najprostsze z jej przejawów możemy odbierać na różne sposoby, na różnym poziomie. Maszyny mogą w tym człowieka naśladować, ale nigdy nie będzie to proces tak doskonały i zarazem spontaniczny.

Niezliczona ilość zmiennych, na bazie których może powstać unikalna ludzka interpretacja sztuki to jeden z najpiękniejszych aspektów bycia człowiekiem. Twórca, tworzywo i odbiorca stanowią nierozerwalny trójkąt, wzajemnie napędzających się sił, w których sztuczna inteligencja w mojej skromnej opinii może aspirować jedynie do miana tworzywa albo narzędzia. Zresztą w takiej roli na pewno nie będzie mieć sobie równych, co potwierdza szereg zaawansowanych narzędzi do analizy i przetwarzania dźwięku.