Cyfrowi archeolodzy WWW

fot. spekulator / shx.hu

Archiwa internetowe wydobywają teraz na światło dzienne to, co niegdyś zaginęło. Restaurują stare strony GeoCities i pod nowym URL publikują je w Sieci. –

Naszym celem jest zachowanie ważnych i niepowtarzalnych z naukowego punktu widzenia stron — piszą cyfrowi archeolodzy z OoCities.org na swojej stronie startowej. Stare strony cieszą się jakoby “dużym zainteresowaniem publiczności” albo mają po prostu reprezentować “kulturę i styl lat 90.”.

Uczestnicy projektu na krótko przed końcem GeoCities mogli zapisać około dwóch milionów stron. Od tego czasu zajmują się oddzielaniem stron ze spamem i malware’em oraz z nielegalnymi treściami – w ostatnich latach GeoCities był to szeroko rozpowszechniony problem. Wszystkie inne strony są wysyłane do serwerów OoCities i już dziś swobodnie dostępne. Wciąż są uporządkowane według swoich starych “miast”: od Area 51 (science fiction & fantasy) po Yosemite (sporty outdoorowe). Wśród nich znajdują się protoplaści facebookowych fanpage’ów (jak strona Denise), zbiory przepisów, miejsca spotkań absolwentów, strony działaczy politycznych i stowarzyszeń, strony z wesołymi obrazkami oraz witryny osobiste z życiorysami i próbkami prac.

Ale nie tylko GeoCities żyje nadal. W Wayback Machine należącej do Internet Archive możecie teraz otworzyć stare wersje dzisiejszych stron. Od roku 1996 bot archiwum przemierza Sieć i zapisuje strony, które udaje mu się znaleźć. Spojrzenie w przeszłość bywa interesujące, ponieważ okazuje się na przykład, że pierwsze strony eBaya i Amazona z końca lat 90. wyglądały tak prosto, że dziś prawdopodobnie praktykant informatyki napisałby je lepiej.

Co pozostanie dla przyszłych pokoleń?

Za tym projektem stoi podstawowe pytanie: co zostanie dla przyszłych pokoleń z naszej internetowej kultury? Osoby zajmujące się ochroną danych mówią z nutą groźby, że Internet nie zapomina niczego, a tu dzieje się coś wręcz przeciwnego. Od 35 do 90 proc. wszystkich stron ma cyfrową kopię – ustalił badacz IT Scott Ainsoworth. Precyzyjne szacunki są trudne, zwłaszcza że pojedyncze kopie mogą szybko zaginąć. Bezpieczną archiwizację z ponad ośmioma kopiami ma nie więcej niż osiem procent Sieci.–

Dla przyszłych generacji ważne jest, aby przeciwdziałać utracie informacji — pisze Archive Team. Każdy użytkownik Internetu może pomóc w tym projekcie: albo pobierając bota, który archiwizuje strony, albo udostępniając niewykorzystywaną pamięć. Kolekcja dziesięciu milionów tweedów zadowoli się 427 MB, zapisane strony GeoCities mają już około 640 GB. A to tylko ułamek

historii Sieci. Archiwiści są potrzebni zwłaszcza wtedy, kiedy hosterzy zaprzestają swoich usług – niestety, niekiedy ci pierwsi nie mają wtedy czasu na reakcję. Tak się zdarzyło przed około rokiem,

gdy serwis hostingu plików Megaupload został usunięty z Sieci. Tak samo każdy inny hoster, przykładowo wskutek ścigania czynów karalnych, może zostać odcięty od Sieci. Nie ma tragedii w przypadku nielegalnie skopiowanych filmów, ale gdy w grę wchodzą strony osobiste bądź firmowe – już jest.

Świadectwa kultury dnia codziennego

Czy archiwizowanie i publikowanie stron zawierających prywatne dane jest w ogóle dopuszczalne z prawnego punktu widzenia? –

Nie ma jeszcze żadnych wyroków dotyczących internetowych archiwów — mówi specjalizujący się w prawie IT adwokat Hagen Hild. Stwierdza jednak: –

Trybunał Federalny generalnie uważa archiwa za sensowną rzecz. Na tyle sensowną, że w latach 80. wydając niektóre wyroki, przedłożył publiczny interes archiwów nad prawa osobiste

. Dla uzasadnienia Hild dodaje: –

Gdyby prawa osobiste zawsze były ważniejsze, to niczego nie byłoby wolno archiwizować. Wskutek tego nasza codzienna kultura po prostu by zniknęła. W końcu przyszłe generacje powinny mieć możliwość poczytania, czym interesowali się ludzie na początku Internetu, jak się organizowali i jak korzystali z nowej technologii, jaką był Internet. – W zasadzie można wyjść z założenia, że operatorzy stron internetowych zgadzają się na to, publikując stronę w Sieci — mówi Hild.

Podobną zgodę zakładają wyszukiwarki. Przed crawler-botami automatycznie indeksującymi strony internetowe można się zresztą bronić, wykorzystując kilka prostych wierszy kodu – równie prosto można zablokować crawler-boty internetowych archiwów. Jeśli więc ktoś chce, aby jego strona pozostała prywatna, to nie jest wobec kolekcjonerów archiwistów bezbronny, tak samo jak wobec internetowych szyderców. Bo niektóre prywatne strony spoczywające dziś w archiwach GeoCities służą niewybrednej rozrywce. Strona Denise nie zawiera nawet nazwiska ubóstwianej baleriny i – w porównaniu z współczesnymi stronami – wygląda bardzo prosto, aby to ująć w sposób grzeczny. Z jednej strony wynika to stąd, że nie było wówczas jeszcze wielu webowych technologii, za pomocą których dziś tworzy się animowane i pełne designerskich smaczków strony. Nawet pierwsza strona chip.de wygląda dziś raczej na statyczną tekstową pustynię. Oprócz tego programowanie stron internetowych było wtedy znacznie bardziej skomplikowane niż dziś. Prawie nie było edytorów, szablonów ani narzędzi do samodzielnej budowy stron reklamowanych używanych dziś przez wielu webhosterów. Strona Denise została po prostu utworzona w edytorze tekstowym i dlatego jest tylko trochę bardziej kolorowa niż plik Wordpada. A przy tym właśnie dobór kolorów odzwierciedla kulturę dnia codziennego wczesnych lat 90.: jaskrawe barwy, żółta czcionka na czarnym tle, skomplikowane psychodeliczne wzory na banerach i obrazach, które nie mogły jednak powstrzymać fanów Denise przed odwiedzeniem strony.

Serwisy archiwalne – spojrzenie wstecz

Archive Team (archiveteam.org)

Ten anonimowy projekt archiwistyczny funkcjonuje przede wszystkim dzięki pracy zespołowej. Z koei dzięki pobranemu botowi każdy użytkownik sam może uczestniczyć w pracy archiwistycznej udokumentowanej w stylu Wikipedii. Do pobrania są już setki gigabajtów materiału, a wśród nich również archiwa stosunkowo nowe, na przykład z serwisu mikroblogowego Tumblr.

Internet Archive (archive.org)

Internetowe archiwum istnieje już od roku 1996. Przedstawia siebie jako cyfrową bibliotekę i archiwizuje nie tylko strony WWW, ale także teksty, pliki audio i wideo oraz programy. Najciekawszą funkcją jest Wayback Machine, która pokazuje strony tak, jak wyglądały w różnych momentach.

OoCities (oocities.org)

W ostatnich dniach hostingu Yahoo GeoCities biorącym udział w projekcie OoCities udało się zarchiwizować około dwóch milionów stron. Teraz znów są one dostępne online.

Kwestie prawne – Co stanie się z moimi danymi po zaprzestaniu hostingu?

Kiedy hoster zostanie wyłączony wskutek nadzwyczajnych okoliczności, na przykład w ramach ścigania przestępstw, to użytkownik ma pecha. Hostingowane dane zostaną albo skonfiskowane, albo

całkowicie utracone. Ale czy zawsze trzeba się bać o swoje dane przechowywane u hostera? Nie, w przypadku usług płatnych można w zasadzie mówić o tym, że została zawarta umowa najmu, a to nakłada na dostawcę konkretne obowiązki, takie jak np. termin wypowiedzenia umowy, a co za tym idzie czas na przeniesienie plików na inny serwer. To samo dotyczy również serwisów bezpłatnych takich jak One Klick Hoster, bo zgodnie z zasadą, że nie ma darmowych lunchów, użytkownik bezpłatnego serwisu jednak płaci, choćby koniecznością oglądania reklam. Umowy zazwyczaj nie regulują sposobu odzyskania danych. Teoretycznie serwis po zamknięciu mógłby przysłać np. DVD z plikami użytkownika, jednak w grę wchodzi raczej opcja samodzielnego odebrania danych przez interfejs użytkownika.