Odmęty Sieci

Co to i ile tego jest?

Według szacunków amerykańskiej firmy Bright Planet na niewidoczną Sieć składa się ok. 200 tysięcy serwisów internetowych o łącznej objętości 7500 terabajtów (sic!). Może ta, mimo wszystko niemała, liczba nic nikomu nie powie, ale w porównaniu z 19 TB widocznej części Internetu robi jednak wrażenie. Co ciekawe, aż 95% niejawnych zasobów sieciowych jest dostępnych publicznie i korzystanie z nich nie wymaga subskrypcji ani wnoszenia żadnych opłat. A co bardziej interesujące, owe “głębinowe rezerwuary” informacji są nieporównywalnie bardziej wartościowe od źródeł “powierzchniowych”.

Dlaczego? Ano dlatego, że ponad połowa to tematyczne – nierzadko rządowe – bazy danych. Ich specyfiką nie jest rozległość (jak w przypadku “zwykłych” witryn), lecz wąska specjalizacja. Najbardziej jed- nak zadziwiające jest to, że – mimo niewidoczności (dla konwencjonalnych wyszukiwarek) – w serwisach należących do tzw. deep Webu odnotowuje się o 50% większy ruch miesięczny (z ang. traffic) niż na stronach “konwencjonalnych”.

Jak nie widać, skoro widać?

To, że część pokładów internetowych jest niby-niewidoczna, wynika ze sposobu funkcjonowania tradycyjnych wyszukiwarek. Roboty, które przeczesują Sieć, dysponują indeksami jedynie tych stron, do których odnośniki znajdują się w innych witrynach albo które zostały “zgłoszone” do wyszukiwarek. Serwisy “niby-niewidoczne” natomiast przechowują swoje zasoby w bazach danych, które w momencie “odpytania” generują dynamiczne odpowiedzi.

Są jednak zarówno miejsca, jak i sposoby na zobaczenie tajemniczego fragmentu Internetu. Najbardziej intuicyjną metodą jest przeglądanie zasobów głębokiej Sieci. A czynić tak można za pośrednictwem kilku katalogów zawierających posegregowane tematycznie odnośniki do online’owych baz danych.

10 największych zasobów głębokiego Internetu
nazwa	typ	adres	rozmiar (w GB)
National Climatic Data Center (NOAA)	publiczna	http://www.ncdc.noaa.gov/ ol/satellite/satelliteresources.html	366 000
NASA EOSDIS	publiczna	http://harp.gsfc.nasa.gov/ ~imswww/pub/imswelcome/ plain.htm	219 600
National Oceanographic	publiczna (płatna)	http://www.nodc.noaa.gov/	32 940
Alexa	publiczna (częściowo)	http://info.alexa.com/ data/destination_site/	15 860
Right-to-Know Network (RTK Net)	publiczna	http://www.rtk.net/	14 640
MP3.com	publiczna	http://www.mp3.com/	4 300
Terraserver	publiczna (płatna)	http://terraserver.homeadvisor.msn.com/	4 270
HEASARC (High Energy Astrophysics Science Archive Research Center)	publiczna	http://heasarc.gsfc.nasa.gov/ W3Browse/	2 562
US PTO – znaki towarowe i patenty	publiczna	http://www.uspto.gov/tmdb/; http://www.uspto.gov/patft/	2 440
Informedia (Carnegie Mellon University) – biblioteka wideo	publiczna (jeszcze nieuruchomiona)	http://www.informedia.cs.cmu.edu/	1 830