Co to i ile tego jest?
Według szacunków amerykańskiej firmy Bright Planet na niewidoczną Sieć składa się ok. 200 tysięcy serwisów internetowych o łącznej objętości 7500 terabajtów (sic!). Może ta, mimo wszystko niemała, liczba nic nikomu nie powie, ale w porównaniu z 19 TB widocznej części Internetu robi jednak wrażenie. Co ciekawe, aż 95% niejawnych zasobów sieciowych jest dostępnych publicznie i korzystanie z nich nie wymaga subskrypcji ani wnoszenia żadnych opłat. A co bardziej interesujące, owe “głębinowe rezerwuary” informacji są nieporównywalnie bardziej wartościowe od źródeł “powierzchniowych”.
Dlaczego? Ano dlatego, że ponad połowa to tematyczne – nierzadko rządowe – bazy danych. Ich specyfiką nie jest rozległość (jak w przypadku “zwykłych” witryn), lecz wąska specjalizacja. Najbardziej jed- nak zadziwiające jest to, że – mimo niewidoczności (dla konwencjonalnych wyszukiwarek) – w serwisach należących do tzw. deep Webu odnotowuje się o 50% większy ruch miesięczny (z ang. traffic) niż na stronach “konwencjonalnych”.
Jak nie widać, skoro widać?
To, że część pokładów internetowych jest niby-niewidoczna, wynika ze sposobu funkcjonowania tradycyjnych wyszukiwarek. Roboty, które przeczesują Sieć, dysponują indeksami jedynie tych stron, do których odnośniki znajdują się w innych witrynach albo które zostały “zgłoszone” do wyszukiwarek. Serwisy “niby-niewidoczne” natomiast przechowują swoje zasoby w bazach danych, które w momencie “odpytania” generują dynamiczne odpowiedzi.
Są jednak zarówno miejsca, jak i sposoby na zobaczenie tajemniczego fragmentu Internetu. Najbardziej intuicyjną metodą jest przeglądanie zasobów głębokiej Sieci. A czynić tak można za pośrednictwem kilku katalogów zawierających posegregowane tematycznie odnośniki do online’owych baz danych.
10 największych zasobów głębokiego Internetu | |||
nazwa | typ | adres | rozmiar (w GB) |
National Climatic Data Center (NOAA) | publiczna | http://www.ncdc.noaa.gov/ ol/satellite/satelliteresources.html | 366 000 |
NASA EOSDIS | publiczna | http://harp.gsfc.nasa.gov/ ~imswww/pub/imswelcome/ plain.htm | 219 600 |
National Oceanographic | publiczna (płatna) | http://www.nodc.noaa.gov/ | 32 940 |
Alexa | publiczna (częściowo) | http://info.alexa.com/ data/destination_site/ | 15 860 |
Right-to-Know Network (RTK Net) | publiczna | http://www.rtk.net/ | 14 640 |
MP3.com | publiczna | http://www.mp3.com/ | 4 300 |
Terraserver | publiczna (płatna) | http://terraserver.homeadvisor.msn.com/ | 4 270 |
HEASARC (High Energy Astrophysics Science Archive Research Center) | publiczna | http://heasarc.gsfc.nasa.gov/ W3Browse/ | 2 562 |
US PTO – znaki towarowe i patenty | publiczna | http://www.uspto.gov/tmdb/; http://www.uspto.gov/patft/ | 2 440 |
Informedia (Carnegie Mellon University) – biblioteka wideo | publiczna (jeszcze nieuruchomiona) | http://www.informedia.cs.cmu.edu/ | 1 830 |