Odmęty Sieci

Skąd taka pewność wygranej przy podejmowaniu zakładu? Czy bowiem ktoś, kto dzień w dzień patrzy na zwykłe – jak mu się wydaje – ocynkowane wiadro, pojmie, że w rzeczywistości mieści się w nim prawie 10 000 litrów wody? No bez przesady… Mimo wszystko to prawda. Tak właśnie jest w tym przypadku. Niby wszyscy wiedzą, że Internet jest przepastny, ale czy ktoś da wiarę, że publicznie dostępne zasoby sieciowe mogą być nawet 550 razy większe od powszechnie szacowanego WWW? Trudno uwierzyć.

Co to i ile tego jest?

Według szacunków amerykańskiej firmy Bright Planet na niewidoczną Sieć składa się ok. 200 tysięcy serwisów internetowych o łącznej objętości 7500 terabajtów (sic!). Może ta, mimo wszystko niemała, liczba nic nikomu nie powie, ale w porównaniu z 19 TB widocznej części Internetu robi jednak wrażenie. Co ciekawe, aż 95% niejawnych zasobów sieciowych jest dostępnych publicznie i korzystanie z nich nie wymaga subskrypcji ani wnoszenia żadnych opłat. A co bardziej interesujące, owe “głębinowe rezerwuary” informacji są nieporównywalnie bardziej wartościowe od źródeł “powierzchniowych”.

Dlaczego? Ano dlatego, że ponad połowa to tematyczne – nierzadko rządowe – bazy danych. Ich specyfiką nie jest rozległość (jak w przypadku “zwykłych” witryn), lecz wąska specjalizacja. Najbardziej jed- nak zadziwiające jest to, że – mimo niewidoczności (dla konwencjonalnych wyszukiwarek) – w serwisach należących do tzw. deep Webu odnotowuje się o 50% większy ruch miesięczny (z ang. traffic) niż na stronach “konwencjonalnych”.

Jak nie widać, skoro widać?

To, że część pokładów internetowych jest niby-niewidoczna, wynika ze sposobu funkcjonowania tradycyjnych wyszukiwarek. Roboty, które przeczesują Sieć, dysponują indeksami jedynie tych stron, do których odnośniki znajdują się w innych witrynach albo które zostały “zgłoszone” do wyszukiwarek. Serwisy “niby-niewidoczne” natomiast przechowują swoje zasoby w bazach danych, które w momencie “odpytania” generują dynamiczne odpowiedzi.

Są jednak zarówno miejsca, jak i sposoby na zobaczenie tajemniczego fragmentu Internetu. Najbardziej intuicyjną metodą jest przeglądanie zasobów głębokiej Sieci. A czynić tak można za pośrednictwem kilku katalogów zawierających posegregowane tematycznie odnośniki do online’owych baz danych.

10 największych zasobów głębokiego Internetu
nazwatypadresrozmiar (w GB)
National Climatic Data Center (NOAA)publicznahttp://www.ncdc.noaa.gov/ ol/satellite/satelliteresources.html366 000
NASA EOSDISpublicznahttp://harp.gsfc.nasa.gov/ ~imswww/pub/imswelcome/ plain.htm219 600
National Oceanographicpubliczna (płatna)http://www.nodc.noaa.gov/32 940
Alexapubliczna (częściowo)http://info.alexa.com/ data/destination_site/15 860
Right-to-Know Network (RTK Net)publicznahttp://www.rtk.net/14 640
MP3.compublicznahttp://www.mp3.com/4 300
Terraserverpubliczna (płatna)http://terraserver.homeadvisor.msn.com/4 270
HEASARC (High Energy Astrophysics Science Archive Research Center)publicznahttp://heasarc.gsfc.nasa.gov/ W3Browse/2 562
US PTO – znaki towarowe i patentypublicznahttp://www.uspto.gov/tmdb/; http://www.uspto.gov/patft/2 440
Informedia (Carnegie Mellon University) – biblioteka wideopubliczna (jeszcze nieuruchomiona)http://www.informedia.cs.cmu.edu/1 830
Więcej:bezcatnews