Odmęty Sieci

Wyszukiwanie w "niewidocznej" części Internetu

Skąd taka pewność wygranej przy podejmowaniu zakładu? Czy bowiem ktoś, kto dzień w dzień patrzy na zwykłe – jak mu się wydaje – ocynkowane wiadro, pojmie, że w rzeczywistości mieści się w nim prawie 10 000 litrów wody? No bez przesady… Mimo wszystko to prawda. Tak właśnie jest w tym przypadku. Niby wszyscy wiedzą, że Internet jest przepastny, ale czy ktoś da wiarę, że publicznie dostępne zasoby sieciowe mogą być nawet 550 razy większe od powszechnie szacowanego WWW? Trudno uwierzyć.

Co to i ile tego jest?

Według szacunków amerykańskiej firmy Bright Planet na niewidoczną Sieć składa się ok. 200 tysięcy serwisów internetowych o łącznej objętości 7500 terabajtów (sic!). Może ta, mimo wszystko niemała, liczba nic nikomu nie powie, ale w porównaniu z 19 TB widocznej części Internetu robi jednak wrażenie. Co ciekawe, aż 95% niejawnych zasobów sieciowych jest dostępnych publicznie i korzystanie z nich nie wymaga subskrypcji ani wnoszenia żadnych opłat. A co bardziej interesujące, owe „głębinowe rezerwuary” informacji są nieporównywalnie bardziej wartościowe od źródeł „powierzchniowych”.

Dlaczego? Ano dlatego, że ponad połowa to tematyczne – nierzadko rządowe – bazy danych. Ich specyfiką nie jest rozległość (jak w przypadku „zwykłych” witryn), lecz wąska specjalizacja. Najbardziej jed- nak zadziwiające jest to, że – mimo niewidoczności (dla konwencjonalnych wyszukiwarek) – w serwisach należących do tzw. deep Webu odnotowuje się o 50% większy ruch miesięczny (z ang. traffic) niż na stronach „konwencjonalnych”.

Jak nie widać, skoro widać?

To, że część pokładów internetowych jest niby-niewidoczna, wynika ze sposobu funkcjonowania tradycyjnych wyszukiwarek. Roboty, które przeczesują Sieć, dysponują indeksami jedynie tych stron, do których odnośniki znajdują się w innych witrynach albo które zostały „zgłoszone” do wyszukiwarek. Serwisy „niby-niewidoczne” natomiast przechowują swoje zasoby w bazach danych, które w momencie „odpytania” generują dynamiczne odpowiedzi.

Są jednak zarówno miejsca, jak i sposoby na zobaczenie tajemniczego fragmentu Internetu. Najbardziej intuicyjną metodą jest przeglądanie zasobów głębokiej Sieci. A czynić tak można za pośrednictwem kilku katalogów zawierających posegregowane tematycznie odnośniki do online’owych baz danych.

10 największych zasobów głębokiego Internetu
nazwa typ adres rozmiar (w GB)
National Climatic Data Center (NOAA) publiczna http://www.ncdc.noaa.gov/ ol/satellite/satelliteresources.html 366 000
NASA EOSDIS publiczna http://harp.gsfc.nasa.gov/ ~imswww/pub/imswelcome/ plain.htm 219 600
National Oceanographic publiczna (płatna) http://www.nodc.noaa.gov/ 32 940
Alexa publiczna (częściowo) http://info.alexa.com/ data/destination_site/ 15 860
Right-to-Know Network (RTK Net) publiczna http://www.rtk.net/ 14 640
MP3.com publiczna http://www.mp3.com/ 4 300
Terraserver publiczna (płatna) http://terraserver.homeadvisor.msn.com/ 4 270
HEASARC (High Energy Astrophysics Science Archive Research Center) publiczna http://heasarc.gsfc.nasa.gov/ W3Browse/ 2 562
US PTO – znaki towarowe i patenty publiczna http://www.uspto.gov/tmdb/; http://www.uspto.gov/patft/ 2 440
Informedia (Carnegie Mellon University) – biblioteka wideo publiczna (jeszcze nieuruchomiona) http://www.informedia.cs.cmu.edu/ 1 830

Chcesz być na bieżąco z CHIP? Obserwuj nas w Google News