Szukanie pod lupą

Wyszukiwarki to najbardziej popularne serwisy internetowe. Wszyscy z nich korzystamy, ale mało kto wie, jak wśród miliardów dokumentów potrafią znaleźć te, które nas interesują.

Internet jest największym zbiorowiskiem informacji, stworzonym przez człowieka. Znaleźć można tu dokładnie wszystko, począwszy od przepisów na rosół z kury, a na nitroglicerynę skończywszy. Jednak taki ogrom informacji niesie ze sobą bardzo poważny problem – jak odszukać to, co nas interesuje?

Istnieją dwa rozwiązania tego problemu: katalogi oraz wyszukiwarki. Pierwsze są budowane przez duże sztaby osób, które przeglądają i klasyfikują ciekawe strony. Najstarszym i najsłynniejszym przykładem takiego serwisu jest Yahoo!. Katalogi przechowują informacje o ograniczonej liczbie dokumentów, jednak są to zazwyczaj najlepsze strony, jakie można znaleźć na dany temat na Internecie.

Twórcy wyszukiwarek podeszli do tego zagadnienia z nieco innej strony. Serwisy te automatycznie budują bazy danych zawierające informacje o olbrzymiej liczbie stron internetowych. Dokumenty te nie są jednak poukładane tematycznie, ponieważ komputer nie jest w stanie ocenić, o czym traktuje dana strona. Są natomiast poindeksowane według wyrazów, które zawierają. Pozwala to wyszukać te strony, o które użytkownik pytał.

Wyszukiwarki dzielą się również na dwie grupy: globalne i lokalne. Zadaniem pierwszych z nich jest indeksowanie wszystkich stron WWW – zadając w nich pytania, otrzymamy odnośniki do dokumentów znajdujących się na całym świecie. Przykładami takich serwisów są Infoseek oraz AltaVista. Natomiast wyszukiwarki lokalne starają się jak najdokładniej przeskanować strony znajdujące się w jednym kraju. Jedną z takich usług jest obecny na stronie głównej CHIP-a Online NET-oskop, który przeszukuje wyłącznie polski Internet.

Info
Grupy dyskusyjne
Uwagi i komentarze do artykułu:
#
Pytania techniczne:
#
Internet
Opis wyszukiwarki FAST
http://www.fast.no/fast.php3?d=technology&c=fastsrch&h=2
Htdig
http://htdig.sourceforge.net/
Moduł w Perlu do tworzenia robotów
http://search.cpan.org/search?module=WWW::Robot
Więcej:bezcatnews