Pod maską Google'a

Obecnie w swoich bazach Google (nazwa usługi pochodzi od angielskiego słowa googol, które oznacza liczbę 10100) przechowuje informacje o 6 miliardach obiektów, w tym 4,3 miliarda stron WWW, 880 milionów obrazków oraz 850 milionów wiadomości z grup dyskusyjnych. Wszystkie te liczby robią wrażanie, a dodając do tego nowatorski i skuteczny system sortowania informacji, otrzymujemy odpowiedź, dlaczego Google jest obecnie najbardziej popularnym wśród internautów serwisem wyszukiwawczym.

Liczy się pomysł

W ostatnich kilku latach wraz z rozwojem Internetu rozrastały się też wyszukiwarki internetowe. Wystarczy porównać następujące wielkości: pierwsza usługa tego typu z 1994 r. (World Wide Web Worm) w swojej bazie przechowywała informacje o 110 tysiącach stron. W roku 1997 najlepsza ówcześnie wyszukiwarka (Web-Crawler) zawierała już wyrazy z 2 milionów dokumentów. Równocześnie drastycznie wzrastała liczba zapytań. W 1994 wynosiła ona 1500 na dobę, a w 1997 AltaVista obsługiwała około 20 milionów pytań dziennie. Dzisiaj liczba ta przekracza setki milionów!

Wydaje się, że znalezienie czegokolwiek w tak potężnej bazie danych powinno zajmować co najmniej kilka minut. Jednak nic bardziej błędnego. Google zwraca nam rezultat każdego wyszukiwania w czasie krótszym niż sekunda! Zaprojektowanie tak wydajnego systemu jest dużym wyzwaniem. Wystarczy uświadomić sobie, jak ogromna jest to masa danych oraz ile zapytań do bazy będzie generowanych w każdej minucie działania systemu. Jak Google radzi sobie w tych warunkach?

Najważniejszym problemem jest jednak sortowanie wyników wyszukiwania. Przeciętnie użytkownik zwraca uwagę tylko na pierwsze dziesięć odsyłaczy, pomijając pozostałe. Właśnie dlatego tak ważne jest, żeby informacja, do której chcemy dotrzeć, pojawiała się jako pierwsza, a dodatkowo żeby była to informacja dla nas wartościowa. Tutaj pojawia się odkrywcza myśl twórców Google’a. Zauważyli oni mianowicie, że o tym, czy dana strona jest cenna oraz czy warto ją promować, świadczą m.in. odsyłacze prowadzące do niej z innych stron WWW. W ten sposób stworzyli algorytm PageRank, który nadawał odpowiedni priorytet wynikom wyszukiwania. Im więcej odnośników do danego dokumentu istnieje w Internecie, tym wyższy priorytet on otrzyma. PageRank dla strony

A można obliczyć, stosując następujący wzór:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Zakładamy, że do pliku A prowadzą odsyłacze ze stron od T1 do Tn, d to współczynnik, który może przyjmować wartości od 0 do 1, zazwyczaj ustawiany jest na 0,85, a C(A) to liczba odnośników prowadzących z dokumentu A. Skąd wziąć wartości PR dla stron składowych? Gdybyśmy chcieli je obliczyć, otrzymamy układ 4,3 mld równań z 4,3 mld niewiadomych. Jego rozwiązanie jest oczywiście niemożliwe. Dlatego nie da się precyzyjnie określić wartości PageRanku dla wszystkich dokumentów. Nie ma jednak takiej potrzeby. Internet bowiem cały czas się zmienia. Problem rozwiązano następująco: na początku wszystkim dokumentom nadano identyczne wartości PR, później na tej podstawie obliczono współczynniki i… zaczęto obliczanie od nowa. W ten krokowy sposób można uzyskać współczynniki bliskie rzeczywistości.

Porównanie największych wyszukiwarek internetowych
Wyszukiwarka	Google	Yahoo! Search	Teoma
Adres WWW	http://www.google.com/	http://search.yahoo.com/	http://www.teoma.com/
Podstawa tworzenia rankingu wyników	System PageRank	Liczba słów występujących na stronie, które mają związek z zadanym pytaniem	Liczba odsyłaczy prowadzących do wyszukanej strony. System podobny do PageRank Google’a
Baza danych	Kompletne strony WWW, pliki PDF, DOC, XLS, PS (około 4,3 mld, z czego 1 mld częściowo zindeksowany. Oraz: artykuły z grup dyskusyjnych od 1981 r., najnowsze informacje, oferty sklepowe (Froogle)	Kompletne strony WWW (około 3 mld), pliki PDF, PS, Flash. Oraz: najnowsze informcje, obrazki, mapy, produkty, książka telefoniczna	Kompletne strony WWW (około 1 mld)
Operatory logiczne	AND, OR, +, -, ~ (podobny do), .. (zakres liczb)	AND, OR, AND NOT, NOT, nawiasy, +, –	AND, OR, +, –
Dodatkowe opcje	Gwiazdki we frazach (np.: “to * or ***”). Pola: intitle:, inurl:, link:, site:, … Potrafi odszukiwać spokrewnione strony	Szukanie wg daty, języka, domeny, typów plików. Pola: intitle:, inurl:, link, site, hostname, url	Pola: intitle:, inurl:, site:, geoloc:, lang:, last:, afterdate:, beforedate:, betweendate:
Inne	Sprawdza pisownię. Wyświetla strony z pamięci podręcznej, wersja w 50 językach, tłumaczenia dokumentów na 5 języków. Kalkulator, książka telefoniczna, mapy itp.	Sprawdza pisownię. Wyświetla strony z pamięci podręcznej, w odpowiedziach sugeruje podobne dokumenty, odsyłacze do słowników, encyklopedii itp.	Sprawdza pisownię, sugeruje sposób zadania pytania w celu uściślenia wyników wyszukiwania.