Multiszperacze

Odpowiedź wydaje się prosta. Wystarczy zadać dobrze sformułowane pytanie (“Zamiast szukać, znajdź!”, CHIP 2/2002, 42) w jednej z wielu popularnych wyszukiwarek. Potężne bazy danych będące integralną częścią serwisów wyszukiwawczych przechowują informacje o tym, jakie wyrazy występują na poszczególnych stronach. W odpowiedzi otrzymujemy odsyłacze do dokumentów, w których podane przez nas słowa kluczowe lub frazy powtarzają się najczęściej. Wyniki wyszukiwania jednak nie zawsze nas zadowalają. Dzieje się tak wtedy, gdy wspomniane bazy danych są niewielkie, proces ich uaktualniania odbywa się rzadko lub program służący do pobierania danych (tzw. szperacz) z Sieci działa za wolno. Najczęstszą jednak przyczyną jest – primo, nieprecyzyjnie sformułowane zapytanie oraz secundo – oszukiwanie w metatagach. O ile na pierwszą dolegliwość możemy coś poradzić (konstruować lepsze kwerendy), o tyle na drugą nie mamy żadnego wpływu (metaznaczniki danych stron WWW wpisują ich webmasterzy).

Teoretycznie istnieje sposób na rozwiązanie tych problemów. Są nim multiwyszukiwarki (zwane również równoległymi, wielowątkowymi czy też megaserwisami wyszuki- wawczymi). Korzystają one z zasobów wielu serwisów, zadając im jednocześnie to samo pytanie. Otrzymane wyniki sortują i prezentują użytkownikowi. Dodatkowo mogą też weryfikować odnośniki i odsiewać strony zduplikowane czy niedostępne w danym momencie. Wydaje się więc, że metawyszukiwarki powinny działać z trafnością i skutecznością kilkukrotnie większą niż pojedyncze serwisy. Test przeprowadzony w laboratorium software’owym CHIP-a (“Szukaj albo błądź”, CHIP 2/2002, 28) wykazał jednak, że nie zawsze tak jest. Zwyciężyła tradycyjna usługa (Google), a multiwyszukiwarki były daleko. Kiedy więc i czy w ogóle warto korzystać z wyszukiwarek tzw. pasożytniczych?

Rodzaje metaserwisów

Istnieje kilka podziałów metawyszukiwarek. Bodaj najistotniejszym jest ten, który oddaje sposób ich funkcjonowania. Wyróżniamy zatem dwa podstawowe rodzaje metaserwisów: wyszukiwarki niezależne i porównawcze. W wyniku działania mechanizmów pierwszego typu internauta otrzymuje osobne listy odsyłaczy do stron WWW, gdyż nie dokonuje się porównania rezultatów wyszukiwania poszczególnych metasearch engine’ów. Jak można zatem przypuszczać, wyniki działania tych metaszperaczy są obszerne, a wręcz przytłaczające. Przykładem multiwyszukiwarki niezależnej jest Dogpile (132).

Jak sama nazwa wskazuje i podpowiada intuicja, drugi rodzaj metaszukaczy (bardziej popularny) dokonuje analizy porównawczej list trafień otrzymanych z poszczególnych wyszukiwarek i usuwa powtarza- jące się odsyłacze. Zwykle w tego typu wyszukiwarkach użytkownicy mają możliwość kontrolowania niektórych parametrów, jak na przykład maksymalnej liczby trafień czy obsługi stron w danym języku. Cechą charakterystyczną tych narzędzi jest duża trafność uzyskanej odpowiedzi.

Wygląd, obsługa i działanie metawyszukiwarek

Multiserwisy wyszukiwawcze mają bardzo różny wygląd i funkcjonalność. Czasem są to zwyczajne strony WWW, gdzie po prostu umieszczono odnośniki do wyszukiwarek, innym razem mają postać jedno- lub wielokomórkowego formularza do wpisywania słów kluczowych czy też fraz.

Oprócz, rzecz jasna, tworzenia zapytań w okienku edycyjnym niektóre multiwyszukiwarki pozwalają na wybór engine’ów i katalogów. Z tych to zasobów po zbudowaniu kwerendy będzie korzystać nasz system wyszukiwawczy. W zależności od specyfiki pracy część metaszperaczy kolejno łączy się z każdym serwisem, pobiera dane i przechodzi do następnego, część zaś “odpytuje” swoje wyszukiwarki jednocześnie. W pierwszym przypadku wyniki są porządkowane i wyświetlane, zazwyczaj z zachowaniem podziału na poszczególne wyszukiwarki. Wadą serwisów przeszukujących pojedynczo jest to, że gdy na naszej liście znajdzie się wolno działająca lub obciążona maszyna, będziemy musieli poczekać, aż skończy ona przesyłanie swoich odnośników.

W drugim przypadku grupa usług szukających równolegle oferuje jedno pole edycyjne, w które wpisujemy treść pytania, a w wyniku otrzymujemy listę odnośników pochodzących z kilkunastu, a czasem nawet kilkudziesięciu serwisów wyszukiwawczych. Te metanarzędzia łączą się ze wszystkimi serwisami jednocześnie i pobierają z nich dane. Dzięki temu te serwisy dają najlepsze rezultaty i największy komfort użytkowania.

Jak działa Emulti – pierwsza polska metawyszukiwarka
Z wielu źródeł naraz
Emulti to pierwsza rodzima multiwyszukiwarka pracująca równolegle. Narzędzie korzysta z polskich i zagranicznych zasobów (możemy wybrać te, które nas interesują). Emulti wysyła zapytanie jednocześnie do kilku serwisów (użytkownik może sam określić ich liczbę, maksymalnie pięć), uwzględniając zadany przez nas maksymalny czas połączenia. Serwer pobiera dane partiami w czasie rzeczywistym i przetwarza je po upływie czasu oczekiwania. Po odebraniu informacji Emulti przerywa połączenie, nie czekając na pełny dokument. W niektórych przypadkach opuszcza początek dokumentu, co wpływa na skrócenie czasu pobierania danych.
      Następnie, po załadowaniu informacji ze wszystkich wyszukiwarek, Emulti usuwa duplikaty, sortuje wyniki tak, by najcelniejsze odnośniki znalazły się na początku listy, i wyświetla rezultaty. Metawyszukiwarka podaje dokładną historię połączenia – wyświetla komunikaty o błędach (braku lub przerwaniu połączenia z serwerem), jeśli wynik pochodzi z kilku różnych usług, przy odnośniku pojawia się informacja, gdzie występował odsyłacz. Podczas pobierania wyników z polskich wyszukiwarek Emulti zamienia stronę kodową dokumentu z Windows-1250 na ISO-8859-2, dzięki czemu polskie znaki są kodowane poprawnie.

Więcej:bezcatnews