W stogu danych

Przegląd wyszukiwarek desktopowych

W ostatnich kilkunastu latach przekonaliśmy się na przykładzie Internetu, że sam dostęp do informacji to jeszcze nie wszystko. Kluczowa jest możliwość sprawnego i szybkiego odnalezienia interesujących nas danych. Do tego celu służą programy, które potrafią dzisiaj szybko i z niesamowitą skutecznością przeszukiwać strony WWW i publikowane na nich dokumenty.

Problem z odnajdywaniem konkretnych plików pojawił się również w wypadku małych sieci lokalnych oraz pojedynczych pecetów. Stało się tak głównie z powodu popularyzacji dużych dysków twardych oraz ilości danych związanych z instalowanymi na nich aplikacjami (kliparty, przykładowe dokumenty, pliki Pomocy itp.). Użytkownik pracujący na pojedynczym komputerze nie jest już w stanie samodzielnie zapanować nad dziesiątkami miliardów bajtów oraz ich rozłożeniem na dysku. Zatem problem odnajdywania danych jest niemal tak złożony jak w wypadku dokumentów umieszczanych w Internecie. Zapotrzebowanie na sprawne programy szukające dla zwykłych komputerów zauważyli przede wszystkim twórcy wyszukiwarek internetowych i zaczęli pisać tzw. desktopowe wersje swych aplikacji (ang. desktop search), które można uruchomić na domowym pececie.

Po co mi to?

Każdy system zawiera chociażby proste komendy służące do przeszukiwania dysków. W Linuksach służy do tego komenda find, która użyta z kultowym poleceniem grep potrafi wyszperać każdą literkę w najgłębszych zakamarkach „twardziela”. W systemach z rodziny Windows mamy do dyspozycji polecenie Szukaj, które może odnajdywać pliki po fragmentach ich nazwy oraz zawartości. Jaka więc korzyść płynie z używania aplikacji desktop search? Otóż podczas „tradycyjnego” szukania, np. wyrazu „test” we wszystkich plikach o dowolnych rozszerzeniach (maska *.*), system musi odczytać po kolei każdy plik i sprawdzić jego całą zawartość. Zważywszy na moc obliczeniową współczesnych pecetów, to niby nic wielkiego. Jeśli jednak na dysku mamy 200 tysięcy lub więcej plików, to odpowiedź w najlepszym wypadku otrzymamy po kilku minutach. Gdy interesują nas dokumenty zawierające nie tylko wyraz „test”, ale również np. „ala”, „miłość” itp., to w tym czasie możemy po prostu wyjść na kawę, ponieważ komputer będzie przeszukiwał dysk osobno dla każdego pliku wymienionego w zapytaniu. Programy desktop search takie „przejście” przez wszystkie pliki na „twardzielu” wykonują raz – przy pierwszym ich uruchomieniu. Podczas wyszukiwania wyniki otrzymujemy praktycznie natychmiast, co bardzo znacząco oszczędza nasz czas.

Kolejna sprawa to precyzja filtrowania. Załóżmy, że interesują nas wszystkie dokumenty Worda, które zawierają wyraz „wypracowanie”. Tutaj kończą się możliwości narzędzi dostępnych w systemie operacyjnym, a to dlatego, że w plikach DOC wspomniana fraza nie jest zapisana jako tekst ASCII. Szukanie według zawartości za pomocą Eksploratora Windows to nic innego jak sprawdzanie, czy konkretny łańcuch znaków występuje w kolejno przeglądanych plikach. Jednak w przeciwieństwie do narzędzia systemowego wyszukiwarki desktopowe potrafią przeczytać format DOC i sprawdzić zapisany w nim tekst.

To jednak nie wszystko. Programy desktop search umieją, podobnie jak narzędzia przeznaczone do szperania w Sieci, wskazać, który dokument może być dla nas bardziej interesujący, i sortować listę wyników. Tak robią np. Google Desk-top Search czy MSN Search Toolbar. Narzędzie systemowe pokaże nam pliki tylko zgodnie z kolejnością ich znalezienia.

Wymienione zalety, które przemawiają na korzyść wyszukiwarek desktopowych, oznaczają dla użytkownika przede wszystkim oszczędność czasu. Funkcjonalność takich aplikacji jest znacznie większa niż zwykłych narzędzi systemowych. Trzeba jednak wiedzieć, jak się tymi superszperaczami posługiwać.

Dane techniczne programów typu desktop search
Nazwa Google Desktop Search dtSearch Desktop Copernic Desktop Search MSN Search Toolbar X1 Desktop Search Yahoo! Desktop Search Enfish Find Svizzer Desktop Search
WWW [http://] desktop.google.com www.dtsearch.com www.copernic.com toolbar.msn.com www.x1.com desktop.yahoo.com www.enfish.com www.svizzer.com
Cena freeware 199 USD freeware freeware 74,95 USD freeware 49,95 USD freeware
System operacyjny Windows 2000 (SP3)/XP Windows 9x/Me/NT/2000/XP Windows 98/Me/NT/2000/XP Windows 2000/XP/Server 2003 Windows 2000 (SP3)/XP Windows 2000 (SP3)/XP Windows 98/NT 4.0 (SP3)/2000/XP/Me Windows 2000/XP/Server 2003
Ocena*) 5 5 4 4 4 4 3 2
Liczba typów indeksowanych dokumentów ponad 100 ponad 80 ponad 200 ponad 200 370 ponad 200 ponad 60 ponad 20
Indeksowanie poczty (Outlook 2003/OE/Eudora/Mozilla Thunderbird) +/+/-/+ +/-/-/- +/+/-/+ +/+/-/- +/+/+/- +/+/-/- +/+/-/- +/+/-/-
Indeksowane kontaktów + + + + +
Indeksowanie historii i ulubio-nych (IE/Mozilla Firefox/Netscape) +/+/+ -/-/- +/+/+ +/-/- -/-/- -/-/- +/-/- -/-/-
Maksymalna liczba dokumentów indeks maks. 2 GB bez limitu bez limitu bez limitu bez limitu bez limitu bez limitu bez limitu
Używane zasoby (RAM/HDD bez indeksu) 8 MB/2,7 MB 20 MB/36 MB 2 MB/7,5 MB 9 MB/19,6 MB 14 MB/23 MB 14 MB/23 MB 21 MB/30 MB 40 MB/20 MB
Wyszukiwanie zaawansowane + + + + +
Szukanie w wynikach +
Możliwość wyboru danych do skanowania + + + + + + + +
Przeznaczenie: biznes/użytkownik domowy +/+ +/+ +/+ -/+ +/+ -/+ +/+ -/+
Wyniki testów**)
Wielkość indeksu 37 MB 210 MB 43 MB 33 MB 53 MB 50 MB 174 MB 203 MB
Liczba zaindeksowanych pozycji 972 10 842 4800 3900 6342 5831 943 2081
Średni czas potrzebny na wyszukanie poniżej sekundy 10 s 2 s 2 s 5 s 4 s 2 s 15 s
Liczba znalezionych pozycji 66 3178 966 996 1673 1262 179 44
Komentarz Wysoka jakość wyszukiwania, nieodbiegająca od internetowej „siostry”. Interfejs użytkownika oparty na HTML-u obniża ergonomię pracy. Niesamowite możliwości wyszukiwawcze. Słownik synonimów, tezaurus, zadawanie pytań w języku naturalnym oraz opcjonalna możliwość szukania w tekstach polskich. Bardzo rozbudowany i przejrzysty interfejs użytkownika. Dobre, przemyślane zarządzanie modułem indeksującym. Dobry produkt ze stajni Microsoftu. Gdyby nie faworyzował dokumentów stworzonych przez aplikacje firmy z Redmond, byłby naprawdę godny polecenia. Wyszukiwanie w Lotus Notes oraz w Eudorze to ewenement godny uwagi. Bardzo dobra filtracja podczas szukania, wysoka ergonomia. Program bazuje na uproszczonej wersji engine’u z X1 Desktop Search, dlatego działanie obu aplikacji jest bardzo podobne. Średni poziom wyszukiwania i przeciętna liczba typów rozpoznawanych dokumentów. Na uwagę zasługuje możliwość sortowania wyników według ważności słowa w dokumencie. Jedna ze słabszych pozycji na rynku. Poza powolnością wyszukiwania charakteryzuje się również słabym, czasami wręcz błędnym wyszukiwaniem.
+ – tak, – – nie; *) – ocena subiektywna na podstawie porównania ergonomii, funkcjonalności aplikacji oraz wyników testu indeksowania i wyszukiwania, **) – do testów została przygotowana partycja z dokumentami o łącznej wielkości 452 MB, zawierająca pliki DOC, PDF, źródłowe (C/C++/asembler/PHP), HTML i tekstowe. Średni czas wyszukiwania to suma wszystkich czasów potrzebnych na znalezienie odpowiedzi na 5 przykładowych zapytań.