W stogu danych

W ostatnich kilkunastu latach przekonaliśmy się na przykładzie Internetu, że sam dostęp do informacji to jeszcze nie wszystko. Kluczowa jest możliwość sprawnego i szybkiego odnalezienia interesujących nas danych. Do tego celu służą programy, które potrafią dzisiaj szybko i z niesamowitą skutecznością przeszukiwać strony WWW i publikowane na nich dokumenty.

Problem z odnajdywaniem konkretnych plików pojawił się również w wypadku małych sieci lokalnych oraz pojedynczych pecetów. Stało się tak głównie z powodu popularyzacji dużych dysków twardych oraz ilości danych związanych z instalowanymi na nich aplikacjami (kliparty, przykładowe dokumenty, pliki Pomocy itp.). Użytkownik pracujący na pojedynczym komputerze nie jest już w stanie samodzielnie zapanować nad dziesiątkami miliardów bajtów oraz ich rozłożeniem na dysku. Zatem problem odnajdywania danych jest niemal tak złożony jak w wypadku dokumentów umieszczanych w Internecie. Zapotrzebowanie na sprawne programy szukające dla zwykłych komputerów zauważyli przede wszystkim twórcy wyszukiwarek internetowych i zaczęli pisać tzw. desktopowe wersje swych aplikacji (ang. desktop search), które można uruchomić na domowym pececie.

Po co mi to?

Każdy system zawiera chociażby proste komendy służące do przeszukiwania dysków. W Linuksach służy do tego komenda find, która użyta z kultowym poleceniem grep potrafi wyszperać każdą literkę w najgłębszych zakamarkach “twardziela”. W systemach z rodziny Windows mamy do dyspozycji polecenie Szukaj, które może odnajdywać pliki po fragmentach ich nazwy oraz zawartości. Jaka więc korzyść płynie z używania aplikacji desktop search? Otóż podczas “tradycyjnego” szukania, np. wyrazu “test” we wszystkich plikach o dowolnych rozszerzeniach (maska *.*), system musi odczytać po kolei każdy plik i sprawdzić jego całą zawartość. Zważywszy na moc obliczeniową współczesnych pecetów, to niby nic wielkiego. Jeśli jednak na dysku mamy 200 tysięcy lub więcej plików, to odpowiedź w najlepszym wypadku otrzymamy po kilku minutach. Gdy interesują nas dokumenty zawierające nie tylko wyraz “test”, ale również np. “ala”, “miłość” itp., to w tym czasie możemy po prostu wyjść na kawę, ponieważ komputer będzie przeszukiwał dysk osobno dla każdego pliku wymienionego w zapytaniu. Programy desktop search takie “przejście” przez wszystkie pliki na “twardzielu” wykonują raz – przy pierwszym ich uruchomieniu. Podczas wyszukiwania wyniki otrzymujemy praktycznie natychmiast, co bardzo znacząco oszczędza nasz czas.

Kolejna sprawa to precyzja filtrowania. Załóżmy, że interesują nas wszystkie dokumenty Worda, które zawierają wyraz “wypracowanie”. Tutaj kończą się możliwości narzędzi dostępnych w systemie operacyjnym, a to dlatego, że w plikach DOC wspomniana fraza nie jest zapisana jako tekst ASCII. Szukanie według zawartości za pomocą Eksploratora Windows to nic innego jak sprawdzanie, czy konkretny łańcuch znaków występuje w kolejno przeglądanych plikach. Jednak w przeciwieństwie do narzędzia systemowego wyszukiwarki desktopowe potrafią przeczytać format DOC i sprawdzić zapisany w nim tekst.

To jednak nie wszystko. Programy desktop search umieją, podobnie jak narzędzia przeznaczone do szperania w Sieci, wskazać, który dokument może być dla nas bardziej interesujący, i sortować listę wyników. Tak robią np. Google Desk-top Search czy MSN Search Toolbar. Narzędzie systemowe pokaże nam pliki tylko zgodnie z kolejnością ich znalezienia.

Wymienione zalety, które przemawiają na korzyść wyszukiwarek desktopowych, oznaczają dla użytkownika przede wszystkim oszczędność czasu. Funkcjonalność takich aplikacji jest znacznie większa niż zwykłych narzędzi systemowych. Trzeba jednak wiedzieć, jak się tymi superszperaczami posługiwać.

Dane techniczne programów typu desktop search
NazwaGoogle Desktop SearchdtSearch DesktopCopernic Desktop SearchMSN Search ToolbarX1 Desktop SearchYahoo! Desktop SearchEnfish FindSvizzer Desktop Search
WWW [http://]desktop.google.comwww.dtsearch.comwww.copernic.comtoolbar.msn.comwww.x1.comdesktop.yahoo.comwww.enfish.comwww.svizzer.com
Cenafreeware199 USDfreewarefreeware74,95 USDfreeware49,95 USDfreeware
System operacyjnyWindows 2000 (SP3)/XPWindows 9x/Me/NT/2000/XPWindows 98/Me/NT/2000/XPWindows 2000/XP/Server 2003Windows 2000 (SP3)/XPWindows 2000 (SP3)/XPWindows 98/NT 4.0 (SP3)/2000/XP/MeWindows 2000/XP/Server 2003
Ocena*)55444432
Liczba typów indeksowanych dokumentówponad 100ponad 80ponad 200ponad 200370ponad 200ponad 60ponad 20
Indeksowanie poczty (Outlook 2003/OE/Eudora/Mozilla Thunderbird)+/+/-/++/-/-/-+/+/-/++/+/-/-+/+/+/-+/+/-/-+/+/-/-+/+/-/-
Indeksowane kontaktów+++++
Indeksowanie historii i ulubio-nych (IE/Mozilla Firefox/Netscape)+/+/+-/-/-+/+/++/-/--/-/--/-/-+/-/--/-/-
Maksymalna liczba dokumentówindeks maks. 2 GBbez limitubez limitubez limitubez limitubez limitubez limitubez limitu
Używane zasoby (RAM/HDD bez indeksu)8 MB/2,7 MB20 MB/36 MB2 MB/7,5 MB9 MB/19,6 MB14 MB/23 MB14 MB/23 MB21 MB/30 MB40 MB/20 MB
Wyszukiwanie zaawansowane+++++
Szukanie w wynikach+
Możliwość wyboru danych do skanowania++++++++
Przeznaczenie: biznes/użytkownik domowy+/++/++/+-/++/+-/++/+-/+
Wyniki testów**)
Wielkość indeksu37 MB210 MB43 MB33 MB53 MB50 MB174 MB203 MB
Liczba zaindeksowanych pozycji97210 84248003900634258319432081
Średni czas potrzebny na wyszukanieponiżej sekundy10 s2 s2 s5 s4 s2 s15 s
Liczba znalezionych pozycji6631789669961673126217944
KomentarzWysoka jakość wyszukiwania, nieodbiegająca od internetowej “siostry”. Interfejs użytkownika oparty na HTML-u obniża ergonomię pracy.Niesamowite możliwości wyszukiwawcze. Słownik synonimów, tezaurus, zadawanie pytań w języku naturalnym oraz opcjonalna możliwość szukania w tekstach polskich. Bardzo rozbudowany i przejrzysty interfejs użytkownika. Dobre, przemyślane zarządzanie modułem indeksującym.Dobry produkt ze stajni Microsoftu. Gdyby nie faworyzował dokumentów stworzonych przez aplikacje firmy z Redmond, byłby naprawdę godny polecenia.Wyszukiwanie w Lotus Notes oraz w Eudorze to ewenement godny uwagi. Bardzo dobra filtracja podczas szukania, wysoka ergonomia.Program bazuje na uproszczonej wersji engine’u z X1 Desktop Search, dlatego działanie obu aplikacji jest bardzo podobne.Średni poziom wyszukiwania i przeciętna liczba typów rozpoznawanych dokumentów. Na uwagę zasługuje możliwość sortowania wyników według ważności słowa w dokumencie.Jedna ze słabszych pozycji na rynku. Poza powolnością wyszukiwania charakteryzuje się również słabym, czasami wręcz błędnym wyszukiwaniem.
+ – tak, – – nie; *) – ocena subiektywna na podstawie porównania ergonomii, funkcjonalności aplikacji oraz wyników testu indeksowania i wyszukiwania, **) – do testów została przygotowana partycja z dokumentami o łącznej wielkości 452 MB, zawierająca pliki DOC, PDF, źródłowe (C/C++/asembler/PHP), HTML i tekstowe. Średni czas wyszukiwania to suma wszystkich czasów potrzebnych na znalezienie odpowiedzi na 5 przykładowych zapytań.
Więcej:bezcatnews