W stogu danych

Problem z odnajdywaniem konkretnych plików pojawił się również w wypadku małych sieci lokalnych oraz pojedynczych pecetów. Stało się tak głównie z powodu popularyzacji dużych dysków twardych oraz ilości danych związanych z instalowanymi na nich aplikacjami (kliparty, przykładowe dokumenty, pliki Pomocy itp.). Użytkownik pracujący na pojedynczym komputerze nie jest już w stanie samodzielnie zapanować nad dziesiątkami miliardów bajtów oraz ich rozłożeniem na dysku. Zatem problem odnajdywania danych jest niemal tak złożony jak w wypadku dokumentów umieszczanych w Internecie. Zapotrzebowanie na sprawne programy szukające dla zwykłych komputerów zauważyli przede wszystkim twórcy wyszukiwarek internetowych i zaczęli pisać tzw. desktopowe wersje swych aplikacji (ang. desktop search), które można uruchomić na domowym pececie.

Po co mi to?

Każdy system zawiera chociażby proste komendy służące do przeszukiwania dysków. W Linuksach służy do tego komenda find, która użyta z kultowym poleceniem grep potrafi wyszperać każdą literkę w najgłębszych zakamarkach “twardziela”. W systemach z rodziny Windows mamy do dyspozycji polecenie Szukaj, które może odnajdywać pliki po fragmentach ich nazwy oraz zawartości. Jaka więc korzyść płynie z używania aplikacji desktop search? Otóż podczas “tradycyjnego” szukania, np. wyrazu “test” we wszystkich plikach o dowolnych rozszerzeniach (maska *.*), system musi odczytać po kolei każdy plik i sprawdzić jego całą zawartość. Zważywszy na moc obliczeniową współczesnych pecetów, to niby nic wielkiego. Jeśli jednak na dysku mamy 200 tysięcy lub więcej plików, to odpowiedź w najlepszym wypadku otrzymamy po kilku minutach. Gdy interesują nas dokumenty zawierające nie tylko wyraz “test”, ale również np. “ala”, “miłość” itp., to w tym czasie możemy po prostu wyjść na kawę, ponieważ komputer będzie przeszukiwał dysk osobno dla każdego pliku wymienionego w zapytaniu. Programy desktop search takie “przejście” przez wszystkie pliki na “twardzielu” wykonują raz – przy pierwszym ich uruchomieniu. Podczas wyszukiwania wyniki otrzymujemy praktycznie natychmiast, co bardzo znacząco oszczędza nasz czas.

Kolejna sprawa to precyzja filtrowania. Załóżmy, że interesują nas wszystkie dokumenty Worda, które zawierają wyraz “wypracowanie”. Tutaj kończą się możliwości narzędzi dostępnych w systemie operacyjnym, a to dlatego, że w plikach DOC wspomniana fraza nie jest zapisana jako tekst ASCII. Szukanie według zawartości za pomocą Eksploratora Windows to nic innego jak sprawdzanie, czy konkretny łańcuch znaków występuje w kolejno przeglądanych plikach. Jednak w przeciwieństwie do narzędzia systemowego wyszukiwarki desktopowe potrafią przeczytać format DOC i sprawdzić zapisany w nim tekst.

To jednak nie wszystko. Programy desktop search umieją, podobnie jak narzędzia przeznaczone do szperania w Sieci, wskazać, który dokument może być dla nas bardziej interesujący, i sortować listę wyników. Tak robią np. Google Desk-top Search czy MSN Search Toolbar. Narzędzie systemowe pokaże nam pliki tylko zgodnie z kolejnością ich znalezienia.

Wymienione zalety, które przemawiają na korzyść wyszukiwarek desktopowych, oznaczają dla użytkownika przede wszystkim oszczędność czasu. Funkcjonalność takich aplikacji jest znacznie większa niż zwykłych narzędzi systemowych. Trzeba jednak wiedzieć, jak się tymi superszperaczami posługiwać.

Dane techniczne programów typu desktop search
Nazwa	Google Desktop Search	dtSearch Desktop	Copernic Desktop Search	MSN Search Toolbar	X1 Desktop Search	Yahoo! Desktop Search	Enfish Find	Svizzer Desktop Search
WWW [http://]	desktop.google.com	www.dtsearch.com	www.copernic.com	toolbar.msn.com	www.x1.com	desktop.yahoo.com	www.enfish.com	www.svizzer.com
Cena	freeware	199 USD	freeware	freeware	74,95 USD	freeware	49,95 USD	freeware
System operacyjny	Windows 2000 (SP3)/XP	Windows 9x/Me/NT/2000/XP	Windows 98/Me/NT/2000/XP	Windows 2000/XP/Server 2003	Windows 2000 (SP3)/XP	Windows 2000 (SP3)/XP	Windows 98/NT 4.0 (SP3)/2000/XP/Me	Windows 2000/XP/Server 2003
*Ocena)**	5	5	4	4	4	4	3	2
Liczba typów indeksowanych dokumentów	ponad 100	ponad 80	ponad 200	ponad 200	370	ponad 200	ponad 60	ponad 20
Indeksowanie poczty (Outlook 2003/OE/Eudora/Mozilla Thunderbird)	+/+/-/+	+/-/-/-	+/+/-/+	+/+/-/-	+/+/+/-	+/+/-/-	+/+/-/-	+/+/-/-
Indeksowane kontaktów	–	–	+	+	+	+	+	–
Indeksowanie historii i ulubio-nych (IE/Mozilla Firefox/Netscape)	+/+/+	-/-/-	+/+/+	+/-/-	-/-/-	-/-/-	+/-/-	-/-/-
Maksymalna liczba dokumentów	indeks maks. 2 GB	bez limitu	bez limitu	bez limitu	bez limitu	bez limitu	bez limitu	bez limitu
Używane zasoby (RAM/HDD bez indeksu)	8 MB/2,7 MB	20 MB/36 MB	2 MB/7,5 MB	9 MB/19,6 MB	14 MB/23 MB	14 MB/23 MB	21 MB/30 MB	40 MB/20 MB
Wyszukiwanie zaawansowane	–	+	+	–	+	+	+	–
Szukanie w wynikach	+	–	–	–	–	–	–	–
Możliwość wyboru danych do skanowania	+	+	+	+	+	+	+	+
Przeznaczenie: biznes/użytkownik domowy	+/+	+/+	+/+	-/+	+/+	-/+	+/+	-/+
Wyniki testów)**
Wielkość indeksu	37 MB	210 MB	43 MB	33 MB	53 MB	50 MB	174 MB	203 MB
Liczba zaindeksowanych pozycji	972	10 842	4800	3900	6342	5831	943	2081
Średni czas potrzebny na wyszukanie	poniżej sekundy	10 s	2 s	2 s	5 s	4 s	2 s	15 s
Liczba znalezionych pozycji	66	3178	966	996	1673	1262	179	44
Komentarz	Wysoka jakość wyszukiwania, nieodbiegająca od internetowej “siostry”. Interfejs użytkownika oparty na HTML-u obniża ergonomię pracy.	Niesamowite możliwości wyszukiwawcze. Słownik synonimów, tezaurus, zadawanie pytań w języku naturalnym oraz opcjonalna możliwość szukania w tekstach polskich.	Bardzo rozbudowany i przejrzysty interfejs użytkownika. Dobre, przemyślane zarządzanie modułem indeksującym.	Dobry produkt ze stajni Microsoftu. Gdyby nie faworyzował dokumentów stworzonych przez aplikacje firmy z Redmond, byłby naprawdę godny polecenia.	Wyszukiwanie w Lotus Notes oraz w Eudorze to ewenement godny uwagi. Bardzo dobra filtracja podczas szukania, wysoka ergonomia.	Program bazuje na uproszczonej wersji engine’u z X1 Desktop Search, dlatego działanie obu aplikacji jest bardzo podobne.	Średni poziom wyszukiwania i przeciętna liczba typów rozpoznawanych dokumentów. Na uwagę zasługuje możliwość sortowania wyników według ważności słowa w dokumencie.	Jedna ze słabszych pozycji na rynku. Poza powolnością wyszukiwania charakteryzuje się również słabym, czasami wręcz błędnym wyszukiwaniem.
+ – tak, – – nie; ) – ocena subiektywna na podstawie porównania ergonomii, funkcjonalności aplikacji oraz wyników testu indeksowania i wyszukiwania, *) – do testów została przygotowana partycja z dokumentami o łącznej wielkości 452 MB, zawierająca pliki DOC, PDF, źródłowe (C/C++/asembler/PHP), HTML i tekstowe. Średni czas wyszukiwania to suma wszystkich czasów potrzebnych na znalezienie odpowiedzi na 5 przykładowych zapytań.