Specjalista od polskiego

Ponad trzy lata temu, w połowie grudnia 1996 roku, internauci mogli po raz pierwszy skorzystać z NEToskopa – polskiej wyszukiwarki internetowej. Miło nam obecnie zaprezentować zupełnie nową wersję tego narzędzia. NEToskop+ został napisany od początku na podstawie doświadczeń nabytych przy tworzeniu i użytkowaniu poprzedniej edycji. W aktualnej wersji użyto najnowszych algorytmów wyszukiwania i indeksowania zawartości dokumentów, konsultowanych m.in. ze specjalistami z Uniwersytetu w Trondheim (Norwegia), skąd wywodzą się zaawansowane serwisy wyszukiwawcze, takie jak na przykład ftpsearch (ftpsearch.lycos.com) i ostatni wyszukiwarkowy hit – Alltheweb (www.alltheweb.com).

Rozwój Internetu następuje lawinowo – co roku przybywa użytkowników, rośnie liczba udostępnianych za jego pomocą usług i informacji. Ciągle zmieniają się standardy, pojawiają się nowe pomysły i rozwiązania. Obecnie duża część dostępnych w Sieci serwisów obsługiwanych jest przez serwery wirtualne, które nie mają własnego numeru IP. Nowy NEToskop potrafi przeglądać zawartość tego typu maszyn, nie stanowią dla niego problemu także różne standardy kodowania polskich znaków diakrytycznych (“polskawy”, ISO 8859-2, CP-1250, Mazovia i Latin2). Żadna z zachodnich wyszukiwarek działających w Polsce nie potrafi poprawnie odnaleźć stron, które kodowane są inaczej niż zadawane przez użytkownika pytanie. Powoduje to, że w odpowiedzi pojawia się jedynie podzbiór adresów stron, które kodowane są tak samo jak zapytanie.

Modularna budowa nowego NEToskopa gwarantuje, że bardzo łatwo i szybko będzie można dopasować go do wszystkich internetowych nowinek, które dopiero się pojawią. Najistotniejszym elementem nowego NEToskopa jest specjalnie zaprojektowana, superszybka baza danych, przechowująca informacje o zeskanowanych stronach. Odnalezienie potrzebnej frazy wśród kilku milionów zapisanych w niej stron WWW zajmuje ułamek sekundy. Nowa baza przechowuje o wiele więcej informacji o każdym z dokumentów (zapamiętywana jest data ostatniej modyfikacji strony, elementy jej struktury itd.).

NEToskop+ znacznie lepiej niż poprzednik sortuje wyszukane adresy. Nowoczesne, opracowane od podstaw algorytmy, powodują, że najbardziej wartościowe strony znajdują się na początku listy wyników. Co więcej – każdy użytkownik może samodzielnie określić sposób tworzenia listy odpowiedzi za pomocą formularza zaawansowanego. Umożliwia on ustawienie wag dla pięciu kryteriów:

1. częstotliwości występowania wyrazu na stronie,

2. obecności wyszukiwanej frazy w ważnych miejscach dokumentu, takich jak adres, tytuł, pola meta, nagłówki,

3. w przypadku zapytania składającego się z kilku wyrazów – odległości wpisanych słów od siebie na stronie,

4. popularności strony mierzonej liczbą odnośników do niej, zamieszczonych na innych stronach,

5. długości adresu – im adres znalezionego dokumentu składa się z mniejszej liczby członów, tym lepiej.

Zmienił się także sposób prezentacji informacji o wartości strony. Zamiast kółek są ikonki ze znaczkami od +5 do +1. Wyświetlane są też procentowe wartości określające zgodność odnalezionej strony z zadanym zapytaniem. Każdy adres pojawiający się na liście wyników opisany jest także datą zeskanowania strony, podawana jest również informacja o rozmia-rze znalezionego dokumentu (w bajtach).

Zmienił się nieco sposób zadawania pytań, choć ogólne zasady tworzenia zapytań pozostają niezmienne. Dostępne są dwa tryby zadawania pytań: prosty i logiczny. W trybie prostym szukane słowa rozdziela się spacjami, co powoduje, że wyszukiwane są strony zawierające wszystkie słowa (spacja zastępuje spójnik AND). Efekt jest taki, że im więcej słów wpiszemy, tym otrzymamy bardziej zawężone wyniki. Można także wyszukiwać całe frazy, stosując znaki cudzysłowu. W trybie logicznym można używać operatorów AND, OR i ANDNOT. Podobnie jak w poprzedniej wersji wyszukiwarki, można w pytaniu używać operatorów logicznych i nawiasów.

Nowe algorytmy i rozwiązania pozwalają dużo szybciej skanować Internet, przez co baza danych jest większa, kompletniejsza i dużo bardziej aktualna. Zmienił się sposób dodawania stron do NEToskopa. Teraz proces skanowania serwisu rozpoczyna się zaraz po wpisaniu adresu w formularzu. Osoba dodająca adres nowej strony na bieżąco informowana jest o przebiegu tej operacji. Jeśli z jakichś powodów kończy się ona błędem, wyświetlany jest obszerny komunikat, ułatwiający rozwiązanie problemu uniemożliwiającego zeskanowanie zawartości wskazanego serwisu.

Zmodyfikowane algorytmy aktualizacji bazy danych pozwalają na dopasowanie częstotliwości odwiedzin NEToskopa do częstości zmian pojawiających się na stronie. Najbardziej popularne serwisy uaktualniane są dużo częściej niż pozostałe.

Pojawienie się nowej wersji NEToskopa spowodowało także drobne zmiany w wyglądzie strony głównej naszego serwisu. Przeprojektowane zostało okienko zadawania pytań, a rezygnacja z elementów graficznych pozwoliła zmniejszyć nieco rozmiar całej strony.

Mamy nadzieję, że wprowadzone modyfikacje (zarówno te funkcjonalne, jak i graficzne) przypadną do gustu wszystkim użytkownikom NEToskopa. Wszystkich tych, którzy do tej pory nie korzystali z naszej wyszukiwarki, zapraszamy – przetestujcie nowego NEToskopa. Wszystkich zapraszamy też do podzielenia się z nami swoimi uwagami i komentarzami na temat funkcjonowania nowej wersji tego narzędzia. Listy można nadsyłać pod adres: [email protected]. Dzięki temu będziemy w stanie sprawnie rozbudowywać naszą wyszukiwarkę, tak aby lepiej dopasować ją do oczekiwań użytkowników.

Zmodyfikowane zostały nieco ikonki oznaczające zgodność strony z zadanym przez użytkownika zapytaniem. Najciekawsze strony zaznaczane są za pomocą ikonki, te zaś zawierające najmniej interesujące informacje – .

Poniżej prezentujemy obecnie wykorzystywane symbole oraz ich znaczenie.

+ 5 koniecznie to zobacz,

+ 4 też ciekawe,

+ 3 jeśli chcesz wiedzieć jeszcze więcej…,

+ 2 skoro poprzednie Cię nie zainteresowały,

+ 1 – jeśli już musisz…

1.Parametry przeszukiwania baz danych
2.Informacje statystyczne o znalezionych dokumentach
3.Ikonka określająca zgodność strony z zadanym przez użytkownika zapytaniem
4.Tytuł strony
5.Fragment treści strony lub zawartość pola DESCRIPTION
6.Procentowa zgodność z zadanym zapytaniem
7.Adres strony
8.Rozmiar dokumentu
9.Data określająca, kiedy NEToskop ostatnio odwiedził tę stronę
Więcej:bezcatnews