Przejdź na skróty do treści. | Przejdź do nawigacji

Zapamiętaj mnie Przypomnij hasło Rejestracja
Wersja mobilna
Newsletter
Zgłoś uwagę
RSS

Artykuły

rozwiń
Strona główna Artykuły Archiwum Wytresuj robota

Sterujemy engine'ami wyszukiwarek internetowych

Wytresuj robota

Czy masz zamiar płacić za sztuczny ruch wygenerowany na Twojej stronie internetowej? Pewnie nie. Sprawdź więc, jak często odwiedzają Cię roboty wyszukiwarek, i zablokuj lub ogranicz dostęp do wityryny tym najbardziej nachalnym

Oto z życia wzięta historia webmastera: przygotował witrynę, podał jej adres Bóg jeden wie ilu sieciowym wyszukiwarkom i czekał na odwiedziny. Goście zjawiali się coraz liczniej, były więc powody do radości. Pewnego dnia autor strony zapragnął dowiedzieć się czegoś więcej o odwiedzających. Napisał specjalny skrypt rejestrujący datę wizyt oraz adresy IP wszystkich gości i... włosy na głowie stanęły mu dęba: witrynie przyglądały się przede wszystkim roboty wyszukiwarek.

 

Spieprzaj, dziadu

 

Okazuje się, że zaindeksowanie strony internetowej przez wyszukiwarkę nie jest operacją jednorazową. Odwiedziny robotów-szperaczy Google'a lub AltaVisty mają miejsce nawet kilka razy dziennie przez wiele miesięcy! Mniejsza o to, dlaczego tak się dzieje. Lepiej zainteresować się sposobami ukrócenta tego procederu - szczególnie w sytuacji, gdy transfer ze strony jest limitowany lub płatny. Jeżeli zawartość witryny jest uaktualniana niezbyt często, nie sposób sensownie uzasadnić wydawania pieniędzy na ruch wygenerowany przez jakiegoś namolnego szperacza.

      Na szczęście webmaster może precyzyjnie określić zasady dostępu robotów (botów) wyszukiwarek do strony WWW. Robi to, umieszczając na serwerze specjalny plik robots.txt

. Taka technika nosi nazwę The Robots Exclusion Standard (według robotstxt.org) lub Robots Exclusion Protocol (tak twierdzi Gooru.pl). Sam zbiór jest zwykłym plikiem tekstowym, zawierającym komendy informujące wyszukiwarki o tym, czy są mile widziane czy też nie. Wolno także określić bardziej szczegółowe zasady traktowania szperaczy - na przykład dopuścić do indeksowania tylko kilku wybranych katalogów składających się na witrynę.

      Jak przygotować różne zestawy poleceń, napiszemy w dalszej części artykułu. Na razie zwróćmy uwagę na to, że większość stron WWW jest umieszczona na serwerach pracujących pod kontrolą systemów Unix/Linux. Wynikają z tego dwa ważne fakty. Po pierwsze, decydując się na zastosowanie zbioru robots.txt

, powinniśmy pamiętać o odpowiednich znakach zakończenia wiersza (przejścia do nowej linii). Jeżeli zatem przygotowujemy plik za pomocą edytora działającego w systemie Windows, może się okazać, że całość zostanie źle zinterpretowana - znaki końca linii w Oknach i w Pingwinie są inne.

      Druga sprawa to nazwa zbioru. Jak wiadomo, systemy uniksowe rozróżniają wielkość liter. Z ich punktu widzenia robots.txt i Robots.txt to dwa różne pliki!

 

Gdzie i jak

 

Zbiór robots.txt musimy zapisać w folderze nadrzędnym dla danej domeny internetowej. Posłużmy się przykładem: przyjmijmy, że domena adres.pl jest "przywiązana" do serwera naszego dostawcy Sieci i wskazuje na podfolder mojestrony/adres w katalogu głównym konta. Właśnie w tym ostatnim podfolderze należy umieścić plik robots.txt. Zawarte w nim wytyczne będą obowiązywały dla wszystkich stron i podstron składających się na serwis adres.pl

.

      Zbiór sterujący wyszukiwarkami najłatwiej będzie przygotować samodzielnie, korzystając z dowolnego edytora tekstu. Możemy jednak ułatwić sobie życie, sięgając po różne generatory, które przygotują plik robots.txt zgodnie z podanymi przez nas wytycznymi. Jednym z popularnych automatów jest skrypt znajdujący się pod adresem http://www.webmaster.net.pl/narzedzia_online/robots_generator.php

.

      Niewykluczone, że mamy już gotowy plik i chcielibyśmy tylko sprawdzić, czy jego zawartość jest poprawna. W takiej sytuacji skorzystamy z walidatorów. Za przykład niech posłuży Search Engine World Robots.txt Validator (http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

). Korzystając z niego, musimy tylko wskazać położenie pliku na serwerze.

 

To ja, T-Rex

 

Czy wszystkie boty są równe? Czy każdy szperacz jest na naszej stronie dobrze widziany? Może chcemy pozwolić Google'owi na indeksowanie całej witryny i jednocześnie zablokować dostęp do niej innej wyszukiwarce? To da się zrobić. Niezbędna jest tylko znajomość nazw botów. Sęk w tym, że nie są one aż tak oczywiste, jak wydawałoby się na pierwszy rzut oka. Kilka przykładowych nazw podajemy w ramce wyżej. Jeżeli chcielibyśmy poznać inne, musimy je odnaleźć na własną rękę.

      Z reguły parametry botów są dostępne na stronach internetowych opisujących konkretną wyszukiwarkę. Niektóre z nich (np. Gooru) podają nawet szczegółowe informacje na temat sposobu traktowania pliku robots.txt przez ich robota wyszukującego.
Roboty wyszukiwarek
Oto kilka kryptonimów, pod którymi ukrywają się szperacze-boty:
  • Google - Googlebot,
  • Google Image Search - Googlebot-Image,
  • AltaVista - Scooter,
  • Lycos - T-Rex,
  • Gooru - Gooru-WebSpider.

  •  
    Znając nazwy, możemy blokować nie tylko wyszukiwarki, ale także programy typu web-spider (np. Teleport Pro), służące do pobierania całych stron WWW na dysk lokalny. Oczywiście program taki musi identyfikować się pod własną nazwą, a tymczasem wiele z nich "udaje" popularne przeglądarki internetowe. Na stronie http://www.javascriptkit.com/howto/htaccess13.shtml można znaleźć przykładowe nazwy botów, ale niestety - bez odnośników, do jakich serwerów lub programów one należą.
    Dodaj komentarz 1 komentarz
    karczit
    karczit 2010.03.02 15:56
    Lokalizację i dane odwiedzającego nas robota wyszukiwarek sprawdzisz na http://adres-ip.eu . Na stronie możesz sprawdzić także swój i jakiś inny adres IP oraz zlokalizować go na mapie dzięki geolokalizatorowi.
    AUTOR: tomasz trejderowski
    DODANO: 22.03.2006
    LICZBA WYŚWIETLEŃ: 76
    Sonda
    Wyraź swoją opinię
    Telefony
    Play.pl
    Cena: 159.00
    • Modem z funkcją routera Wi-Fi
    • Możliwość utworzenia sieci bezprzewodowej dla pięciu urządzeń
    • Wbudowana bateria
    • Wyświetlacz OLED z licznikiem danych
    Cena: 179.00
    • Modem z funkcją routera Wi-Fi
    • Możliwość utworzenia sieci bezprzewodowej dla pięciu urządzeń
    • Wbudowana bateria
    • Połączenie z komputerem za pomocą przewodu USB
    CENEO Kup najtaniej
    Samsung S8530 Wave II Samsung S8530 Wave II
    Dostępny w 32 sklepach
    Sprawdź CENY tego produktu
    wkład laserowy Toshiba [TFC28EK] black oryginalny wkład laserowy Toshiba [TFC28EK] black oryginalny
    Dostępny w 2 sklepach
    Sprawdź CENY tego produktu
    Philips VOIP080 Philips VOIP080
    Dostępny w 1 sklepach
    Sprawdź CENY tego produktu
    HAUPPAUGE Karta sieciowa WinTV HVR-2200 - PCI-Express (00340) HAUPPAUGE Karta sieciowa WinTV HVR-2200 - PCI-Express (00340)
    Dostępny w 1 sklepach
    Sprawdź CENY tego produktu
    FUJITSU Celvin NAS Server Q600 2TB (S26341-F103-L100) FUJITSU Celvin NAS Server Q600 2TB (S26341-F103-L100)
    Dostępny w 1 sklepach
    Sprawdź CENY tego produktu

    Co:
    Gdzie:
    Kraj:
    praca IT Polska njobs IT praca
    vacatures IT Netherlands njobs IT vacatures
    arbeit IT Deutschland njobs IT arbeit
    work IT United Kingdom njobs IT jobs
    Lavoro IT Italia njobs IT lavoro
    Emploi IT France njobs IT emploi
    trabajo IT Espana njobs IT trabajo
    Video
    nowe filmy