Raport z oblężonej witryny

Powstały więc nie tylko aplikacje do przetwarzania logów serwera WWW, ale także firmy, które zajmują się tylko takimi badaniami. Mają one w swojej ofercie przeróżne systemy pomiarów, najczęściej skierowane do właściceli dużych serwisów, ale nie tylko. Ponadto analizowane są nie tylko dane dotyczące pojedynczej witryny, ale większej ich liczby lub sporego fragmentu Internetu. Tą dziedziną zajmuje się na przykład kilka instytucji badawczych, takich jak OBOP czy GUS. Prowadzą one zazwyczaj badania użytkowników Internetu, tworząc ich portret socjologiczny.

Dwa podejścia

Istnieją dwa podstawowe typy pomiarów: user-centric i site-centric. Badanie pierwszego rodzaju (zorientowane na użytkownika) opiera się na analizie zachowania poszczególnych internautów. Tworzony i utrzymywany w nim jest tzw. panel internautów. Na komputerach użytkowników biorących udział w badaniu instaluje się specjalne oprogramowanie rejestrujące ich aktywność w Sieci. Możemy w ten sposób uzyskać następujące informacje:

jakie strony odwiedzili użytkownicy,

ile czasu na nich spędzili,

skąd trafili do określonego dokumentu i dokąd się z niego udali,

kiedy zostało rozpoczęte połączenie z Internetem, kiedy zakończone, jak długo trwało itp.

Głębsza analiza wyników takich badań pozwala określić, które witryny internetowe są najpopularniejsze, jak kształtuje się rozkład dobowy, miesięczny i roczny korzystania z Internetu itd. Jeśli informacje te zostaną wzbogacone danymi demograficznymi, można snuć dalsze wnioski, np. jakie strony najczęściej odwiedzają mężczyźni, a jakie kobiety, ile czasu spędzają w Sieci osoby z poszczególnych grup wiekowych oraz zawodowych, jakich informacji w niej poszukują i wiele innych.

Podejście site-centric (“zorientowane na witrynę”) polega na pomiarze i analizie ruchu w obrębie konkretnych serwisów. Podczas tych badań gromadzi się takie informacje, jak:

liczba odsłon, wizyt, użytkowników (w rozbiciu na nowych i powracających),

czas poświęcony przez internautów na pojedynczą wizytę,

strony odsyłające/wyszukiwarki, przez które internauci trafili do witryny,

strony początkowe/końcowe wizyt,

czas, jaki internauci spędzili na konkretnej stronie lub w dziale,

ścieżka poruszania się po serwisie,

konfiguracja komputerów, z których internauci łączyli się z witryną (systemy operacyjne, przeglądarki, rozdzielczości, głębia kolorów),

informacje geolokalizacyjne (z jakich miast i państw pochodzą internauci).

Jeżeli zdecydujemy się w taki sposób zmierzyć poziom oglądalności naszej witryny, możemy wyciągnąć bardzo ciekawe wnioski, dotyczące nie tylko samego serwisu internetowego, ale także naszej działalności prowadzonej za pośrednictwem Internetu. Analiza wyników może bowiem pomóc określić, czy np. efektywnie wykorzystujemy Sieć (a tym samym: czy wydatki na ten cel są odpowiednie), którymi produktami, usługami lub działami witryny odwiedzający interesują się najbardziej albo czy nie należałoby się zastanowić nad przebudową serwisu. Metody wykorzystywane w badaniach typu site-centric to stosowanie liczników odwiedzin, analiza logów i aktywny monitoring witryny z wykorzystaniem specjalistycznego oprogramowania.

Analiza logów

Bardzo dobrą metodą pomiarów jest analiza logów. Jej zaleta to niewielki koszt – oprogramowanie wykorzystywane do tego celu jest stosunkowo tanie lub darmowe. Podstawową wadą są ograniczenia techniczne – nie wszystkie informacje o użytkownikach da się zapisać w logach, nie można również w ten sposób przeprowadzić badań na grupie witryn. Metoda ta nie jest też w pełni odporna na zafałszowania, bywa więc niedokładna.

Analizę logu można przeprowadzić bez użycia specjalnych narzędzi. Jest to przecież zwykły plik tekstowy, ale przegryzanie się przez niego bywa bardzo żmudne. Mimo tego przyjrzyjmy się, co się da w ten sposób wyczytać. Przykładowy wpis może wyglądać następująco:

65.54.164.102 – – [01/Jul/2004:08:16:14 +0200] “GET /photo.php?cid=1000000&cmd=2&oid=176 HTTP/1.0” 200 1178165.54.164.102

to numer IP użytkownika, który połączył się z serwerem WWW. Ciąg 01/Jul/2004:08:16:14 to czas nawiązania połączenia. Z kolei wyrażenie znajdujące się w cudzysłowie to komenda, którą serwer otrzymał od przeglądarki. Tu poproszono o przesłanie pliku /photo.php i przekazano mu trzy parametry (cid, cmd i oid). Wszystko to zrobiono, korzystając z protokołu HTTP 1.0. Liczba 200 jest kodem połączenia i informuje nas o tym, że strona została poprawnie załadowana do komputera użytkownika. Ostatnia wartość – 11781 – to liczba pobranych bajtów, czyli wielkość dokumentu.

Interpretacja pojedynczego wpisu nie jest więc trudna, ale wyciągnięcie wniosków dotyczących ruchu w witrynie to zupełnie inna sprawa. Odpowiednie programy pozwalają uprościć takie badanie i wyciągnąć z logów całkiem sporo informacji bez ślęczenia godzinami nad plikiem.

Wyniki analizy zależą przede wszystkim od tego, jakie informacje zostaną zapisane w dzienniku. Prezentowana wyżej linia jest nieskomplikowana, zawiera tylko podstawowe dane. Można jednak tak skonfigurować zapisywanie do logów, by później wycisnąć z nich jeszcze więcej. Kiedy ktoś odwiedza daną stronę WWW, jego przeglądarka wysyła w zapytaniu wiele informacji, które są bardzo cenne. Oczywiście wszystkie one mogą zostać zapamiętane w logach serwera. Czasem jednak wiąże się to ze spadkiem wydajności serwisu, ponieważ zapisywanie do logów dodatkowych informacji wymaga zasobów i mocy obliczeniowej.

Najprościej: liczniki

Liczniki odwiedzin mają mnóstwo wad i chyba tylko jedną zaletę – prostotę stosowania. Są przede wszystkim rozwiązaniem nieefektywnym, ponieważ pozwalają zdobyć jedynie informacje o tym, ile osób zdołało pobrać określoną stronę. Są też niewiarygodne, gdyż pobieranie stron internetowych przez przeglądarkę z pamięci podręcznej może zafałszować wyniki. Dodatkowo liczniki uważa się za nieprofesjonalne, szczególnie jeśli wyglądają tak jak na obrazku niżej. Z drugiej strony dyskretnie użyte w prywatnej witrynie nie powinny nikogo razić.
Najprościej wstawić na własną stronę internetową darmowy licznik. Usługi takie oferowane są przez wiele serwisów – wystarczy wpisać w wyszukiwarkę internetową “licznik odwiedzin”, a zostaniemy zasypani adresami. Na przykład wstawienie na stronie kawałka kodu <img src=”http://platon.man.lublin.pl/cgi-bin/Count.cgi?df=maga&dd=apple&ft=0&md=8″> spowoduje wyświetlenie licznika w postaci jabłuszek. Parametr df=maga to nazwa licznika, a dd=apple, ft=0, md=8 określają odpowiednio: nazwę czcionki, grubość ramki oraz wysokość fontu.