Nowe technologie internetowe
Semantyczna Sieć: Boty uczą się kojarzyć
Dzisiejsze algorytmy przeszukiwania Sieci nie radzą sobie z panującym w niej chaosem. Wyjście z impasu umożliwi metoda strukturalnego przechowywania informacji, dzięki której wreszcie uzyskamy sensowne wyniki wyszukiwań.
|
Nadchodzi Sieć semantyczna – to twierdzenie każdy z nas czytał lub słyszał wielokrotnie – podczas konferencji, na blogach i w wielu artykułach dotyczących tej tematyki. Co więcej, widać już ewidentne symptomy tego procesu: świat odchodzi od Sieci skoncentrowanej na dokumentach i zmierza w kierunku Sieci opartej na ich zawartości. W praktyce oznacza to nowe metody przechowywania informacji, jak również rozwój inteligentnych aplikacji. Na konferencjach, takich jak International Semantic Web Conference (ISWC) czy Semantic Technology Confe-rence (SemTech), każdego roku obserwujemy wyniki aktualnych badań dotyczących tego problemu, a konsorcjum World Wide Web (W3C) zdefiniowało i rozpowszechnia zestaw pasujących do niego standardów. Stan obecny: Maszyny nie potrafią odczytywać danych z SieciW Internecie znajdują się ogromne zasoby informacji. Formy ich prezentacji zaprojektowali ludzie w sposób czytelny dla innych ludzi. Czytający może łatwo zrozumieć przekaz umieszczony na stronie i powiązać go z innymi danymi w Sieci. Niestety, maszyny ciągle tego nie potrafią. To największa różnica między nami i jednocześnie największa trudność dla algorytmów próbujących wyłuskać sensowne informacje z sieciowego oceanu danych. Dlatego współczesne silniki wyszukiwarek Google czy Yahoo przedstawiają nam jedynie posegregowaną listę poszukiwanych fraz uzyskaną za pomocą metod statystycznych. Tylko czy rzeczywiście o to nam chodzi? Niestety, prawie nigdy nie! Zdobywanie niezbędnych informacji wiąże się więc zwykle z pracochłonnym otwieraniem kolejnych stron z listy prezentowanych wyników, z których większość w ogóle nie zawiera potrzebnych nam danych. Przykład: w przypadku frazy „syrenka” w wynikach wyszukiwania znajdą się zarówno odnośniki do stron o Warszawie, jak i o starych samochodach czy baśniach Andersena. Dzieje się tak, ponieważ tym, czego potrzebujemy, jest wyszukiwanie oparte nie na słowach kluczowych, lecz na ich jednostkach znaczeniowych. Chodzi więc o semantykę. A tę system może zrozumieć, bazując na modelu przechowywania stron wykorzystującym ich strukturę. Jest i inna przeszkoda w rozumieniu i przetwarzaniu zapytań: informacje w Internecie przechowywane są dziś w tak wielu formach, że bezpośrednie ich porównywanie okazuje się prawie niemożliwe. W rezultacie trudno jest je skondensować i zaprezentować w ujednoliconej, strawnej dla maszyn postaci. Jeśli dla przykładu poszukujemy informacji na temat Sieci semantycznej i taką frazę („Sieć semantyczna”) wpiszemy, w wynikach wyszukiwania znajdziesz strony, których treść się pokrywa, uzupełnia lub wzajemnie sobie przeczy. Na nasze pytanie nie otrzymujemy więc jednoznacznej odpowiedzi, lecz jedynie zbiór prawdopodobnych wariantów. A przecież na razie nasze rozważania dotyczą prostych zapytań. Co jeśli poprosimy Google albo Yahoo, żeby ustosunkowały się do frazy: „Ile lat ma Lech Kaczyński”? Otrzymamy odpowiedzi, które prawie zawsze będą wymagać dodatkowych wyszukiwań i obróbki skojarzeniowej. Najlepszym rozwiązaniem w tym przypadku będzie przekształcenie struktury zapytania – do postaci „Lech Kaczyński data urodzenia” – i poszperanie w wynikach. Ale dlaczego szperać mamy my, a nie boty sieciowe? Rozwiązania: Organizacja zawartości Sieci i jej powiązanieTerminem „sieci semantycznej” określana jest idea takiego gromadzenia informacji w Internecie, aby komputery mogły je przetwarzać ze zrozumieniem. Żeby było to możliwe, oprócz samych danych sieć semantyczna musi zawierać także dodatkowe informacje o relacjach pomiędzy nimi. Umieszcza się je w formie tekstowej, jako tzw. metadane. Organizacja W3C, ustanawiająca standardy pisania stron WWW, opracowała już szereg otwartych schematów zapisu metadanych. Języki komputerowe, takie jak XML, RDF (Schemat), OWL i SPARQL, uzupełniając się wzajemnie, odgrywają tu bardzo istotną rolę. Umożliwiają bowiem zapis informacji o ontologii i taksonomii danych uporządkowanej semantycznie. Przykładowo dzięki SPARQL mamy w pełni rozwinięty język zapytań do uzyskiwania wyników z ontologii RDF. Więcej na ten temat w akapicie „Standardy i języki”. Współczesne metody: Trzy drogi do Sieci semantycznejJak zmienić Sieć bazującą na dokumencie w Sieć rozumiejącą jego zawartość? Pierwszym krokiem w tym kierunku jest inny sposób gromadzenia informacji w Internecie – należy ją przechowywać w usystematyzowanych strukturach. Od strony technicznej nie wydaje się to trudne, bo istnieje wiele niezależnych dyscyplin, w których wiedza jest gromadzona w sposób uporządkowany od początku ich istnienia. Ale co zrobić z rozległymi zasobami informacji, które obecnie opierają się na dokumencie? Programiści próbują do tego celu wykorzystać sztuczną inteligencję oraz lingwistykę komputerową. Termin NLU (Natural Language Processing – przetwarzanie języka naturalnego) obejmuje m.in. metody rozbioru wypowiadanych tekstów, tak jak czyni to człowiek: analizowane frazy są zwykle rozkładane na pojedyncze zdania. Jeśli zastosuje się wiedzę o strukturze zdania (podmiot – predykat – obiekt), semantyczny podział treści wydaje się łatwy. Dzięki temu w procesie przeszukiwania można identyfikować osoby, obiekty oraz zdarzenia i tworzyć powiązania między nimi, co znacznie zredukuje liczbę błędnych rezultatów na liście wyników. Przykład tego podejścia – od ogółu do szczegółu – został dokładniej opisany w akapicie „Aplikacje”. Inne podejście do tej metody jest znane pod nazwą Microformats (microformats.org) i w czerwcu tego roku świętuje swoje czwarte urodziny. Jest to idea manualnego rozszerzania istniejących stron opartych na (X)HTML o specjalne elementy tego standardu, które uczynią owe strony czytelnymi dla komputerów. Dla przykładu znane platformy, takie jak Facebook, Flickr, Google Maps czy Yahoo, używają specjalnych, uniwersalnych schematów do przechowywania informacji o kontaktach, planach i zakładkach. Ideę wbudowania informacji czytelnej dla innych komputerów w konwencjonalne strony oparte na (X)HTML popiera także W3C, ale chodzi tu o różne podejścia. Projektanci z Microformats kierują się zasadą polegającą na tym, aby potrzebne wyniki otrzymywać przy najmniejszym nakładzie pracy. Tymczasem W3C spełnia ten wymóg przez rozwijanie specyfikacji RDF. Pozwala ona na tworzenie ogólnych struktur, które mogą zostać wykorzystane do integracji metadanych. Niestety, to podejście wymaga większych nakładów pracy podczas tworzenia aplikacji. Z drugiej strony RDF jest bardziej ogólny i elastyczny, przez co w dalszej perspektywie może wyprzeć rozwiązanie Microformats. Standardy i języki: Właściwe narzędzia dla programistówKtórej specyfikacji należy używać do efektywnego tworzenia inteligentnych stron przyszłości? Poniżej przedstawiamy zestaw ważnych narzędzi programistycznych, a także narzędzi do tworzenia zapytań. EXTENSIBLE MARKUP LANGUAGE (XML) RESOURCE DESCRIPTION FRAMEWORK Dokument RDF jest opisywany przez graf skierowany. Zawiera on zbiór wierzchołków oraz krawędzi, które graficznie przedstawiane są jako strzałki. Każdy wierzchołek i każda krawędź mają własny identyfikator, Uniform Resource Identifier (URI). Ten ciąg znaków wskazuje abstrakcyjne lub fizyczne źródło danych i ma prostą składnię: »Schemat: Specyfika schematu«. W praktyce URI może być adresem strony takim jak www.chip.pl lub adresem email, np. mailto:info@chip.pl. Jednak URI może być całkowicie niezależny od stron WWW i używany tylko jako mechanizm do tworzenia jednoznacznej identyfikacji pojęć. Dlatego zwykle w dokumentach RDF, URI nie odnosi się do istniejących stron WWW. Graf RDF może zostać w całości opisany poprzez specyfikacje jego krawędzi. Każda odnosi się do jednego elementu z trójki: podmiot – predykat – obiekt. To umożliwia opisanie tej struktury za pomocą skryptu bazującego na XML, który obecnie jest najczęściej wykorzystywany podczas tworzenia i przygotowywania ustrukturyzowanej informacji – choć nie jest jedyny. Istnieje też specyfikacja zwana Turtle, ale używa się jej raczej sporadycznie. |

Kup najtaniej