Przejdź na skróty do treści. | Przejdź do nawigacji

Zapamiętaj mnie Przypomnij hasło Rejestracja
Wersja mobilna
Newsletter
Zgłoś uwagę
RSS

Artykuły

rozwiń
Strona główna Artykuły Porady Semantyczna Sieć: Boty uczą się kojarzyć

Nowe technologie internetowe

Semantyczna Sieć: Boty uczą się kojarzyć

Dzisiejsze algorytmy przeszukiwania Sieci nie radzą sobie z panującym w niej chaosem. Wyjście z impasu umożliwi metoda strukturalnego przechowywania informacji, dzięki której wreszcie uzyskamy sensowne wyniki wyszukiwań.

Nadchodzi Sieć semantyczna – to twierdzenie każdy z nas czytał lub słyszał wielokrotnie – podczas konferencji, na blogach i w wielu artykułach dotyczących tej tematyki. Co więcej, widać już ewidentne symptomy tego procesu: świat odchodzi od Sieci skoncentrowanej na dokumentach i zmierza w kierunku Sieci opartej na ich zawartości. W praktyce oznacza to nowe metody przechowywania informacji, jak również rozwój inteligentnych aplikacji. Na konferencjach, takich jak International Semantic Web Conference (ISWC) czy Semantic Technology Confe-rence (SemTech), każdego roku obserwujemy wyniki aktualnych badań dotyczących tego problemu, a konsorcjum World Wide Web (W3C) zdefiniowało i rozpowszechnia zestaw pasujących do niego standardów.

Stan obecny: Maszyny nie potrafią odczytywać danych z Sieci

W Internecie znajdują się ogromne zasoby informacji. Formy ich prezentacji zaprojektowali ludzie w sposób czytelny dla innych ludzi. Czytający może łatwo zrozumieć przekaz umieszczony na stronie i powiązać go z innymi danymi w Sieci. Niestety, maszyny ciągle tego nie potrafią. To największa różnica między nami i jednocześnie największa trudność dla algorytmów próbujących wyłuskać sensowne informacje z sieciowego oceanu danych.

Dlatego współczesne silniki wyszukiwarek Google czy Yahoo przedstawiają nam jedynie posegregowaną listę poszukiwanych fraz uzyskaną za pomocą metod statystycznych. Tylko czy rzeczywiście o to nam chodzi? Niestety, prawie nigdy nie! Zdobywanie niezbędnych informacji wiąże się więc zwykle z pracochłonnym otwieraniem kolejnych stron z listy prezentowanych wyników, z których większość w ogóle nie zawiera potrzebnych nam danych. Przykład: w przypadku frazy „syrenka” w wynikach wyszukiwania znajdą się zarówno odnośniki do stron o Warszawie, jak i o starych samochodach czy baśniach Andersena. Dzieje się tak, ponieważ tym, czego potrzebujemy, jest wyszukiwanie oparte nie na słowach kluczowych, lecz na ich jednostkach znaczeniowych. Chodzi więc o semantykę. A tę system może zrozumieć, bazując na modelu przechowywania stron wykorzystującym ich strukturę.

Jest i inna przeszkoda w rozumieniu i przetwarzaniu zapytań: informacje w Internecie przechowywane są dziś w tak wielu formach, że bezpośrednie ich porównywanie okazuje się prawie niemożliwe. W rezultacie trudno jest je skondensować i zaprezentować w ujednoliconej, strawnej dla maszyn postaci. Jeśli dla przykładu poszukujemy informacji na temat Sieci semantycznej i taką frazę („Sieć semantyczna”) wpiszemy, w wynikach wyszukiwania znajdziesz strony, których treść się pokrywa, uzupełnia lub wzajemnie sobie przeczy. Na nasze pytanie nie otrzymujemy więc jednoznacznej odpowiedzi, lecz jedynie zbiór prawdopodobnych wariantów.

A przecież na razie nasze rozważania dotyczą prostych zapytań. Co jeśli poprosimy Google albo Yahoo, żeby ustosunkowały się do frazy: „Ile lat ma Lech Kaczyński”? Otrzymamy odpowiedzi, które prawie zawsze będą wymagać dodatkowych wyszukiwań i obróbki skojarzeniowej. Najlepszym rozwiązaniem w tym przypadku będzie przekształcenie struktury zapytania – do postaci „Lech Kaczyński data urodzenia” – i poszperanie w wynikach. Ale dlaczego szperać mamy my, a nie boty sieciowe?

Rozwiązania: Organizacja zawartości Sieci i jej powiązanie

Terminem „sieci semantycznej” określana jest idea takiego gromadzenia informacji w Internecie, aby komputery mogły je przetwarzać ze zrozumieniem. Żeby było to możliwe, oprócz samych danych sieć semantyczna musi zawierać także dodatkowe informacje o relacjach pomiędzy nimi. Umieszcza się je w formie tekstowej, jako tzw. metadane.

Organizacja W3C, ustanawiająca standardy pisania stron WWW, opracowała już szereg otwartych schematów zapisu metadanych. Języki komputerowe, takie jak XML, RDF (Schemat), OWL i SPARQL, uzupełniając się wzajemnie, odgrywają tu bardzo istotną rolę. Umożliwiają bowiem zapis informacji o ontologii i taksonomii danych uporządkowanej semantycznie. Przykładowo dzięki SPARQL mamy w pełni rozwinięty język zapytań do uzyskiwania wyników z ontologii RDF. Więcej na ten temat w akapicie „Standardy i języki”.

Współczesne metody: Trzy drogi do Sieci semantycznej

Jak zmienić Sieć bazującą na dokumencie w Sieć rozumiejącą jego zawartość? Pierwszym krokiem w tym kierunku jest inny sposób gromadzenia informacji w Internecie – należy ją przechowywać w usystematyzowanych strukturach. Od strony technicznej nie wydaje się to trudne, bo istnieje wiele niezależnych dyscyplin, w których wiedza jest gromadzona w sposób uporządkowany od początku ich istnienia. Ale co zrobić z rozległymi zasobami informacji, które obecnie opierają się na dokumencie?

Programiści próbują do tego celu wykorzystać sztuczną inteligencję oraz lingwistykę komputerową. Termin NLU (Natural Language Processing – przetwarzanie języka naturalnego) obejmuje m.in. metody rozbioru wypowiadanych tekstów, tak jak czyni to człowiek: analizowane frazy są zwykle rozkładane na pojedyncze zdania. Jeśli zastosuje się wiedzę o strukturze zdania (podmiot – predykat – obiekt), semantyczny podział treści wydaje się łatwy. Dzięki temu w procesie przeszukiwania można identyfikować osoby, obiekty oraz zdarzenia i tworzyć powiązania między nimi, co znacznie zredukuje liczbę błędnych rezultatów na liście wyników. Przykład tego podejścia – od ogółu do szczegółu –  został dokładniej opisany w akapicie „Aplikacje”.

Inne podejście do tej metody jest znane pod nazwą Microformats (microformats.org) i w czerwcu tego roku świętuje swoje czwarte urodziny. Jest to idea manualnego rozszerzania istniejących stron opartych na (X)HTML o specjalne elementy tego standardu, które uczynią owe strony czytelnymi dla komputerów. Dla przykładu znane platformy, takie jak Facebook, Flickr, Google Maps czy Yahoo, używają specjalnych, uniwersalnych schematów do przechowywania informacji o kontaktach, planach i zakładkach.

Ideę wbudowania informacji czytelnej dla innych komputerów w konwencjonalne strony oparte na (X)HTML popiera także W3C, ale chodzi tu o różne podejścia. Projektanci z Microformats kierują się zasadą polegającą na tym, aby potrzebne wyniki otrzymywać przy najmniejszym nakładzie pracy. Tymczasem W3C spełnia ten wymóg przez rozwijanie specyfikacji RDF. Pozwala ona na tworzenie ogólnych struktur, które mogą zostać wykorzystane do integracji metadanych. Niestety, to podejście wymaga większych nakładów pracy podczas tworzenia aplikacji. Z drugiej strony RDF jest bardziej ogólny i elastyczny, przez co w dalszej perspektywie może wyprzeć rozwiązanie Microformats.

Standardy i języki: Właściwe narzędzia dla programistów

Której specyfikacji należy używać do efektywnego tworzenia inteligentnych stron przyszłości? Poniżej przedstawiamy zestaw ważnych narzędzi programistycznych, a także narzędzi do tworzenia zapytań.

EXTENSIBLE MARKUP LANGUAGE (XML)
Podstawowym standardem w przypadku inteligentnych stron jest język oparty na znacznikach – XML. Umożliwia on zarówno zapis uporządkowanych informacji, jak i opis innych języków bazujących na znacznikach. Jednym z języków opartych na znacznikach jest XHTML, czyli bazująca na formacie XML wersja HTML. Standardy RDF i OWL, które umożliwiają tworzenie dokumentów z uporządkowanymi strukturami, także wykorzystują składnię XML.

RESOURCE DESCRIPTION FRAMEWORK
RDF jest językiem opisu dla ustrukturyzowanej informacji. Nie służy on jednak poprawnej prezentacji zawartości strony w przeglądarce, jak czyni to HTML. Podstawowym zadaniem RDF jest umożliwienie automatycznego przetwarzania danych ze strony, którą opisuje, oraz poprawne powiązanie jej z innymi informacjami w Sieci.

Dokument RDF jest opisywany przez graf skierowany. Zawiera on zbiór wierzchołków oraz krawędzi, które graficznie przedstawiane są jako strzałki. Każdy wierzchołek i każda krawędź mają własny identyfikator, Uniform Resource Identifier (URI). Ten ciąg znaków wskazuje abstrakcyjne lub fizyczne źródło danych i ma prostą składnię: »Schemat: Specyfika schematu«. W praktyce URI może być adresem strony takim jak www.chip.pl lub adresem email, np. mailto:info@chip.pl. Jednak URI może być całkowicie niezależny od stron WWW i używany tylko jako mechanizm do tworzenia jednoznacznej identyfikacji pojęć. Dlatego zwykle w dokumentach RDF, URI nie odnosi się do istniejących stron WWW.

Graf RDF może zostać w całości opisany poprzez specyfikacje jego krawędzi. Każda odnosi się do jednego elementu z trójki: podmiot – predykat – obiekt. To umożliwia opisanie tej struktury za pomocą skryptu bazującego na XML, który obecnie jest najczęściej wykorzystywany podczas tworzenia i przygotowywania ustrukturyzowanej informacji – choć nie jest jedyny. Istnieje też specyfikacja zwana Turtle, ale używa się jej raczej sporadycznie.

Dodaj komentarz 4 komentarze
Sewer
Sewer 2009.06.15 21:34
Coś w stylu SI
Gość IP: 62.69.193.* 2009.06.16 07:19
raczej cos w stylu W3C, ale watpie zeby weszlo w zycie w najblizszym czasie, juz szybciej naucza jakies dobre algorytmy genetyczne buszowania po stronie i samemu znajdowania odpowiednich rzeczy niz wszystkich tworcow stron do przeksztalcenia swojego kodu w cos takiego, generalnie lecimy w coraz wieksza automatyzacje, nie wyobrazam sobie zeby ktos pisal taki kod
wojtekwx
wojtekwx 2009.06.28 20:46
dobrze by było jakby wyszukiwarki zaczęły się zmieniać... ale pierwsze ruchy na tym polu już są widoczne... i dobrze...
Piotrek
Piotrek 2009.07.07 06:13
Sądzę, że już niedługo problem tego typu się skończy. Może Bing albo WolframAlpha go rozwiąże
AUTOR: edward krzywy
DODANO: 15.06.2009
Tagi: internet, sieć
LICZBA WYŚWIETLEŃ: 4405
Sonda
Wyraź swoją opinię
Telefony
Play.pl
Cena: 1.00
  • Automatyczna instalacja
  • Dostępny w czterech wersjach kolorystycznych
  • Możliwość podłączenia anteny zewnętrznej
  • Transfer do 7,2 Mbps
Cena: 1.00
  • Automatyczna instalacja
  • Dostępny w czterech wersjach kolorystycznych
  • Możliwość podłączenia anteny zewnętrznej
  • Transfer do 7,2 Mbps
CENEO Kup najtaniej
A4-TECH KD-800L A4-TECH KD-800L
Dostępny w 31 sklepach
Sprawdź CENY tego produktu
Panasonic Lumix DMC-G3KEG-K Panasonic Lumix DMC-G3KEG-K
Dostępny w 8 sklepach
Sprawdź CENY tego produktu
BenQ BL2400PT BenQ BL2400PT
Dostępny w 63 sklepach
Sprawdź CENY tego produktu
D-LINK DUB-E100 D-LINK DUB-E100
Dostępny w 7 sklepach
Sprawdź CENY tego produktu
AVerMedia AVerTV Hybrid Ultra USB (61M039HBF0AL) AVerMedia AVerTV Hybrid Ultra USB (61M039HBF0AL)
Dostępny w 12 sklepach
Sprawdź CENY tego produktu

Co:
Gdzie:
Kraj:
praca IT Polska njobs IT praca
vacatures IT Netherlands njobs IT vacatures
arbeit IT Deutschland njobs IT arbeit
work IT United Kingdom njobs IT jobs
Lavoro IT Italia njobs IT lavoro
Emploi IT France njobs IT emploi
trabajo IT Espana njobs IT trabajo
Video
nowe filmy