Pajęczyna II

Większość użytkowników World Wide Webu jest przekonana o całkowitej uniwersalności tej sieci. Powstała przecież jako system wymiany tekstowych prac naukowych, a sprawdziła się jako medium multimedialne. Ograniczenia Sieci dają jednak o sobie znać. Zgromadzono w niej ogrom informacji, które człowiek przegląda bez problemu, gdy znajdują się na jednej stronie WWW. Ale odnalezienie konkretnych danych w całym Internecie bywa trudne. Na dodatek wszystkie one są w postaci niezbyt przystosowanej do przetwarzania przez komputery (choć zrozumiałej dla użytkowników). Co prawda na pytanie “kursy walut” wyszukiwarki podsuwają nam przydatne odnośniki, ale polecenia: “podaj mi najtańsze połączenie lotnicze do Bangkoku w połowie lipca” nie potrafią spełnić. Sieć przyszłości, tzw. Sieć Semantyczna, pozwoli uporać się z takim problemem w kilka sekund.

Rozumne programy

Jak opisany powyżej problem zostanie rozwiązany w Sieci Semantycznej? Specjalna aplikacja zwana agentem połączy się z serwisami linii lotniczych. Następnie poprosi o podanie informacji o połączeniach (kursywą wyróżniam parametry i właściwości rozpoznawane przez program), dla których miejscem docelowym jest miasto o nazwie Bangkok, a wylot jest z lotniska znajdującego się w kraju o nazwie Polska. Dodatkowymi warunkiami będą termin (15 lipca) oraz parametr wolne miejsca (wartość tak). Gdy się okaże, że takich lotów nie ma, agent ponowi żądanie, uprzednio zmieniwszy termin na 16 lipca. Dla każdego połączenia program pobierze z systemu linii lotniczej cenę. Następnie w ten sam sposób sprawdzi możliwość dotarcia do miejsc wylotu (np. pociągiem), które znajdują się poza Wrocławiem, i zsumuje ceny z etapów w połączeniach z przesiadkami. Teraz pozostanie prezentacja wyników wyszukiwania, a po kliknięciu przez użytkownika jednej propozycji dokonanie rezerwacji.

Powyższa operacja będzie możliwa dzięki temu, że zgromadzone w Internecie informacje zostaną dokładnie opisane w sposób zrozumiały dla komputerów. Dziś te same dane są dostępne, ale w formie czytelnej dla człowieka. Oglądając rozkład lotów, jesteśmy w stanie po krótkiej chwili zrozumieć, o co w nim chodzi. Rozumiemy napisy “wylot”, “przylot”, “godzina wylotu” itp. Komputer – niekoniecznie.

Zrozumieć świat

Sieć Semantyczna leży na pograniczu wielu dziedzin: sztucznej inteligencji, reprezentacji wiedzy i innych. Aby zrozumieć działanie następczyni Pajęczyny, musimy się zapoznać z kilkoma pojęciami.

Jednym z nich jest ontologia, termin wywodzący się z filozofii. Nauka ta próbuje odpowiedzieć na podstawowe pytania dotyczące istoty świata: z czego się składa i jak funkcjonuje. Ontologia informatyczna to z kolei próba opisania w formalnej specyfikacji określonego wycinka świata.

Ontologia jest więc niczym innym, jak modelem fragmentu świata, próbą zapisania informacji o rzeczywistości w postaci zrozumiałej dla maszyn przetwarzających dane. Elementami tego modelu są pojęcia (ang. concepts), które odpowiadają określonym obiektom (np. pojęcie “pies”). Rzeczywistość to nie tylko obiekty, ale zależności między nimi. Pojęcia zgrupowane są więc w klasy (pies, klasa: zwierzęta, podklasa: ssaki itp.), a te ułożone w hierarchię. Dzięki temu każdy obiekt ma cechy swojej klasy (Mruczek ma cztery łapy jak wszystkie koty) oraz klas nadrzędnych (jest ssakiem, więc nie ma piór).

Łatwo odróżnić, że pojęcie “kot” i jego właściwości należą do ontologii, a “Mruczek” to już wiedza o konkretnym kocie. Czasem jednak granica między modelem a informacją jest trudna do uchwycenia. Sport, dyscyplina, zawodnik – to ontologia. A bokser, biegacz, piłkarz? Z jednej strony to konkretne dyscypliny, a z drugiej klasy, do których można zaliczyć ludzi.

Pojawia się pytanie: dlaczego ontologia dotyczy tylko wycinka świata? Otóż dlatego, że rzeczywistość jest tak skomplikowana, iż precyzyjne opisanie nawet jej fragmentu jest bardzo trudne. Spróbujmy się zastanowić, jak można stworzyć ontologię dotyczącą rodziny. Warto zacząć od zdefiniowania jej członków i ich cech: ojciec, matka, syn i córka. Ojciec to mężczyzna, matka – kobieta. Łączy ich małżeństwo. Synowie i/lub córki to rodzeństwo. Mają wspólnego ojca i matkę (pamiętajmy też o rodzeństwie przyrodnim). Rodzina może być niepełna (po rozwodzie lub śmierci). Istnieje też dalsza rodzina (dziadkowie, wujowie itp.). W niektórych krajach rodzinę mogą tworzyć osoby tej samej płci. Jak widać, im więcej pojęć wprowadzamy, tym gęstsza staje się sieć zależności między nimi i pojawiają się nowe terminy, by wyjaśnić stare.

Stworzenie spójnej, precyzyjnej ontologii to trudne zadanie. Musi być ona zgodna semantycznie i syntaktycznie (patrz: $(LC107068: Pajęczyna II)$). Takie próby są jednak podejmowane – co więcej, z sukcesem. Efektem jednej z nich jest EngMath, ontologia dla matematyki stosowanej, która powstała na Uniwersytecie Stanforda. Ontologia ta zawiera takie pojęcia, jak wartość skalarna, wektorowa, wymiary fizyczne, tensory, jednostki miary, funkcje itp. Powstała jako narzędzie dla inżynierów do wymiany modeli matematycznych.

Inną ciekawą ontologię z dziedziny sztucznej inteligencji stworzono w projekcie CYC (od encyclopedia). Jest to potężna baza danych, której budowę rozpoczęto w MCC (Microelectronics and Computer Technology Corporation). Zawiera ona informacje z wielu dziedzin i ma być bazą do stworzenia zdroworozsądkowej wiedzy dla sztucznej inteligencji. Z uwagi na olbrzymi zakres zawartych tam danych CYC jest raczej zbiorem powiązanych ze sobą ontologii oraz zamodelowanej w ten sposób wiedzy. Stworzono je w języku CYCL. Istnieje okrojona, darmowa jego wersja, nazwana OpenCYC.

Sieć Semantyczna a WWW

Gdy szukano polskiego odpowiednika skrótu WWW, zaproponowano Wszechnica Wiedzy Wszelakiej. Rzeczywiście, w Pajęczynie znajdzie-my prawie wszystko, ale zamiast skatalogowanej biblioteki przypomina ona bezładny stos książek. W Sieci Semantycznej wszelka informacja będzie dokładnie opisana. Każdy zasób będzie miał przypisane właściwości, zostaną też określone powiązania między nimi. Internet stanie się rozproszoną bazą danych, której będziemy mogli zadawać konkretne pytania. W odpowiedzi nie uzyskamy listy mniej lub bardziej trafnych odsyłaczy, a precyzyjną odpowiedź. Dla programów przetwarzających dane (tzw. agentów) dokumenty umieszczone w Sieci nie będą już tylko zbiorem wyrazów. Zamiast do informacji będą one miały dostęp do wiedzy – co, kto, gdzie, jak i kiedy.