Internet - Technologie

Komputery coraz więcej rozumieją

2013-02-04 08:17:08

Komputery, dla których ludzki język był niezrozumiały, dzięki Internetowi Semantycznemu zaczynają zdobywać "wiedzę" i samodzielnie wyciągać wnioski. W sieci już pojawiają się aplikacje wykorzystujące takie możliwości - opowiada informatyk z Uniwersytetu Łódzkiego.

- Obecnie w Internecie mamy do czynienia z ogromną ilością informacji, których nie jesteśmy w stanie przetworzyć. Jeśli do 2003 r. ludzkość wytworzyła 5 eksabajtów informacji (eksabajt to 10 do potęgi 18 bajtów, czyli miliard GB), to teraz 5 eksabajtów informacji tworzonych jest co dwa dni. Google indeksuje ponad 40 mld stron internetowych. Pojawia się więc problem z docieraniem do informacji - mówi w rozmowie z PAP dr Marcin Skulimowski z Wydziału Fizyki i Informatyki Stosowanej Uniwersytetu Łódzkiego.

- Chińczyk bez problemu odpowie na pytanie dotyczące chińskiego tekstu, który właśnie przeczytał. Osoba, która nie zna chińskiego może co najwyżej w tym tekście wyszukać jakiś znak bądź ciąg znaków - i tak działają dzisiejsze wyszukiwarki - porównuje dr Skulimowski. Tak więc na razie wyszukiwarki pokazują linki do stron, na których znajdują się poszukiwane ciągi znaków. Użytkownik musi sam wchodzić na poszczególne strony i sprawdzać, czy o taki kontekst użycia tych słów mu chodziło.

- Kiedy wpisujemy w wyszukiwarkę hasło +wakacje nad morzem+, chcielibyśmy otrzymać listę konkretnych ofert, a nie strony, które takie sformułowanie mają użyte w treści - podkreśla badacz. Aby komputery skuteczniej przetwarzały informacje, informatycy zaczynają opisywać zasoby Internetu w sposób dla nich zrozumiały. Wykorzystywane są tym celu tzw. ontologie będące reprezentacjami fragmentów rzeczywistości. Składają się one z definicji klas (np. klasy "Matka" i "Kobieta") i relacji między nimi (np. klasa "Matka" zawiera się w klasie "Kobieta").

- Obecny Internet to system dokumentów połączonych ze sobą linkami. A w Internecie Semantycznym zrozumiałymi dla komputerów relacjami połączone będą konkretne zasoby o określonych typach. Zarówno o relacjach, jak i o zasobach komputery będą mogły wnioskować - wyjaśnia dr Skulimowski. Dla człowieka oczywiste jest, że zdanie +Ala jest matką Tomka+ opisuje pewną relację między dwiema osobami. Okazuje się, że informację o tym, można zapisać w sposób zrozumiały dla komputerów wykorzystując język RDF (ang. Resource Description Framework). Dzięki temu z pomocą ontologii komputer będzie mógł wnioskować i odkrywać nową wiedzę np. że +Ala jest kobietą+ oraz, że +Tomek jest synem Ali+. Co więcej, komputer będzie wiedział o której Ali mowa i że nie każda osoba w Internecie o imieniu Ala to ta sama Ala. „Dane zapisane w języku zrozumiałym dla komputerów otwierają przed nimi zupełnie nowe możliwości” - uważa informatyk.

Powstają już aplikacje, które korzystają z takich danych. Na wielu stronach Wikipedii po prawej stronie znajdują się tzw. infoboksy zawierające najważniejsze informacje związane z przeglądanym hasłem. W przypadku osób znajdziemy tam np. zdjęcie, datę i miejsce urodzenia, zawód, odznaczenia. Dane z infoboksów są już zapisywane w języku RDF. Powstaje w ten sposób tzw. DBpedia – „semantyczna” wersja Wikipedii. W DBpedii znajdują się już miliardy stwierdzeń w języku RDF, które komputery mogą łatwo analizować i przeszukiwać. Dzięki temu możemy np. wyszukać osoby urodzone w Warszawie w 1951 r. - Na razie pytania można zadawać tylko w specjalnym języku, ale jesteśmy coraz bliżej lepszych rozwiązań - przyznaje dr Skulimowski.

Innym przykładem aplikacji, która zwraca konkretne odpowiedzi, a nie linki do stron jest testowana właśnie wyszukiwarka Facebook Graph Search. Dzięki niej na Facebooku można wśród swoich znajomych np. wyszukać osoby, które mieszkają w danym mieście i lubią chodzić po górach. Co ważne takie zapytanie zapisywane jest w języku naturalnym. - To jest namiastka tego, do czego dążymy w skali całego Internetu - komentuje dr Skulimowski.

Aplikacją semantyczną staje się też wyszukiwarka Google. Dzięki ogromnej bazie wiedzy Google Knowledge Graph, oprócz tradycyjnych wyników wyszukiwania w postaci linków zwracane są też konkretne informacje. Na razie rozwiązania te są dostępne przede wszystkim w wersji angielskiej oraz w kilku innych językach. Ale kiedy w wyszukiwarkę wpiszemy np. "Uniwersytet Łódzki", po prawej stronie pojawiają się podstawowe dane o uniwersytecie m.in. logo, adres i lokalizacja na mapie.

Technologie stworzone dla Internetu Semantycznego wykorzystali również amerykańscy naukowcy ze szpitala w Cincinnati, którzy próbowali odszukać genetyczne przyczyny chorób sercowo-naczyniowych. Mieli do dyspozycji kilka różnych baz danych z różnymi informacjami np. na temat genów, chorób oraz ich symptomów. Tradycyjne wyszukiwanie podejrzanych genów wymagałoby dużego nakładu pracy związanego z „ręczną” integracją informacji pochodzących z tych baz danych. A to oczywiście wymaga dużo czasu. Naukowcy postąpili jednak inaczej tzn.: zintegrowali ze sobą informacje pochodzące z różnych baz danych zapisując je w przyjaznym komputerom języku RDF. Dzięki temu maszyny mogły łatwo przetwarzać zgromadzone tam informacje. W ten sposób powstał "ranking" genów, które mogą odgrywać rolę w konkretnych schorzeniach kardiologicznych. Okazało się, że technologie semantyczne mogą znaleźć zastosowanie nie tylko w przeszukiwaniu zasobów w Internecie.

- W Internecie jest teraz tak dużo informacji, że Internet Semantyczny to w zasadzie jedyna droga. Dążymy do stworzenia globalnej bazy danych na skalę całego Internetu, dzięki której będziemy mogli wyszukiwać konkretne informacje, a nie ciągi znaków. Być może prawdziwa rewolucja informacyjna jest dopiero przed nami… - podsumowuje dr Skulimowski.

PAP - Nauka w Polsce, Ludwika Tomala