Predstavljanje i obrada semantičkog znanja

From SOFIA WIKI
Jump to: navigation, search

Jedan od predmeta istraživanja na projektu SOFIA su i tehnike za predstavljanje i obradu semantičkog znanja, koje pokrivaju više oblasti istraživanja kao što su predstavljanje znanja, razumevanje prirodnih jezika, ekstrakcija informacija, pretraživanje, odgovaranje na pitanja itd. Problemi u ovim oblastima su rešavani dugi niz godina, prvo u oblasti veštačke inteligencije i kasnije u oblasti semantičkog web-a.

Contents

Predstavljanje znanja

U oblasti predstavljanja znanja sledeći projekti iz Šestog i Sedmog okvirnog programa su od značaja:

KIWI projekat kombinuje paradigmu wiki-ja sa semantičkim tehnologijama, da bi se postiglo fleksibilno i problemski-usmereno upravljanje znanjem,

METOKIS istražuje korišćenje semantičkih tehnologija u oblastima intenzivnog korišćenja znanja,

NEON je fokusiran na efikasnost i efektivnost akvizicije znanja, kao i na projektovanje heterogenih semantičkih aplikacija,

TAO projekat ima za cilj da omogući tranziciju postojećih sistema ka otvorenim semantičkim, servisno-orijentisanim arhitekturama (SOA),

TRIPCOM projekat integriše tehnologije Tuple Space, semantičkog web-a i web servisa.

Ekstrakcija informacija

Što se tiče tehnika ekstrakcija informacija, pored EPI-SPARK projekta, postoji još nekoliko projekata Šestog okvirnog programa koji su koristili ove tehnike, kao što su:

ALVIS koji istražuje interoperabilnost alata za pretraživanje specifičnih tema, sa ciljem da se razvije prototip distribuiranog, semantičkog alata za pretraživanje,

BOOTStrep – objedinjuje već postojeće biološke baze podataka i razvoj alata za obradu prirodnih jezika da bi se omogućilo prikupljanje znanja iz tekstova iz domena biologije,

SEKT ima za cilj upravljanje znanjem tako što se značenje spreže sa znanjem integrisanim iz heterogenih izvora

X-MEDIA se bavi upravljanjem znanjem u kompleksnim distribuiranim okruženjima.

Odgovaranje na pitanja

U domenu automatskog odgovaranja na pitanja, QALL-ME [23] se bavi višejezičnim odgovaranjem na pitanja korišćenjem otvorenog domena, kao i tehnikama učenja koje pomažu odgovaranju na pitanja.

Linked Data & Interoperabilnost semantičkih podataka

Istraživanja sa ciljem uspostavljanja visokog nivoa semantičke interoperabilnosti javnih podataka se vrše u sledećim projektima:

GeoKnow projekat istražuje domen geoprostornih podataka, pre svega, integraciju i povezivanje tih podataka iz različitih oblasti, skalabilno rezonovanje nad milijardama geografskih elemenata u okviru Linked Data Web-a i efikasan crowd-sourcing i zajedničko stvaranje geografskih podataka.

LOD2 projekat razvija alate (LOD2 Technology Stack) za upravljanje životnim ciklusom i stvaranje znanja od međusobno povezanih podataka (Linked Data).

Istraživanje u okviru SOFIA projekta

Nova tehnika za predstavljanje semantičkog znanja, koja je predviđena projektom omogućava automatsko prevođenje tekstova u strukturiranu formu i obrnuto bez gubitka informacija, kao i automatsku ekstrakciju i predstavljanje svih koncepata i relacija između njih. Pošto se znanje predstavlja u strukturiranoj formi, računari će moći da ga obrađuju, a i ljudi će moći da ga razumeju, jer se lako može prevesti nazad u tekst. Imenovanja se ne koriste da bi se opisalo značenje predstavljenog znanja, tako da projektovanje ontologija nije potrebno. Na taj način će sva ograničenja simboličkog pristupa biti prevaziđena: predstavljanje znanja će biti domenski nezavisno, zato što bilo koji tekst (nezavisno od domena) može biti automatski preveden u strukturiranu formu, visoko-specijalizovani eksperti više neće biti potrebni, što će veoma smanjiti troškove i omogućiti lako proširivanje predstavljenog znanja. Sposobnost razumevanja semantičkog znanja će biti bazirana na „znanju o svetu“. To znanje će se sastojati od jednostavnih i složenih semantičkih kategorija i uzoraka. Semantičke kategorije će generalizovati skup semantičkih koncepata na različitim hijerarhijskim nivoima, koji imaju slično značenje u definisanim semantičkim kontekstima. Uzorci će se sastojati od semantičkih koncepata za koje su definisane odgovarajuće semantičke kategorije i biće korišćeni da bi se razumelo značenje komandi, pitanja, odgovora, itd. I uzorci i semantičke kategorije će biti predstavljene kroz primere u prirodnom jeziku. Semantičke kategorije se mogu proizvoljno kombinovati u okviru složenijih, nadređenih kategorija obezbeđujući na taj način veliku fleksibilnost razumevanja (čak i gramatički netačnih rečenica). Razumevanje će biti bazirano na uparivanju jednostavnih i složenih semantičkih kategorija sa konceptima i semantičkim strukturama koji se mogu naći u predstavljenom znanju, pa će zato biti veoma robusno, jer će nepoznate reči biti jednostavno preskočene. U stvari tehnika će koristiti sličan način na koji deca uče jezike. Umesto projektovanja gramatike, tehnika će podržavati učenje gramatike iz primera. Jedan tip učenja podrazumeva usvajanje „znanja o svetu“ u formi uzoraka i semantičkih kategorija. Ovaj tip učenja će takođe biti podržan od predložene tehnike za predstavljanje znanja. Pored toga, tehnika će jedinstveno predstavljati sve koncepte i relacije i na taj način stvoriti mogućnost za dve nove forme učenja iz konteksta: semantičku generalizaciju i semantičku specijalizaciju. Ako se dva različita koncepta ili semantičke strukture nađu na istom mestu u okviru istog semantičkog konteksta, podrazumeva se da imaju slično značenje i da mogu biti generalizovani, tako da nova semantička kategorija može biti definisana. Slično, ako se koncept ili semantička struktura nađe na istom mestu i u istom semantičkom kontekstu kao neka postojeća semantička kategorija, tada se podrazumeva da taj koncept ili semantička struktura predstavlja specijalizaciju te semantičke kategorije.

Personal tools