academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank...

53
Planul de cercetare pe anul 2013 Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu” ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ PROGRAMUL DE CERCETARE PE ANUL 2013 AL INSTITUTULUI DE CERCETĂRI PENTRU INTELIGENŢĂ ARTIFICIALĂ (ICIA) ŞI AL CENTRULUI PENTRU NOI ARHITECTURI ELECTRONICE (CNAE)

Transcript of academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank...

Page 1: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

PROGRAMUL DE CERCETARE PE ANUL 2013 AL

INSTITUTULUI DE CERCETĂRI PENTRU INTELIGENŢĂ ARTIFICIALĂ (ICIA)

ŞI AL

CENTRULUI PENTRU NOI ARHITECTURI ELECTRONICE (CNAE)

Page 2: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

PROGRAMUL: SISTEME INTELIGENTE

SUBPROGRAM NR. 1

Titlul: Corpus computaţional de referinţă pentru limba română contemporană

(2012 – 2015)

Pentru perioada 2012-2015, colectivul de Prelucrare a Limbajului Natural din Institutul de Cercetări pentru Inteligentă Artificială va întreprinde cercetări în vederea realizării unui nucleu de corpus computaţional reprezentativ pentru limba română şi pentru a asigura accesul la această resursă lingvistică pentru specialiştii interesaţi din domenii diverse (cercetare, învăţământ, industrie).

Necesitatea existenţei unui astfel de corpus a fost formulată cu mai multe ocazii de către numeroase personalităţi active în domeniul lingvisticii teoretice şi computaţionale, în vederea creşterii vizibilităţi internaţionale, promovării limbii române în lume.

Obstacolele în calea realizării unui astfel de obiectiv au fost întrevăzute, de asemenea, iar noi vom încerca depăşirea lor pe calea dialogului cu forurile competente.

Colectivul nostru are experienţă în preprocesarea şi procesarea corpusurilor mono- şi multilingve: segmentare propoziţională şi lexicală, lematizare, adnotare morfo-sintactică, semantică. Vom continua dezvoltarea instrumentelor necesare pentru rafinarea prelucrării textelor, în vederea realizării unui analizor sintactic care să recunoască structura sintactică de suprafaţă a frazelor.

Utilizatorii vor avea la dispoziţie un corpus în care textele vor fi grupate pe domenii şi subdomenii, vor fi adnotate la diferite niveluri şi se vor putea efectua căutări după diferite criterii.

Coordonator subprogram

Acad. Dan Tufiş

Colectivul de cercetare

• Acad. Dan Tufiş, CSI (coordonator)• C.S.III. Dr. ing. Radu Ion • C.S.III Dr. lingv. Verginica Mititelu• C.S.III Dr.inf. Elena Irimia• C.S.III Dr.inf. Dan Ştefănescu • C.S.III. Dr. ing. Ştefan Dumitrescu (1/2 normă)

Page 3: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~• C.S. Dr. mat. Corina Forăscu (1/2 normă)• C.S. lingv. Cătălin Mihăilă (1/2 normă)

• Termen de realizare

15 decembrie 2015

Faze propuse pentru anul I (2012)

Faza I: Studiu privind structura unui corpus computaţional de referinţă pentru limba română contemporană

Faza a II-a: Studiu privind arhitectura software si serviciile publice ale unei platforme web de exploatare a corpusului computaţional de referinţă pentru limba română

Faze propuse pentru anul II (2013)

Faza I: Dezvoltarea de module program interoperabile, pentru platforma de prelucrare a corpusului computaţional de referinţă pentru limba română contemporană; colectarea şi prelucrarea primară a primelor eşantioane de text ale corpusului.

Faza a II-a: Proiectarea platformei de prelucrare a corpusului computaţional de referinţă pentru limba română contemporană

Faze propuse pentru anul III (2014)

Faza I: Dezvoltarea de module program interoperabile, pentru platforma de prelucrare a corpusului computaţional de referinţă pentru limba română contemporană; colectarea şi prelucrarea primară a celei de a doua tranşe de eşantioane de text ale corpusului.

Faza a II-a: Implemetarea prototipului de platformă pentru prelucrarea corpusului computaţional de referinţă pentru limba română contemporană

Faze propuse pentru anul IV (2015)

Faza I: Dezvoltarea de module program interoperabile, pentru platforma de prelucrare a corpusului computaţional de referinţă pentru limba română contemporană; colectarea şi prelucrarea primară a celei de a treia tranşe de eşantioane de text ale corpusului.

Faza a II-a: Finalizarea, testarea şi lansarea publică a platformei pentru prelucrarea corpusului computaţional de referinţă pentru limba română contemporană

Page 4: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Fazele pe anii 2013, 2014 şi 2015 sunt orientative şi ar putea suferi modificări în condiţiile schimbărilor în echipa de realizare a temei, a legislaţiei privind proprietatea intelectuală ori a noilor dezvoltări stiinţifice şi tehnologice în lingvistica corpusului

Stadiul actual al cunoştinţelor în domeniu

Abordarea propusă prin această temă, în consens cu strategia internaţională de cercetare, are scopul de a dezvolta un cadru metodologic normativ de studiu computaţional al limbii române, în strânsă corelare cu practicile şi recomandările internaţionale şi în paralel de a dezvolta nuclee demonstrabile de aplicaţii de prelucrare a limbii române. Începând cu aspectele strict inginereşti legate de codificarea caracterelor, a descrierilor morfo-lexicale şi sintactice şi sfârşind cu modelarea competenţei şi performanţei lingvistice, acest proiect orientat asupra limbii române, va dezvolta metodologii de cercetare şi implementare a diferiţilor componenţi lingvistici (lexic, sintaxă, semantică, pragmatică) cu deschidere spre contexte multilingve şi pe baza acestora vor crea sisteme pilot. Resursele lingvistice avute în vedere sunt: corpusuri, indecşi lexicali de frecvenţă şi dicţionare morfo-lexicale (bazate pe frecvenţa apariţiei în corpus).

Corpusul computaţional poate fi definit ca o colecţie electronică de reprezentări textuale sau multimedia a unor fragmente reprezentative de utilizare reală ale unei limbi. Interesul pentru crearea unei asemenea resurse lingvistice este motivat din mai multe perspective: un corpus, prin naturaleţea textelor conţinute, poate servi / ar trebui să servească drept material indispensabil de lucru unui lingvist preocupat să descrie diverse aspecte ale unei limbi; corpusurile (paralele sau comparabile) pentru mai multe limbi (înrudite sau nu) oferă material de studiu comparativ al limbilor respective; pentru lexicografi corpusurile oferă material inestimabil de valorificat în crearea dicţionarelor generale sau speciale de limbă; pentru dezvoltatorii de aplicaţii pe baza limbii naturale (Question Answering, Machine Translation şi altele), corpusurile oferă material de antrenare, de învăţare, de testare. Pentru învăţarea unei limbi, un corpus oferă exemple concrete de contexte posibile pentru cuvinte, de relaţii pe care acestea le stabilesc cu alte cuvinte etc. Chiar şi în predarea limbii române în şcoala românească un astfel de corpus poate fi un instrument util de predare şi evaluare a elevilor.

Pe plan internaţional, sunt disponibile corpusuri de dimensiuni din ce în ce mai mari pentru un număr în creştere continuă de limbi: engleză, rusă, bulgară, germană, croată, poloneză, spaniolă şi multe altele.

Crearea unui corpus computaţional de referinţă presupune pe lângă definirea structurii şi acoperirii lingvistice urmărite, colectarea textelor conform structurării decise, rezolvarea problemelor de drepturi intelectuale, prelucrarea lor prin tehnologii lingvistice (segmentare, lematizare, dezambiguizare morfo-lexicală, etc), indexarea acestor texte după cât mai multe criterii utile în exploatare, extragerea de statistici, dezvoltarea unei platforme de exploatare, cat mai prietenoasă şi mai flexibilă, precum şi stabilirea unor metode securizate de acces la corpus pentru a preveni manifestări de vandalism sau utilizări improprii. În condiţiile accesului public, arhitectura hardware trebuie să fie adecvată unui acces simultan, potenţial al mai multor mii de utilizatori.

Page 5: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Pentru edificare, iată câteva cifre estimative privind dimensiunile unor corpusuri

considerate având acoperire lingvistică rezonabilă:corpus specializat: 2-5 milioane de cuvinte;corpus de referinţă >200 milioane de cuvintecorpus bilingv pentru traducere automată: > 100 milioane de cuvinte pentru fiecare limbă

Codificarea standardizată (de exemplu în XML conform standardului XCES) a unui corpus computaţional poate mări de peste 10 ori dimensiunea sa faţa de a textului iniţial.

La nivel naţional, s-au exprimat numeroase personalităţi în legătură cu necesitatea existenţei unui corpus reprezentativ. În cadrul Consorţiului pentru Informatizarea Limbii Române s-a discutat despre iniţiative legislative care să se concretizeze cu crearea unui corpus reprezentativ pentru limba română.

Deocamdată există corpusuri de dimensiuni modeste, reflectând, în general, un stil funcţional: ICIA deţine AGENDA (corpus jurnalistic), RO-JRC (corpus juridic), RO-EMEA (corpus de medicină), RO-BIO (corpus de date biografice ale personalităţilor literare române), RO-LIT (corpus de texte literare). Toate acestea, de dimensiuni egale, formează ROM-BAC (corpus românesc balansat). Institutul nostru are experienţă bogată şi în lucrul cu corpusuri paralele şi comparabile, căpătată de-a lungul timpului, în numeroasele proiecte internaţionale şi naţionale în care a fost partener. Deţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus comparabil, cu texte jurnalistice, în trei limbi: engleză, română şi franceză).

Şi în alte institute şi unităţi de educaţie-cercetare au fost create, în cadrul diverselor proiecte, corpusuri de diverse tipuri: audio (Facultatea de Litere a Universităţii din Bucureşti, Institutul de Lingvistică „Iorgu Iordan – Al. Rosetti” al Academiei Române).

Un corpus poate fi prelucrat la diverse niveluri: morfologic, sintactic, semantic, pragmatic, analiza discursului. În cadrul ICIA a fost creat un analizor morfologic care, pentru orice cuvânt dintr-un corpus, furnizează o etichetă morfo-sintactică cu informaţii despre partea de vorbire a cuvintelor şi categoriile gramaticale specifice. La nivel sintactic, un chunker este capabil să recunoască în corpus grupurile sintactice. De aici şi până la realizarea unui analizor sintactic (parser) care să recunoască structura sintactică a enunţului n-ar mai fi decât un pas. La nivel semantic, am dezvoltat instrumente capabile să identifice, dintr-o listă de sensuri asociate fiecărui cuvânt, sensul cu care acesta este folosit într-un context.

Un corpus reprezentativ este oglinda unei limbi, am putea spune, adică reflectă structura şi funcţionarea acesteia. Din această afirmaţie decurg câteva caracteristici intrinseci ale unui corpus reprezentativ:

dimensiunile foarte mari; reprezentarea proporţionată a registrelor şi stilurilor funcţionale; pre-procesare, în vederea identificării unităţilor lexicale (i.e. structura limbii); adnotarea, care deosebeşte corpusul de o colecţie de texte şi care pune în

lumină funcţionarea limbii; utilitatea în studiul limbii.

Scopul temei Scopul temei noastre este unul extrem de ambiţios, care poate justifica această

întreprindere ca un deziderat fundamental al Academiei Române. Dacă la înfiinţarea

Page 6: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Academiei Române crearea unui dicţionar şi a unei gramatici au fost obiective fundamentale, astăzi ele nu se mai pot formula în afara existenţei unui corpus reprezentativ pentru limba română, dacă ne dorim lucrul în condiţii comparabile cu echipele de cercetare-dezvoltare din spaţiul european şi mondial.

Stabilirea metodologiei de urmat este un prim pas în realizarea corpusului. Aceasta presupune rezolvarea unor probleme ce ţin de reprezentativitate, copyright, infrastructură necesară.

Dincolo de crearea propriu-zisă a acestui corpus trebuie percepută dorinţa de a-l face accesibil cercetătorilor interesaţi. Numeroase studii lingvistice recurg şi astăzi la crearea exemplelor menite să servească descrierilor şi formalizărilor pe care le fac. Aceste exemple nu reflectă uzul general al limbii, ci eventual idiolectul lingvistului respectiv (în fond, un specialist influenţat de teoriile cunoscute, la care aderă). Descrierea unei limbi trebuie să pornească de la limbă, în manifestările ei concrete.

Şi prin acest proiect Institutul nostru continuă promovarea limbii române în mediul lingvisticii computaţionale, în cadrul conferinţelor, workshop-urilor, competiţiilor internaţionale şi naţionale de nivel înalt.

Rezultate scontate

Principalele rezultate scontate prin acest program sunt: implementarea unei metodologii de alcătuire a unui corpus reprezentativ

pentru limba română, condiţionată de diverşi factori; crearea unei valoroase resurse lingvistice pentru limba română: corpusul

reprezentativ, adnotat la mai multe niveluri; dezvoltarea unei platforme de exploatare a acestui corpus de către diverşi

utilizatori, cu interese variate; „vizibilitatea” internaţională a limbii române pe piaţa tehnologiei limbajului; diseminarea competenţei prin conferinţe, publicaţii, seminarii, consultanţă

ştiinţifică, etc.

Valorificarea rezultatelor

Rezultatele cercetării vor fi valorificate prin publicarea în reviste de specialitate, prezentare la congrese internaţionale şi colaborări naţionale şi internaţionale cu parteneri interesaţi de includerea limbii române în sisteme de prelucrare a limbajului natural. De asemenea, rezultatele acestei teme vor constitui baza pe care se vor propune noi proiecte extrabugetare, internaţionale sau naţionale.

Rezultatele acestei teme vor fi puse la dispoziţia comunităţii ştiinţifice din România şi din străinătate. Aplicaţiile pilot vor fi puse la dispoziţia tuturor celor interesaţi pentru a putea fi dezvoltate în continuare.

Page 7: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Dreptul de proprietate intelectuală, asupra metodelor şi tehnicilor originale, a resurselor lingvistice dezvoltate, a programelor de achiziţie şi exploatare elaborate în cadrul acestui proiect, în afara unor altor menţiuni explicite va reveni Institutului de Cercetări pentru Inteligenţă Artificială. Pentru o serie de resurse primare (formatul electronic al diferitelor dicţionare, tezaure sau altor publicaţii) dreptul de utilizare liberă va fi asigurat grupurilor de cercetare academică, pentru utilizarea în scopuri comerciale, beneficiarii urmând a stabili relaţii contractuale cu fiecare din deţinătorii drepturilor de proprietate intelectuală.

Colaborări

În ţară:

Principalii colaboratori din ţară vor fi instituţiile şi reprezentanţii lor din cadrul Comisiei de Informatizare pentru Limba Română: Institutele de Lingvistică ale Academiei, Universitatea "Politehnica", Bucureşti, Universitatea Alexandru Ioan Cuza, Iaşi, Institutul de Informatică Teoretică al Academiei, Iaşi, Universitatea Tehnică din Timişoara, ITC Bucureşti, Cluj.

Natura temei implică o strânsă colaborare şi cu Institutul de Istorie şi Teorie Literară „G. Călinescu”.

În străinătate Colaborările internaţionale stabilite anterior, printr-o serie de contracte europene

sau bilaterale vor fi continuate: Universitatea din Princeton (USA), Departamentul de Lingvistică Computaţională din cadrul Institutului Limbii Bulgare al Academiei Bulgare de Ştiinţe (Bulgaria), Universitatea din Patras (Grecia), Universitatea din Amsterdam (Olanda), Institutul de Lingvistică Computaţională din Pisa (Italia), Centrul de lingvistică computaţională de la Universitatea Tuebingen (Germania), Centrul de Lingvistică Computaţională din Praga (Cehia), Laboratorul de Informatică Fundamentală (LIF, Franţa), Institutul de Lingvistică al Academiei Ungare din Budapesta, Universitatea Masarzk din Brno (Cehia), Institutul Josef Stefan din Ljubljana (Slovenia), Universitatea din Albacette (Spania), Universitatea Vassar (SUA), Universitatea George Mason (USA)-Learning Agents Laboratory etc.

BibliografieAtkins, S., Clear J. H and Ostler N. 1992. `Corpus Design Criteria' in , Vol. 7, No. 1, pp.

1-16.Barlow, M. 1996. Corpora for Theory and Practice. International Journal of Corpus

Linguistics, 1, 1.Corina Forăscu. Contributions to Romanian language processing through discourse

analysis methods. (in Romanian). PhD thesis. Romanian Academy, Bucharest. 2011.

Dănilă, E., Despre necesitatea realizării unui corpus lexicografic românesc esenţial, în Philologica Jassyensia, anul VI, nr 2 (12), 2010, p. 41-49.

Page 8: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Ion, R. (2007). Word Sense Disambiguation methods applied to English and Romanian.

Ph.D. thesis, Research Institute for Artificial Intelligence (RACAI), Romanian Academy, 153 pages;

Ion, R. and Barbu-Mititelu, V. (2006). Constrained Lexical Attraction Models. In Proceedings of the Nineteenth International Florida Artificial Intelligence Research Society Conference, pages 297–302, Menlo Park, Calif., USA. AAAI Press;

Kučera, H. and Francis, N.W. (1967). Computational analysis of present-day American English. Brown University Press, Providence, Rhode Island;

Lupu, M., Trandabăţ, D. and Husarciuc, M. (2005). A Romanian SemCor Aligned to the English and Italian MultiSemCor. In Proceedings of the Romance FrameNet Workshop and Kick-off Meeting, EuroLAN 2005, pages 20–27, Babes-Bolyai University, Cluj-Napoca, Romania;

Marius Clim, Elena Dănilă, Gabriele Haja, premise ale informatizării cercetării lexicografice academice româneşti, în volumul Limba română. Dinamica limbii, dinamica interpretării, Editura Universităţii din Bucureşti, p. 585-591.

Mihalcea, R. and Moldovan, D. (1999). A method for word sense disambiguation of unrestricted text. In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL 1999), College Park, MA;

Mihalcea, R. and Moldovan, D. (2001). A highly accurate bootstrapping algorithm for word sense disambiguation. International Journal on Artificial Intelligence Tools, 10(1–2);

Mihalcea, R. and Pedersen, T. (2003). An Evaluation Exercise for Word Alignment. In Proceedings of the HLT-NAACL 2003 Workshop: Building and Using Parallel Texts Data Driven Machine Translation and Beyond, pages 1–10, Edmonton, Canada;

Ng, H.T. (1997). Getting serious about word sense disambiguation. In Proceedings of the ACL SIGLEX Workshop on Tagging Text with Lexical Semantics: Why, What, and How?, pages 1–7, Washington, D.C., USA;

Quirk, R. 1992. On Corpus Principles and Design. In Svartik, J. (ed) Directions in Corpus Linguistics. Berlin: Mouton de Gruyter.

Stetina, J., Kurohashi, S. and Nagao, M. (1998). General word sense disambiguation method based on a full sentential context. In Proceedings of the Coling-ACL’98 Workshop “Usage of WordNet in Natural Language Processing Systems”, pages 1–8, Montreal;

Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova, 2006. Bulgarian Tagged Corpora. In: Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 18-20 October 2006, Sofia, Bulgaria, pp. 78-86.

Tufiş, D. and Ion, R. (2007). Specificaţii pentru clasa de etichete folosite în adnotarea morfo-lexicală a limbii române. Raport de cercetare, iunie, Institutul de Cercetări pentru inteligenţă artificială, 24 pages;

Tufiş, D., Barbu A.M., Pătraşcu V., Rotariu G., Popescu C. 1997.”Corpora and Corpus-

Based Morpho-Lexical Processing”. In Dan Tufiş, P. Andersen (eds.) “Recent Advances in Romanian Language Technology”, Editura Academiei, pp. 35-56.

Page 9: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Tufiş, D., Elena Irimia. 2006. RoCo_News - A Hand Validated Journalistic Corpus of

Romanian. In Proceedings of the 5th LREC Conference, Genoa, pp. 869-872 Tufiş, D., Liviu Dragomirescu. 2004. Tiered Tagging Revisited. In Proceedings of the 4th

LREC’04 Conference, Lisabona, pp. 39-42Tufiş, D., Radu Ion, Alexandru Ceauşu, and Dan Ştefănescu. 2008. RACAI's Linguistic

Web Services. In Proceedings of the 6th LREC Conference – LREC’08, Marrakech.Tufiş, D., Radu Ion. 2007. Specificaţii pentru clasa de etichete folosite în adnotarea

morfo-lexicală a limbii române. Raport de cercetare, iunie, Institutul de Cercetări pentru inteligenţă artificială, 24 pages.

Tufiş, D.and Alexandru Ceauşu. 2008. DIAC+: A Professional Diacritics Recovering System. In Proceedings of the 6th LREC Conference, Marrakech.

Tufiş, D. 1999.“Tiered Tagging and Combined Classifiers”. In F. Jelinek, E. Nöth (eds) Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer, 1999, pp. 28-33

Tema: Contribuţii în definirea / stabilirea unor resurse lingvistice reprezentative pentru limba română scrisă

(2013 -2014)

Faze propuse:

În 2013:Faza I (iunie 2013): Conexiuni între bogăţia lexicală a limbii române şi modelul statistic de început şi de sfârşit de cuvânt

Faza II (noiembrie 2013): Reprezentativitatea unor entităţi/resurse lingvistice din punctul de vedere al aplicaţiilor pe text

În 2014:Faza I (iunie 2014): Consideraţii privind constituirea unui corpus reprezentativ de limbă scrisă. Comparaţii bilingve.

Faza II (noiembrie 2014): Consideraţii privind influenţa ortografiei/punctuaţiei în modelul matematic al limbii şi în bogăţia lingvistică a limbii române.

Preliminarii

Studiile făcute de echipă până în 2005, referitoare la modelul matematic al limbii române scrise, au cuprins dezvoltarea de metode şi procedee statistice cu aplicabilitate generală pentru limbajul natural şi obţinerea unor resurse lingvistice cu un control statistic al erorilor. Aceste studii s-au bazat pe un corpus mixt de 93 cărţi (scrise cu noua ortografie introdusă după 1993), incluzând un corpus literar format din 58 de cărţi (romane şi nuvele de autori români sau traduceri), [Vlad, 2003].

După anul 2005 studiul a fost mult extins, în primul rând prin considerarea scrierii cu ortografie şi punctuaţie, ceea ce a însemnat în final un alfabet de 47 caractere. Spre comparaţie, până în 2005, studiile statistice referitoare la modelul limbii au considerat

Page 10: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~doar alfabetul restrâns la litere propriu-zise şi caracterul spaţiu. Astfel, temele de cercetare începute în 2005 au implicat completarea corpusului prezentat în [Vlad, 2003] cu elemente de ortografie şi punctuaţie.

Începând cu 2009 s-a construit în mod independent un nou corpus literar (conţinând 49 de cărţi - romane şi nuvele) care în prezent este de o lungime comparabilă cu cel anterior menţionat. Prin componenţa sa, noul corpus a permis în primul rând găsirea unui răspuns la o problemă deschisă în literatură, dacă şi în ce mod se poate vorbi de un model matematic al limbii (aici de model de domeniu literar de romane şi nuvele) sau modelul de autor este mult prea influent.

Fazele de cercetare din perioada 2010 – 2012 au reprezentat o etapă superioară în descrierea statistică a limbii române. A fost vorba de reevaluarea studiului de ansamblu pe baza corpusului literar total de 107 cărţi (peste 12.5 milioane cuvinte) obţinut prin concatenarea celor două corpusuri literare menţionate, respectv de 58 şi 47 de cărţi. Corpusul literar total a fost suficient de mare încât să permită introducerea unor noi entităţi lingvistice, precum şi sporirea acurateţei măsurătorilor, analiză incluzând şi modelul limbii de început şi de sfârşit de cuvânt (m-gramele de litere de început şi de sfârşit de cuvânt şi cele de legătură între cuvinte, pentru limba română scrisă cu ortografie şi punctuaţie). În paralel, folosind rezultatele cantitative obţinute în cadrul temelor de cercetare, s-au iniţiat unele aplicaţii din domeniile teoriei informaţiei, criptografiei, prelucrării de text, etc. care au încercat să deschidă o dezbatere privind reprezentativitatea resurselor lingvistice.

Obiective

Fazele propuse pentru 2013 – 2014 reprezintă o nouă etapă în descrierea statistică a limbii române, urmărind iniţierea unor dezbateri sau chiar un răspuns la probleme deschise în literatura de specialitate. Obiectivele vizează mai multe aspecte care să permită formularea de opinii privind:- bogăţia lexicală a limbii române, inclusiv consideraţii privind modelul limbii de început şi de sfârşit de cuvânt, precum şi influenţa semnelor de ortografie şi punctuaţie - criterii de obţinere de resurse lingvistice reprezentative pentru limba română (cel puţin pentru domeniul literar analizat); în ce măsură aceste criterii pot fi susţinute prin aplicaţii pe text sau prin comparaţii statistice între limbi naturale diferite- conexiunea între aspectele statisice şi cele de conţinut (înţelesul comunicării) - aspecte legate de estimarea entropiei şi implicit a redundanţei limbii, când se consideră alfabetul extins cu semne de ortografie şi de punctuaţie

Bibliografie

[Academia Română, 1993] Hotărârea Academiei Române de revenire la “â” şi “sunt” în grafia limbii române din 17 februarie 1993, Monitorul Oficial al României, Partea I, nr. 51 din 8 martie 1993.

[Ciucă, 2012] St. Ciucă, Vlad Adriana, A. Mitrea, “A Mathematical Comparison between Single Author Literary Romanian Texts”, in Scientific Bulletin of University POLITEHNICA of Bucharest, Series A: Applied Mathematics and Physics, Vol. 74, Iss. 1, 2012, pp. 69- 82, ISSN 1223-7027

Page 11: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~[Devore, 1987] Devore J., Probability and Statistics for Engineering and the Sciences, second

edition, Brooks/Cole Publishing Company, Monterey, California, 1987.

[Dinu, 1996] Dinu M., Personalitatea limbii române, Ed. Cartea Românească, Bucureşti, 1996.

[Grzybeck, 2008] Peter Grzybeck, Emmerich Kelih, Ernst Stadlober, The relationship between word length and sentence length: an intra-systemic perspective in the core data structure , Glotometrics 16, 2008, pp. 111-121

[Iosifescu, 1977] Iosifescu M., Lanţuri Markov finite şi aplicaţii, Ed. Tehnică, Bucureşti, 1977.

[Juilland, 1965] Juilland A., Edwards P.M.G., Juilland Ileana, Frequency Dictionary of Romanian Words, Mouton et Comp., London The Hague Paris, 1965.

[Kanter, 1995] Kanter I., Kessler D. A., “Markov Process: Linguistics and Zipf’s Law”, Physical Review Letters, Volume 74, Number 22, May 1995.

[Marcus, 1966] Marcus S., Nicolau Ed., Stati S., Introducere în lingvistica matematica, Ed. Stiintifica, Bucuresti, 1966 sau Introduction en la linguistica matematica, Editorial Teide, Barcelona, 1978.

[Mitrea, 2012] Adrian Mitrea, Adriana Vlad, Adrian Luca, ”Statistical Study on a Literary Romanian Corpus for the Beginning and Ending of the Words”. Proc. of the 9th International Conference on Communications “COMM 2012”, June 21-22, 2012, Bucharest, Romania, pp. 81-84.

[Popescu, 2006] Popescu, I.-I., Altmann, G. (2006). Some aspects of word frequencies. Glottometrics, 13, 23-46.

[Rodríguez-Castro, 2011] Rodríguez-Castro, Mónica “Translationese and punctuation: An empirical study of translated and non-translated international newspaper articles (English and Spanish)”, Translation and Interpreting Studies, Volume 6, Number 1, 2011 , pp. 40-61(22), ISSN 1932-2798, Publisher: John Benjamins Publishing Company

[Say, 1997] Say B., Akman V., “Current Approaches to Punctuation in Computational Linguistics”, Computers and the Humanities, 30, pp. 457-469, 1997.

[Shannon, 1949] Shannon C. E., “Communication Theory of Secrecy Systems”, Bell Syst. Tech. J., Vol. 28, Nov. 1949, pp. 656-715.

[Shannon, 1951] Shannon C. E., “Prediction and Entropy of Printed English”, Bell Syst. Tech. J., vol. 30, pp. 50-64, January 1951.

[Vlad, 1997a] Vlad Adriana, Mitrea A., “Estimating conditional probabilities and digram statistical structure in printed Romanian”, în “Recent Advances in Romanian Language Technology”, Dan Tufis & Poul Andersen Editors, Ed. Academiei, Bucureşti, 1997, pp. 57-72, ISBN 973-27-0626-0; varianta electronica poate fi consultată la adresa: http://www.racai.ro/books/awde/vlad.html.

[Vlad, 1997b] Vlad Adriana, Mitrea A., “Estimating the entropies for the first and second approximations to Romanian”, Proc. of the Intl. Symp. on Signal, Circuits & Systems - SCS'97, pp. 527-530, Oct. 1997, Iasi.

[Vlad, 1999] Vlad Adriana, Mitrea A., Mitrea M., Popa D., “Statistical methods for verifying the natural language stationarity based on the first approximation. Case study: Printed Romanian”, Proc. VEXTAL’99 (Conference Venezia per il trattamento automatico della lingue), Ed. Unipress, pp. 127-132, Nov. 1999, Venice-Italy. http://byron.cgm.unive.it/events/papers/vlad.pdf

Page 12: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~[Vlad, 2000a] Vlad Adriana, Mitrea A., Mitrea M., “Verifying Printed Romanian Language

Stationarity Based on the Digram Statistical Structure”, Proceedings of the Romanian Academy, Series A, Vol. I, No. 2/2000, pp. 129-139.

[Vlad, 2000b] Vlad Adriana, Mitrea A., Mitrea M., “Two frequency–rank laws for letters in printed Romanian”, Procesamiento del Languaje Natural, Revista No 24, Septiembre de 2000, pp. 153-160 (revista este editată de Sociedad Español para el Procesamiento del Languaje Natural).

[Vlad, 2001] Vlad Adriana, Mitrea A., Mitrea M., “The trigram statistical structure in printed Romanian”, ROMJIST (Romanian Journal of Information Science and Technology), Vol. 4, No. 3, 2001, pp. 353-372.

[Vlad, 2002a] Vlad Adriana, Mitrea A., “Contribuţii privind structura statistică de cuvinte în limba română scrisă”, în “Limba Română în Societatea Informaţională - Societatea Cunoaşterii”, Editori D. Tufiş şi F. G. Filip, Academia Română, Ed Expert, Bucureşti, 2002, pp. 207-233.

[Vlad, 2002b] Vlad Adriana, Mitrea A., Mitrea M., “Estimating tetragram probabilities by using multiple data samples from a natural text. Case study: printed Romanian”, Proc. The 9th Intl. Conf. on Information Processing and Management of Uncertainty in Knowledge–Based Systems - IPMU2002, Jul. 2002, Annecy-France, pp. 1285–1292.

[Vlad, 2003a] Vlad Adriana, Mitrea A., Mitrea M., “A Corpus – based Analysis of how Accurately Printed Romanian Obeys Some Universal Laws”, Cap. 15 în “A Rainbow of Corpora: Corpus Linguistics and the Languages of the World”, Wilson, Andrew/Rayson, Paul/McEnery Tony Editors, Lincom-Europa Publishing House, Munich, 2003, pp. 153-165, ISBN 3-89586-872-8.

[Vlad, 2003b] Vlad Adriana, Mitrea A., Mitrea M., “Limba română scrisă ca sursă de informaţie”, Ed. Paideia, ISBN 973-596-185-7, Bucureşti, 2003 (286 pag.).

[Vlad, 2003c] Vlad Adriana, Mitrea A., Mitrea M., “Printed Romanian Modelling: the m-grams and the Word Information Sources”, Proc. Speech Techonology and Human-Computer Dialogue, Coordinator C. Burileanu, Ed. Academiei Romane, pp. 79-98, Aprilie 2003, Bucharest.

[Vlad, 2007b] Vlad Adriana, Mitrea A., Mitrea M., “Printed Romanian Modelling: A Corpus Linguistics Based Study With Orthography And Punctuation Marks Included”, Lecture Notes in Computer Science, vol. 4705 (ICCSA 2007), Springer Verlag, Berlin Heidelberg, 2007, pp. 409-423, ISSN 0302-9743.

[Vlad, 2010] Adriana Vlad, A. Mitrea, M. Mitrea, Şt. Ciucă, “Enriching Printed Romanian Statistical Description: an Approach by Mathematically Comparing Two Independent Literary Corpora”, in Dan Tufiş, Corina Forăscu (eds.) (2010), “Multilinguality and Interoperability in Language Processing with Emphasis on Romanian”, Editura Academiei, 2010, pp. 245-271.

[Vlad, 2011] Vlad Adriana, Mitrea A., Ciucă Ş., Luca A., “A Study on the Statistical Structure of Words and of Word Digrams in A Literary Romanian Corpus”, in 6th Conference on Speech Technology and Human-Computer Dialog (SpeD2011), 18-21 May 2011, Braşov, Romania, pp. 1-8, ISBN 978-1-4577-0440-6.

[Vlad, 2012a] Vlad Adriana, Ilyas A., Luca A., “A closer view of running-key cipher on natural languages and its extension for new applications in cryptography”, Proc. of the Romanian Academy, Series A, vol. 13, Number 2/2012, pp. 157–166.

Page 13: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~[Vlad, 2012b] Adriana Vlad, Adrian Mitrea, Adrian Luca, “Investigating the compatibility of two

Romanian literary corpora with orthography and punctuation marks included, based on the m-gram statistical structures”, Conference “Diaspora2012”, workshop “Language Technologies for R-D”, September 2012, Bucharest (invited lecture)

SUBPROGRAM NR. 2

Sisteme de analiză polifonică şi cronotopică a discursului din texte (2013-2015)

Rezumat

Prezentul proiect de cercetare îşi propune să investigheze o nouă perspectivă asupra discursului în limbajul natural, orientată în special către intertextualitate. Se va pleca de la modelul polifonic şi conceptul de cronotop (spaţiu-timp) propuse de Bahtin (1970, 1981), se va studia ideea polifoniei în texte şi în muzică, se va urmări dezvoltarea de sisteme de detectare a intertextualităţii, a influenţelor între texte, precum şi a evoluţiei lor temporale. Cercetările vor folosi rezultatele conducătorului temei din domeniul sistemelor colaborative, a mineritului textelor şi a sistemelor hermenofore.

Coordonator subprogram - Prof.dr.ing. Ştefan Trăuşan-Matu, CS1

Colectivul de cercetare

Prof. dr. ing. Ştefan Trăuşan-Matu, CP1 (coordonator) Doctoranzi, masteranzi şi studenţi din anii terminali la Facultatea de Automatică şi

Calculatoare

Termen de realizare - 15 decembrie 2015

Fazele desfăşurate în anul I (2013)

Faza I Studiu asupra perspectivei polifonice în analiza discursului în texte, în conversaţii şi în muzică

Faza a II-a Studiu asupra analizei cronotopice a discursului în texte şi conversaţii

Fazele propuse pentru anul II (2014)

Faza a III-a: Studiu asupra detectării intertextualităţii staticeFaza a IV-a: Sistem de detectare a intertextualităţii statice

Faze propuse pentru anul III (2015)

Page 14: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Faza a V-a Studiu asupra analizei discursului intertextual din perspectivă

temporală Faza a VI-a Sistem de analiză a discursului intertextual din perspectivă

temporală

Stadiul actual al cunoştinţelor în domeniu

În analiza discursului pot fi identificate două paradigme, cea cognitivă – „ce se concentrează pe cunoştinţele ce se află în mintea diverselor individualităţi” (Trausan-Matu, 2010) – şi cea socio-culturală– „ce afirmă că învăţarea este construită social” (Trausan-Matu, 2010). Din punct de vedere al lingvisticii computaţionale, principalele teorii ale discursului se încadrează în prima paradigmă. Cele mai cunoscute astfel de teorii sunt cele ale lui Hobbs (1993), Grosz (Grosz, Joshi, Weinstein, 1995), Mann şi Thomson (1988).

În cea de-a doua categorie se pot include teoriile care pleacă de la paradigma socio-culturală, care pune accent pe dimensiunea socială, colaborativă a cunoştinţelor. Un model al acestor teorii este cel polifonic introdus de Mihail Bahtin (1970, 1981). În afară de acesta, abordări bazate pe ideea polifoniei au mai fost dezvoltate de Ducrot (1984), Nolke, H., Flottum, K., & Noren (2004) şi Trăuşan-Matu (2010).

Web-ul este considerat de unii cercetători ca fundamentat de ideea de intertextualitate care derivă din dialogistica şi modelul polifonic al lui Mihail Bahtin (Kristeva, 1980; Bahtin, 1970, 1981). Puţine cercetări şi, mai ales, puţine sisteme implementate se bazează pe modelul polifonic al discursului.

În tema de cercetare de faţă se continuă cercetările anterioare ale conducătorului temei în cadrul ICIA, punându-se accentul pe perspectiva care se încadrează în abordarea dialogală, în accepţiunea lui Bahtin (1981). Concepţia lui este centrată în jurul ideei că dialogul între membrii unei comunităţi are o influenţă fundamentală asupra oricărui act lingvistic: “... adevărata viaţă a personalităţii este accesibilă numai în cazul unei pătrunderi dialogale căreia îi răspunde ea însăşi printr-o răspundere liberă şi nestigherită’ (Bahtin, 1970, p.83). “Totul converge spre dialog, spre opoziţie dialogală, considerată centrul întregului. Totul este doar un mijloc, în timp ce scopul e dialogul” (ibid. p.356). Cuvântul are natură dialogală (ibid. p.377), iar dialogul este definitoriu pentru gândirea umană (ibid. p.121).

Teoria lui Bahtin este post-structuralistă, apropiindu-se („avant la lettre”) de Derrida în considerarea rolului fundamental al textului nu doar ca un sistem semiotic. El extinde teoriile socio-culturale ale lui Vîgoţki (1978), după cum remarcă şi Wertsch (1991). Ea devine foarte actuală în contextul posibilităţilor actuale de colaborare, de dialog pe web. În plus, tehnicile de mineritul textelor pot sprijini construirea dialogală a cunoaşterii în comunităţile virtuale de practică pe web. Una din ideile de bază ale lui Bahtin, cu un potenţial deosebit pentru tema de faţă este apariţia fenomenelor de inter-animare şi polifonie în discuţiile chat (Trăuşan-Matu şi Rebedea, 2009).

Scopul temei

Obiectivul temei de faţă este dezvoltarea teoriei polifonice asupra discursului, proiectarea şi realizarea de instrumente informatice care să integreze rezultate din

Page 15: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~paradigma bazată pe cunoştinţe şi a lingvisticii computaţionale, cu noile abordări, specifice paradigmei socio-culturale, în special bazată pe teoria dialogistică a lui Bahtin.

Va fi investigată şi muzica polifonică, contrapunctul, pe care le considerăm un model pentru colaborare şi intertextualitate, deoarece ele sunt modalităţi apărute natural, în procesele componistice, validate de ascultători, de a dezvolta o temă în condiţiile unei comunităţi de voci (personalităţi).

Ca rezultate practice se vor implementa aplicaţii bazate pe modelul polifonic destinate detectării intertextualităţii, a influenţelor şi inter-animării între texte. Vor fi considerate atât aspectele statice (legăturile statice între diverse texte), cât şi corelaţii, ritmicităţi şi alte fenomene dinamice ale intertextualităţii.

Rezultatele scontate

Dezvoltarea unor teorii, modele, tehnici, arhitecturi şi aplicaţii informatice pentru analiza intertextualităţii, a legăturilor şi influenţelor între texte. Dezvoltarea de produse program experimentale utilizabile în activităţi de cercetare şi didactice şi pentru cercetări în domeniul lingvisticii computaţionale, al psihologiei, sociologiei şi antropologiei. Rezultatele acestei teme vor fi puse la dispoziţia comunităţii ştiinţifice din România şi din străinătate.

Valorificarea rezultatelor

Prin comunicări, publicaţii, conferinţe, organizarea unor sesiuni ştiinţifice, participarea la dezbateri naţionale şi internaţionale, participare la proiecte de cercetare-dezvoltare naţionale şi europene.

Dreptul de proprietate intelectuală, asupra metodelor şi tehnicilor originale, a programelor de calculator elaborate în cadrul acestui proiect, în afara unor altor menţiuni explicite, va reveni Institutului de Cercetări în Inteligenţă Artificială al Academiei Române.

Colaborări

În ţară: În cercetările efectuate vor fi antrenaţi şi studenţi, masteranzi şi doctoranzi de la

specializarea Calculatoare din cadrul Facultăţii de Automatică şi Calculatoare din UPB.

În străinătate Universitatea Lyon2, Lumiere, Franţa (Prof. Djamel Zighed, conf. Julien Velcin) Universitatea Goethe din Frankfurt, Germania, (Prof. Alex. Mehler) Universitatea Pierre Mendes France din grenoble, Franţa (prof. Philippe Dessus) Universitatea Ludwig Maximilian, Munchen (dr. Nicolae Nistor)

Page 16: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Bibliografie

Mihail Bahtin, Problemele poeticii lui Dostoievski. Ed. Univers, 1970Mikhail Bakhtin, The Dialogic Imagination: Four Essays, University of Texas Press,

1981Ducrot, O. (1984). Le dire et le dit. Paris. MinuitGrosz, B., Joshi, A. K., & Weinstein, S. (1995). Centering: A Framework for Modeling

the Local Coherence of Discourse. Computational Linguistics 2(21), pp. 203-225.Hobbs, J. R. (1993). Information, Intention, and Structure in Discourse, paper delivered

at the NATO Workshop on Burning Issues in Discourse, Maratea, Italy, April 1993.

Kristeva, Julia. Desire in Language: A Semiotic Approach to Literature and Art. New York: Columbia University Press, 1980

Mann, W.C., & Thompson, S.A. (1988). Rhetorical Structure Theory: Toward a functional theory of text organization. Text, 8 (3). 243-281.

Nolke, H., Flottum, K., & Noren, C. (2004). ScaPoLine. La théorie scandinave de la polyphonie linguistique. Paris. Kimé.

Sarmiento, J., Trausan-Matu, St., Stahl, G., Co-constructed Narratives in Online, Collaborative Mathematics Problem-Solving, in Proceedings of the Workshop on Narrative and Learning Environments, AIED Conference, Amsterdam, July 2005.

Ferdinand de Saussure, Lectures on General Linghuistics (1910-1911), Pergamon Press, 1993.

Gerry Stahl, Group Cognition: Computer Support for Building Collaborative Knowledge, MIT Press, 2006.

Ştefan Trăuşan-Matu (2010). The Polyphonic Model of Hybrid and Collaborative Learning. In: Wang, F.,L., Fong., J., Kwan, R.C., Handbook of Research on Hybrid Learning Models: Advanced Tools, Technologies, and Applications, Information Science Publishing, Hershey, New York, pp 466-486.

Ştefan Trăuşan-Matu, Interfaţarea evoluată om-calculator, Ed. MatrixRom, 2000Ştefan Trăuşan-Matu, Achizitia, gestiunea, partajarea si prelucrarea cunostintelor pe web,

elemente esentiale în societatea cunoasterii, in F.Filip (ed.), Strategii si solutii pentru societatea cunoasterii, 2002

Trausan-Matu, S., & Rebedea, T. (2009). Polyphonic Inter-Animation of Voices in VMT, in Stahl.G. (Ed.), Studying Virtual Math Teams (pp. 451 - 473). Boston, MA: Springer US. Vezi şi http://www.ischool.drexel.edu/faculty/gerry/vmt/book/24.pdf, descăcată în noiembrie 2009.

Vygotsky, L. (1978). Mind in society. Cambridge, MA: Harvard University Press.

Page 17: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

SUBPROGRAM NR. 3

„Schimbarea paradigmei educaţionale: perspective tehnologice şi socio-culturale în era digitală”(2012 – 2014)

Coordonator subprogram

Dr. ing. Cristina NICULESCU, CS II

Colectivul de cercetare

• Dr. ing. Cristina NICULESCU, CS II (coordonator)

Termen de realizare

15 decembrie 2014

Faze propuse pentru anul I (2012)

Faza I: Tendinţe şi provocări care afectează sistemele educaţionale viitoare însocietatea bazată pe cunoaştere

Faza a II-a: Modele ale sistemelor educaţionale

Faze propuse pentru anul II (2013)

Faza a III-a: Paradigma socio-culturală

Faza a IV-a: Sisteme de ỉnvăţământ colaborativ asistat de calculator

Stadiul actual al cunoştinţelor în domeniu

Modurile de învăţare s-au schimbat dramatic în ultimele două decenii – sursele noastre de informare, modalităţile noi de interacţiune cu informaţiile. Şcolile noastre – modalităţile de a învăţa pe alţii, cine instruieşte, unde se face instruirea, cine se instruieşte – s-au modificat semnificativ.

Aspectele fundamentale ale instituţiilor de învăţământ sunt aceleaşi de cca 200 de ani. Se cunoaşte faptul că este de actualitate învăţarea informală, datorită posibilităţilor de

Page 18: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~de colaborare oferite de site-uri de social networking, wiki-uri, blog-uri şi multe alte surse digitale interactive. Dar dincolo de aceste site-uri sunt reţele şi uneori organizaţii dedicate eficienţei şi durabilităţii lor [Davidson & Goldberg, 2009].

Instituţiile de învăţământ s-au schimbat mult mai lent decât modurile de inventive, învăţarea colaborativă, participativă oferite de internet şi o serie de tehnologii contemporane mobile.

Un termen cheie în gândire cu privire la aceste schimbari emergente este învăţarea participativă. Învăţarea participativă include multe modalităţi prin care elevii (de orice vârstă) utilizează noile tehnologii pentru a participa la comunităţile virtuale în cazul în care se fac schimburi de idei, observaţii cu privire la proiecte sau discută pur si simplu împreună practicile, obiectivele şi ideile lor.

Conceptul KWM (Knowledge Work Management) se referă la managementul şi proiectarea lucrului cu cunoştinţe, creând cadrul optim pentru lucrul cu cunoştinţele (Knowledge Work) la toate nivelurile: individual, de echipă şi organizaţional [Niculescu, 2008].

Web 2.0 este un concept ce reuneşte site-uri şi resurse care partajează caracteristici comune, fără implicarea unui set definit de instrumente [Bartolome, 2008]; abordări cum sunt Ajax, micro-formats, mash-ups sau API-uri deschise sunt cosiderate tehnologiile sale cheie. Web 2.0 susţine nevoia de participare prin reţeaua socială şi este adoptată de asemenea la instrumentele educaţionale [Redecker et al., 2009].

Elementul cheie al unui mediu de e-learning este furnizarea diferitelor modalităţi de interacţiune, comunicare şi colaborare între toţi participanţii la procesul educaţional şi de cercetare.

Termenul Web 2.0 a apărut şi a revoluţionat Internetul, facilitând partajarea informaţiilor interactive, interoperabilitatea şi colaborarea pe Word Wide Web [Redecker et al., 2009].

În consecinţă, au fost dezvoltate idei noi în domeniul educaţional, identificat sub numele “eLearning 2.0” [Redecker et al., 2009], care implică schimbarea aspectelor cheie în în tipul vechi de curicula încurajând noi abordări:

deoarece reţeaua Internet este utilizată ca platformă, conceptul de “a studia în orice loc, oricând” evoluează;

inteligenţa colectivă şi experienţele îmbunătăţite ale utilizatorului afectează conceptul de autoritate în sistemele educaţionale;

tag-urile şi RSS (Rich Site Summary) Reader ne permit reexaminarea taxonomiilor tradiţionale, organizaţiilor bazate pe cunoştinţe şi regăsirea de informaţii.

utilizatorul are posibilitatea alegerii între diverse dispozitive pentru munca lui (sau a ei).

E-learning 2.0 combină instrumente şi servicii complementare – cum sunt blog-urile, wiki-urile şi alte tipuri de software social – în scopul facilitării creării comunităţilor de învăţare ad-hoc [Olteanu, et al., 2011].

Page 19: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Conţinutul de învăţat este creat şi distribuit într-o modalitate foarte diferită. Acest

conţinut arată ca un blog. Studenţii pot să-l agregheze utilizând propriul RSS Reader sau alte aplicaţii similare [Bartolome, 2008].

Wiki-urile sunt utilizate în educaţie ca support pentru lucrul în cooperare în mediul academic. “Un wiki este esenţial pentru crearea unui unui site de web construit astfel încât să permită utilizatorilor schimbarea conţinutului pe site” [Graeme, 2006]. Un wiki este utilizat prin referirea la documentul creat, site-ul unde este localizat şi software-ul care îl produce.

E-educaţia modernă este orientată spre standardizarea vocabularului şi utilizarea ingineriei ontologiilor [Breuker et al., 1999], fie informal, simplu ca o modalitate de exprimare a conceptelor primare şi a relaţiilor dintre ele, sau formal, prin aplicarea limbajelor standard precum:

DAML+OIL (un limbaj succesor al DAML – DARPA Agent Markup Language şi OIL – Ontology Inference Layer, care combină caracteristicile amândoura),

OWL (Web Ontology Language) sau RDF (Resource Description Framework).

Pe lângă conceptualizarea domeniului studiat, ontologiile sunt utilizate în mod curent pentru îmbunătăţirea procesului de învăţare, ajutând la inter-relaţionarea lucrului individual cu contextul social, conform teoriei activităţii istorice-culturale descrise în [Allert et al., 2006]. Astfel, cunoştinţele sunt create colaborativ, utilizând una sau mai multe ontologii pentru ducerea la îndeplinire a unei sarcini.

Scopul temei

Abordarea propusă prin această temă, în consens cu strategia internaţională de cercetare în domeniu, are scopul de a crea un cadru metodologic de studiu al problemei dezvoltării sistemelor educaţionale în societatea bazată pe cunoaştere. De asemenea, tema îşi propune proiectarea unui sistem de e-learning care să corespundă cerinţelor actuale.

Rezultate scontate În contextul actual şi de perspectivă al societăţii bazate pe cunoaştere, se impune stringent existenţa unor sisteme educaţionale adecvate, care să răspundă exigenţelor cursanţilor, instructorilor dar şi organizaţiilor bazate pe cunoaştere. De aceea, studierea perspectivelor tehnologice şi socio-culturale în care evoluează sistemele educaţionale, precum şi a managementului lucrului cu cunoştinţele (Knowledge Work Management) reprezintă o necesitate pentru instructori şi instruiţi. Proiectarea unui sistem de e-learning care să corespundă cerinţelor actuale va completa lista rezultatelor scontate.

Valorificarea rezultatelor Rezultatele cercetării vor fi valorificate prin: lucrări ştiinţifice care vor fi publicate în reviste de specialitate, prezentări la manifestări ştiinţifice din ţară şi străinătate, stabilirea de colaborări cu cercetători români şi/sau din străinătate din acelaşi

domeniu de interes.

Page 20: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Rezultatele acestei teme vor fi puse la dispoziţia comunităţii ştiinţifice din România.

Dreptul de proprietate intelectuală, asupra metodelor şi tehnicilor originale, a modelelor şi programelor elaborate în cadrul acestui proiect, în afara unor altor menţiuni explicite, va reveni Institutului de Cercetări pentru Inteligenţă Artificială.

Colaborări

În ţară: Prof. Dr. Ing. Traian C. IONESCU – Universitatea "Politehnica" Bucureşti,

Facultatea de Automatică şi Calculatoare. Prof. Dr. Ing. Anca Daniela IONIŢĂ – Universitatea "Politehnica" Bucureşti,

Facultatea de Automatică şi Calculatoare. Prof. Dr. Constanţa Nicoleta BODEA – Academia de Studii Economice

Bibliografie

[Allert et al., 2006], H. Allert, H. Markkanen, C. Richter, “Rethinking the Use of Ontologies in Learning”, in E. Tomadaki and P. Scott (Eds.), Innovative Approaches for Learning and Knowledge Sharing, EC-TEL 2006 Workshops Proceedings, ISSN 1613-0073, p. 115-125, 2006.[Bartolome, 2008], A. Bartolome, Web 2.0 and New Learning Paradigms, 2008, (http://www.elearningeuropa.info/files/media/media15529.pdf)[Breuker et al., 1999], J. Breuker, A. Muntjewerff, B. Bredeweg, “Ontological Modelling for Designing Educational Systems”, Proceedings of the Workshop on Ontologies for Intelligent Educational Systems at AIED99, Le Mans, France, 1999.[Davidson & Goldberg, 2009], Cathy N. Davidson and David Theo Goldberg, The Future of Learning in a Digital Age, 2009, http://mitpress.mit.edu/books/ chapters/future_of_learning.pdf[Graeme, 2006], D. Graeme, “Wikis in Education”. in Wwwtools for Education, (August, 4, 2006).[Niculescu, 2008], Niculescu, C. (2008). Sisteme de management de cunoştinţe. Concepte, studii de caz, Editura Matrix Rom Bucureşti, ISBN 978-973-755-410-9, 396p.[Olteanu, et al., 2011], A. OLTEANU, A. D. IONIŢĂ, T. IONESCU, “LEVERAGING OPEN SOURCE E-LEARNING SYSTEMS WITH WEB 2.0 AND KNOWLEDGE STRUCTURES”, in U.P.B. Sci. Bull., Series C, Vol. 73, Iss. 2, 2011 ISSN 1454-234x.[Redecker et al., 2009], C. Redecker, K. Ala-Mutka, M. Bacigalupo, A. Ferrari, Yv. Punie, Learning 2.0: The Impact of Web 2.0 Innovations on Education and Training in Europe, JRC55629, European Commission, 2009.

Page 21: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

SUBPROGRAM NR. 4

„Cercetări privind managementul integrat al infrastructurilor de date (geo)spaţiale” (2009 – 2013)

Pentru anul 2013 cercetările colectivului de managementul informaţiilor geospaţiale se vor orienta spre cercetarea conceptului de societate activată spatial şi managementul integrat al infrastructurilor de date (geo)spaţiale şi a instrumentelor specifice asociate conceptului de societate activată spatial.

Coordonator subprogram

Dr. Mat. Angela IONIŢĂ, CS I,

Colectivul de cercetare

• CS I, Dr. Mat. Angela Ioniţă (coordonator)• CS III. Dr. Ing. Radu Gogu (1/2 normă) • CS III Ing. Ex. Marius Enache (1/2 normă) • Cerc. Alina Muntean u (1/2 normă)

• Termen de realizare

20 decembrie 2013

Faze realizate ỉn anul 2009

Faza I: Studiu privind probleme ale implementării de geoportale tematiceFaza a II-a: Raport de cercetare privind tehnici de implementare şi aplicaţii pentru

geoportale tematice

Faze realizate ỉn anul 2010

Faza a III-a: Studiu privind noi modele semantice aplicabile ỉn ingineria informaţiilor (geo)spaţiale

Faza a IV-a: Aplicaţii ale noilor modele semantice ỉn ingineria informaţiilor (geo)spaţiale

Faze realizate ỉn anul 2011

Faza a V-a: Infrastucturi de date geospaţiale bazate pe ontologii ỉn geoştiinţe Faza a VI-a: Aplicaţii dezvoltate prin implementarea strategiilor de manage

Page 22: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ment integrat al infrastructurilor de date geospaţiale

Faze propuse pentru anul 2012

Faza a VII-a: Metode pentru descoperirea şi vizualizarea de evenimente relevante din sursele eterogene de date existente şi baze de date geospaţiale

Faza a VIII-a: Instrumente specifice pentru descoperirea şi vizualizarea de evenimente relevante din sursele eterogene de date existente şi baze de date geospaţiale

Faze propuse pentru anul 2013

Faza a VII-a: Conceptul de societate activată spatial şi managementul integrat al infrastructurilor de date (geo)spaţiale

Faza a VIII-a: Instrumente specifice asociate conceptului de societate activată spatial

Stadiul actual al cunoştinţelor în domeniu

Informaţiile geospaţiale joacă un rol critic atât în domeniu militar cât şi în cel civil. Serviciile web geospaţiale promit să facă aceaste informaţii din ce în ce mai accesibile cu toate că sarcina de a căuta şi de găsi informaţiile geospaţiale este din ce în ce mai dificilă. Web-ul semnatic promite şi el să faciliteze acest proces prin îmbunătăţirea capabilităţilor de a căuta informaţii printr-o exprimare din ce în ce mai bună a contextului şi înţelesului interogării. Înlănţuirea celor două abordări pentru a crea web-ul semantic geospatial (Geospatial Semantic Web) este o idée care este promiţătoare deoarece căştigă teren atât în Geospatial Information Science cât şi în Semantic Web Services.

Furnizorii de informaţii geospaţiale, inclusiv aenţiile guvernamentale şi sursele comerciale, utilizează geoportale pentru a publica descrieri (geospatial metadata) ale informaţiilor lor geospaţiale. Consumatorii de informaţii geospaţiale, profesionişti sau sporadici, utilizează geoportale pentru a căuta şi accesa informaţiile care le sunt necesare. Astfel de geoportale au un rol din ce în ce mai important în ceea ce priveşte partajarea de informaţii geospaţiale şi în ceea ce priveşte evitarea duplicării eforturilor, inconsistenţelor, întârzierilor, confuziei şi irosirii resurselor. Un geoportal este un tip de portal web utilizat pentru a găsi şi accesa informaţii geospaţiale şi servicii geografice asociate (afişare, editare, analiză, etc.) prin intermediul Internet-ului. Geoprtalele sunt importante pentru utilizarea efectivă a sistemelor de informatie geografică (geographic information systems = GIS) şi un element cheie în infrastructurile de date spaţiale (Spatial Data Infrastructure = SDI).

United States National Spatial Data Infrastructure (NSDI), lansat în 1994 (http://en. wikipedia.org/wiki/OMB_Circular_A-16), este considerat primul concept de geoportal. U.S. Federal Geospatial Data Committee (FGDC) coordonează dezvoltarea

Page 23: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~NSDI Clearinghouse Network, primul geoportal mare care conţine numeroase cataloage distribuite ce pot fi căutate prin intermediul unei interfeţe client.

Lansat în 2003, geoportalul Geospatial One-Stop (GOS) (http://en.wikipedia. org/wiki/ Geospatial_One-Stop) a fost dezvoltat ca parte a iniţiativei de e-government din Statele Unite. GOS a fost construit în jurul unei baze de date de tip catalog de metadate centralizat cu o arhitectură care leagă utilizatorii la furnizorii de date printr-un geoportal bazat pe web. Utilizatorul de GOS poate să anagjeze un simplu browser web (thin client) sau poate interfaţa direct cu un GIS (thick client).

În ultimii ani ne confruntăm cu proliferarea de geoportale pentru partajarea informaţiilor geospaţiale care se bazează pe regiune sau temă. Exemplele include geoportalul Infrastructure for Spatial Information in the European Community (INSPIRE), geoportalul NatCarb (http://en. wikipedia.org/wiki/NatCarb) care furnizează informaţii geospaţiale în ceea ce priveste carbon sequestration în Statele Unite şi UNSDI (United Nations Spatial Data Infrastructure) (http://en.wikipedia. org/wiki/UNSDI).

Problema semanticii în cadrul informaţiei geospaţialeSemantica datelor este o problemă bine cunoscută în comunitatea specialiştilor în

informaţii geospaţiale. De obicei, sunt capturate doar informaţii limitate semantic pentru a descrie fenomene din lumea eală. Înţelesul complet şi semnificaţia fenomenului care trebuie reprezentat se pierd în timpul capturării datelor sau sunt reprezentate sub forma metadatelor. Astfel, se întâmplă ca utilizatorul să adauge în mod conştient această informaţie în cursul exploatării acestor date într-o aplicaţie sau, aplicaţiile, ele însele, adaugă bogăţie semantică prin codificare. Lipsa semanticii suficiente în modelele de date poate să conducă la probleme printre care:• serviciile web nu pot căuta şi accesa în mod dinamic surse de date publice;• datele pot fi folositepentru a rezolva problema pentru care au fost pregătite iniţial;• înţelesul datelor poate să nu fie interpretat corect în timpul utilizării lor într-o

aplicaţie;• “eterogenitatea semantică” între bazele de date (adică diferenţe în înţeles şi

semnificaţie) inhibă partajarea datelor.

Din cauza faptului că nu s-a acordat atenţie suficientă semanticii, eforturile de dezvoltare de date conduc adesea la date care sunt mai sărace în informaţie decât este necesar, ceea ce limitează sever abilităţile utilizatorilor de date în a aplica efectiv acele date, în domenii multidisciplinare, în vederea luării deciziei, aşa cum se propune în INSPIRE (www.inspire.org).

O consecinţă importantă a lipsei de semantică constă în faptulcă este extrem de dificil să se reutilizeze datele între agenţii ale diverselor state sau chiar între statele din Uniunea Europeană.Semantica asociată serviciilor este o problemă relativ nouă, mai puţin familiară majorităţii utilizatorilor de software de geoprocesare. Serviciile web au câştigat popularitate între arhitecţii şi dezvoltatorii de sisteme informatice. Serviciile web sunt cheia realizării viziunii complete a Infrastructurilor de Date Spaţiale. Open Geospatial Consortium (OGC) a dezvoltat OGC Web services care pun geoprocesarea într-o paradigmă nouă de calcul distribuit (Ionita, 2006).

Page 24: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~La WWW7 (Brisbane, 1997), Tim Berners-Lee a prezentat viziunea sa asupra unui

global reasoning web. La WWW8 (Toronto, 1998) el şi-a articulat viziunea asupra web-ului semantic în care informaţia are un înţeles dat, bine definit, permiţând calculatoarelor şi specialiştilor să lucreze bine împreună. Iniţiativa Semantic Web de la W3C a generat tehnologie şi instrumente care se estimează că vor umple golul dintre soluţiile curente standard şi cerinţa de servicii semantice avansate.

Web-ul semantic necesită utilizarea de limbaje care exprimă informaţii într-o formă citibilă de către maşină astfel încât software-ul să furnizeze informaţii relevante sau servicii, cu intervenţie umană minimă.

În cadrul acestui subprogram, abordarea se bazează pe Geospatial Semantic Web, un set specializat al web-ului semantic. Geospatial Semantic Web se bazează pe arhitectura propusă de INSPIRE care, în general, descrie un sistem pentru:• schimb de mesaje;• descriere de servicii web;• descriere de servicii web pentru publicare şi descoperire.

Arhitectura serviciului web defineşte interacţiunile între agenţii software ca un schimb de mesaje între cei care cer serviciul şi cei care furnizează serviciul. Cei care cer serviciul sunt agenţi software care cer executarea unui serviciu. Cei care furnizează un serviciu sunt agenţi software care furnizează servicii. Agenţii pot fi de ambele forme.

Cei care furnizează servicii sunt responsabili pentru publicarea unei descrieri a serviciului/serviciilor pe care îl/le furnizează. Cei care cer servicii trebuie să fie capabili să găsească descrierea/descrierile serviciului/serviciilor.

În cadrul acestu subprogram se propune extinderea arhitecturii INSPIRE cu ontologii şi servicii semantice de bază.

Caracteristicile Geospatial Semantic WebArhitectura serviciilor web presupune că, clienţii înţeleg semantica serviciului

publicat în termenii parametrilor de intrare şi ieşire. În contrast, web-ul semantic permite clienţilor să descopere şi să se lege la servicii în mod dinamic fără cunoştinţe de specialitate anterior dobândite, asupra sintaxei şi semanticii lor. Serviciile web-ului semantic sunt servicii web identificate cu o descriere formală (semantică) care poate să permită descoperirea, selecţia, compoziţia, monitorizare şi interoperabilitatea. În acest caz, clienţii pot să caute servicii care nu se baezaeză pe numele sau sintaxa lor, ci se bazează pe servicii care trebuie să fie executate de către client. Serviciile web-ului semantic se bazează pe cei care cer serviciul care sunt capabili să înţeleagă descrierea furnizorilor de servicii. Odată ce au fost găsite serviciile web, sunt necesare mecanisme care să faciliteze combinarea şi secvenţierea acestor servicii. Atunci când sunt puse împreună sau sunt “ înlănţuite”, interfeţele lor trebuie să interopereze. Trebuie însă să se rezolve eterogenitatea structurală şi semantică.

Eterogenitatea structurală exisă acolo unde serviciile web folosesc diferite structuri de date şi ierarhii de clase pentru a defini parametrii interfeţelor lor. Eterogenitatea semantică există acolo unde diferiţi dezvoltatori de servicii folosesc termeni diferiţi în etichetare când sunt acceaşi parametri de interfaţare. Datele care sunt interschimbate de serviciile webtrebuie să aibă acelaşi înţeles laambele feţe ale interfeţei.

Page 25: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Ideea generală constă în faptul că serviciile web-ului semantic trebuie să fie conştiente

de conţinutul lor, să înţeleagă interesele utilizatorilor săi şi să utilizeze cât mai bine cu putinţă toate informaţiile codificate.

Standardele semantice deschise trebuie încurajate în cadrul comunităţii pentru a permite crearea de servicii pentru cunoaştere, captare, memorare, înlănţuire şi distribuţie. Astfel de standarde vor permite utilitarelor de tip client, prietenoase, să comunice cu aceste servicii şi să furnizeze funcţii inteligente de selecţie, compoziţie, reprezentare şi procesare. Asocierea înţelesului cu conţinutul, stabilind un strat de date inteligibile de către maşină despre conţinut, face posibile servicii interoperabile şi permite un grad înalt de automatizare şi aplicaţii din ce în ce mai inteligente.

Scopul final al web-ului semnatic este cela de a permite maşinilor să partajeze şi să exploateze date prin utilizarea de ontologii.

Ontologia, în contextul web-ului semnatic, este teoria obiectelor şi a legăturilor dintre ele. Desfăşurarea ontologiei furnizează criterii pentru a distinge tipuri de obiecte variate (concrete şi abstracte, existente şi inexistente, reale şi ideale, independente şi dependente) şi legăturile lor (relaţii, dependenţe şi aplicţii).

Ontologia geospaţială este teoria obiectelor geopaţiale şi a legăturilor lor. Modelele ontologice au următoarele avantaje:• definesc consensuri în cadrul unei comunităţi informaţionale asupra interpretării

termenilor;• furnizeza o fundamentare riguroasă pentru conversii sau translaţii de termeni;• furnizează termeni bine definiţi cum ar fi echivalent, invers, trnzitiv, simetric,

proprietate unică, cardinalitate, tipuri de date.Comunitatea web-ului semantic trebuie să se ocupe de următoarele aspecte:

• automatic web services publishing: odată ce o resursă nouă (serviciu sau dată) este făcută disponibilă, o componentă software inteligentă poate să culeagă descrierea semantică a resursei şi să o înregistreze corepunzător. Descrierea semantică a serviciului web poate să includă o descriere finală a ceea ce cere serviciul de la utilizator sau de la alte componente softare, ce tip de sarcini execută serviciul, cum lucrează serviciul în termeni de pre- şi post condiţii şi efecte secundare şi cum se utilizaeză serviciul în termeni de legături.

• automatic web services discovery: un utilizator doreşte să îndeplinească o sarcină care poate să necesite execuţia unuia sau mai multor servicii. Aşa cum s-a propus în mai multe publicaţii despre web-ul semantic, un serviciu de “potrivire” (matching) va îndeplini această sarcină1 .

• automatic web services composition: sarcinile complexe necesită de obicei executarea a mai mult de un serviciu. Geospatial Semantic Web trebuie să fie capabil să analizeze inteligent cererile de execuţie de sarcini şi să compună secvenţa potrivită de cereri de sarcini.

• automatic web services interoperation invocation: odată ce serviciile au fost modificate, trebuie rezolvată eterogenitatea sintactică şi semantică.

• automatic web services execution and monitoring: Geospatial Semantic Web trebuie să fie capabil să furnizeze interfeţe pentru a monitoriza performanţa serviciului.Vor trebui furnizate metrici de calitate a serviciilor. Un beneficiu al QoS (quality of

1 Trastour, D., Bartolini, C., Gonzales-Castillo, J., “A Semantic Web approach to Service Description for Matchmaking of Services”, HP Labs, Filton Road, Bristol, UK

Page 26: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~service) constă în faptul că se permite aplicaţiilor client să selecteze servicii bazate pe calitatea lor şi astfel să ajute compunerea de seturi corecte de servicii.

Situaţia tehnologiilorGML va juca un rol important în dezvoltarea Geospatial Semantic Web dar nu va fi o

soluţie completă pentru cerinţele web-ului semantic. GML poate reprezenta doar proprietăţi semantice ale obiectelor geografice prin structurile lor sintactice şi schematice. Cererile de servicii OGC care returnează GML trebuie să fie conştiente de aceste structuri prin intermediul schemei ce este definită printr-o schemă de aplicare GML. Cu toate că în contextul de aplicare se poate deriva un tip oarecare de semantică din structura schemei, semantica fiecărui tip element nu este definită şi interpretarea sa se leagă de cunoaştinţe implicite codificate în programe de aplicţie. Pentru a dezvolta un web semantic cu semantică, este necesar ca resursele de web să fie adnotate cu descrieri structurate inteligibile de către maşină, ale conţinutului şi relaţiilor, folosind vocabulare şi construcţii care au fost explicit şi formal definite cu ontologii (de) domeniu. Punctul de vedere al universului înglobat de către ontologie este o descriere ierarhică a unui set de concepte (ierarhia is-a), un set de proprietăţi şi relaţiile dintre ele precum şi un set de reguli de interfaţare.

În plus, faţă de straturile serviciului OGC (interfeţe definite în cadrul OGC Specifications) şi stratul modelului informaţional (schemele de aplicaţie GML), arhitectura Geospatial Semantic Web trebuie să aibă şi următoarele trei straturi:

1. stratul de metadate: modelul de date de la acest strat conţine conceptele de resursă şi proproetăţile. RDF a fost dezvoltată de către W3C pentru a fi modelul de date pentru stratul de metadate.

2. stratul schema: limbajele de ontologii web sunt introduse la acest strat pentru a defini o descriere ierarhică a conceptelor (ierarhia is-a) şi proprietăţile. RDFS dezvoltată de W3C este candidate schema layer language.

3. stratul logic: pe acest strat sunt introduse limbaje mai puternice de ontologii. Aceste limbaje furnizează un set bogat de primitive de modelare care pot fi mapate în principal la logica predicatelor de ordinul întâi. Web Ontology Language (OWL), dezvoltat de W3C este, în acest sens, cel mai promiţător limbaj.

În ceea ce priveşte serviciile web, OGC a definit Web Registry Service (WRS) pentru a descrie un standard pentru o înregistrare online de servicii şi surse de date şi pentru publicare şi descoperire dinamică a serviciilor OGC oferite de furnizorii de servicii. OGC a definit un Web Service Description Language care este o derivată a serviciilor web înregistrate cu o bază de date UDDI şi în cazul OGC sunt descrise serviciile web înregistrate cu WRS.

Web-ul semantic va utiliza ontologii pentru a descrie resurse web diverse iar cunoştinţele de pe web vor fi reprezentate într-un mod structurat, logic şi semantic. Acesta va schimba modul de navigare al componentelor software (agenţi), de recoltare şi utilizare a informaţiilor pe web. Pe de o parte, serviciul web este un web al bazelor de cunoştinţe distribuite, unde agenţii pot să citească şi să raţioneze asupra cunoştinţelor publicate cu ghidarea ontologiilor. Pe de altă parte, serviciul web este o colecţie de servicii web descrise prin ontologii. OASIS şi Naţiunile Unite au dezvoltat ebXML (electronic business care foloseşte XML: http://www.ebxml.org) pentru a descrie

Page 27: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~interacţiunile de business din perspectiva fluxului de activităţi. DAML Service Coalition a propus DARPA Agent Markup Language Service (DAML-S, DAML-S standards). DAML-S facilitează potrivirea dinamică între agenţi eterogeni: agenţii furnizori de serviciu pot să le promoveze capabilităţile către agenţii mijlocaşi; agenţii mijlocaşi memorează aceste promovări; un agent care cere acest serviciu poate întrebe un agent mijlocaş dacă ştie sau nu alţi agenţi furnizori cu capabilităţile dorite; agenţii mijlocaşi potrivesc cererea în corelaţie strânsă cu promovările memorate şi întorc rezultatul, un subset al promovărilor memorate (Sycara et al., 2002). După cum se poate vedea, există tehnologii pentru realizarea web-ului semantic dar trebuie să fie cunoscut modul în care se construieşte terminologia şi înţelegerea standardelor de domeniu pentru fiecare dintre straturi.

Rolul organismelor administrative europene şi al OGCEEste recunoscut faptul că, în comunitatea web-ului semantic, ontologiile vor juca un

rol esenţial în dezvoltarea web-ului semantic (Barros et al., 1998). Multe eforturi au fost depuse în cercetarea diferitelor aspecte ale ontologiilor, incluzând limbajele de reprezentare de ontologii (Corcho and Gomez-Perez, 2000), dezvoltarea de ontologii (Jones et al., 1998), abordări de leraning ontology (Maedche et al., 2001) şi sisteme de biblioteci de ontologii (Ding et al., 2001), care administrează, adaptează şi standardizează ontologiile.

StandardizareOGC şi ISO în cooperare cu OGCE şi alte organisme dministrative europene trebuie

să conducă eforturile de standardizare către construirea ontologiilor de domeniu pentru date şi servicii. Se crede că un set de bazaă de concepte ontologice bazate pe seriile ISO 19100, trebuie să se dezvolte şi să se standardizeze de către ISO şi OGC. Acest aspect este cunoscut sub numele de Geospatial Backbone Ontology. Această ontologie va fi baza mai multor ontologii de domeniu speciliazate. OGC trebuie să fie înrolat într-o activitate formală şi să lucreze împreună cu ISO pentru a construi Backbone Ontology şi pentru a proiecta un cadru de lucru pentru comunităţi de partajare de date pentru a construi stratul de ontologii (cum ar fi de exeplu, transporturi şi amenajarea teritoriului).

A fost propus un număr de limbaje pentru reprezentarea de ontologii (Corcho and Gomez-Perez, 2000) şi au fost construite diverse sisteme de biblioteci de ontologii (Ding and Fensel, 2001). Chestiunea este ce ar putea fi standardizat în ontologiile pentru aplicaţii geospaţiale.

Nu există intenţia de a sprijini o singură ontologie care să fie acceptată de toate părţile implicate ci de a sprijini ontologii multiple suprapuse cu mapare între ele. OGC, de exemplu, este implicat în inţiativa Geospatial One Stop, care construieşte ontologii de domeniu pentru teme legate de transport. Eforturi similare au fost depuse în Europa în cooperare cu OGC precum şi cu alte coaliţii de furnizori de date şi organizaţii, incluzând Deutchen Dachverbandes fur Geoinformation (DDGI: http://www.ddgi.de/), Digital Geographic Information Working Group (DGIWG: http://metadat. dgiwg.org) şi agenţiile naţionale de cartografie.

Adoptare

Page 28: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Pe măsură ce ontologiile evoluează odată cu trecerea timpului, extinderea şi

actualizarea ontologiilor existente devine un subiect din ce în ce mai important. Din punct de vedere tehnic, acesta include ontologii de cătare, editare şi raţionament într-un sistem de biblioteci de ontologii.

Din punct de vedere organizaţional, agenţiile europene de cartografie şi comunităţile informaţionale joacă un rol vital în promovarea, utilizarea şi adaptarea de ontologii la toate nivelurile în Europa.

ManagementScopul principal al ontologiilor este acela de a permite partajarea şi reutilizarea

cunoştinţelor, deci un sistem tipic de biblioteci de ontologii sprijină memorarea deschisă şi organizarea, identificare şi versiuni multiple. Memorarea deschisă şi organizarea se ocupă de modul în care sunt memorate ontologiile şi de modul în care sunt organizate într-un sistem de biblioteci pentru a facilita accesul şi managementul. Identificarea asociază fiecărei ontologii un identificator unic. Versiunile multiple sunt o facilitate importantă întrucât ontologiile evoluează în timp şi un mecanism pentru versiuni multiple poate să asigure consistenţa diferitelor versiuni ale ontologiilor. Imaginea mentală este a unei ontologii geospaţiale europeane care se întinde la nivelul local, regional, naţional, european la nivel global. Aceste ontologii vor fi înlănţuite, reducând redunadanţele şi suprapunerile. Organizaţiile europene de cartografie de la nivel naţional şi alte organisme administrative europene vor juca un rol important în managementul acestor ontologii vaste.

Construcţia ontologiilor spaţiale pentru EuropaPrimul pas către Geospatial Semantic Web pentru Europa este acela de a formula

fundamentele construcţiei pentru diferite domenii geospaţiale şi a pune bazele finale pentru sursele de date existente. În (Kuhn and Raubal, 2003) s-a propus construcţia unei ontologii de referinţă pentru domenii geospaţiale. Este foarte dificil să se construiască sau să se standardizeze o singură ontologie pentru un domeniu care are aspecte culturale întreţesute, aşa cum se întâmplă în Uniunea Europeană. Ontologiile variază potrivit regiunilor cărora le datorează diferenţele culturale. După cum se arată în cercercetările desfăşurate în cadrul oraşelor digitale, aspectele interculturale devin omniprezente în spaţiul informaţional. Pe de altă parte, pentru utilizatori este de dorit să se obţină şi să se publice informaţiile bazate pe propriile ontoloii. Prin urmare, se favorizează translaţia de ontoloie ca un mecanism pentru a face faţa problemei semantice provenite de la diferenţele culturale. Se face totuşi diferenţa între aceste abordări şi abordarea construcţiei modelelor ontoloice unificate care sunt acceptabile în cadrul multiplelor culturi europene. OCE va lucra pe aceste zone cu Uniunea Europeană.

Continuarea cooperării între OGCE şi diferite organisme administrative europene va ajuta dezvoltarea ulterioară a Geospatial Semantic Web Services.

Scopul temei

În domeniile care fac parte din ceea ce se numeşte geoştiinţe (http://www. yourdictionary.com/geoscience) au fost construite reţele de baze de date şi instrumente care facilitează calculele şi stimulează noi cercetări. Aceste eforturi continuă să

Page 29: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~contribuie la scoaaterea în evidenţă a ciberinfrastructurii care are potenţialul de a deveni o paradigmă operaţională nouă pentru geoştiinţe. Sunt cunoscute eforturile în ceea ce priveşte adoptarea tehnologiilor adecvate construirii ciberinfrastructurii care să pună în evidenţă cunoştinţele şi practicile.

Scopul acestei teme este de a:• examina natura cunoştinţelor şi practicilor geoştiinţifice;• identifica o serie de provocări legate de reprezentarea şi utilizarea cunoştinţelor din

geoştiinţe în reţelele computaţionale;• identifica unele caracteristici relevante ale diferitelor structuri de date geospaţiale

existente în vederea dezvoltării de aplicaţii noi care utilizează aceste structuri;• elabora tehnici şi metode de implementare pentru geoserviciile web plecând de la

structurile de date analizate;• elabora scenarii de exploatare unitară a datelor în vederea derivării unor informaţii

complete pentru un anumit domeniu/site;• elabora metodelor pentru extragerea şabloanelor, descrieri de date de volum mare şi

construirea de modele predictive;• elabora şi investiga noi metode de distilare a şabloaneleor;• dezvolta şi investiga noi metode de căutare şi analiză a dependenţelor neliniare

complexe;• dezvolta şi investiga metode pentru expunerea geoportalurilor ca aplicaţii de tip end-

user şi pentru utilizarea geoportalurilor ca aplicaţii de tip middleware;• elabora metode de discriminare a structurilor geospaţiale locale în funcţie de

informaţiile de atributare a datelor geospaţiale;• elabora instrumente pentru procesarea structurilor geoinformaţionale;• elabora modele de calcul adecvate pentru implementarea geoportalurilor.

Prima mare provocare căreia va trebui să-i răspundă cercetările care se vor desfăşura în cadrul acestei teme constă în reprezentarea cunoştinţelor geoştiinţifice prin intermediul dezvoltării de ontologii.

Cea de adoua provocare se referă la îmbogăţirea instrumentelor existente sau crearea de instrumente noi care să proceseze cunoştinţele din reţele de baze de date care există deja în conexiune cu geoştiinţele.

În acest context, se propune parcurgerea următorilor paşi către web-ul semantic :1. Construirea unui model de referinţă al conceptelor geospaţiale de bază. OWL

dezvoltat de W3C este o tehnoloie care poate fi folosită în acest scop.2. Proiectarea unui cadru pentru a ghida dezvoltarea ontologiilor de domeniu şi

pentru a le asocia la sursele de date. OWL poate să fie folosit în acest scop.3. Construirea de ontologii pentru Geospatial Semantic Web şi proiectarea unui

cadru pentru a putea extinde aceste ontologii cu domenii definite de către utilizator.

4. Proiectarea de interfeţe pentru a exploata surse de date bogate semantic şi servicii dezvoltate în cei trei paşi menţionaţi până acum. Aceasta include publicarea, descoperirea, potrivirea şi înlănţuirea.

Page 30: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~5. Proiectarea şi identificarea de metrici pentru determinarea calităţii serviciului de

Geospatial Semantic Web Services şi proiectarea ulterioară a interfeţelor pentru implementare.

Rezultate scontate

Principalele rezultate scontate prin acest subprogram sunt:• identificarea unor caracteristici relevante ale diferitelor structuri de date geospaţiale existente în vederea dezvoltării de aplicaţii noi care utilizează aceste structuri;• tehnici şi metode de implementare pentru geoserviciile web plecând de la structurile de date analizate;• scenarii de exploatare unitară a datelor în vederea derivării unor informaţii complete pentru un anumit domeniu/site;• metode noi pentru extragerea şabloanelor, descrieri de date de volum mare şi construirea de modele predictive;• metode noi de distilare a şabloaneleor;• metode noi de căutare şi analiză a dependenţelor neliniare complexe;• metode noi pentru expunerea geoportalurilor ca aplicaţii de tip end-user şi pentru utilizarea geoportalurilor ca aplicaţii de tip middleware;• metode de discriminare a structurilor geospaţiale locale în funcţie de informaţiile de atributare a datelor geospaţiale;• instrumente pentru procesarea structurilor geoinformaţionale;• modele de calcul adecvate pentru implementarea geoportalurilor.

Valorificarea rezultatelor

Rezultatele cercetării vor fi valorificate prin publicarea în reviste de specialitate, prezentare la congrese internaţionale şi colaborări naţionale şi internaţionale cu parteneri interesaţi. De asemenea, rezultatele acestei teme vor constitui baza pe care se vor propune noi proiecte extrabugetare, internaţionale sau naţionale.

Rezultatele acestei teme vor fi puse la dispoziţia comunităţii ştiinţifice din România şi din străinătate. Aplicaţiile pilot vor fi puse la dispoziţia tuturor celor interesaţi pentru a putea fi dezvoltate în continuare.

Dreptul de proprietate intelectuală, asupra metodelor şi tehnicilor originale, a programelor de calculator elaborate în cadrul acestui proiect, în afara unor altor menţiuni explicite, va reveni Institutului de Cercetări în Inteligenţă Artificială al Academiei Române.

Colaborări

În ţară colaborarea va fi deschisă:• instituţiilor publice cum ar fi: Agenţia Spaţiale Române, Universitatea Tehnică de

Construcţii Bucureşti, Administraţia Naţională de Meteorologie, Universitatea din Piteşti ş.a.

Page 31: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~• instituţiilor din sectorul privat: Intergraph Computer Services s.r.l., GeoHidroConsult

ş.a.

În străinătate colaborarea va fi deschisă• institutelor de învăţământ superior cum ar fi: Universitatea La Sapienza din Roma,

Universitatea Tehnică din Barcelona, KU Leuven ş.a.• institutelor de cercetare: IniGraphics din Germania, ETZH din Elveţia • asociaţiilor profesionale: AGILE, GISIG, CODATA ş.

BibliografieBarros, F., Gocalves, P. And santos, T. 1998, „Providing Context to Web searches: the

use of ontologies to enhance serach engine’s accuracy”, Journal of the Brasilian Computer Society, 5(2) 45-55

Corcho, O., A. Gomez-Perez, A. Leger, C. Rey, F. Toumani, 2003, „An ontology-based mediation architecture for e-commerce applications”, Proceedings of Intelligent Information Systems http://delicias.dia.fi.upm.es/miembros/OscarCorcho/./documents/iis03_Mkbeem.pdf

ISO/CD 19119 (ISO TC 211 N 1044, 2001-01-29) Geographic Information – Services, see http://www.statkart.no/isotc211/scope.htm#19119.

ISO/CD 19115 (ISO TC 211 N 1024, 2001-01-30) Geographic information – Metadata, see http://www.statkart.no/isotc211/scope.htm#19115 .

Kuhn, W. & Raubal, M. (2003). Implementing Semantic Reference Systems. , In M. Gould, R. Laurini, & S. Coulondre (Eds.) AGILE 2003 - 6th AGILE Conference on Geographic Information Science, Lyon, France, pp. 63-72.

Sycara, K., S. Widoff, M. Klusch & J. Lu, 2002, LARKS: Dynamic Matchmaking Among Heterogeneous Software Agents in Cyberspace, First International Joint Conference on Autonomous Agents and Multi-Agent Systems: 173-203.

D. M. Jones, T. J. M. Bench-Capon and P. R. S. Visser, 2001, Methodologies for Ontology Maedche, A., Staab, S.: Ontology learning for the semantic web. IEEE Intelligent Systems 16 (2001) 72--79

Development. Proceedings IT&KNOWs, Budapest, 1998. Report of the Defense Science Board on National Imagery and Mapping Agency, April

2000,URL: http://www.house.gov/hasc/testimony/106thcongress/00-03-01gansler.htmSensor Modeling Language (SensorML). http://vast.uah.edu/SensorML/index.html.

Statement of the Under Secretary of Defense for Acquisition, Technology and Logistics înainte de House Armed Services Committee, Military Research and Development Subcommittee.

Stein, Observations on the Emergence of Network Centric Warfare, http://www.dod ccrp.org/steinncw.htm

Tri-Services CADD/GIS Technology Center, 1995. Tri-Services Spatial Data Standards,Vicksburg Uniform Resource Identifiers (URI): Generic Syntax (RFC 2396) T. Berners-

Lee, R.Fielding, L. Masinter, available at http://www.ietf.org/rfc/rfc2396.txtXML Linking Language (XLink) Version 1.0, DeRose, S., Maler, E., Orchard, D.,

available at http://www.w3.org/TR/xlink/

Page 32: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~XML Pointer Language (XPointer) Version 1.0, DeRose, S., Maler, E., Daniel Jr., R.,

available at http://www.w3.org/TR/xptr* * Topic 5 of the Abstract Specification (OGC, 1997. OGC Technical Committee

Policies and Procedures, Wayland, Massachusetts)* * * “A Request for Technology in Support of an Open Location Services Testbed”,

2001* * * “A Request for Technology în Support of an OGC Web Services Initiative”, 2001Robert J. Hall, Andrea Zisman, „Behavioral Models as Service descriptions”,http://icsoc.dit.unitn.it/abstracts/A125.pdf Sunita Sarawagi, Sree Hari Nagaralu, „Data Mining models as services on internet”,

http://www.it.iitb.ac.in/~sunita/papers/sigkdd.pdfShonali Krishnaswamy, Arkady Zaslavsky, Seng Wai Loke, TOWARDS DATA

MINING SERVICES ON THE INTERNET WITH A MULTIPLE SERVICE PROVIDER MODEL: AN XML BASED APPROACH”, http://www.csulb.edu/web/journals/jecr/issues/20013/pa per2.pdf, Journal of Electronic Commerce Research, VOL. 2, NO. 3, 2001

Krishnaswamy, S., Zaslasvky, A., and Loke, S, W., (2003), Internet Delivery of Distributed Data Mining Services: Architectures, Issues and Prospects, Chapter 7 în the book Architectural Issues of Web-enabled Electronic Business, Murthy, V.K. and Shi, N. (eds.), 2003, pp. 113 - 127, Idea Group Publishing.

Krishnaswamy, S., (2003), Delivering Data Mining E-Services, Accepted for publication at the International Workshop on Intelligence, Soft Computing and the Web (ISCW'03), held in conjunction with the Third International Conference on Intelligent Systems Design and Applications (ISDA'03). Held în Tulsa, Oklahoma, August 2003. Springer-Verlag. Lecture Notes în Computer Science (LNCS).

Krishnaswamy, S., Loke, S, W., and Zaslavsky, A., (2002), Towards Anytime Anywhere Data Mining E-Services, Proceedings of the Australian Data Mining Workshop (ADM'02) at the 15th Australian Joint Conference on Artificial Intelligence, (eds) S.J. Simoff, G.J. Williams, and M. Hegland. Canberra, Australia, December 2002, pp. 47 - 56, Published by the University of Technology Sydney, ISBN 0-9750075-0-5.

Cox, S.J.D., (2001), Geologic Data Transfer Using XML, www.digitalearth.net.cn/ GISConference/Geologic%20data%20transfer%20using%20xml.pd; Duffy, T., Boisvert, E., Cox, S., Johnson, B.R., Raymond, O., Richard, S.M., Robida, F., Serrano, J.J., Simons, B., Stolen, L-K, 2006, The IUGS-CGI International Geoscience Information Interoperability Testbed, International Association for Mathematical Geology XIth International Congress, Liege Belgium.

Gogu R. C., Carabin G., Hallet V., Peters V., Dassargues A. (2001). GIS based hydrogeological databases and groundwater modelling. Hydrogeology Journal 9 (6): 555-569.

Gogu R C, Dietrich VJ, Jenny B, Schwandner & M F, Hurni L (2006) A geo-spatial database concept for data-management of dormant volcanoes Computer & Geosciences, Elsevier, Canada, v. 32/1, pp. 29-41

Goodchild, M.F., P. Fu, and P.M. Rich. 2007. Geographic information sharing: the case of the Geospatial One-Stop portal. Annals of the Association of American Geographers 97(2):250-266.

Page 33: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Maguire, D.J., and P.A. Longley. 2005. The emergence of geoportals and their role in

spatial data infrastructures. Computers, Environment and Urban Systems 29: 3-14.Tang, W. and Selwood, J. 2005. Spatial Portals: Gateways to Spatial Information. ESRI

Press, Redlands, CA.Angela Ioniţǎ, (2007), “Complexity and Quality of Geoeb Services (partea I)”, in

“CALITATEA acces la success” Revista Societǎţii Române pentru Asigurarea Calitǎţii SRAC, anul 8, nr. 4, 2007, ISSN: 1582-2559, pp. 47-50.

Angela Ioniţǎ, (2007), “Complexity and Quality of Geoeb Services (partea a II-a)”, in “CALITATEA acces la success” Revista Societǎţii Române pentru Asigurarea Calitǎţii SRAC, anul 8, nr. 5, 2007, ISSN: 1582-2559, pp.53 – 57.

Angela Ionita, Sorin Andrei, Claudiu Zoicas, Ion Nedelcu, (2007), “O clasă de aplicaţii pentru comunităţi inteligente”, în “CALITATEA acces la success” Revista Societǎţii Române pentru Asigurarea Calitǎţii SRAC, anul 8, nr. 11, 2007, ISSN: 1582-2559, pp. 51-55.

Angela Ionita, Sorin Andrei, Ion Nedelcu (2007), “Mobile Applications for Smart Communities”. In “Proceedings of the workshop “Services and Software Architectures, Infrastructures and Engineering for enhancing EU Citizen’s Quality of Life””, Romanian Academy Library, Bucharest, 2007, pp. 148 -152, ISBN 978-973-0-04939-8.

Angela Ionita, Ion Nedelcu, Sorin Andrei, Claudiu Zoicas (2007), “The World of GeoWeb Services Applications for Public Administration in the framework of Knowledge Society” . In “Proceedings of the workshop “Services and Software Architectures, Infrastructures and Engineering for enhancing EU Citizen’s Quality of Life””, Romanian Academy Library, Bucharest, 2007, pp. 211 -223, ISBN 978-973-0-04939-8.

Angela Ionita (2007): “Trends in applications for public administration in the framework of Knowledge Society: geoweb services applications”, The 1st International Symposium Geotunis2007, Tunis: November 15-17, 2007 (published on CD).

Ionita, Angela, 2006, “Studiu asupra taxonomiei serviciilor web şi asupra componentelor serviciilor web”, TR ICIA,nov 2006;

Ionita, A., (2006), “About GeoWeb Services and standardization”, in Proceedings of the International Symposium Intelligent and Interactive Systems to Manage the Public Administration’s Relation with Citizens and Business Environment, November 29, 2006, ASE Publishing House, ISBN 973-594-872-9 978-973-594-872-6, pp. 70-88

Ionita, A., (2006), “Web Services in Intelligent Systems for Public Administration” in Proceedings of the International Symposium Intelligent and Interactive Systems to Manage the Public Administration’s Relation with Citizens and Business Environment, November 29, 2006, ASE Publishing House, ISBN 973-594-872-9 978-973-594-872-6, pp. 84-100.

Ionita, A., Bichir, M., Nedelcu, I., Chendeş, V., Crăciunescu, V., Gancz, Vl., Andrei, S., (2006), “Strengths and Weaknesses in Geospatial Data Infrastructure”, in !2th EC GIS Workshop, ESDI: From Inspiration to Implementation, 21-23 June 2006, Austria, Innsbruck (http://www.ec-gis.org/Workshops/12ecgis/presentations/Plenary%20room/T HU_Nat_SDI_1/nedelcu.pdf )

Page 34: academiaromana.ro · Web viewDeţinem Sem-Cor En-Ro (corpus paralel englez-român), Ro-TimeBank (corpus paralel englez-român, cu adnotări temporale), Multilingual News Corpus (corpus

Planul de cercetare pe anul 2013Institutul de Cercetări pentru Inteligenţă Artificială “Mihai Drăgănescu”

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Ionita, A., (2000), "Interoperability, the first step towards democratization of access of

geographical Information", Proc. of ICTPA'2000, Bucharest, Romania, Oct., 2000, pp.234 - 258;

Janusz M., Pawe? L. (2003). Features and coverages in hydrogeological information; Acta Geologica Polonica, Vol. 53, No.3, pp. 247-255.

Jürgen, V. (2002). Guidance Document on Implementing the GIS Elements of the WFD.Maidment, D. R. (2002). Arc Hydro: GIS for Water Resources. ESRI Press, Redlands,

California. Ron Lake, (2005), The application of geography markup language (GML) to the

geological sciences, Computers & Geosciences, Volume 31, Issue 9, November 2005, pp. 1081-1094

Sen M , Duffy T, (2005), GeoSciML: Development of a generic GeoScience Markup Language Computers & Geosciences Volume 31, Issue 9, November 2005, Pages 1095-1103 Application of XML in the Geosciences

Strassberg G., 2005. A geographic data model for groundwater systems, Ph.D. Thesis, University of Texas, Austin.

Trastour, D., Bartolini, C., Gonzales-Castillo, J., “A Semantic Web approach to Service Description for Matchmaking of Services”, HP Labs, Filton Road, Bristol, UK

Vogt, J., (2002), Guidance Document on Implementing the GIS Elements of the Water Framework Directive.

Director ICIA,Acad. Ioan Dan Tufiş