Word Sense Disambiguation and Its Application to Internet Search

23

MINISTERUL EDUCAŢIEI AL REPUBLICII MOLDOVA

UNIVERSITATEA TEHNICĂ A MOLDOVEI

FACULTATEA CALCULATOARE INFORMATICĂ ŞI MICROELECTRONICĂ

CATEDRA IA

La APLN

Tema: „WORD SENSE DISAMBIGUATION AND ITS APPLICATION TO INTERNET SEARCH”

A efectuat: Ilicovici Irina st. gr IA-121M

A verificat: Popescu A. prof. univ.

CHIŞINĂU 2013

23

CuprinsINTRODUCERE......................................................................................................................................3

1. RESURSELE DE BAZĂ.........................................................................................................................5

1.1. Prezentarea metodelor folosite pentru dezambiguizarea sensurilor................................................5

1.2. Resursele de baza.........................................................................................................................6

1.2.1. WordNet........................................................................................................................................6

1.2.1.1. Sensurile in WordNet..............................................................................................................7

1.2.2. SemCor..........................................................................................................................................7

1.2.3. Marcarea parţii de vorbire a lui Brill..........................................................................................8

1.3. Resursele de extragere a informaţiei................................................................................................9

1.3.1. AltaVista.....................................................................................................................................9

1.3.2. Conferin?ele de preluare de text (TREC)......................................................................................10

2. DEZAMBIGUIAREA SENSULUI CUVINTELOR.....................................................................................12

2.1.Dependenţa de abordare cuvant- cuvant.......................................................................................12

2.2.Clasamentul contextual al sensurilor sugerate...........................................................................12

2.2.1.Algoritmul 1..................................................................................................................................12

2.2.2. Procedura de evacuare............................................................................................................14

2.3. Algoritmul densitaţii conceptuala...................................................................................................15

2.3.1. Algoritmul 2.............................................................................................................................15

2.4. Exemplu..........................................................................................................................................16

CONCLUZII..........................................................................................................................................20

BIBLIOGRAFIE.....................................................................................................................................21

23

Inroducere

Dezambiguizarea automată a sensurilor cuvintelor a fost un subiect de interes încă din

anii 1950 (perioada în care a început să se studieze mai intens domeniul lingvisticii

computaţionale). Dezambiguizarea sensurilor nu este un scop în sine, este un proces

intermediar, necesar la un anumit nivel pentru a folosi la procesarea limbajului natural. Este,

în mod evident, util pentru aplicaţii care necesită interpretarea limbajului, (comunicarea prin

intermediul mesajelor, interacţiunea om – maşină), dar este folosit şi în domenii al căror scop

principal nu este înţelegerea limbajului natural:

- traduceri asistate de calculator: dezambiguizarea sensurilor cuvintelor este esenţială pentru

traducerea riguroasă a unor cuvinte polisemantice (ex.:franţuzescul grille , care, în funcţie de

context, poate fi tradus cu scală, orar, poartă, linie ferată etc.);

- regăsirea documentară şi parcurgerea hipertextelor: când căutam anumite cuvinte cheie, este

preferabil să eliminăm apariţiile în care sensurile acestora nu sunt cele dorite. De exemplu, când

se caută în domeniul juridic cuvântul curte, nu este de dorit să obţinem şi documentele în care

cuvântul curte are alt sens decât cel juridic;

- analiza tematică şi a conţinuturilor - o metodă obişnuită în analiza tematică şi a conţinuturilor

este să se analizeze distribuţia categoriilor predefinite de cuvinte (acele cuvinte care indică un

anume concept, o idee, o temă) în cadrul unui text.Importanţa dezambiguizării sensurilor în acest

domeniu se referă la includerea acelor instanţe cu sens corespunzător ale cuvintelor.

- analiza gramaticală: dezambiguizarea sensurilor este utilă ca parte a adnotării limbajului. De

exemplu în următoarea frază: „Am forţat broasca şi aceasta s-a rupt”, este necesar să

dezambiguizăm sensul cuvântului broască şi să îl adnotăm în mod corespunzător.

Dezambiguizarea sensurilor este necesară şi pentru anumite

analize sintactice, sau în parsări.

- procesarea limbajului: dezambiguizarea sensurilor este cerută pentru reproducerea corectă din

punct de vedere fonetic al cuvintelor, sau pentru segmentarea cuvintelor în cadrul sintetizării

limbajului.

- procesarea textului: dezambiguizarea este necesară pentru corectitudinea scrierii cuvintelor (un

exemplu ar fi introducerea diacriticelor, schimbări gramaticale ale formelor cuvintelor). Alt caz

ar fi accesul lexical pentru limbajele semitice (acele limbaje în care nu sunt scrise vocalele).

Problema dezambiguizării sensurilor cuvintelor a fost descrisă ca fiind AI-completă. O

problemă este AI-completă dacă poate fi rezolvată doar prin rezolvarea prealabilă a tuturor

23

problemelor dificile din cadrul inteligenţei artificiale (AI), cum ar fi reprezentarea sensurilor

cuvintelor şi cunoştinţelor. Dificultatea dezambiguizării sensurilor a fost una din punctele

centrale ale tezei lui Bar-Hillel [1960] în domeniul traducerii automate, teză în care acesta

susţinea ca nu există posibilitatea determinării automate a sensului cuvântului pen în

propoziţia: „The box is in the pen”. Argumentul lui Bar-Hillel a constituit baza pentru raportul

ALPAC, care e considerat unul din motivele abandonului majorităţii proiectelor de studiu

aletraducerii automate în anii ’60.Pe de altă parte, cam în aceeaşi perioadă se făcea un progres

enorm în domeniulreprezentării cunoştinţelor. Acum au apărut reţelele semantice, care vor fi

aplicate în studiuldezambiguizării sensurilor. În următoarele două decenii se continuă munca în

domeniul dezambiguizării, în contextul cercetării limbajului natural în cadrul AI, dar şi în

domeniul analizei conţinuturilor, analizei stilistice şi literare, precum şi a regăsirii documentare.

În ultimii zece ani s-a observat o intensificare a eforturilor dezambiguizării automate a

sensurilor, datorită accesului sporit la text procesat de maşină, precum şi datorită îmbunătăţirii

metodelor statistice de identificare şi aplicare a modelelor asupra datelor. Problema

dezambiguizării sensurilor a căpătat în ultimii ani o importanţă crescută în domeniul procesării

limbajului natural.

23

CAPITOLUL 1

Resursele de bază

1.1. Prezentarea metodelor folosite pentru dezambiguizarea sensurilor

În termeni generali, dezambiguizarea sensurilor cuvintelor înseamnă asocierea anumitor cuvinte

dintr-un text sau un discurs cu o definiţie sau un sens care se diferenţiază într-un anume mod de

alte sensuri atribuite acelui cuvânt. Acest proces va implica următoarele etape :

- determinarea tuturor sensurilor diferite ale unui cuvânt ce prezintă o anumite relevantă pentru

textului considerat.

- modalităţi de atribuire de sensuri pentru fiecare apariţie a cuvântului din text.

Majoritatea studiilor efectuate recent în acest domeniu pornesc de la premisa că, pentru pasul 1,

avem acces la o listă de sensuri, la un grup de caracteristici, categorii şi cuvinte asociate (de ex.

sinonime), la o listă de traduceri în anumite limbi străine etc.

Definiţia exactă a ceea ce înseamnă sens este încă o problemă care a dat naştere la numeroase

polemici. Diversitatea modurilor de definire a ridicat problema compatibilităţii şi

comparabilităţii studiilor efectuate în domeniul dezambiguizării sensurilor cuvintelor, şi, datorită

dificultăţii găsirii unei definiţii riguroase, nu se întrevede o rezolvare în următorii ani. Pe de altă

parte, încă de la începutul studiului dezambiguizării sensurilor cuvintelor, au existat discuţii pe

tema faptului că problemele dezambiguizării morfo - sintactice şi cele ale dezambiguizării

sensurilor ar trebui privite din acelaşi unghi de vedere. Aceasta înseamnă că, pentru homonime,

care sunt părţi diferite de vorbire (de ex.: haina), dezambiguizarea morfo - sintactică reuşeşte să

realizeze şi dezambiguizarea sensului. De aceea, dezambiguizarea sensurilor cuvintelor a acordat

o importanţă sporită determinării sensurilor homonimelor ce aparţin aceloraşi categorii

sintactice.

Pasul 2, cel al atribuirii sensurilor cuvintelor este îndeplinit prin referinţă la:

- Contextul cuvântului al cărui sens trebuie determinat. Acesta include informaţiile conţinute în

cadrul textului sau discursului în care apare cuvântul, precum şi informaţii asupra textului (aceste

ultime informaţii nu ţin neapărat de lingvistică).

- Surse de cunoaştere externe, care includ resurse lexicale, enciclopedice, dar şi surse de

cunoştinţe construite în scopul furnizării de date utile pentru asocierea cuvânt - sens.

23

Procesul de dezambiguizare include potrivirea contextului instanţei cuvântului al cărui sens

trebuie dezambiguizat cu informaţiile din sursele externe (în acest caz vorbim de

dezambiguizarea sensurilor cuvintelor orientată cunoştinţe), sau informaţii despre contex- tele

instanţelor cuvintelor care au fost deja dezambiguizate (dezambiguizarea sensurilor cuvintelor

orientată date). Metodele de asociere sunt utilizate pentru a determina cea mai potrivită asociere

între contextul curent (cel din textul considerat) şi oricare din sursele externe de informaţie.

1.2. Resursele de bază

Resursele lexicale:

WordNet, un dicționar care poate fi citit automat

SemCor, un corpus semantic etichetat;

Taggerul Brill.

2. Informatii de preluare a resurselor:

(a) AltaVista, un motor de căutare pentru internet;

(b) TREC, preluare de Conferința de text, care oferă cercetatorii, cu un set de subiecte,

cu scopul de a testa sistemele concepute pentru extragerea de informații.

1.2.1. WordNet

WordNet [13] este un dicționar care poate fi citit automat, dezvoltat la Universitatea Prinсeton

de către un grup condus de George Miller [30],[13]. Acesta este utilizat de către sistemul nostru

pentru WSD și generarea de liste de similaritate pentru extindere de interogări. WordNet-ul

conține marea majoritate de a substantive, verbe, adverbe și de la adjeсtive din limba engleza.

Cuvintele din WordNet sunt organizate în seturi de sinonime, numite synsets. Fiecare synset

reprezintă un сonсept. WordNet 1.6 dispune de o rețea largă de 129504 cuvinte, organizate în

98548 de seturi de sinonime, numite synsets Tabelul 2.1 prezintă numărul de substantive, verbe,

adverbe și adjeсtives definite în WordNet.

Table 1.1 Numarul de cuvinte si concepte in WordNet 1.6

Part of speech words concepts

noun 94,473 66,024

verb 10,318 12,156

adjective 20,169 17,914

adverb 4,545 3,574

23

Total 129,504 98,548

Există un set bogat de relații între 391,885 de cuvinte, între cuvinte și synseturi, precum și între

synsets [17].

Relația semantică de bază dintre cuvinte, codificate în WordNet, este relația de sinonimie. Cele

synsets sunt legate de antonimie, hiperonimie / hiponimie (este-a) și relațiide meronime /

holonime (fracțiune de ansamblu) .

(carnivore)

(fissiped mammal, fissiped) (canine, canid) (feline, felid) (bear) (procynoid)Figure 2.1. A WordNet hierar

hy

(wolf) (wild dog) (dog) (hyena, hyaena) (brown bear, bruin, Ursus arctos)

(hnting dog) (working dog) (Syrian bear...) (grizzly...)

(dachshund, dachsie, badger dog) (terrier) (watch dog, guard dog) (police dog)

Fig.1,1. Ierarhie WodNet

1.2.1.1. Sensurile in WordNet

Aproape toate synset-urile din WordNet au sensuri definitorii. Un sens сonstă din definiții,

comentarii și exemple. De exemplu, sensul synsetului {interes, interesare) este (puterea de

atracție sau deține interesul cuiva (deoarece este neobișnuit sau captivant etс.); " Ei uu spus

nimic de mare interes"; "culori primare pot adăuga interes pentru o cameră "). Este o difiniție

pentru “ puterea de a atrage sau a deține interesul cuiva, un comentariu pentru că este neobișnuit

sau interesant etс, și două exemple: acestea nu au spus nimic de mare interes și culori primare

pot adăuga interes pentru o cameră. Unele sensuri pot conține multiple definiții sau mai multe

comentarii.

1.2.2. SemCor

23

SemCor [32]este un corpus textual în care fiecare cuvânt este legată de cel mai apropiat sens al

său în WordNet. Astfel, pot fi vizualizate fie ca un corpus, în care cuvintele au fost etichetate

din punct de vedere sintactic și semantic, sau ca un lexicon, în care propoziții exeplu pot fi

găsite în mai multe definiții. Textele folosite pentru crearea de concordanțe semantice sunt

extrase din Corpus Brown și apoi legate de sensurile în lexiconul WordNet. Marcare semantică

a fost făcut de mână, folosind diverse instrumente pentru a adnota textul cu sensurile WordNet.

Fișierele etichetate semantic sunt grupate în trei concordanțe semantice bazate pe ceea ce a fost

etichetat și când. Fiecare concordanță semantică este stocată într-un director separat, după cum

se arată în Tabelul 2.2.

Tabelul 1.2. Concordanțe semantice în SemCor 1.6

Name Conținutul Ce se etichitează?‘brown1” 103 Brown corpus files Toate clasele deschise ‘brown2” 83 Brown corpus files Toate clasele deschise‘brownv” 166 Brown corpus files verbele

Datele marcate semantic sunt codificate folosind SGML. SGML limbaj de marcare , care are perechi de forma atribut = valoare pentru a specifica: partea de vorbire, sensul cuvântului, paragrafele, propozițiile, etc. Figura 2.2 prezintă un fragment dintr-un fișier SemCor.

Figura 1.2. Un fragment din SemCor

Luați în considerare ca un exemplu de intrare pentru cuvântul “spus”, așa cum este prezentat în

această figură. Acesta specifică partea de vorbire pentru acest cuvânt ca fiind VB (verb), sub

formă de bază ca fiind „spune”, și sensul său, pe baza dicționarul WordNet, ca fiind sens # 1.

1.2.3. Marcarea părții de vorbire a lui Brill

Marcarea părții de vorbire este un domeniu important al PNL; astfel tagg-uri sunt adesea

folosite în faza de pre-procesare a multor sisteme de prelucrare lexicale. Rolul acestor tagg-uri

<contextfile concordance = brown><context filename=br-a01 paras=yes><p pnum=1><s snum=1>

<wf cmd=ignore pos=DT>The</wf><wf cmd=done rdf=group pos=NNP lemma=group wnsn=1 lexsn=1:03:00:: pn=group>Fulton+County_Grand_Jury</wf>

<wf cmd=done pos=VB lemma=say wnsn=1 lexsn=2:32:00::>said</wf>

23

este de a atribui părți de vorbire la cuvintele, ca această etichetare sa fie de obicei una dintre

primii pași în realizarea unei prelucrări lexicale, ar trebui să fie făcută cu mare precizie, pentru

a reduce eroarea prppagată.

Partea de etichetare a vorbirii a lui Brill [6], a fost dezvoltată la Universitatea din

Pennsylvania, este un sistem bazat pe reguli, care în mod automat presupune reguli dintr-un text

deja etichetat, iar apoi le aplică în procesul de alocare a părților de vorbire la cuvintele întâlnite

în textul liber.

Când ne-am decis să se utilizeze această etichitare în sistemul nostru, am luat în considerare

precizia sa, care rezultă din testele efectuate de noi împotriva etichetarea textelor de mână. Am

considerat 58 de fișiere din colecția de Word Journal, care au fost manual

etichetate în cadrul proiectului Penn-Treebank [25]. Dimensiunea medie a acestor fișiere a fost

de 323.1 de cuvinte, respeсtiv 368.09 de tagg-uri, în care setul de etichtări inсlud cuvinte și

punсtuație. Dimensiunea totală a fost de 18,738 cuvinte și 21,349 de etichtări. Din aceste cuvinte

18738, etichetele atribuite de către partea Brill’s Speeсh Tagger au fost aceleași ca și cele 17272

de cazuri alocate în manual, deci, o precizie de 92.18%.

Din cele 21349 etichitări, 19850 au fost etichetate de către aceeași Tagger Brill, adică 92.98%

precizie. Acestă precizie dovedește acest instrument ca unul potrivit pentru efectuarea marcarii

a părților de vorbire cu o mare precizie.

1.3. Resursele de extragere a informației

Scopul primului algoritm a metodei WSD propus în această lucrare este de a aduna statisticile

din Internet cu privire la cuvântul- cuvântul de evenimente. Această sarcină este

efectuată cu ajutorul AltaVista pentru a căuta pe Internet. Motorul de căutare este utilizat de

către sistemul de cautare pentru a prelua documentele care potențial includ informații relevante

la întrebarea de intrare. A fost testat apoi sistemul de regăsire utilizând 50 de întrebări derivate

din subiectele prevăzute la 6-a Conferință de prelucrare a textelor.

1.3.1. AltaVista

AltaVista [3]este un motor de cautare dezvoltat în 1995 de către Digital Equipment Microsoft

Corporation în laboratoare de cercetare Palo Alto. Există mai multe caracteristici ale acestui

serviciu de căutare, care face AltaVista unul dintre cele mai puternice motoarele de căutare.

Alegerea AltaVista pentru utilizarea în sistem, sța bazat pe două dintre caracteristicile sale:

23

(1) dimensiunea de informații pe Internet, care poate fi accesată prin AltaVista: ea are un indice

de creștere de peste 160 milioane de pagini unice pentru a World Wide Web;

(2), acceptă cautari booleene prin intermediul funcției sale de căutare avansată. Aceste

caracteristici face acest motor de căutare potrivit pentru dezvoltarea de software în jurul valorii

sale, cu scopul de a mări calitatea informației extrase.

Relații specifice pot fi create printre cuvintele cheie ale unei interogări acceptate de AltaVista.

Aceste relații pot fi create folosind paranteze, SI, SAU, NU și operatorii Aproape și găsește

numai documentele care conțin toate cuvintele specificate sau fraze. Documentele Maria și miel

le găsește pe ambele ca cuvântul Maria și cuvântul miel. Sau documente cre conțin cel puțin

unul dintre cuvinte sau fraze specificate .

Maria sau miel găsesc documentele care conțin fie Maria sau miel. Documentele recuperate pot

conține ambele cuvinte, dar nu neapărat pe ambele. Aproape gasește documentele care conțin

atât cuvintele sau frazele specificate în termen de 10 cuvinte fiecare. Maria alături de miel

gasește documentele care conțin atât cuvântul Maria cît și cuvântul miel, dar cu restricția ca

aceste cuvinte sunt separate de maxim 10 alte cuvinte.

Principala preocupare atunci când s-a decis să se bazeze pe Altavista pentru căutarea

documentelor

pe Internet, se considera fiabilitatea acestui motor de căutare. Numărul de rezultate obținute

pentru o anumită interogare ar trebui să varieze doar într-un interval mic de căutări efectuate la

intervale diferite de timp. În scopul de a testa fiabilitatea Altavista, s-a considerat un set de

1.100 de cuvinte (substantive, verbe, adjective si adverbe), setul a fost construit de la unul din

textele din corpus Brown. Un test constatat de căutarea pe Internet utilizând Altavista, pentru

fiecare dintre aceste cuvinte, și înregistrearea numărul de hit-uri obținute. S-a efectuat 20 de

teste, pe o perioada de timp de 10 zile, un test rulează la fiecare 12 ore. Rezultatele globale

pentru aceste teste au aratat ca, având în vedere AV ca o medie a numărul de hit-uri pentru un

anumit cuvânt:

- 90% din orile de inregistrarii au fost în intervalul [0.99 x AV - 1,01 x AV ]

- 100% din orile de inregistrarii au fost în intervalul [0,85 x AV - 1.15 x AV ]

Luând în considerare dimensiunea de informații găsite pe internet șivfaptul că această informație

este foarte nestructurată, variațiile mici realizate de AltaVista în căutarea pe Internet, se poate de

clasificat acest motor de cautare ca unul faliabil.

1.3.2. Conferințele de preluare de text (TREC)

23

Conferințele de preluare de text (TREC) fac parte din Programul de pronosticuri, și sunt

destinate să încurajeze cercetarea în extragerea de informații din texte de mari dimensiuni.

Nevoile informaționale sunt descrise de struсturI de date numite subiecte.

Projeсtul Tipster face distincție între două tipuri diferite de interogări: ad-hoc și de rutare.

Înterogările ad-hoc sunt concepute pentru a investiga performanțele

sistemelor de căutare a unui set de documente folosind subiecte noi, acestea sunt cele mai

potrivite pentru sistemele care implică cautari specificate. Interogările de rutare investighează

performanța

sistemelor care caută noi fluxuri de documente, sistemele care utilizează această sarcină de

obicei se adresează la căutari generale, o interogare de rutare poate fi privită ca un filtru pe

documentedeintrare.

Pentru că sistemul de cautare este conceput pentru a îmbunătăți calitatea informațiilor regăsite în

special în cazul întrebărilor specifice, s-a folosit temele ad-hoc, în scopul de a testa performanța

sistemului.S-a derivat 50 de întrebări lingvistice naturale din temele ad-hoc prevăzute la a șasea

Conferinţă de extragere de texte [43].

Un exemplu de un subiect TREC,colecție ad-hoc este prezentată în Figura 2.3. După cum se

vede din această figură, un subiect este un cadru ca structură de date. Fișierele lui trebuie să fie

interpretate, după cum urmează: secțiunea <num> identifică subiectul

<title> Secțiunea clasifică subiectul într-un domeniu; secțiunea <desc> oferă o scurtă

descriere a subiectului (pentru TREC-6, această secțiune a fost destinată, să fie o căutare inițială

de interogare); secțiunea <narr> oferă o explicație suplimentară despre cum un material

relevant poate arata.

Figura 1.3. Subiectul TIPSTER

În scopul de a testa sistemul, s-a utilizat câmpul <desc> să obțină întrebări

lingvistice naturale într-o formă asemănătoare la întrebările utilizate în mod normal de către

utilizatorii in cautare pe Internet. De exemplu, de la data intrării corpusul prezentat mai sus,

<num> Number: 301<titile> International Organized Crime<desc> Description:Identify organization that participate in international criminal activity, the activity, and, if possible, collaborating organization and the countries involved.<narr> Narrative:A relevant document must as a minimum identify the organization and the type of illegal activity (e.g., Columbian cartel exporting cocaine). Vague references to international drug trade without identification of the organization(s)involved would not be relevant.

23

întrebareacare s-a derivat este: \ Care sunt unele dintre organizațiile participante înactivitate

infracțională?".

După preluarea informației folosind întrebări derivate, relevanța dintre informație

a fost evaluată pe baza secțiunii narative a fiecărui subiect.

CAPITOLUL 2

Dezambiguizarea sensului cuvintelor

2.1. Dependență de abordare cuvânt- cuvânt

Metoda prezentată aici depinde de сontextul propoziției. Cuvintele sunt asociat și o

încercare se face pentru ambiguitatea unui cuvânt în contextul altui cuvânt. Acest lucru se face

prin căutarea pe Internet, cu interogările formate folosind diferite sensuri a unui singur cuvânt,

păstrând fixat în același timp alt cuvânt. Sensurile sunt clasate pur și simplu dupa ordine

furnizate de numărul de hit-uri. O precizie bună se obține, probabil, din cauza numărului mare

de texte de pe Internet. În acest fel, toate cuvintele

sunt prelucrate și sensurile sunt clasate. Noi folosim clasament de sensuri pentru a stopa

complexitatea computațională, în etapa care urmează. Numai cele mai promițătoare sensurile

suntpăstrate.

Următorul pas este de a perfecționa ordinea sensurilor cu ajutorul unei metode complet

diferite,

metoda, respectivă numită densitatea semantică. Acest lucru se măsoară prin numărul comun

de cuvinte care sunt la o distanță semantică a două sau mai multe cuvinte. O relație semantică

mai apropiată dintre două cuvinte, mai mare densitatea semantică între ele. Va prezentam

densitatea semantică, pentru că este relativ ușor de măsurat folosind MRD ca WordNet. O

metrica este introdusă în acest sens, care atunci când este aplicat la toate combinațiile posibile

de sensuri a două sau mai multe cuvinte le situează pe loc.

Un aspect esențial al metodei WSD prezentat aici este că aceasta oferă o asociații variate

posi-bile între cuvinte în loc de un binar da sau , decizie pentru fiecare combinație de sens

posibilă. Acest lucru permite o precizie controlabilă și alte module pot fi capabile să distingă

mai târziu, asociația corectă de sens la o astfel de piscină mică [27], [29].

2.2. Clasamentul contextual al sensurilor sugerate

23

Deoarece Internetul conține cea mai mare culegere de texte stocate electronic, voi folosi

Internetul ca o sursă de corpusuri pentru ierarhizarea sensuri ale cuvintelor.

2.2.1. Algoritmul 1

Date de intrare: semantic nemarcate cuvint1-cuvint2 pereche ( W1-W2)

Date de ieşire: marcarea sensului cuvintului

Formează o listă similară pentru fiecare sens pentru unul din cuvinte. Alege-ti unul dintre cuvintele, să presupunem W2, si folosind WordNet-ul, formează o listă similară pentru fiecare sens al acestui cuvânt. Pentru aceasta, folosim cuvintele din synset pentru fiecare sens și cuvintele din hipernimele synset-ului.Se consideră, de exemplu, că W2 are m sensuri, astfel W2 apare în listele similare :

( )

…

Unde sunt sensurile pentru W2. şi reprezintă numărul sinonimului

s a sensului ca definit în WordNet.

2. Forma W1- perechi. Perechile care pot fi formate sunt :

( W1- , W1- , W1- , … W1-

( W1- , W1- , W1- , … W1-

…

3. Se caută pe internet şi se clasifică sensul W i(s). O căutare efectuată pe Internet pentru fiecare set de perechi definite mai sus, rezultă într-o valoarea indicînd frecvența evenimentelor pentru W1 și pentu sensul lui W2. În experimente a fost folosit AltaVista [3], deoarece aceasta este una dintre cele mai puternice motoare de căutare disponibile în prezent.

23

Folosind operatorii lui AltaVista formele de interogare sunt definite pentru fiecare set W1- W i(s) mai jos:

( )

(

)

Pentru toate 1≤ i ≤m .Asterix (*) este folosit ca card salbatic pentru a crește numărul de

de rezultate cu cuvinte legate morfologic. Folosind una dintre aceste interogări, avem

numărul de rezultate pozitive pentru fiecare sens i a acestui substantiv și oferă un clasament al m

sensuri a lui W2 în care acestea se referă cu W1.

Un algoritm similar este folosit pentru a clasifica sensurile W1 păstrând W2 constant

(nu-dezambiguizat). Din moment ce aceste două proceduri sunt efectuate corpusuri mari (

Internet), precum și cu ajutorul listelor de similaritate, există o corelație mică între

rezultatele obținute de cele două proceduri.

2.2.2. Procedura de evacuare

Această metodă a fost testată pe 384 de perechi: 200 verbe-substantive (file BR-A01, br -

a02), 127 adjective-substantive (file BR-A01), și 57 adverbe-verbe ( file BR -A01), extrase din

SemCor 1.6 din corpusul lui Brown. Folosind formularul de interogare (a) pe Alta Vista, am

obținut rezultatele prezentate în tabelul 3.1.Tabelul indică procentele de sensuri corecte (așa

cum figurează în SemCor)clasificate în topurile 1, 2 , 3, și 4 din listă.

Am ajuns la concluzia că, prin menținerea primelor patru opțiuni pentru verbe și substantive,

precum și primele două opțiuni pentru adjective și adverbe, am cuprins toate sensurile relevante

la un procentaj mare (mai mult de jumate). Privind dintr-un punct de vedere diferit , sensul

procedurii de până acum este faptul că acesta exclude sensurile care nu se aplică, iar acest lucru

poate salva o durată considerabilă de timp de calcul atît cât i multe cuvinte sunt foarte

polisemantice.

Am folosit, de asemenea, formularul de interogare (b), dar rezultatele obținute au fost similare,

folosind

23

operatorul NEAR, un număr mai mare de rezultate este raportat, dar sensul clasificării rămâne

mai mult sau mai puțin același.

Tabel 3.1 Adunarea statistica de pe internet pentru 384 perechi de cuvinte

Top1 Top2 Top3 Top4

substantive 76% 83% 86% 98%

verbe 60% 68% 86% 87%

adjective 79,8% 93%

adverbe 87% 97%

2.3. Algoritmul densității conceptuală

O mulţime de înrudiri dintre cuvintele pot fi o sursă de cunoștințe pentru mai multe decizii în

aplicații NLP. Abordarea luată aici este de a construi un context lingvistic pentru fiecare sens al

verbului și substantivului, precum și pentru a măsura numărul de substantive comune împărtășite

de verb și contexte substantivale. În WordNet fiecare concept are o explicaţie care acționează ca

un micro-context pentru această noțiune. Acesta este un sursă bogată de informații lingvistice pe

care am găsit util în determinarea densității conceptuală între cuvinte.

2.3.1. Algoritmul 2

La Intrare: verb semantic fără mapare – pereche de substantive și un clasament al sensurilor

substantivelor (determinatca în algoritmul 1)

Ieșire: sensul verbului mapat –pereche de substantive

procedură:

1. Având o pereche de verb-substantiv V - N, denotate cu <v1, v2, :::, vh> și <n1; n2; ,,, nl>

sensurile posibile ale verbului și numele folosind WordNet-ul.

2) Utilizînd algoritmului 1, sensurile substantivelor sunt clasate. Numai primul t sens posibil

indicat de acest clasament va fi luată în considerare. Restul sunt puse pentru a reduce

complexitate computaţională.

3. Pentru fiecare pereche posibilă vi- nj, densitatea conceptuală se calculează după cum urmează:

(a) se extrag toate sensurile din sub- ierarhia inclusiv vi (explicaţia pentru selectarea sub-

ierarhiei este explicat mai jos)

(b) se determină substantivele din aceste sensuri. Acestea constituie contextul substantivului a

23

fiecărui

verb. Fiecare astfel de substantiv este stocat împreună cu o greutate w care indică nivelul în

sub-ierarhie a conceptului verbului în al cărui sens numele a fost găsit.

(c) se determină substantive din sub-ierarhia substantivului , inclusiv nj.

(d) se determină densitatea conceptuală Cij a conceptelor comune între substantivele (în b )

obținute și substantivele obținute (în c ) folosind metrica:

Cij = (1)

Unde:

|c dij | este numarul de concepte comune intre ierarhiile vi şi nj

wk sunt nivelele substantivelor în ierarhia verbului vi

descendenţii j este tumarul total de cuvinte in ierarhia sustantivului nj

Cij clasifică fiecare pereche vi - nj, pentru i şi j

1. În WordNet, un sens explică un concept și furnizează unul sau mai multe exemple cu

utilizarea tipică a acestui concept. În scopul de a determina cel mai apropiat nume și ierarhii

verbale, am efectuat câteva experimente folosind SemCor și am concluzionat că sub-ierarhie

subsantivului ar trebui să includă toate substantivele în clasa nj. Sub-Ierarhia verbului vi se ia

ca ierarhiaa a celui mai mare hypernym hi a verbului vi. Este necesar să se ia în considerare o

ierarhie mai mare, atunci doar cel furnizat de sinonime și hiponimele directe. Așa cum am

înlocuit rolul corpusului cu sensuri, rezultate mai bune se obțin în cazul în care sunt luate în

considerare mai multe sensuri .

2. Ca substantivele cu o ierarhie mare tind să aibă o valoare mai mare pentru pentru |cdij |, suma

ponderată a conceptelor comune este normalizată cu privire la dimensiunea ierarhiei substantiv.

Deoarece dimensiunea unei ierarhii creste exponential cu profunzimea ei, s-a folosit logaritmul

numărul total de descendenți în ierarhie, și anume log (descendentsj).

3. De asemenea, s-a luat în considerare și s-a experimentat cu alţi câțiva metrici. Dar, după

rularea programului pe mai multe exemple, formula de la algoritmul2, a produs cele mai bune

rezultate.

2.4. Exemplu

Ca un exemplu, să luăm în considerare verbul-nume colocarea revise law. Verbul revise are

două sensuri posibile în WordNet și numele law are șapte sensuri.

În primul rând, a fost aplicat, Algoritmului 1 și s-a căutat pe Internet utilizând Alta Vista, toate

23

perechile posibil V-N care pot fi create folosind revise , iar cuvintele din liste similare cu law

.Următorul clasament al sensurilor a fost obținută: law # 2 (2829), law # 3 (648), law # 4

(640), law # 6 (397), law # 1 (224), law # 5 (37), law # 7 (0), în cazul în care numerele din

paranteze indică numărul de nimeriri. Prin stabilirea pragului la t = 2, păstrăm numai sensurile #

2 și # 3.

În continuare, Algoritmul 2 se aplică pentru a clasifica patru posibile combinații (două pentru

timpurile verbului două pentru substantiv). Rezultatele sunt rezumate în Tabelul 3.4: (1)

| cdij | - numărul de concepte comune între verb și ierarhiile substantiv; (2)

descendantsj numărul total de substantive în ierarhia fiecarui sens; și (3)

densitatea conceptuală Cij pentru fiecare pereche nj - vj derivate folosind formula prezentată

de mai sus.

Densitatea conceptulă cea mai mare C 12 =0,30 corespunde la v1- n2 : revise #1/2-

law#2/5(notaţia #i/n înseamnă sensul i pe n sensuri posibile date de Word Net).Această

combinaţie verb-nume semnifică de asemenea prezenţa în SemCor, file-ul br-a01.

Tabelul 3.2. Valorile utilizate în calcularea densitaţii conceptuale şi densitaţii conceptuale Cij

| cdij | descendantsj

n2 n3 n2 n3 n2 n3

v1 5 4 975 1265 0,30 0,28

v2 0 0 975 1265 0 0

Lărgirea marimii ferestrei

Am extins metoda dezambiguizării mai mult de 2 apariţii.Considerăm exemplul

The bomb caused damage but no injuries.

Sensurile speificate în SemCor, sunt

1a. bomb(#1/3)cause(#1/2) damage(#1/5) injury(#1/4)

Pentru fiecare cuvînt X, considerăm toate combinaţiile posibile cu alte cuvinte Y din propoziţie,

doua deodata.Densitatea conceptual C a fost calculată pentru combinaţia X-Y ca suma a

densităţii conceptual între sensul I a cuvîntului X şi toate sensurile cuvîntului Y.

Rezultatele sunt prezentate in Tabelele 3.4, 3.5, 3.6.2 și 3.6.2 de mai jos, unde densitatea

conceptulă calculată pentru sensul #i a cuvîntului X este prezentată în coloana notată de C#i

23

Tabelul 3.4 CD pentru perechele bomb

X-Y cd#1 cd#2 cd#3

bomb-cause 0,57 0 0

bomb-demage 5,09 0,13 0

bomb-injury 2,69 0,15 0

8,35 0,28 0

Tabelul 3.5. CD pentru perechile cause

X-Y cd#1 cd#2Cause-bomb 5,16 1,34Cause-damage 12,83 2,64Cause-injury 12,63 1,75

30,62 5,73

Prin selectarea celei mai mari valori pentru densitatea conceptuală, cuvintele sunt etichetate

cu sensurile lor, după cum urmează:

1b. bombă (# 1/3) cause (# 1/2) damage (# 1/5) injury (# 2/4)

Rețineți că sensurile pentru cuvântulul injury diferă de la 1a. la 1b, unul determinat

prin metoda noastră (# 2/4) este descris în WordNet ca an accident that results in physical

damage or hurt "(hipernim: damage), și sensul prevăzut în SemCor (# 1/4) este

definit ca “any physical damage "(hypernym: health problem).

Acesta este un exemplu tipic de o nepotrivire cauzate de o granularitate bună a sensurilor

în WordNet care se traduce într-o hotărâre umană care nu este clară. Credem că selecția sensul

prevăzută de metoda noastră este justificată , atât damage și injury sunt obiecte ale aceluiași

verb „cause “, corelarea damage (# 1/5) și a injury (# 2/4) este mai mare , că ambele sunt de

aceiaşi clasă substantivală noun.event (nume.eveniment) ca opozitul la injury (# 1/4) care este

din clasa noun .state

Alte câteva exemple selectate în mod aleatoriu au fost luate în considerare:

2a. The terrorists(#1/1) bombed(#1/3) the embassies(#1/1).

2b. terrorist(#1/1) bomb(#1/3) embassy(#1/1)

3a. A car-bomb(#1/1) exploded(#2/10) in front of PRC(#1/1) embassy(#1/1).

3b.car-bomb(#1/1) explode(#2/10) PRC(#1/1) embassy(#1/1)

23

4a. The bombs(#1/3) broke(#23/27) windows(#1/4) and destroyed(#2/4) the two vehicles(#1/2).

4b. bomb(#1/3) break(#3/27) window(#1/4) destroy(#2/4) vehicle(#1/2)

Tabelul 3.6. CD pentru perechile damage

X-Y cd#1 cd#2 cd#3 cd#4 cd#5

Damage-bomb 5,60 2,14 1,95 0,88 2,16Damage-cause 1,73 2,63 0,17 0,16 3,80Damage-injury 9,87 2,57 3,24 1,56 7,59

17,20 7,34 5,36 2,60 13,55

Tabelul 3.7. CD pentru perechile injury

X-Y cd#1 cd#2 cd#3 cd#4

injury-bomb 2,35 5,35 0,41 2,28injury-cause 0 4,48 0,05 0,01injury-injury 5,05 10,40 0,81 9,69

7,40 20,23 1,27 11,98

Unde propoziţiile 2a,3a şi 4a sunt extrase din SemCor, cu sensurile asociate pentru fiecare cuvînt

şi propoziţiile 2b,3b şi 4b arată verbele şi substantivele etichitate cu sensurile din metod

noastră. Numai nepotrivirea este pentru cuvîntul broke şi posibil aceasta se datorează numărului

mare a sensurilor lui.Alt cuvînt cu un număr mare de sensuri explode a fost etichetat corect.

Luînd in consideraţie numai perechile din 2 cuvinte, cuvintele în 4 propoziţii fiind etichitate

precum:

1c. bomb(#1/3)cause(#1/2) damage(#5/5) injury(#2/4)

2c. terrorist(#1/1) bomb(#1/3) embassy(#1/1)

3b.car-bomb(#1/1) explode(#1/10) PRC(#1/1) embassy(#1/1)

4b. bomb(#1/3) break(#1/27) window(#1/4) destroy(#4/4) vehicle(#1/2)

23

Din cele 16 cuvinte , 14 au fost etivhitate corect unde a fost considerată o fereastră de marime

mai mare , şi numai 12 cuvinte au fost deyambiguizate corect, unde perechile din 2 cuvinte fiind

considerate . Astfel, pentru acest caz, mărirea în precizie a fost de 16% pe cînd cuvintele sunt

considerate în procesul de deyambiguizare

Concluzii:

Dezambiguizarea Sensurilor cuvintelor este una dintre cele mai dificile sarcini din PNL,

dificultăţile apar chiar atunci când mai multe sensuri sunt identificate folosind un dicţionar bun

cum ar fi WordNet. Metoda propusă în această lucrare mai degrabă oferă un clasament al

sensurilor, decât un singur sens corect. Ea combină doi algoritmi: mai întîi de toate , statisticile

sunt adunate de pe internet pentru a indica posibilile combinații de cuvinte, apoi, este folosită

o măsură de densitate semantică pentru a calcula înrudirele între cuvinte.

Diversitatea modurilor de definire a ridicat problema compatibilităţii şi comparabilităţii

studiilor efectuate în domeniul dezambiguizării sensurilor cuvintelor, şi, datorită dificultăţii

găsirii unei definiţii riguroase, nu se întrevede o rezolvare în următorii ani. Pe de altă parte, încă

de la începutul studiului dezambiguizării sensurilor cuvintelor, au existat discuţii pe tema

faptului că problemele dezambiguizării morfo - sintactice şi cele ale dezambiguizării sensurilor

ar trebui privite din acelaşi unghi de vedere. Aceasta înseamnă că, pentru homonime, care sunt

părţi diferite de vorbire (de ex.: haina), dezambiguizarea morfo - sintactică reuşeşte să realizeze

şi dezambiguizarea sensului. De aceea, dezambiguizarea sensurilor cuvintelor a acordat o

importanţă sporită determinării sensurilor homonimelor ce aparţin aceloraşi categorii sintactice.

Procesul de dezambiguizare include potrivirea contextului instanţei cuvântului al cărui

sens trebuie dezambiguizat cu informaţiile din sursele externe (în acest caz vorbim de

23

dezambiguizarea sensurilor cuvintelor orientată cunoştinţe), sau informaţii despre contex- tele

instanţelor cuvintelor care au fost deja dezambiguizate (dezambiguizarea sensurilor cuvintelor

orientată date). Metodele de asociere sunt utilizate pentru a determina cea mai potrivită asociere

între contextul curent (cel din textul considerat) şi oricare din sursele externe de informaţie.

Bibliografie:

1. Agirre, E., and Rigau, G. A proposal for Word Sense Disambiguation using conceptual

distance. In Proceedings of the 1st International Conference on Recent Advances in

Natural Language Processing (Velingrad, 1995).

2. Allen, B. WordWeb - using the lexicon for WWW. http://www.inference.com,1997.

Inference Corporation.

3. AltaVista, 1999. Digital Equipment Corporation, "http://www.altavista.com".

4. Anikina, N., Golender, V., Kozhukhina, S., Vainer, L., and Zagatsky, B. Reason: NLP-

based search system for WWW. In Proceedings of the American Association for

Artificial Intelligence Conference, Spring Symposium, \NLP for WWW" (Stanford

University, CA, 1997), pp. 1{10.

5. Bloom, B., Engelhart, M., Furst, E., Hill, W., and Krathwohl, D.Taxonomy of

Educational Objectives, Handbook 1: Cognitive Domain. David M Kay Company In.,

1956.

6. Brill, E. A simple rule-based part of speech tagger. In Proceedings of the 3rd Conference

on Applied Natural Language Processing (Trento, Italy, 1992).

23

7. Bruce, R., and Wiebe, J. Word Sense Disambiguation using decomposable models. In

Proceedings of the 32nd Annual Meeting of the Association for Computational

Linguistics (ACL-94) (LasCruces, NM, June 1994), pp. 139{146.

8. Buckley, C., Salton, G., Allan, J., and Singhal, A. Automatic Query Expansion Using

SMART: TREC 3. NIST, 1994, pp. 69{81.

9. Burke, R., Hammond, K., and Kozlovsky, J. Knowledge-based information retrieval from

semi-strutured text. In Proceedings of the American Association for Artificial

Intelligence Conference, Fall Symmposium, \AI Applications in Knowledge Navigation

& Retrieval" (Cambridge, MA, 1995).

10. Callan, J. Passage-level evidence in document retrieval. In Proceedings of the 17th Annual

International ACM SIGIR, Conference on Research and Development in Information

Retrieval (Dublin, Ireland, 1994), pp. 302{310.

11. Callan, J., Croft, W., and Harding, S. The INQUERY retrieval system. In Proceedings of

the 3rd International Conference on Database and Expert Systems Applications (1992),

pp. 78-83.

12. Cowie, J., Guthrie, L., and Guthrie, J. Lexical disambiguation using simulated annealing.

In Proceedings of the 5th International Conference on Computational Linguistics

COLING-92 (1992), pp. 157-161.

13. Fellbaum, C. WordNet, An Electronic Lexical Database. The MIT Press, 1998.

14. FindLaw, internet legal resources. http://www.ndlaw.com/index.html, 1997.

15. Gale, W., Church, K., and Yarowsky, D. One sense per discourse. In Proceedings of the

DARPA Speech and Natural Language Workshop (Harriman, New York, 1992).

16. Gravano, L., Chang, K., Garcia-Molina, H., Lagoze, C., and Paepcke, A.STARTS,

Stanford protocol proposal for Internet retrieval and search. Digital Library Project,

Stanford University, 1997.

17. Harabagiu, S., and Moldovan, D. Enriching the WordNet Taxonomy with Contextual

Knowledge Acquired from Text. AAAI/MIT Press, 1999.

18. Hearst, M. Multi-paragraph segmentation of expository text. In Proceedings of the 32nd

Annual Meeting of the Association for Computational Linguistics (Las Cruces, NM,

1994), pp. 9-16.

19. Hearst, M., Karger, D., and Pedersen, J. Scatter/gather as a tool for the navigation of

retrieval results. In Proceedings of the American Association for Artical Intelligence

Conference, Fall Symposium \AI Applications in Knowledge Navigation & Retrieval"

(Cambridge, MA, 1995), pp. 65-71.

23

20. Ishikawa, K., Satoh, K., and Okumura, A. Query Term Expansion based on Paragraphs of

the Relevant Documents. NIST, 1997, pp. 577-585.

21. Katz, B. From sentence processing to information acess on the World Wide Web. In

Proceedings of the American Association for Artical Intelligence Conference, Spring

Symposium, \NLP for WWW" (Stanford, CA, 1997), pp. 77{86.

22. Leong, M. Concrete Queries in Specialized Domains: Known Item as Feedback for

Query Formulation. NIST, 1997, pp. 541-550.

23. Li, X., Szpakowicz, S., and Matwin, M. A WordNet based algorithm for word semantic

sense disambiguation. In Proceedings of the 14th International Joint Conference on

Articial Intelligence IJCAI-95 (Montreal, Canada, 1995).

24. Lu, X., and Keefer, R. Query Expansion/Reduction and its Impact on Retrieval E

ectiveness. NIST, 1994, pp. 231-240.

25. Marcus, M., Santorini, B., and Marcinkiewicz, M. Building a large cannotated corpus of

english: the Penn Treebank. Computational Linguistics 19,2 (1993),313-330.

26. McRoy, S. Using multiple knowledge sources for Word Sense Disambiguation.

Computational Linguistics 18, 1 (1992), 1{30.

27. Mihalcea, R., and Moldovan, D. Word Sense Disambiguation based on semantic density.

In Proceedings of COLING-ACL '98 Workshop on Usage of WordNet in Natural

Language Processing Systems (Montreal, Canada, 1998).

28. Mihalcea, R., and Moldovan, D. An automatic method for generating sense tagged

corpora. In Proceedings of AAAI-99 (Orlando, FL, July 1999). (to appear).

29. Mihalcea, R., and Moldovan, D. A method forWord Sense Disambiguation of

unrestricted text. In Proceedings of the 37th Annual Meeting of the Association for

Computational Linguistics (ACL-99) (Maryland, NY, June 1999). (to appear).

30. Miller, G. WordNet: A lexical database. Communication of the ACM 38, 11 (1995), 39-

41.

31. Miller, G., Chodorow, M., Landes, S., Leacock, C., and Thomas,R. Using a semantic on

cordance for sense identication. In Proceedings of the 4th ARPA Human Language

Technology Workshop (1994), pp. 240{243.

32. Miller, G., Leacock, C., Randee, T., and Bunker, R. A semantic on cordance. In

Proceedings of the 3rd DARPA Workshop on Human Language Technology (Plainsboro,

New Jersey, 1993), pp. 303{308.

33. Moldovan, D., and Mihalcea, R. An WordNet-based interface to Internet search engines.

In Proceedings of FLAIRS-98 (Sanibel Island, FL, May 1998).

23

34. Moldovan, D. e. a. Us Description of the SNAP system used for MUC-5. In Proceedings

of the 5th Message Understanding Conference (Baltimore, MD, 1993).

35. Ng, H., and Lee, H. Integrating multiple knowledge sources to disambiguate word sense:

An examplar-based approach. In Proceedings of the 34th Annual Meeting of the

Association for Computational Linguistics (ACL-96) (Santa Cruz,1996).

36. Pustejovsky, J., Boguraev, B., Verhagen, M., Buitelaar, P., and Johnston, M. Semantic

indexing and typed hyperlinking. In Proceedings of the American Association for Artical

Intelligence Conference, Spring Symposium, \NLP for WWW" (Stanford, CA, 1997), pp.

120- 128.

37. Resnik, P. Selectional preference and sense disambiguation. In Proceedings of ACL

Siglex Workshop on Tagging Text with Lexical Semantics, Why, What and How?

(Washington DC, April 1997).

38. Resnik, P., and Yarowsky, D. A perspective on Word Sense Disambiguation methods

and their evaluation. In Proceedings of ACL Siglex Workshop on Tagging Text with

Lexical Semantics, Why, What and How? (Washington DC, April 1997).

39. Rigau, G., Atserias, J., and Agirre, E. Combining unsupervised lexical knowledge

methods for Word Sense Disambiguation. Computational Linguistics (1997).

40. Salton, G., and Lesk, M. Computer evaluation of indexing and text processing. Prentice

Hall, Ing. Englewood Clics, New Jersey, 1971, pp. 143-180.

Word Sense Disambiguation and Its Application to Internet Search

Documents

Transcript of Word Sense Disambiguation and Its Application to Internet Search