DLR Achizitionarea

download DLR Achizitionarea

of 75

  • date post

    14-Oct-2015
  • Category

    Documents

  • view

    49
  • download

    0

Embed Size (px)

Transcript of DLR Achizitionarea

  • Academia Romn Institutul de Filologie Romn A. Philippide

    Gabriela Haja Elena Dnil

    Corina Forscu Bogdan-Mihai Aldea

    DICIONARUL LIMBII ROMNE (DLR)

    N FORMAT ELECTRONIC.

    STUDII PRIVIND ACHIZIIONAREA

    Editura Alfa Iai 2005

  • 4

    Volum aprut cu sprijinul Ministerului Educaiei i Cercetrii. Refereni: Cercettor principal gr. I Cristina Florescu, Institutul de Filologie Romn A. Philippide, Academia Romn Filiala Iai Profesor universitar dr. Dan Cristea, Facultatea de Informatic, Universitatea Alexandru Ioan Cuza Iai

  • 5

    Mihai Eminescu: i fiindc spirit

    i limb sunt aproape identice, iar limba i naionalitatea asemenea, se vede uor c romnul se vrea pe sine, i vrea naionalitatea, dar aceasta o vrea pe deplin (Opere, vol. 9, Publicistica, Bucureti, Editura Academiei R.S.R., 1980, p. 252).

    Alain Danzin: n era electronic,

    este esenial pentru supravieuirea unei limbi ca ea s fie folosit n sistemele de informare electronic (Towards a European Language Infrastructure, 1992, CEC Doc. 54210/92).

    Introducere

    Acest volum prezint proiectul Dicionarul limbii romne (DLR) n format electronic. Studii privind achiziionarea, finanat de Ministerul Educaiei i Cercetrii (MEC) prin Consiliul Naional al Cercetrii tiinifice din nvmntul Superior (CNCSIS), desfurat n perioada 20032005 n Institutul de Filologie Romn A. Philippide al Academiei Romne Filiala Iai.

    Volumul se adreseaz deopotriv specialitilor n lexicografie i n lingvistic computaional precum i tuturor celor interesai de modalitatea de realizare a formatului electronic propriu DLR, n calitate de viitori utilizatori ai acestuia.

    Proiectul, a crui finalitate a fost descoperirea unei modaliti de transformare a DLR din text tiprit n text electronic adnotat1, uor de prelucrat cu ajutorul unui program specific, este rodul colaborrii ntre lingviti i informaticieni [vezi Anexa 1] i demonstreaz

    1 Textul electronic adnotat este un text analizat i marcat din punct de vedere formal astfel nct s poat fi consultat, corectat, modificat etc. de ctre specialitii lexicografi, cu ajutorul calculatorului.

    Exist posibilitatea extragerii din formatul complet a unei forme destinate numai consultrii, care s se adreseze unui public mai larg dect cel al specialitilor propriu-zii.

  • 6

    efectele constructive ale inter- i transdisciplinaritii, precum se ntmpl i n cazul altor proiecte finalizate printr-o astfel de colaborare2 n cadrul Academiei Romne.

    Materialul cuprins n volum este structurat n trei pri. Prima, Lexicografie romneasc tradiional, propune o perspectiv de ansamblu asupra evoluiei lexicografiei romneti, de la nceputuri pn n zilele noastre, cu focalizare asupra dicionarelor monolingve a celor cu caracter explicativ general i a celor academice. Se realizeaz astfel o punere n relief a contextului n care a fost iniiat proiectul fundamental al Academiei Romne, Dicionarul limbii romne, proiect a crui materializare a cunoscut destule avataruri de-a lungul unui secol. Dup o prezentare sumar a dicionarelor academice, se face o paralel ntre cele dou serii ale Dicionarului limbii romne DA (sigla volumelor publicate ntre 1906 i 1944, sub supravegherea lui Sextil Pucariu) i DLR (seria nou a Dicionarului, editat ncepnd cu anul 1965, sub coordonarea lui Iorgu Iordan, Alexandru Graur, Ion Coteanu i, ulterior, sub cea a lui Marius Sala i Gh. Mihil), pentru ca, n continuare, s fie prezentate trsturile generale specifice DLR, cele care confer valoare deosebit acestei lucrri. De asemenea, se schieaz realizrile de pn acum n domeniul informatizrii cercetrii lexicografice romneti.

    2 Un astfel de proiect, finalizat cu succes n Academia Romn, Filiala Iai la Institutul de Filologie Romn A. Philippide n colaborare cu Institutul de Informatic Teoretic, este Editarea asistat de calculator a Noului Atlas lingvistic pe regiuni. Moldova i Bucovina, ale crui rezultate situeaz Institutul ieean n avangarda cercetrii geografiei lingvistice romneti, prin mijloacele de lucru actuale create, comparabile cu cele utilizate n ri europene, avansate n acest domeniu. Ceea ce particularizeaz realizarea acestui proiect este faptul c s-a reuit crearea unor fonturi ce redau fidel aspectul fonetic al termenilor care apar scrii pe hart. Acetia nu sunt nlocuii de simboluri, ca n majoritatea lucrrilor de acest tip editate n Europa, astfel nct imaginea grafic a unui fenomen lingvistic este conservat pe suport electronic i poate fi transformat n instrument de analiz a limbii n variantele sale regionale din mai multe perspective (Informatizarea n cartografia lingvistic: NALR. Moldova i Bucovina, lucrare prezentat de Stelian Dumistrcel i Doina Hreapc la Atelierul de lucru Resurse Lingvistice Romneti i Instrumente pentru Prelucrarea Limbii Romne, publicat n http://consilr.info.uaic.ro). Un alt proiect de acest tip este Dicionarul explicativ al limbii romne (DEX), transpus n format electronic n cadrul Institutului de Cercetri pentru Inteligen Artificial (ICIA, www.racai.ro) al Academiei Romne, Bucureti.

  • 7

    A doua parte, Pai spre DLR informatizat, descrie modalitatea de realizare a principalelor obiective ale proiectului. n aceast parte, mai tehnic, sunt detaliate programul folosit, modalitatea de lucru, opiunea pentru folosirea unei euristici3 de parsare4 a textului DLR, aplicaia realizat (DLRex). Sunt schiate, de asemenea, perspectivele cercetrii lexicografice romneti, n special, i ale cercetrii lingvistice, n general, odat realizat dezideratul unui Dicionar al limbii romne informatizat, comparabil cu lucrri de acelai tip din ri romanice (Le Trsor de la langue franaise informatis, Dizionario De Mauro Paravia etc.).

    Anexele, care constituie partea a treia a volumului, cuprind informaii referitoare la echipa de cercetare, o list a lucrrilor realizate ori publicate n intervalul de desfurare a proiectului, lucrri referitoare direct ori indirect la tema de cercetare a grantului, precum i o serie de exemple ce completeaz subcapitolul referitor la filiaia sensurilor n DLR.

    n fine, rezumatul n limba englez publicat aici permite celor care nu cunosc ndeajuns limba romn dar sunt interesai de informatizarea acesteia s afle, fie i orientativ, care este situaia actual a studiilor realizate n vederea actualizrii mijloacelor de cercetare lexicografic din ara noastr.

    3 Euristica este neleas, n context computaional, ca o tehnic de

    rezolvare a problemelor care in cont la fiecare pas de rezultatele precedente i din care se deduce strategia de adoptat n continuare. Opuse metodelor algoritmice, metodele euristice nu garanteaz gsirea soluiei dup un numr finit de pai

    4 Parsarea, din punct de vedere computaional, este procedeul de analizare a unui ir de caractere (uzual text) pentru a determina structura gramatical a acestuia conform cu un formalism gramatical. n general parsarea se face n dou etape: identificarea token-ilor elementele primitive ale unui text structurat i construirea arborelui structurii sintactice care capteaz ierarhia implicit a datelor de intrare.

  • 8

  • 9

    Partea I Lexicografie romneasc tradiional

    1. Incursiune n tradiia lexicografic romneasc

    1.1. nceputurile lexicografiei romneti nceputurile lexicografiei romneti se situeaz n veacul al XVI-

    lea. Aproape simultan cu primele texte bisericeti traduse din limba slavon au aprut vocabulare bilingve slavo-romneti, n manuscris, din care s-au pstrat fragmente [Gheie, 1982: 365-464; cf. Bogdan, 1946]. Documentele cancelariilor domneti erau redactate n slavon la acea vreme i, de aceea, s-a impus realizarea unor glosare ori lexicoane care s slujeasc la nelegerea de ctre romni a acestei limbi. Alctuite rudimentar din liste bilingve, n care termenului slavon i se altur corespondentul romnesc, lucrrile din secolele al XVI-lea, al XVII-lea i unele chiar mai trzii nu respect ordonarea alfabetic a cuvintelor, iar n lista de cuvinte-titlu apar numeroase mbinri ori chiar propoziii, precum i nume proprii. Cu toate aceste minusuri, aceste lexicoane au slujit ca instrumente de lucru traductorilor de texte sacre, pstrndu-i valoarea documentar pentru lexicograful contemporan, ca surse pentru cele dinti atestri scrise ale unor cuvinte romneti.

    Sub influena filosofiei iluministe care domin cultura romn a sfritului de secol XVII i a secolului urmtor, dicionarele bilingve slavo-romne au fost nlocuite de dicionare bilingve sau poliglote n care elementul latin i cel romanic i mresc ponderea, iar numrul lucrrilor de acest tip sporete semnificativ. Pe de alt parte, centrul de greutate al lexicografiei romneti ncepe s se mute n Transilvania, care va avea contribuii nsemnate n domeniu vreme de dou secole [Seche, 1966: 8], dup ce secolul al XVII-lea aparinuse, integral, Munteniei.

    n ultimele dou decenii ale secolului al XVIII-lea apar primele dicionare tiprite. n felul acesta, lucrrile lexicografice cunosc o circulaie mult mai mare i devin resurse pentru redactarea dicionarelor ulterioare i instrumente uzuale pentru traduceri. Aflate sub semnul bilingvismului ori al poliglotismului, dicionarele din aceast perioad cunosc o evoluie ncununat de Lexiconul de la

  • 10

    Buda (Lesicon romanescu-latinescu-ungurescu-nemescu, Buda, 1825), lucrare ce marcheaz nceputul lexicografiei romneti moderne, fiind primul dicionar de mari proporii, explicativ i etimologic al limbii romne, tiprit n ntregime cu litere latine.

    Lexicografia romneasc se diversific i se specializeaz n secolul al XIX-lea; apar numeroase dicionare bilingve (dicionare germano-romne i romno-germane, francezo-romne i romno-franceze, latino-romne i romno-latine, maghi