Corpus Lingv

Post on 26-Oct-2015

67 views 0 download

description

prezentare corpus lingvistic

Transcript of Corpus Lingv

Lingvistica bazată pe corpus

Vlad Alexandra Cristina

Definiţie

Corpusul lingvistic este o colecţie de piese ale limbajului, selectate şi ordonate după un criteriu lingvistic cu scopul de a fi utilizat ca un eşantion al limbii (McEnery,2001:1)

ComponenţăUn corpus are o componenţă

heterogenă din punct de vedere

lingvistic.

Acesta poate fi împărţit în sub-corpuri care au aceleaşi proprietăţi, doar că sunt mai mici.

Un corpus sau un sub-corpus se copune din componenţi.

Un component este o colecţie omogenă de texte selectate în funcţie de anumite criterii lingvistice, ce îi asigură omogenitatea.

Limbajul ilustrat de un component se mai numeşte şi sub-limbaj.

Caracteristici ale corpusurilor- DIMENSIUNE (mărime)

- CALITATE (autenticitate)

- REPREZENTATIVITATE

- DOCUMENTARE (structură, convenţii)

Clasificarea corpusurilor

• Corpus textual (memorează limbajul scris) şi corpus de vorbire (bazat pe înregistrare)

• Corpus reprezentaţional şi corpus experimental

• Corpus public şi corpus privat

Clasificarea corpusurilorCorpusul special curpinde :

-texte de întindere mică, specifice, chiar fragmentare, clasificate în domeniul literar în funcţie de autor, gen, perioadă sau temă

-sau texte obţinute în condiţii experimentale sau artificiale, după nişte scenarii pregătite de lingvişti.

Clasificarea corpusurilor• Corpusul de referinţă:

• este foarte mare, cuprinde toate variaţiile relevante de limbă şi vocabularul comun al limbii;

• este folosit ca bază pentru gramatici fundamentale, dicţionare, tezaure şi alte materiale referitoare la limbă;

• este structurat ierarhic pe subcorpusuri şi componenţi

Clasificarea corpusurilor• Corpusul monitor introduce

dimensiunea diacronică a limbajului unui derivat al corpusurilor de referinţă pentru care activitatea de întreţinere se bazează pe noţiunea de “debit de limbă”.

• Acesta reprezintă volume constante de eşantioane de limbaj introduse în corpusul de referinţă.

Clasificarea corpusurilor

• Corpusul paralel este o colecţie de texte fiecare dintre ele fiind traduse în una sau mai multe limbi.

• Acesta ajută la conceperea unor instrumente de traducere cât mai adecvate şi sunt construite cu precădere pentru activităţile de comunicare în societăţile multilingve.

Clasificarea corpusurilor• Corpusurile comparabile sunt formate din două

sau mai multe corpusuri pentru limbi diferite ce conţin texte similare.

• Criteriile de similaritate sunt dificil de cuantificat, elementul esenţial referindu-se la sens.

Legătura cu lingvistica computaţională

• Un corpus este o colecţie computerizată de texte autentice adecvată prelucrării sau analizei automate sau semi-automate. Textele sunt selectate potrivit unor criterii explicite cu scopul de a capta regularităţile limbii, ale unei varietăţi de limbi sau ale unui sublimbaj.

Utilitatea corpusului- Lexicografie

- Teoria traducerii

- Invatarea limbii de catre vorbitori straini

- Observaţii asupra comportamentului lingvistic

- Cercetarea lingvistica

Bibliografie• McEnery Tony, Corpus Linguistics, Edinburgh University

Press Ltd, 2001• Tufiş Dan, Limbaj şi Tehnologie, Ed. Academiei

Române, Bucureşti, 1996• Cusen Gabriela, Language and society, Curs Optional,

Anul II, Semestrul II, Brasov, 2010• www.wikipedia.com