Subiecte 2013 Analiza datelor

download Subiecte 2013 Analiza datelor

of 9

Transcript of Subiecte 2013 Analiza datelor

  • 7/25/2019 Subiecte 2013 Analiza datelor

    1/9

    Subiecte

    1. Definiti si caracterizati principalele concepte utilizate n analiza datelor (populatie,esantion, observatie, variabile etc.)

    1) Data

    SCOP: defineste intrarileoricarui process de analiza a datelor materia primasupusa prelucrarii iesirile, rezultatelesi concluziileobtinute

    Datele= semnale si mesajeprovenite din realitatea inconjuratoare, pe baza carorareceptorulisi formeaza o anumita imaginedespre respectiva realitate, poate obtineunanumit grad de cunoasterea acelei realitatiDatelein AD= expresia cantitativa si calitativaale unor fenomene si procese dinrealitatea inconjuratoare

    Clasificare: cantitative calitative mixte

    ) Populatie (colectivitate generala) =multimeatuturor masuratorilor efectivesauconceptualecare prezinta interespt cercetator sau experimentator.

    SCOP: obiectul de studiu global al !D =" se obtin estimatiipt o serie de marimi specifice aceleiasi populatii statistice, se efectueaza predictiiptstructurareape tipologiisau pt evolutiapopulatiei

    statistice

    Populatia statistica= totalitatea observatiilorposibile dintr#un studiu Clasificare:

    finita infinita

    $) santion(parte a unei populatii) = submultimede masuratori selectatedintr#opopulatie, o submultime a populatiei statistice supusa investigatiei stiintifice %&': baza informationala utilizata in procesele de !D

    ) Observatii= valoareasau setul de valori inregistrate pt o anumita unitateelementara apopulatiei, la una sau mai multe caracteristici ale acesteia

    (valori luate de variabilele supuse analizei)SCOP: unitatea elementarade informatie utilizata in procesele de prelucrare=" multimea observatiilor = baza informationalaa !Desantion

    *) !ariabilele= abstractizariale multimii de valori posibilepe care le poate inregistra ocaracteristicaa unui anumit fenomen.

    +nitatile supuse efectiv procesului de masurare si inregistrare sunt alese dupa criteria sireguli precise, fundamentate riguros dpdv statistic#matematic. alorile pe care le iaucaracteristicile unitatilor studiate prin intermediul acestui procedeu formeaza esantionulde observatii"

    . &e sunt variabilele si cum se clasifica acestea

    ot fi exprimate sub forma cantitativa

  • 7/25/2019 Subiecte 2013 Analiza datelor

    2/9

    !ariabilele= abstractizariale multimii de valori posibilepe care le poate inregistra ocaracteristicaa unui anumit fenomen.

    Clasificaredupa natura: Calitative = difera prin tip, se refera la proprietati nenumericeale

    unitatilor elementare apartinand unei populatii si nupot fi exprimatenumeric (ex: sexul, profesia)

    Cantitative = difera prin marime#se refera la proprietatinumericealeunitatilor elementare dintr#o populatie si sunt exprimatein unitatinumerice: de lungime, greutate, valorice etc (ex: pret, salariu mediulunar)

    Clasificaredupa natura valorilorpe care le iau: De tip discret(variabile categoriale)= pot lua o multime limitata, finita

    de valori De tip continuu= pot lua valori apartinand unui interval continuu

    $. &e este scala de masurare si care sunt principalele tipuri de scale de masurare utilizate nanaliza datelor O scalareprezinta un etaloncorespunzator, care stabileste moduldupa care suntatribuite valori variabilelor- a defini o scala de masurare este ecivalent cu:

    ! stabili o multime de valori posibileale variabilei, o multime numita si spatiude selectie

    ! preciza reguliledupa care sunt atribuite simboluri pt elementele unei realitatidate, adica a defini o structura a spatiului de selectie

    Clasificare:

    %cale de tip non-metric %cala nominala %cala ordinala

    %cale de tipmetric: %cala interval %calaraport

    . Definiti si caracterizati scala nominala si scala ordinala. /videntiati operatiile posibile peaceste tipuri de scale.Scala nominala= scala non$metrica, prin intermediul careia valorilor posibile alecaracteristicilor masurate li se atribuie simboluri fara relevanta numerica, in functie denatura acestor valori (ex: genul unei persoane)

    t caracteristicile masurate pe scala nominala, poate fi calculate un nr limitat deindicatoristatistici, care reprezinta contorizariale simbolurilor aparute pe scalanominala. 0ndicatorii sunt: modululsifrecventa. oate fi evidentiata si distributia defrecventa.

    Scala ordinala= scala non$metrica#prin intermediul careia valorilor posibile alecaracteristicilor li se atribuie numere de ordine sau ranguri, in functie depozitiaacestor valori intr#o ierar%ie.(ex: nivelul studiilor)t caracteristicile masurate pe scala ordinala, pot fi calculate o serie de indicatori statisticicum ar fi: modulul, mediana, coeficientulde corelatie a rangurilor,frecventa. %e poateevidentia si distributia de frecventa. (media si diferentele valorilor variabilelor ordinale

    sunt nerelevante, nuau sens informationalsi nici senslogic)

  • 7/25/2019 Subiecte 2013 Analiza datelor

    3/9

    *. Definiti si caracterizati scala interval si scala raport. /videntiati operatiile posibile peaceste tipuri de scaleScala interval= scala &uasi$metrica, prin intermediul careia valorilor posibile alecaracteristicilor masurate li se atribuie valori numerice, fara ca pt acest valori numericesa existe o origine prestabilita(ex: durata programului de lucru)e langa operatiilepremise pe primele doua scale, scala interval permite: calcululmediei, calculul abaterii standard, calculul momentelor, calculul coeficientilorde

    corelatiePearson.

    %cala raport = scala metrica, prin intermediul careia valorilor posibile pe care le pot luacaracteristicile masurate li se atribuie numere definite in raportcu o origineprestabilita. (ex: pretul)entru aceasta scala sunt permise toate operatiiledefinite pentru variabilele numerice.

    . &are sunt principalele moduri de reprezentare (matriciala) a informatiilor n analizadatelor. Definiti si exemplificati fiecare dintre aceste moduri/xista ' forme matricialeprincipale:

    2atrici de observatii

    2atrici sau tabele de contingenta 2atrici sau tabele deproximitate

    (atrici de observatii matrici de tip obiecte x caracteristici)= tablou rectangularin careliniile*observatii) reprezinta obiectelesupuse masuratorilor, iar coloanele *variabile)reprezinta caracteristicileobiectelor.(elementele tablouluireprezinta valori inregistrate in procesul de masurare(=scoruri) ptcaracteristicile obiectelor supuse masuratorilor)

    Exemplificare:

    3ie 4 = nr obiectelor supuse analizei si n=nr de caracteristici ale obiectelor =" matricea de

    observatii este:

    (atrici de contingenta(de tip modalitati x modalitati) = tablouri de dimensiune mxn,folosite pt a reprezenta datele referitoare la frecventele relativesau absoluteinregistrate pe omultime de obiecte de valorile a variabile de tip discret, prima variabila, notata cu u valorepe linie), avand m valori posibile, iar ce#a de#a doua variabila notata cu v valore pe coloana),avand n valori posibile.

    Exemplificare: +n element xij= frecventa#relativasau absoluta, a obiectelor pt care primavariabila ia valoarea ui, iar ce#a de#a doua variabila ia valoarea vj. /lementul arata la cateobiectecele + variabileanalizate au simultanvalorile ui si vj.

    aloarea inregistratapentru ce#a de#a + j)caracteristica a obiectului1i)

    ' liniei) defineste un obiect 'ireprezinta valorileinregistratede obiectul ila cele ncaracteristicipe care le poseda

    ' coloana(j) reprezintavalorileinregistrate decaracteristica jpemultimea tuturor obiectelor

  • 7/25/2019 Subiecte 2013 Analiza datelor

    4/9

    (atrici de proximitate (de tip obiecte x obiecte) = matrici patraticede dimensiune nxn,utilizate pt reprezentarea datelor cu privire la similaritatea sau nesimilaritateaunor obiecte.Ordinul acestor matrici e determinat de nr obiectelorsupuse studiului.Exemplificare: +n element xijmasoara gradul de proximitatedintre obiectulisi obiectulj

    5. Definiti principalii indicatori (unidimensionali) cu ajutorul carora este sintetizata tendintacentrala sau locatia sau pozitia (inclusiv relatii de calcul si proprietati). !ratati ca mediaeste o sinteza optimala pentru o multime de observatii

    a) 2ediab) 2edianac) 2odul

    6. Definiti principalii indicatori (unidimensionali) cu ajutorul carora este sintetizatavariabilitatea (inclusiv relatii de calcul si proprietati).

    7 Definiti varianta simpla, varianta totala si varianta generalizata. Deduceti si interpretativarianta generalizata. !ratati ca varianta generalizata este egala cu determinatul matricii decovarianta18. Definiti principalii indicatori (unidimensionali) cu ajutorul carora sunt sintetizate legaturile(inclusiv relatii de calcul si proprietati)

    a. Covarianta * masura a variantei simultane a variabile, fiind, in valoareabsoluta cu atat mai mare cu cat valorile absolute ale variatiilor celor variabilein jurul mediei sunt mai apropiate ca magnitudine, evidentiind o anumitaproportionalitatepe multimea subiectilor studiati. (= expresie numericaagradului de asociere a caracteristici ca urmare a faptului ca, in toate cazurile incare variabile sunt semnificativ legate intre ele o varianta intr#un sensa uneia

    dintre ele, va determina o variatie proportionalade acelasisens (leg directa)sau de sens contrar(leg inversa) a celeilalte variabileRelatii de calcul:

    0n cazul a + variabile xi si xj se foloseste formula

    0n cazul in care cele + variabile coincid, adica xi*xj, covariantacoincide

    cu varianta:

    Proprietati:

    2arime nescalata -uare o margine superioara(in valoare absoluta, covarianta are o

    margine inferioara, reprezentata de valoarea 8 = lipsa asociere de tipliniar)

    11. Defini9i si interpretati corelatia si coeficientul de corelatie

  • 7/25/2019 Subiecte 2013 Analiza datelor

    5/9

    1. Definiti datele de tip profil, de tip cronologic (serii de timp) si de tip panel. /xemplificatifiecare dintre cele trei tipuri Date de tip profil(= date de tip secventa sectiune)=informatiiobtinute prin masuratoride natura statica, efectuate asupra caracteristicilor unor unitati ale unei populatii, la acelasimoment de timp.Exemplificare: date referitoare la salariul individualdintr#o lunaal lucratorilor unei firme.

    Date de tip cronologic= informatiiobtinute prin masuratoride natura dinamica, efectuate

    asupra caracteristicilor unei unitati a unei populatii la momente sau intervale succesivede timp.Exemplificare: date care se refera la evolutia in timpa stariiunei gospodariiDate de tip panel= informatii obtinute prin masuratori mixte(static ; diamic), efectuateasupra caracteristicilor acelorasi unitatiale unei populatii la momentesau in intervalesuccesivede timp.Exemplificare: bugetulde familie

    1$. Definiti datele de tip observational si de tip experimental. /xemplificati fiecare categorie

    Date experimentale= informatiiobtinute prin organizarea unor experimente controlate, incare influentele factorilor asupra efectului sunt controlate in mod direct, prin fixarea unor

    combinatii precise de influente.Exemplificare: date caracteristice unor domenii de cercetare(in care se fac experimente) si >.

    2edia celei de#a i#a variabile

  • 7/25/2019 Subiecte 2013 Analiza datelor

    6/9

    o 2atricea de covariantaDaca nr de variabile analizate este n, covariantele dintre orice variabile pot fi aranjatesub forma unei matrici patrate si simetrice, de dim nxn, numita matrice de covarianta.

    o 2atricea de corelatie

    1. &e este analiza componentelor principale. /videntiati cinci categorii de probleme care pot fisolutionate cu ajutorul tenicilor de analiza a componentelor principaleAnaliza componentelor principale= tenica de analiza multidimensionalacare are ca scopdescompunerea variabilitatiitotale din spatial cauzal initial sub forma unui nr redus decomponente si fara ca aceasta descompunere sa contina redundante informationale.!naliza componentelor principale poate rezolva urmatoarele categorii de probleme:

    # eliminarea redundantelor informationale-# reducerea dimensionalitatii spatiului causal -# compresia si restaurarea datelor-# simplificarea modelelor matematice-# selectarea variabilelor de influenta-

    15. 0nterpretati logica analizei componentelor principale (inclusiv din punct de vedere geometric)?n acest sens, vom considera contextul numeric oferit de exemplul urm@tor, context care va servica referin @ pentru multe din interpret@rile i exemplific@rile ulterioare.

    /xemplu:

    om considera cazul unui num@r de 18 obiecte sau observa ii, referitoare la dou@variabile, .1 i .+. 4abelul urm@tor con ine observa iile ini iale disponibile pentru cele dou@ variabile, precum i valorile centrate ce corespund acestor observa ii.

  • 7/25/2019 Subiecte 2013 Analiza datelor

    7/9

    alorile observa iilor ini iale i centrate

    Observa ia!alori ini iale !alori centrale

    .1 .+

    '1 5,8 18,8 8, #8,*' *,8 11,8 #1, 8,*'$ 18,8 1*,8 $, ,*

    ' ,8 *,8 #, #*,*'* *,8 18,8 #1, #8,*' ,8 1$,8 #8, ,*'5 5,8 1,8 8, 1,*'6 7,8 11,8 , 8,*'7 5,8 6,8 8, #,*'18 ,8 18,8 #8, #8,*

    (edia /#0 1#2

    !arian a 0#3'' 4#'53 0#3'' 4#'53

    arian a individual@ pentru fiecare din cele dou@ variabile este ,7$$, respectiv 5,$67, iarvarian a total@, corespunz@toare celor dou@ variabile, .1 i .+ este 1,$:

    S11 * 0#3''6 S++ * 4#'536 !, * 1+#'++"

    ?n aceste condi9ii, se poate spune c@ rolul informaionalal celor dou@ variabile esteaproximativ acelai, c@ cele dou@ variabile au aproximativ aceeaAi contribu9ie la formareavariabilit@9ii totale ce caracterizeaz@ spa9iul cauzal ini9ial. rima variabil@ are o contribu9ie laformarea varian9ei totale de ,*B, iar cea de#a doua variabil@ contribuie cu *$,**B laformarea varian9ei totale:

    * 0/#0276 * 2'#227"

    entru observa9iile din tabelul anterior, matricea produselor ncruciAate, matricea decovarian9@ Ai matricea de corela9ie, corespunz@toare celor dou@ variabile .1 i .+, sunturm@toarele:

    C * S * 8 *

    ?n cazul observa9iilor centrale, matricea produselor ncruciAate, matricea de covarian9@ Aimatricea de corela9ie sunt urm@toarele:

    C * S * 8 *

    Dup@ cum se poate observa, n urma opera iei de centrare se modific@ doar matriceaproduselor ncruci ate, matricea de covarian @ i matricea de corela ie r@mCnCnd nescimbate. 2atricea de corela ie eviden iaz@ faptul c@ cele dou@ variabile sunt corelate, la nivelulunuicoeficient de corela ie de 8,5$, adic@:

  • 7/25/2019 Subiecte 2013 Analiza datelor

    8/9

    r1+* r+1* #4'/

    !vCnd n vedere intensitatea relativ ridicat@ a leg@turii dintre cele dou@ variabileoriginale, este de aAteptat ca aceste variabile s@ poat@ fi sintetiate prin intermediul unei singurecomponente principale, n condi9iile unei pierderi informa9ionale minime.

    16. Definiti componentele principale si mentionati proprietatile acestora&omponentele principale sunt variabile vectoriale abstracte, definite sub forma unor

    combina ii liniare de variabilele originale.Propriet ile componentelor principale sunt:

    %unt necorelate dou@ cCte dou@ i suma p@tratelor coeficien ilor care definesc combina ia

    liniar@ ce corespunde unei componente principale este egal@ cu unitatea- rima component@ principal@ este o combina ie liniar normalizat a crei varian este

    maxim, cea de#a doua component@ principal@ este o combina ie liniar@ necorelat@ cuprima component@ principal@ i care are o varian @ cCt mai mare posibil@, ns@ mai mic@ decCt cea a primei componente etc.

    17. 3ormulati modelul matematic al analizei componentelor principale, definiti si interpretatimarimile definitorii ale acestuia &onsideram ca spatiul cauzal initialsupus investigarii este determinat de un nr de nvariabile(=caracteristiciale obiectelor supuse analizei) explicativenotate cu x1,xExn.(fiecare obiect este caracterizat de n variabile)!ctivitatea de determinare a componentelor principale poate fi descries prin intermediul uneitransformari de tipul:arimi definitorii:

    8. 0lustrati modul de deducere a componentelor principale

    1. Definiti si justificati $ dintre proprietatile componentelor principaleo arianta fiecarui componente principale este maxima si este egala cu o valoare proprie a

    matricii de covarianta.o

    &omponentele principale sunt necorelate doua cate doua, aceasta proprietate esteecivalenta cu proprietatea de independenta in cazul in care componentele principale suntdistribuite dupa legea de probabilitate normal

    o

    . 0nterpretati vectorii si valorile proprii ale matricii de covarianta

    $. &e sunt scorurile principale si cum se determina acestea. De ce este necesara determinareascorurilor principale. &e este matricea factor (matricea de corelatie intre variabilele originale si componentele

    principale). &um se calculeaza si cum se interpreteaza elementele sale

    %patii vectoriale reale, dim celuide#al doilea este FF decat dimrimului Fn

  • 7/25/2019 Subiecte 2013 Analiza datelor

    9/9

    *. Detaliati modul n care pot fi interpretate componentele principale n termeni cu semnificatieconcreta. /xemplificati. &riterii de alegere a numarului de componente principale5. &e este analiza factoriala si ce tipuri de probleme pot fi rezolvate cu ajutorul acesteia6. %tructura generala a modelului de analiza factoriala7. Definiti si interpretati descompunerea variabilitatii n contextul analizei factoriale

    $8. &e sunt scorurile factor, cum se calculeaza si cum se interpreteaza acestea

    $1. 2etode de estimarea modelului factorial$. Definiti recunoasterea formelor si exemplificati cCteva dintre aplicatiile acesteia n domeniuleconomico#financiar.$$. Definiti principalele concepte ale recunoasterii formelor$. 3ormulati problema generala a clasificarii$*. Definiti sistemele de recunoastere controlata si necontrolata$. &e este analiza cluster, care sunt conceptele fundamentale ale acesteia si care sunt domeniileutilizarii ei

    $5. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate n analiza cluster$6. Definiti analiza cluster si aratati cum se clasifica metodele de analiza cluster$7. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor dintreforme8. 3ormulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea inter si intracluster (cazul uni#dimens)1. 3ormulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea inter si intracluster (cazul n#dimens). 2etode de evaluare a distantelor dintre clustere$. Descrieti analiza cluster de tip ieraric si mentionati care sunt cele doua categorii declasificare ierarica

    . Descrieti metoda agregarii simple de analiza cluster*. Descrieti metoda agregarii complete de analiza cluster. Descrieti metoda agregarii medii de analiza cluster5. Descrieti metoda centroidului de analiza cluster6. Decrieti metoda lui Gard de analiza cluster7. Descrieti algoritmul #means*8. &e este dendrograma (arborele de clasificare ierarica) si cum se construieste aceasta*1. &um se alege numarul de clustere n cazul clasificarilor de tip ieraric*. 3ormulati problema generala a recunoasterii supervizate a formelor si mentionati catevadomenii de utilizare*$. Definiti scopurile recunoasterii supervizate a formelor si descrieti tipul informatiilor utilizate

    n recunoasterea supervizata*. &e sunt clasificatorii de tip liniar. Descrieti logica discriminarii liniare si spatiul discriminat**. Definiti functiile discriminant liniare, variabilele discriminant si scorurile discriminant*. Descrieti clasificatorul Haesian si aratati cum poate fi utilizat acesta in predictiaapartenentei formelor*5. Descrieti forma clasificatorului Haesian in cazul normalitatii si omoscedasticitatii claselor*6. Descrieti clasificatorul liniar 3iser si aratati cum poate fi utilizat acesta in predictiaapartenentei formelor*7. Descrieti clasificatorul 2aalanobis si aratati cum poate fi utilizat acesta in predictiaapartenentei formelor8. Descrieti modul de stabilire a abilitatii predictive a unui clasificator si matricea corectitudinii

    clasificarii