Subiecte Data Mining

download Subiecte Data Mining

of 6

Transcript of Subiecte Data Mining

  • 7/25/2019 Subiecte Data Mining

    1/6

    21. Definiti si justificati 3 dintre proprietatile componentelor principaleDistribuirea dupa legea normala

    -normalitatea componentelor principale rezulta din faptul ca acestea sunt combinatii liniare de cele n var. originale care, prin

    ipoteza, sunt variabile normale.

    Conservarea variantei totale

    Conservarea variantei generalizate

    -evidentiaza calitatea informationala pe care o au componentele principale de a reprezenta o reexprimare a variabilelor originale.

    Dependenta de unitatile de masura-odata cu schimbarea unitatilor de masura ale var. originale se schimba atat componentele

    principale, cat si variantele acestora.

    22. Interpretati vectorii si valorile proprii ale matricii de covarianta

    Valorile proprii=variantele corespunzatoare componentelor principale

    23. Ce sunt scorurile principale si cum se determina acestea. De ce este necesara determinarea scorurilor principale

    In AC, coordonatele obiectelor in spatiul redus s.n scoruri principale ale obiectelor.

    -!mat scorurilor"iniile matricii # reprezinta scorurile coresp noilor variabile. $corurile principale sunt mai

    potrivite pt a fi folosite in analize, fiind mai putin afectate de erori, in comparatie cu masuratorile

    originale. %iind mai robuste in raport cu perturbatiile induse de erori, sunt mai importante dpdvinformational decat var originale.

    24. Ce este matricea factor (matricea de corelatie intre variabilele originale si componentele principale). Cum se

    calculeaza si cum se interpreteaza elementele sale

  • 7/25/2019 Subiecte Data Mining

    2/6

    - coef de corelatie dintre variabila standardizata &i si comp principala

    #'.(lementele ) s.n intensitatile factorilor-!indicatori ai masurii in care variabilele originale

    participa la formarea componentelor principale sau ai masurii in care comp principalesintetizeaza informatia continuta in var originale.Daca var sunt standardizate

    In ) suma patratelor elementelor din fiecare coloana coincide cu varianta comp principale

    asociata coloanei respective

    2. Criterii de alegere a numarului de componente principale

    Criteriul pantei- se reprezinta grafic cele n valori proprii intr-un grafic in care abscisa reprezintanr de ordine al valorii proprii. $e efectueaza o taietura in abscisa a.i la dreapta taieturii sa ramana

    o dreapra* se alege ne de comp la care graficul se aplatizeaza.

    Criteriul +aiser-utilizat numai in situatia in care car originale sunt standardizate. Conform

    acestuia, se aleg numai comp ale caror varianta!=.

    Criteriul procentului de acoperire-!

    $e aleg comp principale atunci cand p!./0

    Criteriul statistic-!se genereaza un nr f mare de matrici &txn de observatie din repartitia normala12,3. $e efectueaza cate o analiza a comp principale pe fiecare set de inf astfel generate si se

    retin n valori proprii.

    $e mediaza 2pe fiecare coloana3 valorile proprii4 $e reprezinta grafic atat valorile originale, cat si

    mediile de la pasul anterior. 1r comp principale se identifica in pct de minim al primei scaderi

    abrupte a graficului.

    32. Definiti recunoasterea formelor si e!emplificati c"teva dintre aplicatiile acesteia #n domeniul economico$financiar.

    5eoria recunoasterii formelor-!totalitatea normelor, principiilor, metodelor si instrumentelor de

    analiza si decizie utilizate in scopul de a identifica apartenenta unor forme sau obiecte la

    anumite clase cu individualitate bine determinata.6ecunoasterea formelor cunoaste in prezent aplicatii a caror paleta se intinde de la cercetarea

    antropologica si pana la proiectarea hard7are si soft7are* utilizarea larga in procesul de analiza a

    datelor si in activitatea de predictie4 identificarea unor caracteristici definitorii pt. diverse

  • 7/25/2019 Subiecte Data Mining

    3/6

    categorii de fenomene, delimitarea functionala, ierarhizarea structurala sau sintetizarea

    informationala a unor procese economico-sociale.

    33. Definiti principalele concepte ale recunoasterii formelor

    %orma8obiectul-!entitate informationala individuala, caracterizata printr-un vector n-

    dimensional, ale carui componente definesc valorile caracteristicilor acestuia si care face obiectulde clasificare8predictie.

    Clasa8grupa8clusterul-!entitate inf distincta si cu semnificatie concreta, formata din totalitatea

    obiectelor ale caror caracteristici sunt aproape identice, fiind semnificativ diferite decaracteristicile obiectelor din alte clase.

    Clasificatorul8criteriul de clasificare-!multimea de reguli pe baza carora obiectele care apartin

    multimii analizate sunt atribuite unor clase bine definite.

    34. %ormulati problema generala a clasificarii

    9C4 %iind data o multime de obiecte, sa se det criteriul8regula care sa descrie apartenenta

    obiectelor la clasele sub forma carora se structureaza respectiva multime de obiecte* clasificare

    2ne3controlata.

    Dupa stabilirea criteriului de clasificare, se pot face predictii privind apartenenta la o anumitaclasa a noi obiecte* urmeaza testarea calitatii clasificatorului, utilizand matricea corectitudinii

    clasificarii.

  • 7/25/2019 Subiecte Data Mining

    4/6

    3&. Definiti sistemele de recunoastere controlata si necontrolata

    1econtrolata-!nu se dispune de informatiile initiale referitoare la nr de clase si la apartenenta

    formelor la anumite clase, construirea claselor facandu-se progresiv2pe masura cresterii nr deforme analizate3, nr de clase posibile fiind stabilit doar in faza finala a recunoasterii. 1u se

    cunoaste apartenenta obiectelor la o clasa sau alta=!analiza cluster-!tehnica de clasificare in care

    gruparea formelor in clustere se face progresiv, fara a cunoaste aprioric nr de clase a.i obiectelesa fie cat mai similare in interiorul clasei si sa se diferentieze cat mai mult de obiectele din

    celelalte clase.

    Controlata-! se pp. existenta apriorica a unui nr dat de clase si a unui set deforme2prototipuri8referinte3- esantion de obiecte extrase din populatie=set de invatare- a caror

    apartenenta la aceste clase este cunoscuta. Din aplicarea tehnicilor de clasificare controlata

    rezulta un set de reguli si criterii de clasificare* in analiza discriminanta, clasificatorul estereprezentat de functiile discriminant8fc de clasificare.

    3. Ce este analiza cluster' care sunt conceptele fundamentale ale acesteia si care sunt domeniile utilizarii ei

    5henica de clasificare in care gruparea formelor in clustere se face progresiv, fara a cunoasteaprioric nr. de clase a.i obiectele sa prezinte cat mai multe similaritati in interiorul clasei si sa se

    diferentieze cat mai mult de restul obiectelor clasificate in celelalte clase.Clusterul=submultime formata din obiecte care au prop ca gradul de disimilaritate dintre oricare: obiecte din cluster este mai mic decat gradul de disimilaritate dintre orice obiect din cluster si

    unul din afara sa* regiune a unui spatiu multidimensional, caract printr-o densitate relativ mare de

    puncte si obiecte.6ezultatele unei analize cluster4 o solutie cluster sau o ierarhie 2mai multe solutii cluster3-! pe

    baza efectuarii unei ;taieturi< in ierarhie, se poate alege configuratia obiectelor pe un anumit nr

    de clustere.Des intalnita in domeniul maretingului, in investigatiile de natura psihosociala sau in evaluarile

    economico-sociale la nivel teritorial. 6+-! studierea comportamentului consumatorilor.

    3. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate #n analiza cluster

    $copuri4

    - Clsificarea unei multimi de obiecte- 6educerea unor multimi de obiecte8variabile la un nr mai restrans de entitati

    informationale=clase8clustere

    - Clasificarea obiectelor, dar si a variabilelor care definesc obiectele- Cautarea si identificarea de clase in cadrul unor multimi de obiecte8forme a.i elementele

    din aceeasi clasa sa fie cat mai asemanatoare, iar cele din clase diferite sa fie cat mai

    deosebite intre ele.5ipuri de info4

    asurarea gradului de proximitate-!indicatori de similaritate, ind de disimilaritate.$imilaritate mare=! obiecte mai apropiate* disimilaritate mare=! obiecte mai diferite,

    distantate.Informatiile utilizate in analiza cluster sunt reprezentate sub forma unor matrici simetrice

    numite matrici de proximitate, de similaritate, de asociere, de incidenta, de disimilaritate sau

    de distanta.-!mat de proximitate contin indicatori de disimilaritate2distante3 sau desimilaritate pt toate perechile posibile de obiecte8variabile. >aza inf pt det mat de prox = mat

    de observatii-!pot contine fie rez masuratorilor directe, fie rez obtinute in urma unor

  • 7/25/2019 Subiecte Data Mining

    5/6

    transformari specifice asupra variabilelor originale* categoria a doua4 scorurile comp

    principale8 a factorilor, obtinute prin efectuarea unei AC sau a unei analize factoriale.

    3. Definiti analiza cluster si aratati cum se clasifica metodele de analiza cluster

    De tip ierarhic -!nr de clustere nu este cunoscut aprioric-!produc mai multe solutii cluster,

    numite ierarhii cluster, care difera intre ele prin nr de clustere incluse si gradul de agregare alclusterelor. -! algoritmi de agregare si alg de dezagregare.

    De tip iterativ-!produc o structura cluster formata dintr-o singura solutie cluster-!include un

    nr fixat de clustere, acesta fiind fixat aprioric.etode euristice-!includ proceduri de clasificare dezvoltate pe baza unei

    euristici=modalitate intuitiva de solutionare dedusa pe baza unor rationamente teoretice sau

    pe baza unor obs statisticeetode algoritmice-!alg de solutionare a problemei2operatii, pasi, proceduri care det

    obtinerea unui rezultat8solutie3

    3*. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor dintre forme

    Distanta-! gradul de departare dintre : obiecte2proximitatea dintre obiecte3

    Distanta euclidiana-! masoara departarea dintre : obiecte sau variabile ;in linie dreapta