Evaluarea de risc_si_impact_asupra_starii_de_sanatate_a_populatiei a Romaltyn Mining
Subiecte Data Mining
-
Upload
irina-gabriela -
Category
Documents
-
view
216 -
download
0
Transcript of Subiecte Data Mining
-
7/25/2019 Subiecte Data Mining
1/6
21. Definiti si justificati 3 dintre proprietatile componentelor principaleDistribuirea dupa legea normala
-normalitatea componentelor principale rezulta din faptul ca acestea sunt combinatii liniare de cele n var. originale care, prin
ipoteza, sunt variabile normale.
Conservarea variantei totale
Conservarea variantei generalizate
-evidentiaza calitatea informationala pe care o au componentele principale de a reprezenta o reexprimare a variabilelor originale.
Dependenta de unitatile de masura-odata cu schimbarea unitatilor de masura ale var. originale se schimba atat componentele
principale, cat si variantele acestora.
22. Interpretati vectorii si valorile proprii ale matricii de covarianta
Valorile proprii=variantele corespunzatoare componentelor principale
23. Ce sunt scorurile principale si cum se determina acestea. De ce este necesara determinarea scorurilor principale
In AC, coordonatele obiectelor in spatiul redus s.n scoruri principale ale obiectelor.
-!mat scorurilor"iniile matricii # reprezinta scorurile coresp noilor variabile. $corurile principale sunt mai
potrivite pt a fi folosite in analize, fiind mai putin afectate de erori, in comparatie cu masuratorile
originale. %iind mai robuste in raport cu perturbatiile induse de erori, sunt mai importante dpdvinformational decat var originale.
24. Ce este matricea factor (matricea de corelatie intre variabilele originale si componentele principale). Cum se
calculeaza si cum se interpreteaza elementele sale
-
7/25/2019 Subiecte Data Mining
2/6
- coef de corelatie dintre variabila standardizata &i si comp principala
#'.(lementele ) s.n intensitatile factorilor-!indicatori ai masurii in care variabilele originale
participa la formarea componentelor principale sau ai masurii in care comp principalesintetizeaza informatia continuta in var originale.Daca var sunt standardizate
In ) suma patratelor elementelor din fiecare coloana coincide cu varianta comp principale
asociata coloanei respective
2. Criterii de alegere a numarului de componente principale
Criteriul pantei- se reprezinta grafic cele n valori proprii intr-un grafic in care abscisa reprezintanr de ordine al valorii proprii. $e efectueaza o taietura in abscisa a.i la dreapta taieturii sa ramana
o dreapra* se alege ne de comp la care graficul se aplatizeaza.
Criteriul +aiser-utilizat numai in situatia in care car originale sunt standardizate. Conform
acestuia, se aleg numai comp ale caror varianta!=.
Criteriul procentului de acoperire-!
$e aleg comp principale atunci cand p!./0
Criteriul statistic-!se genereaza un nr f mare de matrici &txn de observatie din repartitia normala12,3. $e efectueaza cate o analiza a comp principale pe fiecare set de inf astfel generate si se
retin n valori proprii.
$e mediaza 2pe fiecare coloana3 valorile proprii4 $e reprezinta grafic atat valorile originale, cat si
mediile de la pasul anterior. 1r comp principale se identifica in pct de minim al primei scaderi
abrupte a graficului.
32. Definiti recunoasterea formelor si e!emplificati c"teva dintre aplicatiile acesteia #n domeniul economico$financiar.
5eoria recunoasterii formelor-!totalitatea normelor, principiilor, metodelor si instrumentelor de
analiza si decizie utilizate in scopul de a identifica apartenenta unor forme sau obiecte la
anumite clase cu individualitate bine determinata.6ecunoasterea formelor cunoaste in prezent aplicatii a caror paleta se intinde de la cercetarea
antropologica si pana la proiectarea hard7are si soft7are* utilizarea larga in procesul de analiza a
datelor si in activitatea de predictie4 identificarea unor caracteristici definitorii pt. diverse
-
7/25/2019 Subiecte Data Mining
3/6
categorii de fenomene, delimitarea functionala, ierarhizarea structurala sau sintetizarea
informationala a unor procese economico-sociale.
33. Definiti principalele concepte ale recunoasterii formelor
%orma8obiectul-!entitate informationala individuala, caracterizata printr-un vector n-
dimensional, ale carui componente definesc valorile caracteristicilor acestuia si care face obiectulde clasificare8predictie.
Clasa8grupa8clusterul-!entitate inf distincta si cu semnificatie concreta, formata din totalitatea
obiectelor ale caror caracteristici sunt aproape identice, fiind semnificativ diferite decaracteristicile obiectelor din alte clase.
Clasificatorul8criteriul de clasificare-!multimea de reguli pe baza carora obiectele care apartin
multimii analizate sunt atribuite unor clase bine definite.
34. %ormulati problema generala a clasificarii
9C4 %iind data o multime de obiecte, sa se det criteriul8regula care sa descrie apartenenta
obiectelor la clasele sub forma carora se structureaza respectiva multime de obiecte* clasificare
2ne3controlata.
Dupa stabilirea criteriului de clasificare, se pot face predictii privind apartenenta la o anumitaclasa a noi obiecte* urmeaza testarea calitatii clasificatorului, utilizand matricea corectitudinii
clasificarii.
-
7/25/2019 Subiecte Data Mining
4/6
3&. Definiti sistemele de recunoastere controlata si necontrolata
1econtrolata-!nu se dispune de informatiile initiale referitoare la nr de clase si la apartenenta
formelor la anumite clase, construirea claselor facandu-se progresiv2pe masura cresterii nr deforme analizate3, nr de clase posibile fiind stabilit doar in faza finala a recunoasterii. 1u se
cunoaste apartenenta obiectelor la o clasa sau alta=!analiza cluster-!tehnica de clasificare in care
gruparea formelor in clustere se face progresiv, fara a cunoaste aprioric nr de clase a.i obiectelesa fie cat mai similare in interiorul clasei si sa se diferentieze cat mai mult de obiectele din
celelalte clase.
Controlata-! se pp. existenta apriorica a unui nr dat de clase si a unui set deforme2prototipuri8referinte3- esantion de obiecte extrase din populatie=set de invatare- a caror
apartenenta la aceste clase este cunoscuta. Din aplicarea tehnicilor de clasificare controlata
rezulta un set de reguli si criterii de clasificare* in analiza discriminanta, clasificatorul estereprezentat de functiile discriminant8fc de clasificare.
3. Ce este analiza cluster' care sunt conceptele fundamentale ale acesteia si care sunt domeniile utilizarii ei
5henica de clasificare in care gruparea formelor in clustere se face progresiv, fara a cunoasteaprioric nr. de clase a.i obiectele sa prezinte cat mai multe similaritati in interiorul clasei si sa se
diferentieze cat mai mult de restul obiectelor clasificate in celelalte clase.Clusterul=submultime formata din obiecte care au prop ca gradul de disimilaritate dintre oricare: obiecte din cluster este mai mic decat gradul de disimilaritate dintre orice obiect din cluster si
unul din afara sa* regiune a unui spatiu multidimensional, caract printr-o densitate relativ mare de
puncte si obiecte.6ezultatele unei analize cluster4 o solutie cluster sau o ierarhie 2mai multe solutii cluster3-! pe
baza efectuarii unei ;taieturi< in ierarhie, se poate alege configuratia obiectelor pe un anumit nr
de clustere.Des intalnita in domeniul maretingului, in investigatiile de natura psihosociala sau in evaluarile
economico-sociale la nivel teritorial. 6+-! studierea comportamentului consumatorilor.
3. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate #n analiza cluster
$copuri4
- Clsificarea unei multimi de obiecte- 6educerea unor multimi de obiecte8variabile la un nr mai restrans de entitati
informationale=clase8clustere
- Clasificarea obiectelor, dar si a variabilelor care definesc obiectele- Cautarea si identificarea de clase in cadrul unor multimi de obiecte8forme a.i elementele
din aceeasi clasa sa fie cat mai asemanatoare, iar cele din clase diferite sa fie cat mai
deosebite intre ele.5ipuri de info4
asurarea gradului de proximitate-!indicatori de similaritate, ind de disimilaritate.$imilaritate mare=! obiecte mai apropiate* disimilaritate mare=! obiecte mai diferite,
distantate.Informatiile utilizate in analiza cluster sunt reprezentate sub forma unor matrici simetrice
numite matrici de proximitate, de similaritate, de asociere, de incidenta, de disimilaritate sau
de distanta.-!mat de proximitate contin indicatori de disimilaritate2distante3 sau desimilaritate pt toate perechile posibile de obiecte8variabile. >aza inf pt det mat de prox = mat
de observatii-!pot contine fie rez masuratorilor directe, fie rez obtinute in urma unor
-
7/25/2019 Subiecte Data Mining
5/6
transformari specifice asupra variabilelor originale* categoria a doua4 scorurile comp
principale8 a factorilor, obtinute prin efectuarea unei AC sau a unei analize factoriale.
3. Definiti analiza cluster si aratati cum se clasifica metodele de analiza cluster
De tip ierarhic -!nr de clustere nu este cunoscut aprioric-!produc mai multe solutii cluster,
numite ierarhii cluster, care difera intre ele prin nr de clustere incluse si gradul de agregare alclusterelor. -! algoritmi de agregare si alg de dezagregare.
De tip iterativ-!produc o structura cluster formata dintr-o singura solutie cluster-!include un
nr fixat de clustere, acesta fiind fixat aprioric.etode euristice-!includ proceduri de clasificare dezvoltate pe baza unei
euristici=modalitate intuitiva de solutionare dedusa pe baza unor rationamente teoretice sau
pe baza unor obs statisticeetode algoritmice-!alg de solutionare a problemei2operatii, pasi, proceduri care det
obtinerea unui rezultat8solutie3
3*. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor dintre forme
Distanta-! gradul de departare dintre : obiecte2proximitatea dintre obiecte3
Distanta euclidiana-! masoara departarea dintre : obiecte sau variabile ;in linie dreapta