Analiza Datelor - Proiect SAS

31
Cuprins Cuprins....................................................... .............................................................. ...........2 Introducere................................................... .............................................................. .........3 I. Analiza componentelor principale.................................................... ...............................4 1.1. Standardizarea datelor....................................................... .................................4 1.2. Matricea de corelatie..................................................... .....................................5 1.3. Vectorii si valorile proprii....................................................... ...........................6 1.4. Reprezentarea grafica....................................................... ..................................7 II. Analiza factoriala.................................................... .......................................................9 2.1. Matricea de corelatie..................................................... .....................................9

Transcript of Analiza Datelor - Proiect SAS

Cuprins

Cuprins................................................................................................................................2 Introducere..........................................................................................................................3 I. Analiza componentelor principale...................................................................................4 1.1. Standardizarea datelor........................................................................................4 1.2. Matricea de corelatie..........................................................................................5 1.3. Vectorii si valorile proprii..................................................................................6 1.4. Reprezentarea grafica.........................................................................................7 II. Analiza factoriala...........................................................................................................9 2.1. Matricea de corelatie..........................................................................................9 2.2. Corelarea factorilor..........................................................................................10 2.3. Graficul corelarii..............................................................................................10 2.4. Descompunerea variabilitatii...........................................................................11 2.5. Scorurile factor................................................................................................11 III. Analiza cluster............................................................................................................12 3.1. Clasificarea variabilelor prin Metoda lui Ward..............................................12 3.2. Clasificarea variabilelor prin Metoda agregarii complete .............................13 3.3. Clasificarea indivizilor prin Metoda lui Ward................................................15 3.4. Clasificarea indivizilor prin Metoda agregarii complete ...............................16 IV. Analiza discriminanta.................................................................................................18 4.1. Clasificatorul lui Bayes...................................................................................18 4.2. Clasificatorul lui Fisher...................................................................................20 Concluzii..........................................................................................................................22 Bibliografie......................................................................................................................23

IntroducereIn cele ce urmeaza am realizat o canaliza a ofertei de autoturisme a unui dealer. Scopul final este acela de a stabili care sunt caracteristicile definitorii in alegerea unei masini personale. Tabelul urmator contine caracteristicile a 26 de mrci de autoturisme oferite spre vnzare. Tabelul are 26 de linii corespunztoare mrcilor de autoturisme analizate i 7 coloane, reprezentnd preul i alte caracteristici tehnice i de confort ale autoturismelor: 1. Preul ($); 2. Capacitatea cilindric (cmc); 3. Viteza maxim (km/h); 4. Consumul de carburant (litri/100 km); 5. Capacitatea habitaclului(cmc); 6. Lungimea (cm); 7. Raportul greutate-putere. Tabelul 1. Datele initialemodel Austin Metro Special CitroenAX 10RE DaihatsuCharadeT S FiatUno45Fire FiatUnoTurboTE FiatUno70SL FordFiestaJunior FordFiestaXR-2 Nissan Micra 1.0 DX Opel Corsa Swing Peugeot20SXE Peugeot20SGL Peugeot20SGT Peugeot20SGTI Renault4TL RenauIt4GTL Renault5SL pret 1200 0 1327 5 1462 5 1347 5 2500 5 1784 5 1305 0 2174 3 1240 0 1305 0 1326 0 1578 0 1896 5 2517 5 1298 1 1380 6 1415 cap cilindrica 998 954 993 999 1301 1302 1117 1597 988 993 954 1124 1360 1580 956 1108 1108 viteza max 140 145 145 145 200 165 137 180 140 143 134 142 170 190 115 120 143 consu m 6,2 5,6 6,7 6,2 8,9 7,7 7 9,3 6,4 7,2 6,8 5,8 9,2 8,7 6,3 6,3 5,8 gr/p 23,2 19,4 20,8 21,5 11 16 22,7 12 17 22,4 23,8 21,4 13,9 11,2 33,1 28,4 20,6 lungime 340 350 361 364 364 364 364 364 364 362 370 370 370 370 367 367 359 cap habitaclu 955 1170 1151 968 968 968 900 973 375 845 1200 1200 1200 1200 950 950 915

2

Renault5GTS Renault5GTTurbo SEATIbizaGLX SEATMarbellaGL SuzukiSwiftGA SuzukiSwiftGL ToyotaStarlettL ToyotaStarlettXL Volkswagen Polo

6 1725 0 2531 9 1928 3 1097 0 1211 5 1465 5 1400 0 1685 0 1804 5

1397 1397 1461 903 993 1324 999 1295 1272

167 200 175 131 145 163 150 170 170

7,9 8,7 8,8 7,3 6,4 6,5 6,1 6,8 8

13,8 10,2 14,7 23,4 18,4 14 19,5 15 14

359 359 364 347 358 358 370 370 365

915 915 1200 1088 400 400 202 202 1040

I. Analiza componentelor principaleAnaliza a Componentelor Principale este o tehnica de analiza a datelor care are drept scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus de componente, fara ca aceasta forma sa contina redundante informationale.Aceste componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele, fiecare fiind o combinatie liniara de variabilele originale. Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a autoturismelor. Vom considera prima variabila, pretul, ca fiind un indicator general esential in alegerea unei masini. Urmatoarele patru variabile sunt caracteristici tehnice care caracterizeaza puterea si rapiditatea unui autoturism iar ultimile doua variabile indica gradul de confort ale acestuia. Pe baza celor 7 caracteristici sunt variabile vom calcula cativa indicatori de centrare si imprastiere: Figura 1. Indicatori

1.1. Standardizarea datelor3

Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom efectua Analiza Componentelor Principale pe date standardizate. Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile:

unde

reprezinta media celei de-a i-a variabile, iar

reprezinta abaterea standard a variabilei

.

pentru cazul deplasat: pentru cazul deplasat:

Figura 2. Standardizarea datelor

1.2. Matricea de corelatiePentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale4

si determina componentele pricipale. Figura 3. Matricea de corelatii

Identificam in matrice coeficientii de corelatie mari. De exemplu intre viteza maxima si pretul se observa o corelatie de 0,913, intre capacitatea cilindrica si pret o corelatie de 0,849, intre viteza maxima si capacitatea cilindrica corelatia este de 0,829 iar intre consum si pret o corelatie de 0,808.

1.3. Vectorii si valorile propriiCum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma unui vector de forma: , unde , sunt variabilele originale si ponderile din tabelul de mai jos. Astfel componenta principala se scrie: . Figura 4. Vectorii proprii

Calculam valorile propii ce ne arata cantitatea de informatie extrasa de fiecare componenta principala:

in spatiul indivizilor; in spatial variabilelor, valoarea proprie corespunzatoare acesteia.5

unde

este componenta principala de ordin k si

Figura 5. Valorile proprii

In figura 5 in prima coloana sunt valorile proprii ce exprima varianta explicata prin fiecare noua componenta principala si corelatia dintre noua variabila si variabilele vechi. A doua coloana reprezinta diferentra dintre 2 componente consecutive. In a treia coloana a doua a tabelului este exprimat procentul din inertia totala a norului de puncte retinut pe fiecare axa. In a patra coloana este exprimat procentul cumulativ al componente dinainte. Deoarece primele 2 valori proprii sunt mai mari decat 1 (Criteriul lui Kaiser), putem spune ca avem 2 componente principale care sintetizeaza din punct de vedere informational toate cele 5 variabile originale. Astfel prin intermediul primei componente principale se asigura conservarea a 62,20% din varianta totala . Varianta celei de-a doua componente principale este egala cu valoarea proprie 1,13342 si retine 16,19% din varianta totala iar cumulativ cu prima componenta retine 78,39% din varianta totala.

1.4. Reprezentarea graficaPe grafic am identificat diferentele semnificative existente intre valorile proprii si am trasat o paralela la abscisa deasupra ultimei astfel de diferente iar numarul de valori proprii aflate in partea superioara dreptei reprezinta numarul de componente principale. Dupa trasarea dreptei putem afirma pe baza graficului ca primele 2 valori componentele principale si explica o parte din multimea norului de puncte. Figura 6. Grafice ale valorilor proprii proprii sunt si

Figura 7. Varinta cumulata a componentelor

6

Graficul din figura 7 exprima legatura dintre componentele principale si varianta cumulata pe care acestea o conserva. Prima componenta principala retine 62,20% din varianta totala, a doua componenta principala retine 78,39% din variata totala si asa mai departe.

7

Figura 8. Graficul componentei 1 cu 2

Analizand graficul 8 observam ca prima componenta este influentata direct si puternic de consum, pret, cap cilindrica, viteza max si invers de catre variabila raport, iar asupra componentei doi actioneaza direct variabila cap habitaclu si invers variabila lungime. Aceste influente se pot observa in tabelul de mai jos: Figura 9. Tabelul influentei factorilor

II. Analiza factorialaAnaliza factoriala este unul din cele mai eficiente si mai frecvent utilizate instrumente in modelarea statistico-matematica. Analiza factoriala presupune ca valorile unui ansamblu de variabile aleatoare se formeaza ca rezultat exclusiv al influentelor a 3 categorii de factori: factori comuni, factori unici si factori reziduali. Ea are ca scop extragerea numarului de factori ascunzi responsabili de corelatiile dintre variabilele originale. Daca aceste corelatii sunt semnificative, se poate presupune ca ar fi cauzate de existenta unuia sau a mai multor factori ascunsi comuni tuturor variabilelor. Analiza factoriala ne permite sa confirmam statistic un rezultat privind modul de grupare al variabilelor originale.

2.1. Matricea de corelatieFigura 10. Matricea de corelatie

Figura 11. Matricea ortogonala

Inmultind matricea ortogonala cu matricea Factor Pattern de la Analiza Componentelor Principale obtinem matricea Rotated Factor Pattern.

9

2.2. Corelarea factorilorFigura 12. Tabel Rotated Factor Patern

Din tabelul de mai sus se observa ca factorul 1 este puternic corelat cu variabilele viteza maxima, pret, cap cilindrica si consum iar al doilea factor este este puternic corelat cu cap habitaclu.

2.3. Graficul corelarii dintre cei 2 factoriFigura 13. Grafic Rotated Factor Pattern

. Din grafic deducem aceeasi corelare a factorilor cu variabilele ca in cazul de mai sus: observam ca primul factor este puternic corelat cu variabilele consum, pret, cap cilindrica, viteza max si factorul 2 este puternic corelat cu variabila cap habitaclu.10

2.4. Descompunerea variabilitatiiIn analiza factoriala variabilitatea se descompune in 3 componente: comunalitatea, unicitatea si rezidualitatea. In tabelul de mai jos este specificata comunalitatea totala si comunalitatea individuala a fiecarei variabile: Figura 14. Comunalitatea

Comunalitatea pentru fiecare variabila s-a calculat dupa formula: , unde este comunalitatea uneia dintre cele 7 variabile iar este varianta factorului i din matricea Rotated Factor Pattern. Specificitatea se poate obtine din diferenta 1- .

2.5. Scorurile factorFigura 15. Matricea scorurilor factor

O anumita observatie, corespunzatoar unui factor dat, este determinata sun forma unui scor corespunzator respectivului factor, format pe baza contributiei variabilelor originale. Scorurile sunt date de urmatoarea relatie: , unde reprezita coeficientii din matricea scorurilor factor iar xi sunt variabilele din matricea Rotated Factor Pattern.

11

III. Analiza clusterMetodele de analiza cluster au ca scop gruparea indivizilor, identificati printr-o serie de atribute, intrun numar cat mia restrans de clase omogene. Aceste metode realizeaza o analiza globala a indivizilor ce sunt studiati printr-un numar mare de variabile si ipoteze cerute minime. Astfel se realizeaza clase in asa fel incat indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele lor in timp ce clasele constituite sa fie cat mai diferite.

3.1. Clasificarea variabilelor prin Metoda lui Ward de clasificare ierarhicaMetoda lui Ward este o metoda care comaseaza acele clustere pentru care suma patratelor abaterilor la nivelul clusterului rezultat din comasare este cea mai mica, n comparaie cu alte perechi de clustere Figura 16. Dendograma orizontala a indicatorilor

Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din cap habitaclu, a doua grupa e formata din raport, a treia e formata din lungime si a patra formata din consum, cap cilindrica, viteza max si pret. Prima grupa reprezinta criteriile cele mai importante pe care le are in vedere un cumparator de autoturism.

12

Figura 17. Tabelul Cluster History

Conform tabelului de mai sus:

prima clasa (CL 6) este formata din pret si viteza max (frecventa 2); a doua clasa (CL 5) este formata din prima clasa si cap cilindrica (frecventa 3); a treia clasa (CL 4) este formata din clasa a doua si consumul (frecventa 4); a patra clasa (CL3) este formata din raport si cap habitaclu (frecventa 2); a cincea clasa (CL 2) este formata din clasa a patra si lungimea (frecventa 5) a sasea clasa (CL1) este formata din clasele a doua si a treia (frecventa 7).

3.2. Clasificarea variabilelor prin Metoda agregarii complete de clasificare ierarhicaMetoda agregarii complete comaseaz in fiecare etapa a clasificarii acele clustere pentru care distanta dintre cele mai departate obiecte este cea mai mica, in comparatie cu alte perechi de clustere. Figura 18. Dendograma orizontala a indicatorilor

13

Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din cap habitaclu, a doua grupa e formata din raport, a treia e formata din lungime si a patra formata din consum, cap cilindrica, viteza max si pret. Prima grupa reprezinta criteriile cele mai importante pe care le are in vedere un cumparator de autoturism. Figura 19. Tabelul Cluster History

Conform tabelului de mai sus:

prima clasa (CL 6) este formata din viteza max (frecventa 2); a doua clasa (CL 5) este formata din cap cilindrica (frecventa 3); a treia clasa (CL 4) este formata din consumul (frecventa 4); a patra clasa (CL3) este formata din lungime (frecventa 5); a cincea clasa (CL 2) este formata din cap habitaclu (frecventa 2)

a sasea clasa (CL1) este formata din clasa CL2 (frecventa 7).

14

3.3. Clasificarea indivizilor prin Metoda Ward de clasificare ierarhicaFigura 20. Dendograma orizontala pentru indivizi

Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua15

grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi. Fiecare grupa reprezinta marcile cocurente de autoturisme. Conform tabelului de mai jos: Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi.

clasa CL 21 este formata din DaihatsuCharade 1.0 DX si Fiat Uno 45 Fire (frecventa 2); clasa CL 17 este formata din clasa 21 si Remault t5SL (frecventa 3); clasa CL 13 este formata din Austin Metro Special si Seat Marbella GL (frecventa 2); clasa CL 10 este formata din clasa 13 si Citroen AX 10RE (frecventa 3); clasa CL 2 este formata din clasa 3 si clasa 6 (frecventa 17)

Figura 21. Tabelul Cluster History

3.4. Clasificarea indivizilor prin Metoda agregarii complete de clasificare ierarhicaFigura 22. Dendograma orizontala pentru indivizi16

Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din 3 indivizi, a doua grupa este formata din 9 indivizi, a treia grupa e formata din 5 indivizi iar a patra e formata din 9 indivizi. Fiecare grupa reprezinta marcile cocurente de autoturisme. Figura 23. Tabelul Cluster History

17

Conform tabelului de mai sus: Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi.

clasa CL 21 este formata din DaihatsuCharade 1.0 DX si Fiat Uno 45 Fire (frecventa 2); clasa CL 17 este formata din clasa 21 si Remault t5SL (frecventa 3); clasa CL 13 este formata din Austin Metro Special si Seat Marbella GL (frecventa 2); clasa CL 10 este formata din clasa 13 si Citroen AX 10RE (frecventa 3); clasa CL 2 este formata din clasa 3 si clasa 6 (frecventa 17)

IV. Analiza discriminantaPrincipala problema care trebuie rezolvata in cadrul analizei discriminate este aceea a construirii criteriilor sau regulilor de clasificare, pe baza carora se pot face predictii privind apartenenta unor18

forme noi, cu apartenenta initiala necunoscuta. Criteriile de clasificare mai sunt cunoscute si sub numele de clasificatori, iar deducerea acestor criterii se numeste formare a clasificatorului. Clasificatorul este un algoritm cu ajutorul caruia se stabileste apartenenta cea mai probabila a unei forme la o anumita clasa de predictie. Formarea clasificatorului se face pe baza informatiilor continute intr-un esantion de forme a caror apartenenta este cunoscuta aprioric si care se numeste set de formare.

4.1. Discriminatorul BayesFigura 24. Analiza discriminatorie

Din analiza discriminanta de mai sus s-au observat 26 de obiect, 7 variabile si 3 clase (Capitolul 3.3, Figura 20 incadram fiecare masina in cele 3 clase formate pentru nivelul 0,11). Prima clasa contine 12 obiecte (cu o proportie de 46,15 %), a doua clasa are in compozitie 5 obiecte (cu o proportie de 19,23%) iar a treia clasa are 9 obiecte (cu proportie de 34,61%).

Figura 25. Clasele de obiecte

19

Din tabelul de mai sus interpretam probabilitatile: Daca probabilitatea sa apartina clasei 1 este mai mare decat probabilitatea de a apartine clasei 2 si 3 atunci aceast forma va apartine clasei 1 Daca probabilitatea sa apartina clasei 2 este mai mare decat probabilitatea de a apartine clasei 1 si 3 atunci aceasta forma va fi n clasa 2. Daca probabilitatea sa apartina clasei 3 este mai mare decat probabilitatea de a apartine clasei 1 si 2 atunci aceasta forma va fi n clasa 3. Ex: individul 19 are probabilitatea 1 ca sa apartina clasei 3 => apartine clasei 3

Figura 26. Resubstition20

Figura 27. Crossvalidation

Din tabelul de mai sus se observa ca obiectele au fost corect plasate in clase: am previzionat corect ca din clasa 1 fac parte 12, din clasa 2 fac parte 5 obiecte si din clasa 3 fac parte 9 obiecte. Probabilitatea ca sa gresim plasarea unui obiect intr-o clasa este 0.

4.2. Discriminatorul BayesFigura 28. Analiza discriminatorie

Din analiza discriminanta de mai sus s-au observat 26 de obiect, 7 variabile si 3 clase. Probabilitatea ca un obiect sa apartina unei clase din cele 3 e de 33,33%.

Figura 29. Clasele de obiecte21

In tabelul de mai sus observam ca au fost plasate gresit 7 obiecte:

Obiectul 6 a fost plasat in clasa 1 dar el apartine clasei 3; Obiectul 9 a fost plasat in clasa 3 dar el apartine clasei 2; Obiectul 20 a fost plasat in clasa 1 dar el apartine clasei 1; Obiectul 22 a fost plasat in clasa 3 dar el apartine clasei 2; Obiectul 23 a fost plasat in clasa 1 dar el apartine clasei 2; Obiectul 24 a fost plasat in clasa 1 dar el apartine clasei 2; Obiectul 25 a fost plasat in clasa 1 dar el apartine clasei 2; Figura 30. Resubstition Figura 31. Crossvalidation

Din tabelul de mai sus se observa ca obiectele nu au fost corect plasate in clase: am previzionat corect ca din clasa 1 fac parte 12 insa previziunea conform careia din clasa 2 fac parte 5 obiecte si din clasa 3 fac parte 9 obiecte a fost gresita. Am previzionat ca 3 obiecte apartin clasei 1 si 2 obiecte apartin clasei 3 dar de fapt ele apartin clasei 2. De asemenea am previzonat ca 2 obiecte apartin clasei1 si 9 apartin clasei 3 insa ele apartin clasei 3. Probabilitatea ca sa gresim plasarea unui obiect intr-o clasa este de 40,74%.22

ConcluziiAnalizele comparative prezinta o importanta deosebita deoarece, prin efectuarea si publicarea constanta a rezultatelor obtinute, au o mare influenta atat asupra consumatorilor cat si a producatorilor, facandu-i pe consumatori mai circumspecti si mai rationali privind procesul de achizitionare a bunurilor. Intr-o cercetare a lumii inconjuratoare ne bazam, de regula, pe existenta unui numar de indivizi distincti ai unei populatii studiate. In legatura cu acesti indivizi (obiecte sau cazuri) urmarim una sau mai multe marimi care, credem noi, i caracterizeaza. Cercetatorul n analiza datelor are ca sarcina sa extraga din acest tabel de date cat mai multa informatie semnificativa si s-o prezinte intr-o forma cat mai restransa. Odat acest deziderat realizat, orice decizie viitoare privind comportamentul populatiei studiate poate fi explicata prin argumente stiintifice. Pe baza analizei efectuate asupra ofertei de autoturisme a unui dealer, am putut sa concluzionam care sunt marcile concurente, care sunt cele mai preferate de cumparatori si ce caracteristici primeaza la achizitionarea unui autoturism astfel incat dealer-ul auto sa-si formeze un plan de achizitii si vanzari care sa-i aduca un profit cat mai mare.

23

Bibliografie

Ruxanda Gheorghe, Analiza multidimensional a datelor- suport curs, Editura ASE, Bucureti, 2009 2. Spircu Liliana, Analiza datelor. Aplicaii economice, Editura ASE, Bucureti, 20051.

24