Analiza_datelor_SPSS

download Analiza_datelor_SPSS

of 68

Transcript of Analiza_datelor_SPSS

Metode descriptive de analiz_ statistic_ a datelor de

UNIVERSITATEA TRANSILVANIA DIN BRAOV

FACULTATEA DE TIINE ECONOMICE

Nicoleta PETCU

ANALIZA DATELOR - aplicaii N SPSS

Analiza bidimensional

Regresie i corelaie

Analiza multidimensional

Pentru studenii programelor de studii - masterat

BRAOV, 2007

ANALIZ BIDIMENSIONAL

Pentru a realiza o distribuie bidimensional s-a luat n considerare un eantion format din 150 de persoane ce au rspuns unor ntrebri dintr-un chestionar, printre care: dac au vzut reclama la un produs nou lansat pe pia i dac au cumprat produsul respectiv. Cele dou ntrebri au devenit variabile statistice pentru fiierul creat n SPSS. Tabelele de contingen se pot realiza astfel:

Analyze (

Descriptive Statistics (Crosstabs

Fig. 1 Realizarea tabelelor de contingen

Cu ajutorul butonului Cells obinem o nou caset de dialog cu ajutorul creia putem obine tabelele menionate mai sus:

Fig. 2 Selectarea tipului de frecvene

Distribuia persoanelor dup cele dou caracteristici

n acest tabel s-a obinut distribuia celor 150 de persoane dup cele dou caracteristici, sub forma frecvenelor absolute.

Dac dorim s obinem profilele linii, adic pentru fiecare modalitate a variabilei reclama, ponderea celor care cumpr n totalul liniei, bifm n caseta de dialog Percentages ( Row.

Profile linii

Dac dorim s obinem profilele coloane, adic pentru fiecare modalitate a variabilei cumpr, ponderea celor care au vzut reclama n totalul coloanei, bifm n caseta de dialog Percentages ( Column.

Profile coloane

Reprezentarea grafic a distribuiei celor 150 de persoane chestionate, dup cele dou variabile se realizeaz bifnd n caseta Crosstabs, Display clustered bar charts i obinem graficul de mai jos.

Fig. 3 Grafic clusterGraficul pune n eviden faptul c, decizia de cumprare a fost influenat de reclama care s-a fcut la acel produs.

Testarea independenei a dou variabile testul (2Cu ajutorul testului (2 se poate analiza dac dou variabile sunt dependente sau independente, garantnd rezultatele cu o probabilitate dinainte stabilit. Pentru a verifica acest lucru pornim de la ipotezele:

H0: variabile independente ipoteza nul, cu alternativa

H1: variabile dependente.

Dou variabile sunt independente dac sunt ndeplinite condiiile:

Testul se poate aplica att n cazul variabilelor dihotomice ct i n cazul variabilelor calitative cu mai multe modaliti. Revenind la distribuia din tabelul de mai sus , condiiile de independen se rezum la egalitatea rapoartelor:

Din aceste condiii de independen se determin distribuia teoretic (Expected) astfel:

n cazul exemplului nostru, pentru a obine distribuia teoretic (cum ar fi trebuit s se distribuie cele 150 de persoane dac variabilele reclama i cumpr ar fi independente), n caseta Cells se selecteaz opiunea Expected.

Frecvene teoretice

Pentru a verifica dac cele dou variabile sunt independente se calculeaz mrimea cu formula:

Valoarea se compar cu valoarea teoretic , extras din tabelul funciei , pentru nivelul de semnificaie ( ales i grade de libertate.

Dac valoarea (, atunci, se respinge ipoteza H0 i se admite alternativa ei H1, variabilele sunt dependente.

Metodele de analiz ne permit i msurarea intensitii legturii cu ajutorul coeficienilor:

a) Coeficientul (. Presupunnd c X este variabila anterioar i Y variabila posterioar, se urmrete s se analizeze n ce proporie cei ce posed X1 posed i Y1, iar cei ce posed X2 posed i Y1, calculndu-se diferenele: . Dac vom considera Y variabila anterioar i X variabila posterioar se calculeaz diferenele . Efectundu-se media geometric a celor dou diferene, se obine coeficientul (:

O alt formul este cea obinut cu ajutorul mrimii :

Dac acest coeficient are o valoare pozitiv ne indic o asociere pozitiv (indivizii se concentreaz pe diagonala principal, cei care rspund DA la prima ntrebare , rspund DA i la a doua) iar dac are o valoare negativ ne indic o asociere negativ.

b) Coeficientul Q (al lui Yule). Acest coeficient are un interval fix de variaie [-1,+1], se anuleaz n cazul n care variabilele sunt statistic independente i se obine cu formula:

Pentru exemplul ales, se testeaz existena legturii dintre cele dou variabile cu testul , iar intensitatea legturii o msurm cu ajutorul coeficienilor menionai mai sus.

Fig. 4 Alegerea opiunilor statistice

Coeficient

Coeficieni Phi, Cramers V

Valoarea ( 42,19 i este mai mare dect ( 3,84 pentru nivelul de semnificaie ( de 0,05 i un grad de libertate, ceea ce ne ndreptete s respingem ipotaza H0 i s acceptm alternativa ei H1, adic exist legtur ntre reclam i atitudinea consumatorilor de a cumpra produsul respectiv. Coeficienii care msoar intensitatea legturii ne arat o asociere pozitiv de intensitate medie ntre cele dou variabile. Asocierea variabilelor nominale

Considerm variabile nominale, variabilele calitative cu mai mult de dou modaliti (variante). Msurarea asocierii se realizeaz pornind tot de la tabelul de contingen, prin calculul coeficienilor de asociere.

a) Coeficientul de contingen (C). Cu ct valoarea acestui coeficient este mai apropiat de 1 cu att legtura este mai puternic i cu ct valoarea este mai aproape de zero, cu att legtura este mai slab. Valoarea acestui coeficient se determin cu relaia:

unde n este mrimea eantionului. Pentru aprecierea corect a intensitii legturii trebuie luat n considerare relaia: , unde p reprezint numrul de modaliti ale variabilei independente. Pentru un tabel 2(2 valoarea maxim a lui C este 0,707, pentru un tabel 3(3 este 0,816 i aa mai departe .

b) Coeficientul V al lui Cramer. Valoarea acestui coeficient se obine cu relaia:

n caren este mrimea eantionului iar , p reprezint numrul liniilor, q reprezint numrul coloanelor.

c) Coeficientul ( (al lui Goodman i Kruskal). Calculul acestui coeficient este bazat pe reducerea erorilor de predicie. Una dintre variabile, considerat anterioar sau independent se afl n postura de a ameliora predicia celeilalte, devenit posterioar sau dependent. Coeficientul ( se definete ca proporia cu care se reduc erorile prin introducerea variabilei independente. Acest coeficient este cuprins ntre 0 i 1.Valoarea 0 indic faptul c variabila independent nu are nici un rol n predicia variabilei dependente iar valoarea 1 semnific faptul c variabila independent determin perfect modalitile variabilei dependente.

Plecnd de la distribuia din tabelul de mai sus, se pot calcula coeficienii ( astfel:

Distribuie dup variabile nominale

considernd variabila CUMP (cu trei modaliti) pe poziia variabilei dependente (cumpr dac a vzut reclama), vom calcula coeficientul , ceea ce nseamn (suma frecvenelor maxime pe linii - frecvena maxim pe linia totalurilor)/(n frecvena maxim pe linia totalurilor). considernd variabila RECLAMA pe poziia variabilei dependente (a vzut reclama dac a cumprat) vom calcula coeficientul

La modul general, pentru dou variabile X i Y :

Bifnd n caseta de dialog Lambda, vom obine rezultatele:

Coeficieni Lambda, tau

Valorile obinute sugereaz existenei legturii dintre cele dou variabile, iar predicia de la CUMP spre RECLAMA este mai bun dect invers.

d) Indice de concordan kappa. Permite compararea aprecierilor a doi observatori asupra aceluiai grup. Considerm, de exemplu (Bishop 1975), aprecierile a doi inspectori colari asupra comportamentului pedagogic a 72 cadre didactice (autoritar, indiferent, ngduitor). Rezultatele evalurilor sunt prezentate n tabelul de mai jos.Rezultatele evalurilor

Inspector 1Inspector 2

autoritarindiferentngduitorTotal

autoritar17482940,3(

indiferent5121723,6(

ngduitor103132636,1(

Total32

44,4(19

26,4(21

29,2( 72

Concordana n aprecierile celor doi inspectori este 58,3(. Inspectorul 1 a apreciat n proporie de 40,3( dintre cdrele didactice ca fiind autoritare, n timp ce inspectorul 2 n proporie de 44,4(. Dac evalurile sunt independente, se presupune c 17,9( (40,3((44,4() dintre cadrele didactice s fie evaluate autoritare de cei doi inspectori. Asemntor, 6,2( (23,6((26,4() sunt evaluate ca fiind indiferente iar 10,5( (36,1((29,2() ngduitoare. n acest caz 34,6( dintre cadrele didactice sunt clasate n aceeai categorie prin simplul joc al hazardului. Indicele kappa va avea valoarea:

n utilizarea indicelui kappa, cele dou variabile trebuie s aib acelai interval de variaie.

Prelucrarea variabilelor cantitative

Dup modul de exprimare, caracteristicile statistice se separ n caracteristici calitative (exprimate prin cuvinte) i caracteristici cantitative (exprimate numeric). De exemplu, profesia i vrsta.

Eantioane independente Testul Z

Considernd dou eantioane de volum n1 i n2, se urmrete a se stabili dac exist o diferen semnificativ, din punct de vedere statistic, ntre mediile celor dou populaii.

Exemplul 1. Un mare productor de ambalaje pentru bunuri de consum a testat n mai multe magazine situaia vnzrilor cu un nou tip de ambalaj pentru produsul M. Rezultatele au fost urmtoarele:

Vnzri n funcie de ambalaj (mii lei)

MagazinulVnzri cu vechiul ambalajVnzri cu noul ambalaj

1235255

2672691

3590575

4207195

5187210

6337358

7176193

8223246

Pentru a rezolva aceast problem utiliznd produsul SPSS, este nevoie s se creeze o variabil de cod (V1), n care valoarea 1 corespunde vnzrilor cu vechiul ambalaj, iar valoarea 2 corespunde vnzrilor cu noul ambalaj. Aceast variabil va fi necesar gruprii datelor corespunztor celor dou eantioane. Valorile vnzrilor se indic ntr-o singur variabil (Ambalaj - valorile din primul eantion urmate de valorile celui de-al doilea). Se selecteaz:

Analyze (

Compare Means (Independent - Samples T Test

Fig. 5 Compararea mediilor a dou eantioane independente

Dup alegerea metodei de analiz se recurge la definirea grupurilor conform casetei de dialog din figura 6.

Fig. 6 Selectarea variabilelor

din lista variabilelor se selecteaz n Test Variable(s): variabila potrivit creia se compar mediile celor dou eantioane.

variabila dup care se realizeaz gruparea n cele dou eantioane se plaseaz n caseta Grouping Variable: care activeaz Define Groupsn Group 1: se nscrie codul 1 pentru valorile primului eantion iar n Group 2: codul 2 pentru valorile celui de-al doilea eantion.

Fig. 7 Definirea grupurilor

Cut point: - se utilizeaz dac dorim s specificm o valoare n funcie de care se vor constitui grupurile, primul va conine valorile mai mici dect cea specificat iar al doilea valorile mai mari.

Rezultatele oferite de produsul SPSS se prezint astfel:

Indicatori statistici la nivel de eantioane

Eantioanele fiind de volum ( 30 se aplic testul Student. Valoarea . Valoarea teoretic pentru nivelul de semnificaie i 14 grade de libertate, extras din tabelul funciei Student .

Regula de decizie este urmtoarea:

se accept ipoteza H0 dac

se respinge ipoteza H0 i se accept alternativa ei H1 dac

n cazul nostru se accept ipoteza H0, nu exist diferene semnificative ntre mediile celor dou eantioane.

Exemplul 2. Printr-o anchet selectiv, s-a urmrit aprecierea gradului de atractivitate a ambalajului unui produs. ntrebarea este dac exist diferene semnificative ntre media aprecierilor femeilor i media aprecierilor brbailor.

Distribuia persoanelor dup aprecieri

Apreciere ambalaj

(puncte)Nr. respondeni

FemeiBrbai

1 (foarte atractiv)510

2 (atractiv)1030

3 (nici / nici)1530

4 (neatractiv)8020

5 (foarte neatractiv)1010

Femeile au primit codul 1, iar brbaii codul 2.

Indicatori statistici la nivel de eantioane

Rezultatele testului egalitii mediilor

Fiind eantioane de volum suficient de mare, valoarea teoretic ce corespunde nivelului de semnificaie este 1,96. Aplicnd aceeai regul de decizie ca mai sus, valoarea calculat fiind 5,565 suntem ndreptii s respingem ipoteza H0 i s acceptm ipoteza H1, exist diferene ntre aprecierile femeilor i aprecierile brbailor.

Eantioane perechi

Problema eantioanelor perechi poate fi pus, de exemplu, atunci cnd studiem rezultatele obinute de membrii unui grup nainte de efectuarea unui curs i dup efectuarea acelui curs, din punct de vedere al testrii egalitii mediilor i .

Exemplu: Un grup de 20 de studeni au fost verificai la disciplina de Microeconomie dup cunotinele obinute la curs. Rezultatele au fost nregistrate n fiierul es_perechi n variabila Puncte1. Dup iniierea ntr-un produs informatic specializat n nvarea disciplinei de Microeconomie, acelai grup a fost testat, rezultatele nregistrndu-se n variabila Puncte2. Pentru un nivel de semnificaie (=0,05 se poate verifica dac efectul cursului a fost pozitiv.

Rezultate obinute

Puncte1Puncte2di

9093-3

91910

9395-2

8988+1

8588-3

8987+2

8384-1

8892-4

8483+1

8285-3

8382+1

8183-2

7274-2

70700

7177-6

8185-4

8587-2

87870

7476-2

7372+1

Ipotezele sunt:

H0: ( = 0 nu exist diferene ntre rezultatele dinainte i dup iniierea pe calculator ()

H1: ( ( 0 exist diferene ntre rezultate

Pentru a efectua acest test selectm:

Analyze (

Compare Means ( Paired - Samples T Test

Fig. 8 Compararea mediilor a dou eantioane perechi

din lista de variabile se selecteaz variabila Puncte1 ce va fi plasat n lista Current Selections n Variable 1:, precum i variabila Puncte2 ce va apare n Variable2: iar cu ( sunt transferate n lista Paired Variables: Options permite alegerea intervalului de ncredere

butonul OK declaneaz modelul de analiz i obinerea rezultatelor.

Indicatori statistici

Rezultatele testului egalitii mediilor

Deoarece volumul eantionului este n = 20, folosim repartiia Sudent cu 19 grade de libertate i, pentru nivelul de semnificaie ( = 0,05, obinem valoarea t = -1,761 (test unilateral).

Regula de decizie va fi urmtoarea:

dac se accept H0;

dac se respinge ipoteza H0 se accept alternativa ei H1.Se observ din tabelul cu rezltate c valoarea este 2,96. Putem afirma c rezultatele iniierii n produsul informatic au fost pozitive, existnd diferene semnificative statistic ntre punctajul mediu de dinainte i de dup curs.

Testul Wicoxon

Aceeai decizie putem s o lum i dac folosim testul Wilcoxon.

Analyze (

Nonparametric Tests ( 2 Related Samples

Fig. 9 Selectarea testelor neparametrice

Fig. 10 Definirea variabilelor perechi

Diferene negative, pozitive, egale

Test Wilcoxon

Nivelul de semnificaie indicat de test este de 0,008 mai mic dect 0,05, ceea ce ne ndreptete s respingem ipoteza H0 i s acceptm ipoteza H1.

Analiz dispersional cu un factor (ANOVA)

Colectivitile cu care operm n statistica social-economic dei au un caracter finit sunt formate de cele mai multe ori dintr-un numr foarte mare de uniti purttoare a unor variabile cu un grad mare de variaie. Din aceast cauz unitile la care s-a fcut observarea trebuie mprite n grupe, n funcie de variaia factorilor determinani.

n cazul n care s-a aplicat n prealabil metoda gruprii se pot calcula att medii ct i indicatori de variaie (dispersii) pe grupe i pe total colectivitate. Media i dispersia pe ntreaga colectivitate se pot calcula fie fcnd abstracie de faptul c ea este compus din mai multe grupe, fie lund n calcul indicatorii corespunztori calculai la nivelul grupelor.

Exemplu: 50 de ageni economici au fost grupai dup numrul mediu de salariai i mrimea profitului. Pentru nivelul de semnificaie ( = 0,05 ne propunem s verificm dac factorul de grupare este semnificativ, altfel spus dac numrul angajailor influeneaz variaia profitului.

Repartiia agenilor economici din sectorul de activitate A

dup numrul mediu de salariai i profitul obinut

Ageni economici dup numrul mediu de salariaiAgeni economici dup mrimea profitului (milioane lei)

Total

12 - 1616 - 2020 - 24peste 24

sub 105155-25

10 - 50-1010-20

peste 50---55

Total52515550

Pentru a reliza n SPSS acest lucru alegem calea:

Analyze (

Compare Means ( One - Way ANOVA

Fig. 11 Selectarea variabilelor

n fiierul creat n SPSS au fost definite variabilele profit, nr_ang. Pentru a se realiza gruparea dup numrul angajailor a fost necesar codificarea agenilor economici dup variabila nr_ang, prin generarea unei noi variabile codang.. n figura 11 se observ selectarea variabilelor:

Dependent List: a fost selectat variabila profit Factor: a fost selectat variabila dup care se face gruparea codang.

OKRezultatele prelucrrilor se prezint astfel:

Varianele i valoarea Fcalc

Valoarea calculat pentru criteriul F este 21,63 iar nivelul de semnificaie este 0,000 mai mic dect 0,05 , ceea ce ne ndreptete s respingem ipoteza H0 i acceptm H1, factorul de grupare, numrul angajailor, este semnificativ pentru variaia profitului.

O analiz mai detaliat o obinem alegnd calea:

Analyze (

Compare Means ( Means

Mediile de grp

Varianele i valoarea Fcalc

REGRESIE I CORELAIE

Statistica social-economic studiaz fenomenele de mas n interdepen unele cu altele. n acest scop datele sunt sistematizate sub form de serii de repartiie multidimensionale. Analiza lor se realizeaz prin metodele de corelaie statistic.

Utilizarea din ce n ce mai frecvent a metodei corelaiei n statistic este justificat de necesitatea crecnd a reflectrii ntr-o form numeric adecvat a interdependenei obiective dintre fenomenele social-economice n ceea ce privete natura, direcia i gradul de intensitate a legturilor care se manifest ntr-o anumit perioad de timp sau n dinamic.

Exemplu: referitor la valoarea ncasrilor (mil. lei) i cheltuielile publicitare (sute mii lei) efectuate de o societate comercial n decursul a cinci luni s-au nregistrat datele:

Analiza legturii dintre cheltuielile publicitare i valoarea ncasrilor

Nr. crt.Cheltuieli

publicitare

(sute mii lei)

Valoarea

ncasrilor

(mil. lei)

1

2

3

4

55

6

9

12

1825

30

35

45

65

25

36

81

144

324 125

180

315

540

1170 625

900

1225

2025

422525

28

37

46

64

Total

a) Se cere:

b) s se caracterizeze i s se msoare legtura dintre variabile;

c) s se testeze semnificaia coeficienilor pentru un nivel de semnificaie .

Sistemul de ecuaii normale devine:

Din rezolvarea sistemului rezult coeficienii: i .

Coeficientul de regresie b fiind pozitiv ne arat existena unei legturi directe ntre cele dou variabile i anume, pe msur ce cheltuielile publicitare cresc cu o sut mii lei, valoarea ncasrilor crete cu trei milioane lei.

Coeficientul de corelaie:

arat c ntre cele dou caracteristici exist o legtur puternic.

Testarea semnificaiei coeficienilor pentru nivelul de semnificaie de 0,05 i 5-2 grade de libertate, pentru care valoarea tabelar a variabilei t este 2,353, conduce la rezultatele:

Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 17,23 > 2,353 ceea ce ne ndreptete s tragem concluzia c acest coeficient de regresie este semnificativ diferit de zero. Intervalul de ncredere pentru coeficientul ( este:

EMBED Equation.3

Testarea termenului liber:

Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 5,20 > 2,353 ceea ce ne ndreptete s tragem concluzia c termenul liber este semnificativ diferit de zero. Intervalul de ncredere pentru coeficientul ( este:

EMBED Equation.3

Testarea coeficientului de corelaie:

Desprindem concluzia c i coeficientul de corelaie este semnificativ diferit de zero , n care i corespunde nivelului de semnificaie 0,05 i 5-1 grade de libertate. Intervalul de ncredere pentru coeficientul ( va fi:

Pentru a rezolva n SPSS aceast problem se selecteaz:

Analyze (

Regression (Linear

Fig. 1 Selectarea variabilelor

Dependent din lista variabilelor se alege variabila dependent;

Independent(s) din lista variabilelor se selecteaz variabilele independente (factorii de influen);

Method: - se alege metoda de analiz:

Enter se analizeaz variabilele global, ntr-un singur pas;

Forward regresie pas cu pas ascendent;

Backward regresie pas cu pas descendent;

Stepwise la fiecare pas sunt indicate variabilele incluse i excluse din modelul iniial;

Remove sunt indicate variabilele eliminate din model;

Statistics - conduce la ecranul:

Fig. 2 Selectarea parametrilor pentru coeficienii de regresie i analiza reziduurilor

Estimates calculul coeficienilor de regresie;

Confidence intervals stabilirea intervalului de ncredere pentru coeficienii de regresie pentru probabilitatea de 95%; Covariance matrix matricea de varian-covarian pentru coeficienii de regresie;

Model fit determin raportul de corelaie R, coeficientul de determinaie R2, R2 ajustat, eroarea standard, analiz ANOVA;

Descriptives afieaz pentru fiecare variabil media, abaterea standard, matricea corelaiilor;

Part and partial correlations corelaii pariale;

Collinearity diagnostics analiza colinearitii.

Plots- reprezentri grafice Save - conduce la ecranul: Fig. 3 Selectarea parametrilor pentru obinerea valorilor ajustate i a valorilor reziduale

Predicted Values

Unstandardized se obin valorile variabilei dependente , calculate cu ajutorul coeficienilor de regresie (valorile ajustate);

Standardized pentru valorile ajustate se calculeaz media i abaterea standard. Standardizarea const n mprirea abaterilor fa de medie la eroarea standard. Valorile standardizate au media 0 i abaterea standard 1;

Adjusted valorile variabilei dependente ce corespund fiecrei observaii, dar calculate cu coeficienii de regresie ce au rezultat din modelul de regresie din care observaia respectiv a fost ndeprtat ;

Residuals

Unstadardized valorile ;

Standardized valorile standardizate;

Studentized valorile studentizate;

Distances

Mahalanobis msoar distana fiecrei valori a variabilei independente fa de media variabilei. O distan mare indic o valoare extrem;

Cooks Leverage values contribuia unei observaii dat de valoarea (levierul);

Influence statistics

DfFit calculeaz valorile DFITS; Options conduce la ecranul:

Fig.4 Stabilirea criteriului de selectare a variabilelor

Stepping Method Criteria

Use probability of F o variabil este introdus n model dac nivelul de semnificaie pentru valoarea calculat F este mai mic dect valoarea specificat n Entry i este scoas din model dac nivelul de semnificaie pentru valoarea calculat F este mai mare dect valoarea specificat n Removal; Use F value - o variabil este introdus n model dac valoarea calculat F este mai mare dect valoarea specificat n Entry i este scoas din model dac valoarea calculat F este mai mic dect valoarea specificat n Removal;Pentru exemplul de mai sus s-au obinut rezultatele:

Corelaia simpl curbilinie

n practica statistic se ntlnesc i legturi care nu se realizeaz de form liniar. n acest caz se pot ntlni forme variate de legturi curbilinii specifice relaiilor de dependen dintre caracteristica factorial aleas i cea rezultativ.

Aceste legturi neliniare se ntlnesc mai frecvent sub forma unei parabole de gradul 2, a hiperbolei i a funciei exponeniale. n cazul legturii neliniare este necesar ca, pe baza graficului, s se aleag acea funcie care, tratat vizual, s prezinte abateri minime de la linia valorilor empirice nscrise n cmpul de corelaie. Cnd nu se poate desprinde cu claritate forma de realizare a legturii dintre x i y este necesar s se calculeze mai multe ecuaii de estimare, cu care s se ajusteze datele i s se aleag apoi aceea care d o dispersie minim fat de valorile teoretice ale caracteristicii rezultative n funcie de factorul ales.

Exemplu: n zece uniti comerciale s-au cules date cu privire la valoarea vnzrilor de tricotaje i nivelul relativ al cheltuielilor de circulaie:

Valoarea vnzrilor

(mil. lei)Nivelul relativ al

cheltuielilor de circulaie (%)

xy

5,1

5,5

6,0

6,5

6,7

7,0

7,0

8,5

11,0

13,0 8

7,2

6,8

6,4

6

5,6

5

4,6

4,2

4,2

Pentru a rezolva n SPSS problemele de regresie neliniar se apeleaz:

Analyze (

Regression (Curve Estimation

Fig. 5 Selectarea opiunilor pentru regresia neliniar

Pentru a vizualiza legtura dintre cele dou variabile s-a utilizat:

Graphs (

Scatter

Fig. 6 Legtura dintre cheltuieli i vnzri

Graficul sugereaz o legtur invers ntre cele dou variabile. Pentru a putea face comparaie ntre modelul liniar i modelul hiperbolic au fost selectate ambele metode de analiz, obinndu-se rezultatele:Dependent variable.. CHELT Method.. LINEAR

Multiple R ,85395

R Square ,72923

Analysis of Variance:

DF Sum of Squares Mean Square

Regression 1 11,259261 11,259261

Residuals 8 4,180739 ,522592

F = 21,54502 Signif F = ,0017

-------------------- Variables in the Equation --------------------

Variable B SE B Beta T Sig T

VINZARI -,442581 ,095350 -,853948 -4,642 ,0017

(Constant) 9,176893 ,762589 12,034 ,0000

Dependent variable.. CHELT Method.. INVERSE

Multiple R ,95148

R Square ,90531

Analysis of Variance:

DF Sum of Squares Mean Square

Regression 1 13,978011 13,978011

Residuals 8 1,461989 ,182749

F = 76,48762 Signif F = ,0000

-------------------- Variables in the Equation --------------------

Variable B SE B Beta T Sig T

VINZARI 33,109280 3,785769 ,951479 8,746 ,0000

(Constant) 1,102268 ,553896 1,990 ,0818

The following new variables are being created:

Name Label

FIT_3 Fit for CHELT with VINZARI from CURVEFIT, MOD_2 LINEAR

FIT_4 Fit for CHELT with VINZARI from CURVEFIT, MOD_2 INVERSE

Fig. 7 Valorile observate comparate cu liniile de regresie

Modelul liniar a condus la funcia (coficientul b fiind negativ arat legtur invers ntre cele dou variabile), raportul de corelaie R de 0,8539 indic o legtur puternic iar valoarea F = 21,54 pentru care nivelul de semnificaie este 0,0017 (mai mic dect 0,05 ales pentru testarea modelului) arat c modelul este semnificativ. .

Modelul hiperbolic a condus la funcia , raportul de corelaie R este 0,9514, valoarea F = 76,48 pentru care nivelul de semnificaie este 0,0000. . Din aceste rezultate deducem c modelul hiperbolic estimeaz mai bine legtura dintre cele dou variabile.

Regresia pas cu pas

Dac numrul variabilelor explicative este important, apare necesitatea aplicrii metodelor de selectare automat a variabilelor. Metodele cele mai utilizate sunt regresia pas cu pas ascendent (forward stepwise regression), regresia pas cu pas descendent (backward stepwise regression), sau o combinaie a celor dou.

Regresia pas cu pas ascendent

Regresia pas cu pas ascendent este o metod iterativ constnd n selecionarea la fiecare etap a variabilei explicative ce maximizeaz coeficientul de determinaie R2 al lui Y cu toate variabilele selecionate n etapele precedente i noua variabil gsit, astfel nct aportul marginal al celei din urm s fie semnificativ.

n prima etap se construiete tabelul R2(Y,Xj):

VariabileR2(Y,Xj)FjNivel de

semnificaie

X1.

.

XpR2(Y,X1)

.

.

R2(Y,Xp)F1.

.

Fp1.

.

p

Se selecioneaz variabila explicativ pentru care criteriul F este cel mai mare i nivelul de semnificaie este cel mai mic (mai mic dect nivelul de semnificie ales).

n etapa a doua se construiete tabelul R2(Y, Xst-1 ,Xj), n care Xst-1 este variabila explicativ selecionat la pasul anterior. Se selecioneaz o nou variabil, aplicnd acelai principiu.

Procedura se oprete atunci cnd variabilele rmase au toate nivelul de semnificaie mai mare dect nivelul .

Criteriul utilizat pentru selecionarea variabilelor const n alegerea la fiecare etap a variabilei care va avea cel mai mare F parial. Presupunem c la momentul t variabilele X1 ... Xt au fost selecionate:

n care statistica: S(X1,...,Xk) reprezint suma ptratelor explicat de variabilele X1,...,Xk .

Putem nelege astfel problema multicoliniaritii n regresia multipl. Exist variabile puternic corelate cu celelalte variabile explicative, ceea ce face ca aportul lor la explicarea variabilei Y s fie foarte mic. Prin aplicarea acestor modele de selecie variabilele nesemnificative sunt eliminate.

Valorile variabilelor nregistrate la 32 uniti turistice

Nr. turiti

(mii pers.)Zile - turitiPre mediu/zi

(zeci mii lei)Val. investiiilor

(zeci mil. lei)Clelt. publicit.

(sute mii lei)Val. ncas.

(mil. lei)

X1X2X3X4X5Y

398

369

268

484

394

332

336

383

285

277

456

355

364

320

311

362

408

433

359

476

415

420

536

432

436

415

462

429

517

328

418

5151080

1180

1290

1110

1460

1400

1360

1040

1050

1350

1280

1310

1200

1470

1430

1450

1310

1240

1060

1380

1480

1360

1110

1520

1230

1190

1120

1250

1420

1230

1350

120056

59

56

57

59

60

59

60

63

62

64

64

63

65

67

66

66

67

68

71

69

69

73

73

73

74

73

74

74

52

68

7812

9

28

12

13

11

24

20

8

10

21

23

13

14

22

23

13

8

27

18

7

10

27

15

32

19

14

11

26

19

34

2376

88

51

39

51

20

40

31

12

68

52

76

96

47

27

72

62

24

73

63

28

91

74

16

42

41

92

83

74

87

74

215550

5439

4290

5502

4871

4708

4627

4110

4122

4842

5740

5094

5383

4888

4033

4941

5312

5139

5397

5149

5450

4989

5926

4703

5365

4630

5711

5095

6142

4787

5035

5288

Modelul estimat prin metoda celor mai mici ptrate este:

Funcionarea procedurii se realizeaz astfel:

Pas 1. Se calculeaz precum i valorile pariale mpreun cu nivelul de semnificaie.

VariabileR2 (Y,Xj )FjNivel de semnificaie

X1X2X3X4X50.500

0.017

0.102

0.003

0.22730.024

0.515

3.400

0.083

8.8010.000

0.478

0.075

0.776

0.006

Variabila selecionat este X1.

Pas 2. Se calculeaz :

VariabileR2 (Y,X1 ,Xj )Fj

X2X3X4X50.502

0.521

0.503

0.67614.645

15.787

14.677

30.2030,717

0,268

0,687

0,000

Variabila selecionat este X5.

Obs.Valoarea Fj corespunde modelului n ansamblu iar nivelul de semnificaie corespunde variabilei analizate (de exemplu, n modelul 0,687 este nivelul de semnificaie pentru variabila X4. Deoarece valoarea nivelului de semnificaie este mai mare de 0,05, variabila nu este reprezentativ pentru model).

Pas 3. Se construiete tabelul:

VariabileR2 (Y,X1 , X5 ,Xj )FjNivel de semnificaie

X2X3X40.676

0.683

0.68319.452

20.111

20.0930.917

0.426

0.432

Se observ dup valorile nivelului de semnificaie c nici o variabil nu va mai fi inclus n model. Din cei cinci factori de influen considerai iniial au fost reinui doar doi, numrul turitilor i cheltuielile publicitare.

Fig. 8 Alegerea metodei de selectare a variabilelor

Rezultatele oferite de produsul SPSS se pot urmri n tabelele de mai jos:

ANALIZE MULTIDIMENSIONALE

ANALIZA COMPONENTELOR PRINCIPALE (ACP)Studiul unui eantion sau al unei populaii poate fi considerat complet, de regul, doar dac au fost msurate sau evaluate foarte multe variabile, pentru fiecare individ (sperndu-se ca msurtorile fcute s acopere domeniul de investigaie). La prima vedere, fiecare dintre variabilele msurate ar putea prea a fi de aceeai importan; ns innd seama de faptul c ntre unele ar putea exista legturi de dependen (i deci unele ar putea fi redundante), am putea s descoperim c un numr mic de variabile, independente ntre ele, explic suficient (cea mai mare parte din ) abaterile constatate asupra indivizilor. Domenii de aplicare

a) extragerea i interpretarea factorilor, permind structurarea variabilelor iniiale, oferind un rezumat al informaiei aduse de ansamblul variabilelor;

b) selecionarea dintr-un ansamblu important de variabile a celor care intervin mai mult n descrierea fenomenului studiat. Este posibil de conservat pentru analize ulterioare numai a acelora puternic corelate cu factorii considerai cei mai importani;

c) ACP poate fi considerat ca o faz intermediar pentru aplicarea altor metode asupra fie a indivizilor, fie a variabilelor.

Exemplu: Trei mrci ale aceluiai tip de produs sunt notate de la 0 la 10 de 6 consumatori:

Aprecierile consumatorilor

Mrci

ConsumatoriIIIIII

1

2

3

4

5

64

6

8

0

10

85

7

0

6

7

56

8

1

3

4

2

P1. Reducerea datelor

Indicatori statistici

IIIIII

Medii

Abateri medii

ptratice (6

3,275

2,384

2,38

Deoarece datele sunt omogene este suficient centrarea lor, astfel nct se obine tabelul T0.

Centrarea datelor

T0IIIIII

1

2

3

4

5

6-2

0

2

-6

4

20

2

-5

1

2

02

4

-3

-1

0

-2

P2. Calculul coordonatelor punctelor pe axe

Elaborarea matricei de varian covarian:

n care: este matricea datelor centrate, iar este transpusa matricei .

Urma matricei V este egal cu suma elementelor de pe diagonal: 64+34+34 = 132.

Rangul matricei este egal cu 3 (rangul unei matrice cu m linii i n coloane r ( min(m,n).

Diagonalizarea matricei de varian covarian:

- calculul valorilor proprii :

Numrul soluiilor este egal cu rangul matricei de date. Se obin n acest caz trei soluii:

Fiecrei valori proprii i corespunde un vector propriu care definete direcia unei axe factoriale. Valoarea proprie msoar ineria norului ce va fi proiectat pe acea ax factorial.

Astfel: din ineria total proiectat pe axa 1.

EMBED Equation.3 din ineria total proiectat pe axa 2.

Obs. n ACP normat suma valorilor proprii este egal cu numrul de variabile.

- determinarea vectorilor proprii:

Se utilizeaz urmtoarele relaii:

Valorii proprii vectorul propriu astfel nct

Valorii proprii vectorul propriu astfel nct

Valorii proprii vectorul propriu astfel nct

Se obin vectorii proprii:

- determinarea vectorilor proprii normai:

Amintim c norma sau lungimea unui vector

i c normarea unui vector const n divizarea acestuia prin norma sa:

EMBED Equation.3 Calculul coordonatelor punctelor pe axele factoriale:- calculul coordonatelor punctelor indivizi:

indivizi

u1 u2 u3 axa1 axa2 axa3

T0 coordonate puncte - indivizi

- calculul coordonatelor punctelor variabile:

Se nmulete fiecare vector propriu normat cu abaterea medie ptratic a norului proiectat pe axa corespunztoare.

variabile

axa1 axa2 axa3

coordonate puncte variabile

Graficul punctelor indivizi i variabile

P3. Interpretarea rezultatelor

Marca I este opus mrcilor II i III.

Indivizii 5 i 6 sunt destul de apropiai prin preferinele lor pentru marca I, n timp ce indivizii 1 i 2 prefer mrcile II i III.

Individul 1 i mai ales individul 4 consider defavorabil marca I.

Individul 6 i mai ales individul 3 consider defavorabile mrcile II i III.

Individul 2 pare a fi indiferent fa de marca I, n timp ce individul 5 nu pare deloc interesat de marca II i III.

Exemplul 1: innd cont de faptul c potenialii cumprtori apreciaz automobilele dup caracteristicile prezentate n tabelul de mai jos, ne propunem efectuarea unei analize n componente principale utiliznd produsul SPSS.Datele au fost introduse prin meniul Data ( Difine Variable.

Pentru apelarea analizei n componente principale se alege calea:

Analyze (

Data Reduction ( Factor

Caracteristici ale automobilelor

CodModelPreCap.cilVitezaConsCap.habLung.Gr./P.

AAustin Metro Special120009981406,295534023,2

CCitroen AX 132759541455,6117035019,4

DDaihatsu 146259931456,7115136120,8

F1Fiat Uno 45 134759991456,296836421,5

F2Fiat Uno Turbo 2500513012008,996836411,0

F3Fiat Uno 70 1784513021657,796836416,0

F4Ford Fiesta Junior 1305011171377,090036422,7

F5Ford Fiesta XR 2174315971809,397336412,0

NNissan 124009881406,437536417,0

OOpel Corsa 130509931437,284536222,4

P1Peugeot 205 XE 132609541346,8120037023,8

P2Peugeot 205 GL 1578011241425,8120037021,4

P3Peugeot 205 GT 1896513601709,2120037013,9

P4Peugeot 205 GTI 2517515801908,7120037011,2

R1Renault 4 TL 129819561156,395036733,1

R2Renault 4 GTL 1380611081206,395036728,4

R3Renault 5 SL 1415611081435,891535920,6

R4Renault 5 GTS 1725013971677,991535913,8

R5Renault GT Turbo 2531913972008,791535910,2

S1Seat GLX 1928314611758,8120036414,7

S2Seat GL 109709031317,3108834723,4

S3Suzuki GA 121159931456,440035818,4

S4Suzuki GL 1465513241636,540035814,0

T1Toyota L 140009991506,120237019,5

T2Toyota XL 1685012951706,820237015,0

VVolkswagen 1804512721708,0104036514,0

Fig. 1 Selectarea variabilelor

Din lista iniial de variabile se plaseaz cu sgeat dreapta variabilele ce vor intra n analiz, cu condiia s fie numai variabile numerice.

Descriptives permite obinerea unei analize univariate coninnd indicatorii: medie, abaterea medie ptratic, precum i matricea de corelaie dintre variabile;

Extraction se selecteaz metoda, se alege numrul de factori, se marcheaz apariia graficului valorilor proprii Scree plot;

Fig. 2 Funciile modulului Extraction Rotation permite aplicarea metodei fr rotirea sau cu rotirea axelor, precum i reprezentarea graficului variabilelor prin opiunea Loading plot(s);

Fig. 3 Funciile modulului Rotation

Scores creeaz variabile noi ce conin coordonatele punctelor indivizi;

Pentru exemplul de mai sus s-au obinut rezultatele:Statistic descriptiv

VariabileMeanStd. DeviationAnalysis N

CAP.CIL1172,04209,4426

CAP_HAB894,23311,1926

CONSUM 7,177 1,15626

GR_P 18,51545,609826

LUNGIME 362,317,43 26

PRET 16118,38 4229,9726

VITEZA154,8122,61 26

Valorile proprii sunt:

Primii doi factori exprim 78,4( din variana total, ceea ce nseamn c i putem utiliza pentru a reprezenta norul de puncte n planul principal.

Fig. 4 Graficul valorilor proprii

Informaia coninut n ultimii factori este neglijabil comparativ cu cea coninut n primii, ceea ce permite o reducere a numrului factorilor ce descriu un fenomen.

Coeficienii de corelaie prezentai n tabelul de mai sus servesc drept coordonate ale variabilelor n planul celor doi factori.

Fig. 5 Reprezentarea variabilelor n planul celor doi factori

Privind graficul, devine evident faptul c factorul 1 este apropiat de variabilele vitez, pre, capacitate cilindric i consum, adic performane tehnice, pe cnd factorul 2 este apropiat de confortul intern.

Pentru a reprezenta punctele indivizi pe harta indivizilor se folosesc coordonatele acestora aflate n variabilele fac1_1 i fac2_1 . Coordonatele punctelor indivizi

Codfac1_1fac2_1Codfac1_1fac2_1

A-1,0761,072P41,866,4591

C-,8531,015R1-1,397,4842

D-,500,7814R2-,982,2896

F1-,661,0916R3-,626,0545

F21,628,0851R4,674,0825

F3,528,0992R51,681,0731

F4-,553,1034S11,130,8272

F51,600,2063S2-1,0441,378

N-,654-1,63S3-,719-1,30

O-,600,0460S4,099-1,51

P1-,716,7103T1-,572-2,31

P2-,425,4399T2,355-2,43

P31,118,6544V,700,2169

Pentru realizarea graficului se apeleaz :

Graphs ( Scatter .

Fig. 6 Alegerea parametrilor pentru reprezentarea grafic

n graficul de mai jos au fost reprezentai indivizii (mrcile) n planul principal, conform coordonatelor punctelor indivizi.

Fig. 7 Punctele indivizi

Un cumprtor i poate face acum o idee mai exact asupra clasamentului acestor mrci, poate alege mai clar, n funcie de ceea ce l intereseaz: pre/performane tehnice, sau confortul intern al autoturismului.

Exemplul 2: Dintr-o cercetare pe baz de sondaj, asupra unui eantion format din 110 turiti au fost selecionate cteva variabile din chestionarele nregistrate (modul de cazare, dac a sosit cu un grup sau individual, motivaia turistic, profesia, sexul, ce tip de sport practic, sursele de informare, ara, vrsta, mijlocul de transport utilizat), n vederea efecturii unei analize n componente principale.

S-au obinut rezultatele:

Matricea coeficienilor de corelaie: CAZARE GRUP MOTIV PROFESIE SEX SPORT SURSE_IN

CAZARE 1.00000

GRUP .53555 1.00000

MOTIV -.22277 .09222 1.00000

PROFESIE .24877 .18259 -.13558 1.00000

SEX .54844 .42999 -.04401 .33284 1.00000

SPORT .35921 -.03650 -.16822 .25919 .19040 1.00000

SURSE_IN -.20775 -.36539 -.04173 .58147 -.01131 .34082 1.00000

ARA -.28417 -.34993 -.12478 .60704 .06825 .17510 .65745

TRANSP .34276 .10355 -.20298 .66436 .39625 .46192 .60163

VRSTA .77286 .58829 -.19978 .33210 .53111 .21977 -.09029

ARA TRANSP VRSTA

ARA 1.00000

TRANSP .59873 1.00000

VRSTA -.20254 .39162 1.00000

Determinarea valorilor proprii:

Variabile Factori Valori proprii % %

cumulate

CAZARE 1 3.48485 34.8 34.8

GRUP 2 2.82289 28.2 63.1

MOTIV 3 1.09891 11.0 74.1

PROFESIE 4 .83836 8.4 82.5

SEX 5 .55509 5.6

88.0

SPORT 6 .37733 3.8

91.8

SURSE_IN 7 .28967 2.9

94.7

ARA 8 .26634 2.7 97.3

TRANSP 9 .18518 1.9 99.2

VRSTA 10 .08138 .8 100.0

Primii doi factori principali exprim 63,1% din variana (mprtierea) total, ceea ce nseamn c i putem utiliza pentru a reprezenta norul de puncte n planul principal, fr a pierde prea mult informaie.

De regul, informaia coninut n ultimii factori ai secvenei este neglijabil, comparativ cu cea coninut n primii. De aceea, analiza componentelor principale ofer o baz pentru reducerea numrului factorilor ce descriu un fenomen.

Factorii principali Factor 1 i Factor 2 sunt abstraci. Pentru interpretarea lor se calculeaz coeficienii de corelaie ntre variabilele concrete i cele dou componente principale. Coeficienii de corelaie vor servi drept coordonate ale variabilelor n planul celor doi factori. Coeficienii de corelaie a variabilelor cu cei doi factori:

Factor 1 Factor 2

CAZARE .65487 -.62181

GRUP .37138 -.70781

MOTIV -.28656 -.03825

PROFESIE .76703 .33938

SEX .64945 -.34277

SPORT .54332 .14655

SURSE_IN .43008 .77862

ARA .39217 .80252

TRANSP .84620 .33274

VRSTA .68980 -.56449

Fig. 8 Reprezentarea grafic a variabilelor n planul celor doi factoriDin reprezentarea grafic desprindem concluziile:

variabile independente, dac unghiul format de vectorii variabilelor este drept, (de exemplu: mod cltorie, care se refer la cltoria individual sau n grup, formeaz un unghi aproximativ drept cu profesia);

variabilele sunt apropiate ntre ele dac unghiul format este ascuit, ( de exemplu: practicarea sporturilor de iarn cu profesia, vrsta cu cazarea, sursele de informare cu ara);

variabile sunt opuse (repulsie) dac unghiul format este obtuz,(de exemplu: cltoria n grup sau individual cu sursele de informare); cu ct punctul este mai ndeprtat fa de centru n direcia unei axe, cu att mai mari sunt coordonatele punctului i cu att mai mult contribuie la formarea axei (transportul, sursele de informare pentru primul factor, cazarea, vrsta, modul de cltorie pentru al doilea factor).Din reprezentarea grafic rezult c factorul 1 este apropiat de variabilele: profesia, transportul, sursele de informare, practicarea sporturilor de iarn, ara, deci de variabilele care privesc motivaia i mijloacele prin care se poate practica turismul n Poiana Braov, factorul 2 este apropiat de variabilele: cazare, vrst, cltorie n grup sau individual, sex, care sunt legate mai mult de confort i datele personale ale indivizilor.

O alt interpretare ar fi: factorul 1 concentreaz n jurul su variabilele cel mai bine percepute de indivizii chestionai (sunt activi fa de aceste variabile i pasivi fa de variabilele ce contribuie la formarea celui de-al doilea factor).

Prin aplicarea metodelor de analiz factorial s-a realizat o reducere a datelor, nlocuind norul de puncte iniial cu un nor de dimensiuni mai restrnse, pentru o reprezentare grafic comod i pentru a pune n eviden ceea ce este tipic n opiniile turitilor.

ANALIZA FACTORIAL A CORESPONDENELOR (AFC)Analiza factorial a corespondenelor este o generalizare a analizei componentelor principale, adaptat tratrii datelor calitative, prezentate sub forma unui tabel de contingen sau a unui tabel format din indivizi descrii prin caracteristici calitative, studiind legturile dintre dou ansambluri de variabile (sau ntre modalitile a dou variabile de clasificare).

Cazul a dou caracteristici

Tabel de contingen

Y

XCategoria de vrst

16-20 ani21-30 ani31-40 ani41-50 anipeste 50

Criteriul hotrtorpreul

performanele tehnice

designul17

26

615

28

2835

19

1833

31

1542

34

3

Se apeleaz:

Analyze (

Data Reduction ( Correspondence Analysis

Fig. 9 Selectarea variabilelor analizei n componente principale

Codificarea variantelor caracteristicii X s-a realizat astfel:

1 pre;

2 performane tehnice;

3 design.

Codificarea variantelor caracteristicii Y:

1 16 20 ani;

2 21 30 ani;

3 31 40 ani;

4 41 50 ani;5 peste 50 ani.Variabila Criteriu se indic pe linii iar n Define Range se completeaz valoarea minim i valoarea maxim (1 i 3).

Variabila Vrsta se indic pe coloane iar n Define Range se completeaz valoarea minim i valoarea maxim (1 i 5).

Fig. 10 Selectarea opiunilor analizei n componente principale

Cu ajutorul produsului SPSS, prelucrarea datelor din tabelul 4.10 a condus la urmtoarele rezultate:

Valorile proprii sunt

EMBED Equation.3 Primul factor principal explic 79,3( din mprtierea datelor iar al doilea factor principal restul de 20,7(

Se observ din graficele de mai sus c prima ax (factorul 1) se explic prin oponena ntre categoria de vrst peste 50 de ani i categoria de vrst 21 30 ani, celelalte modaliti ocupnd poziii intermediare. Tot axa 1 opune preul designului.

A doua ax (factorul 2) ar putea fi explicat prin oponena dintre modalitile performane tehnice i pre, sau prin oponena categoria de vrst 16 20 ani cu cea cuprins ntre 31 40 ani.

Se poate trage concluzia c tinerii ar prefera performanele tehnice iar cei de vrst mijlocie nclin spre designul i preul produsului.

ANALIZA DISCRIMINANT

O populaie este divizat n k clase cu ajutorul unui criteriu calitativ Y. Fiecare individ al populaiei este descris prin p variabile numerice . Analiza discriminant utilizeaz mai multe metode ce permit studierea legturii dintre criteriul Y i variabilele , plecnd de la un eantion. Analiza factorial discriminant permite punerea n eviden a diferenelor dintre clase la nivelul variabilelor i vizualizarea datelor. Pentru aceasta este nevoie de utilizarea procedurilor automate pentru selectarea variabilelor discriminante.

Exemplul 1: o firm de soft este interesat s-i extind vnzrile de soft de aplicaie de marketing. Pentru aceasta efectueaz o cercetare n vederea depistrii caracteristicilor ce ar putea influena decizia de achiziionare a unui asemenea soft. Analiza este realizat la nivelul a 12 firme la care s-au nregistrat caracteristicile: dotare cu soft de specialitate, numrul salariailor, cifra de afaceri.

Valorile variabilelorEste dotat

cu softNr.salariai

X1CA (mil.lei)

X2

da334900

da566000

da254000

da416900

da305700

da577400

nu385100

nu302700

nu203450

nu102800

nu91500

nu404000

Pentru rezolvarea n SPSS a acestei metode se apeleaz:

Analyze (Classify (Discriminant . . .Fig. 11 Selectarea variabilelor

Analyze . . . ne conduce la ecranul:

Means - permite calcularea mediilor pe subgrupuri pentru fiecare variabil explicativ; Univariate ANOVAs - se selecteaz dac se dorete analiz ANOVA pentru fiecare factor;

Fisher's - se selecteaz dac se doresc coeficienii Fisher ai funciei; Unstandardized - se selecteaz dac se doresc coeficienii nestandardizai ai funciei; Within-groups correlation - coeficienii de corelaie n interiorul grupurilor;

Within-groups covariance - covariana n interiorul grupurilor;

Total covariance - covariana dintre variabile pe total.

Classify . . . ne conduce la ecranul:

Fig. 12 Selectarea parametrilor clasificrii

All groups equal - se selecteaz pentru grupuri de volume egale; Compute from group sizes - se selecteaz pentru grupuri de volume neegale; Cassewise results - afieaz grupul actual, grupul rezultat, scorurile de discriminare;

Within-groups - utilizeaz pentru clasificare matricea de covarian din interiorul grupurilor ;

Plots - se obin reprezentri grafice pe grupuri combinate sau pe grupuri separate.

Save . . . ne conduce la ecranul:

Fig. 13 Salvarea noilor variabile

Interpretarea rezultatelor

Cele 12 firme au fost mprite n dou grupuri de volume egale. n urma aplicrii metodei discriminante va rezulta o alt clasificare i se vor gsi funciile care au avut o importan mare n obinerea unor grupuri distincte.

Grupul firmelor dotate cu soft are centroidul format din mediile celor dou caracteristici (40.33, 5816.7), iar grupul firmelor ce nu sunt dotate cu soft are centroidul (24.5, 3258,3).

n tabelul de mai sus este afiat matricea de covarian din interiorul claselor W.

Deoarece variabila de explicat are doar dou modaliti, rezult o singur funcie de discriminare.

Indicatorul calitii discriminrii ( al lui Wilks are valoarea 0.413 cu un nivel de semnificaie de 0.019, mai mic dect 0.05, ceea ce indic n ansamblu o discriminare acceptabil.

n tabelul de mai sus sunt prezentai coeficienii nestandardizai ai funciei discriminante.

Rezult funcia discriminant

Prin standardizare (mprire la abaterea standard din interiorul grupelor i ) se obin coeficienii standardizai:

Cu funcia discriminant se calculeaz scorurile pentru fiecare firm Discriminant Scores.

Cu ajutorul distanelor Mahalanobis sunt calculate ptratele distanelor fa de proieciile centroizilor pe axa de discriminare (, media scorurilor firmelor dotate cu soft i , media scorurilor firmelor fr soft).

Clasificarea firmelor se face n funcie de scorul de separare - cutting score, care are valoarea 0, conform criteriului:

dac scorul firmei > 0 firma va aparine primului grup

dac scorul firmei ( 0 firma va aparine celui de-al doilea grup

Se obine o rat a succesului de 83,3 %.

Variabila cu puterea cea mai mare de discriminare este X2 - cifra de afaceri, acest lucru este pus n eviden de cele dou statistici ( i F.

n tabelul de mai jos sunt prezentai coeficienii de corelaie ntre variabile i vectorul scorurilor.

Exemplul 2. 17 studeni au fost apreciai dup notele obinute la examenele de matematic, statistic, informatic i marketing. Primul grup este format din 6 studeni, considerai foarte buni (codul 1) dup notele la cele patru discipline. Al doilea grup este format din 8 studeni, considerai buni (codul 2) iar al treilea grup este format din 3 studeni, considerai slabi (codul 3). Utiliznd analiza discriminant se vor constitui noi grupuri, dup notele obinute la cele patru discipline.

Notele pe discipline

Nr. Crt.ApreciereNota

matematicNota

statisticNota

informaticNota

marketing

118859

2151069

3179610

4179810

5181098

618599

726775

826757

927658

1025868

1125865

1227978

13210101010

1429588

1535775

1637666

1735555

Se observ din tabelul de mai sus c s-au produs schimbri n ceea ce privete costituirea grupurilor dup notele obinute la cele patru discipline.

ANALIZ CLUSTER

n multe domenii exist un mare interes pentru dezvoltarea metodelor de clasificare a obiectelor. Foarte adesea obiectele de clasificat sunt clienii. Obiectivul urmrit este gruparea clienilor poteniali n grupe omogene destul de mari pentru a putea fi analizai, utiliznd modaliti de clasificare cum ar fi segmentarea i tipologia.

Exemplul 1: se consider un set de 8 uniti caracterizate prin valori nregistrate pentru trei variabile. Aplicarea metodei cluster se realizeaz selectnd:

Analyze (Classify (Hierarchical Cluster . . .

Fig. 14 Selectarea variabilelor

Variable(s) permite selectarea variabilelor asupra crora se aplic metoda;

Label Cases by: - implicit cazurile sunt afiate prin numrul curent. Opional se poate alege pentru identificare o variabil de tip ir de caractere;

Cluster Cases aplic metoda prin calcularea distanelor dintre indivizi;

Cluster Variables aplic metoda prin calcularea distanelor dintre variabile;

Analyze . . . ne conduce la ecranul:

Fig. 15 Selectarea parametrilor opiunii Analyze

Agglomeration schedule conduce la obinerea unei liste a clusterelor formate de-a lungul a mai multor pai;

Proximity matrix conduce la afiarea matricei similaritilor sau disimilaritilor;

Cluster Membership None suprim afiarea membrilor grupurilor;

Cluster Membership Single solution afieaz membrii grupurilor pentru numrul clusterelor specificate n caseta clusters. De exemplu, dac se specific 4, colectivitatea va fi mprit n 4 clustere;

Cluster Membership Range of solutions: - afieaz membrii grupurilor tuturor situaiilor clusterelor specificate n casetele From, trough clusters. De exemplu, dac se specific de la 2 la 4, este prezentat soluia pentru mprirea colectivitii n 2 clustere, 3 clustere i 4 clustere.

Plots . . . ne conduce la ecranul:

Fig. 16 Selectarea parametrilor opiunii Plots

Dendrogram permite reprezentarea grafic a coeziunii clusterelor formate;

Icicle pentru toate sau o parte din clustere, permite afiarea informaiilor referitoare la fiecare caz ce este combinat ntr-un cluster, la fiecare iteraie.Se poate selecta orientare vertical sau orizontal.

Method . . . permite alegerea tipului de distan utilizat n constituirea clusterelor, precum i transformarea valorilor sau a msurilor. Save . . . permite salvarea noilor variabile.

Pentru exemplul ales, cu x1, x2, x3 au fost notate variabilele iniiale, iar cu zx1, zx2, zx3 valorile normalizate cu scor Z.

Pornind de la matricea cu date normalizate, se determin distanele euclidiene medii pentru fiecare pereche de elemente.

Proximity Matrix Squared Euclidean Distance

Case1 2 3 4 56 78

11,2512,46112,4892,9022,882 ,37216,541

21,2511,1047,8881,9511,637 ,3909,251

32,4611,1045,100,8481,059 1,91512,140

412,4897,8885,1009,2909,7959,99315,677

52,9021,951,8489,290 0,091982,90912,166

62,8821,6371,0599,7950,091982,69110,452

7,372,3901,9159,9932,9092,69112,754

816,5419,25112,14015,67712,16610,45212,754

Algoritmul de grupare a unitilor pornete de la aceast matrice, opernd astfel:

1. Se caut n matricea distanelor perechea reciproc de valoare minim. n exemplu, aceasta este perechea (5,6) pentru care distana d56 = 0,09198.

2. Se atribuie aceleiai grupri (5,6) unitile din perechea reciproc respectiv.

3. Se reface matricea distanelor cu (5,6), considerat ca o singur unitate. Distana dintre orice cluster X i (5,6) este dat de valoarea distanei minime dintre uniti ale lui X i ale lui (5,6). De exemplu, de la 1 la 5 distana este 2,902 iar de la 1 la 6 distana este 2,882, se alege 2,882. Aplicnd acest principiu, rezult urmtoarea matrice a distanelor:

Case1 2 3 4(5,6) 78

11,2512,46112,4892,882 ,37216,541

21,2511,1047,8881,637 ,3909,251

32,4611,1045,100,8481,91512,140

412,4897,8885,1009,2909,99315,677

(5,6)2,8821,637,8489,2902,69110,452

7,372,3901,9159,9932,69112,754

816,5419,25112,14015,67710,45212,754

4. Se reia procesul de grupare de la pasul 1, cutnd perechea reciproc maxim n noua matrice, n cazul nostru (1,7). Ele vor forma nucleul unei grupe noi.

Case(1,7) 2 3 4(5,6)8

(1,7),3901,9159,9932,69112,754

2,3901,1047,8881,6379,251

31,9151,1045,100,84812,140

49,9937,8885,1009,29015,677

(5,6)2,6911,637,8489,29010,452

812,7549,25112,14015,67710,452

Case1+7+2 3 4(5,6)8

1+7+21,1047,8881,6379,251

31,1045,100,84812,140

47,8885,1009,29015,677

(5,6)1,637,8489,29010,452

89,25112,14015,67710,452

Case1+7+24(5,6)+38

1+7+27,8881,1049,251

47,8885,10015,677

(5,6)+31,1045,10010,452

89,25115,67710,452

Case1,7,2+5,6,3 48

1,7,2+5,6,35,1009,251

45,10015,677

89,25115,677

Pentru a reprezenta grafic procesul de grupri, se construiete o dendrogram, adic un grafic de tip arbore. Nivelul la care se unesc dou clustere sau dou uniti este marcat printr-o linie vertical care unete liniile orizontale, denumite ramuri, corespunztoare gruprilor unite. Ramurile care pornesc de la baza figurii corespund situaiei iniiale, n care un cluster era echivalent cu o unitate.

n final rezult dendrograma de mai jos i lista ciclurilor de grupare (aglomeration schedule). De exemplu unitatea 2 se unete cu grupul (1,7) la nivelul 0,39 n decursul celui de-al treilea ciclu de grupare.

Dendrogram

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

5 -+---+

6 -+ I

3 -----+---------------------+

1 -+ I I

7 -+---+ +---------------------+

2 -+ I I

4 ---------------------------+ I

8 -------------------------------------------------+

5. Obinerea gruprilor propriu-zise se realizeaz prin tierea dendogramei la un anumit nivel. Nu exist o regul unanim admis, dar jocul liniilor orizontale de unire a diferitelor ramuri poate sugera nivelul de tiere. Zona n care liniile orizontale ncep s se distaneze considerabil ntre ele este cea n care poate fi adecvat tierea. O alt metod ar fi producerea unei rupturi considerabile n seria coeficienilor care exprim nivelul de contopire a grupelor.

n concluzie, din exemplul prezentat, rezult dou grupuri relativ compacte (1,7,2) i (5,6,3) i dou uniti izolate 4 i 8.

Exemplul 2: utilizarea analizei cluster n studiul proximitilor salariilor medii nominale pe activiti ale economiei naionale. Se consider ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale, anul 2000, zona Centru, format din judeele Alba, Braov, Covasna, Harghita, Mure, Sibiu. Se urmrete constituirea grupurilor ce scot n eviden asemnrile dintre salariile pe activiti ale economiei naionale.

Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale,

anul 2000, zona Centru

Judee

ABBVCVHRMSSB

Comer119713614076601204232131829114906531376971

Hotel res.124882016481361217915129692212635461283845

Transport199031625081401769728171196118629252971791

Pot308066633718103278844299532529396682662131

Bnci442737850846074360286450565447154954191889

Tranz.im.143327924694631852821129618718295321406370

Administr.276742533009182491821257049727531032997957

nvm.196740625498581777582172536919053852073729

Sntate140991817514591601269154951817058341848168

Sursa datelor: Anuarul Statistic al Romniei 2001

Fig. 17 Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale

Metoda utilizat a fost clasificare ierarhic cu opiunea (cel mai apropiat vecin(.

Pornind de la matricea de date se determin distanele euclidiene medii pentru fiecare pereche de elemente.

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+------+

COMERT 3 -+

HR 4 -+-+

SANATATE 7 -+ I

TRANZ 9 ---+-------+

INV 5 ---+ +----------------------------------+

TRANSP 8 ---+ I I

ADM 1 ---+-------+ I

POSTA 6 ---+ I

BANCI 2 ----------------------------------------------+

Din dendrogram rezult cteva grupe: salariile medii nominale lunare sunt apropiate pentru activitile (comer, hoteluri i restaurante, sntate), (tranzacii imobiliare, nvmnt), (transporturi, administraie public, pot ) i distinct sectorul bancar.

Din punct de vedere al unitilor teritoriale, situaia se prezint astfel:

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+------+

Alba 1 -+

Harghita 4 -+---------+

Covasna 3 -+ +-------------+

Mures 5 -----------+ +--------------------+

Sibiu 6 -------------------------+ I

Brasov 2 ----------------------------------------------+Din dendrograma de mai sus rezult un grup relativ compact format din judeele (Alba, Harghita, Covasna) i trei uniti izolate Mure, Sibiu, Braov.

EMBED Excel.Sheet.8

EMBED Word.Picture.8

Rotaru T., Metode statistice aplicate n tiinele sociale, Ed. Polirom, 2000

Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 156

Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 121

Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag. 89

Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag.166

271

_1087830971.unknown

_1103287943.unknown

_1103456375.unknown

_1103473536.unknown

_1103481451.unknown

_1103483514.unknown

_1104611862.unknown

_1104861755.unknown

_1104862523.unknown

_1104862808.unknown

_1106739807.unknown

_1104862440.unknown

_1104612713.unknown

_1104354435.unknown

_1104609911.unknown

_1104611632.unknown

_1104609552.unknown

_1104346204.unknown

_1104346707.unknown

_1104353501.unknown

_1104345940.unknown

_1103482544.unknown

_1103483257.unknown

_1103483289.unknown

_1103483089.unknown

_1103481817.unknown

_1103481931.unknown

_1103481655.unknown

_1103475425.unknown

_1103475848.unknown

_1103481424.unknown

_1103475066.unknown

_1103475097.unknown

_1103475408.unknown

_1103473924.unknown

_1103457119.unknown

_1103473374.unknown

_1103473520.unknown

_1103458886.unknown

_1103456739.unknown

_1103457019.unknown

_1103456504.unknown

_1103455929.unknown

_1103456212.unknown

_1103456251.unknown

_1103455958.unknown

_1103455891.unknown

_1103455908.unknown

_1103455876.unknown

_1103455851.unknown

_1091200830.unknown

_1092597097.unknown

_1094803488.unknown

_1098640697.xlsChart3

119713612488201990316308066644273781433279276742519674061409918

140766016481362508140337181050846072469463330091825498581751459

120423212179151769728327884443602861852821249182117775821601269

131829112969221711961299532545056541296187257049717253691549518

149065312635461862925293966847154951829532275310319053851705834

137697112838452971791266213141918891406370299795720737291848168

comer

hotel rest.

transport

posta

banci

tranz.

administr

nvm.

sntate

Sheet1

Activiti ale economiei naionale

comerhotel rest.transportpostabancitranz.administrnvm.sntate

Alba119713612488201990316308066644273781433279276742519674061409918

Brasov140766016481362508140337181050846072469463330091825498581751459

Covasna120423212179151769728327884443602861852821249182117775821601269

Harghita131829112969221711961299532545056541296187257049717253691549518

Mures149065312635461862925293966847154951829532275310319053851705834

Sibiu137697112838452971791266213141918891406370299795720737291848168

Sheet1

000000000

000000000

000000000

000000000

000000000

000000000

comer

hotel rest.

transport

posta

banci

tranz.

administr

nvm.

sntate

Sheet2

Sheet3

_1102420254.doc

Column Scores for virsta

Dimension 1

1,0

,5

0,0

-,5

-1,0

Dimension 2

,8

,6

,4

,2

0,0

-,2

-,4

-,6

-,8

peste 50 ani

41-50 ani

31-40 ani

21-30 ani

16-20 ani

_1102420156.doc

Dimension 1

1,0

,5

0,0

-,5

-1,0

-1,5

Dimension 2

,8

,6

,4

,2

0,0

-,2

-,4

-,6

-,8

virsta

criteriu

peste 50 ani

41-50 ani

31-40 ani

21-30 ani

16-20 ani

design

perf.tehn

pret

_1094805169.unknown

_1093014037.unknown

_1093014055.unknown

_1093011924.unknown

_1092583379.unknown

_1092583412.unknown

_1092241485.unknown

_1091124553.unknown

_1091125112.unknown

_1091199718.unknown

_1091124955.unknown

_1091124538.unknown

_1091124547.unknown

_1091117552.unknown

_1091124529.unknown

_1091117357.unknown

_1087725777.unknown

_1087734101.unknown

_1087742017.unknown

_1087828615.unknown

_1087828961.unknown

_1087828230.unknown

_1087734447.unknown

_1087734395.unknown

_1087734338.unknown

_1087734021.unknown

_1043557030.unknown

_1051986112.unknown

_1087725361.unknown

_1087725516.unknown

_1051988159.unknown

_1087725344.unknown

_1051986291.unknown

_1043563131.unknown

_1051985577.unknown

_1051985651.unknown

_1050231191.unknown

_1050526474.unknown

_1050527340.unknown

_1051985513.unknown

_1050527275.unknown

_1050520842.unknown

_1050520862.unknown

_1044556802.unknown

_1044557105.unknown

_1044556695.unknown

_1043557611.unknown

_1043558397.unknown

_1043558915.unknown

_1043557619.unknown

_1043557062.unknown

_1043557401.unknown

_1043557608.unknown

_1043557049.unknown

_1043330577.unknown

_1043556882.unknown

_1043556964.unknown

_1043556989.unknown

_1043556938.unknown

_1043556762.unknown

_1043556835.unknown

_1043330666.unknown

_1043328177.unknown

_1043329460.unknown

_1043330566.unknown

_1043328337.unknown

_1043327337.unknown

_1043327920.unknown

_1043327209.unknown

_1043327303.unknown

_972043692.bin

_972043691.bin