Ghid SPSS (2)

35
I. Crearea unei baze de date în SPSS I.1. Clasificarea şi descrierea variabilelor statistice În analiza statistică a datelor o importanţă deosebită o constituie clasificarea variabilelor după modul de exprimare a stărilor: cantitative ( metrice ) calitative discrete continue Cunoaşterea tipurilor de variabile este necesară atât în etapa de codificare a acestora, cât şi în momentul prelucrării lor. Unele fenomene economice pot fi direct măsurabile cantitativ, în timp ce altele necesită atribuirea unei valori unităţilor statistice ale unei colectivităţi observate după o caracteristică. Diferenţierea valorilor se face prin intermediul scalei de măsurare. Tipuri de scală: - scala nominală – are o singură proprietate – identitatea – care exprimă apartenenţa elementelor la o categorie. Presupune o categorizare a variabilei fără a indica o anumită ordine ori cantitate. Variabilele sex: masculin vs. feminin; starea civila: căsătorit, divorţat, văduv, necăsătorit; reprezintă exemple de scală nominala. Ele pot fi notate cu cifre (0-feminin; 1-masculin) însa acestea nu pot fi procesate în termeni de cantitate sau ordine; - scala ordinală – permite să se claseze elementele observate conform unei ordini, preferinţe. Un exemplu este locul ocupat de cineva la o competiţie (primul, al doilea, …, ultimul). În acest caz, numerele pot fi comparate între ele în termeni de "mai mult, mai puţin sau egal"; - scala de interval – pe lângă proprietăţile de identitate şi ordine, este caracterizată şi de faptul că intervalul între numere are un sens, fapt ce permite să se compare diferenţele între

Transcript of Ghid SPSS (2)

Page 1: Ghid SPSS (2)

I. Crearea unei baze de date în SPSS

I.1. Clasificarea şi descrierea variabilelor statistice

În analiza statistică a datelor o importanţă deosebită o constituie clasificarea variabilelor după modul de exprimare a stărilor: cantitative ( metrice ) calitative

discrete continue

Cunoaşterea tipurilor de variabile este necesară atât în etapa de codificare a acestora, cât şi în momentul prelucrării lor. Unele fenomene economice pot fi direct măsurabile cantitativ, în timp ce altele necesită atribuirea unei valori unităţilor statistice ale unei colectivităţi observate după o caracteristică. Diferenţierea valorilor se face prin intermediul scalei de măsurare.

Tipuri de scală:

- scala nominală – are o singură proprietate – identitatea – care exprimă apartenenţa elementelor la o categorie. Presupune o categorizare a variabilei fără a indica o anumită ordine ori cantitate. Variabilele sex: masculin vs. feminin; starea civila: căsătorit, divorţat, văduv, necăsătorit; reprezintă exemple de scală nominala. Ele pot fi notate cu cifre (0-feminin; 1-masculin) însa acestea nu pot fi procesate în termeni de cantitate sau ordine;

- scala ordinală – permite să se claseze elementele observate conform unei ordini, preferinţe. Un exemplu este locul ocupat de cineva la o competiţie (primul, al doilea, …, ultimul). În acest caz, numerele pot fi comparate între ele în termeni de "mai mult, mai puţin sau egal";

- scala de interval – pe lângă proprietăţile de identitate şi ordine, este caracterizată şi de faptul că intervalul între numere are un sens, fapt ce permite să se compare diferenţele între numere. Într-o astfel de scală, punctul 0 (zero) nu este dat în mod natural, adică este ales arbitrar. Ex: temperatura 0 nu e lipsa temperaturii, e doar punctul de îngheţ al apei. Exemplul clasic îl constituie măsurarea temperaturii în cele două sisteme, Celsius şi Fahrenheit, fiind posibilă trecerea de la un sistem de măsurare la altul;

- scala raport – folosită tot pentru variabile cantitative, având ca şi caracteristică faptul că posedă un 0 absolut care înseamnă lipsa caracteristicii sau proprietăţii respective. Ex: bani (venit), masă (greutate), lungime, timp de reacţie, etc. De exemplu un venit de 0 lei înseamnă inexistenţa unui venit;

- scala de intensitate – este frecvent folosită în cercetările de marketing pentru măsurarea şi compararea opiniilor ( scala de opinie), a comportamentelor. Ex: întrebare de opinie: "Ce părere aveţi despre un nou produs?" Variantele posibile sunt: "Foarte bună", "Bună", "Nici bună nici proastă", "Proastă", "Foarte proastă". Scala de opinie ( scală de rating ) este o scală cvasimetrică. Se caracterizează prin punctul 0 care exprimă inexistenţa opiniei şi un număr de puncte, în sens pozitiv şi negativ pentru a măsura gradele de intensitate a opiniilor.

Observaţie: pentru a alege metoda statistică adecvată în fiecare caz, trebuie să ştim în primul rând cum au fost obţinute datele (scala utilizată).

Page 2: Ghid SPSS (2)

I.2. Codificarea şi introducerea datelor în SPSS

Etapa de pregătire a setului de date implică operaţia de codificare a acestora în foaia de lucru Variable View şi de introducere a răspunsurilor în fereastra Data View.

Codificarea variabilelor presupune definirea atributelor acestora: numele variabile, tipul, lungimea ( numărul de caractere ), numărul de zecimale, eticheta ( label ), codificarea stărilor ( values ), valorile lipsă, modalităţile de măsurare a variabilelor.

1. Numele variabilei se editează în coloana Name, trebuind să fie unic şi să nu depăşească 8 caractere;

2. Tipul variabilei se defineşte în coloana Type după cum variabila este numerică ( Numeric, Comma, Dot ), caz în care se pot introduce numere întregi şi zecimale, sau nenumerică ( String );

3. Eticheta variabilei este necesară datorită limitării numelui variabilei la 8 caractere. Astfel în coloana Label se poate edita un nume folosind până la 256 caractere. ( se foloseşte întrebarea din chestionar );

4. Valorile etichetei ( Value Labels ) se definesc pentru variabilele categoriale care necesită codificarea stărilor. Ex: stărilor variabilei „specializarea” li s-au atribuit coduri;

5. Alegerea sistemului de măsurare: Scale, Ordinal, Nominal.

În definirea variabilelor în SPSS o importanţă deosebită o constituie clasificarea întrebărilor din chestionar, în: - întrebări închise

- întrebări deschise

Page 3: Ghid SPSS (2)

- întrebări semi-deschise.Întrebările închise necesită codificarea răspunsurilor. Codificarea variabilelor

presupune atribuirea de coduri numerice fiecărei variante, acordarea acestor coduri fiind pur convenţională. De ex. pentru întrebarea „Ce specializare urmaţi?”, răspunsurile au fost codificate cu valori numerice de la 1 la 9, fiind o variabilă de tip numeric şi ordinală.

Frecvente sunt variabilele alternative, care nu pot lua decât două valori. Ex : “Intenţionaţi să urmaţi cursurile unui masterat?”, cu următoarele valori individuale pentru caracteristica alternativă:

-- DA, exprimând prezenţa caracteristicii şi are asociat codul numeric 1 ; -- NU, exprimând absenţa caracteristicii şi are asociat codul numeric 0 ;

În cazul întrebărilor deschise definirea atributelor variabilei se face după cum răspunsul este exprimat prin cuvinte sau numeric. Ex. : “Ce propuneri aveţi pentru conducerea facultăţii?” se va defini ca o variabilă de tip String şi nominală, răspunsurile fiind exprimate prin cuvinte. În cel de-al doilea caz, vom defini variabila ca fiind de tip Numeric şi Scale. Ex : “Câte ore de curs aţi frecventat săptămâna trecută ? ” 

Codificarea întrebărilor semi-deschise se caracterizează prin faptul că fiecare variantă de răspuns va deveni o variabilă alternativă, cu excepţia răspunsurilor libere care se tratează asemenea întrebărilor deschise.

Introducerea datelor se face în celulele foii de lucru Data View, în care fiecare rând reprezintă un subiect, iar fiecare coloană o variabilă. Atributele unei variabile se pot citi selectând meniul Utilities – Variables.

Page 4: Ghid SPSS (2)

II. Descrierea datelor în raport cu o variabilă

II.A. Analiza unei variabile nominale

A.1. Tabele de frecvenţe

Utilizând din bara de comenzi următoarele opţiuni Analyze – Descriptive Statistics – Frequencies, se obţine tabelul de frecvenţe corespunzător repartiţiei eşantionului în raport cu variabila considerată. ( ex: linia de studiu ):

Interpretare: Numărul celor care au răspuns la această întrebare este 174 persoane (volumul eşantionului n = 174 ). Dintre aceştia 154 sunt la linia română, iar 20 aparţin liniei maghiare ( Frequency = frecvenţe absolute ). Cea de a doua coloană prezintă frecvenţele relative, exprimate în procente: 88,5% din totalul repondenţilor aparţin liniei române de studiu.

A.2. Grafice – graficele adecvate variabilelor ale căror stări sunt exprimate prin cuvinte sunt diagramele de structură. Din meniul Graphs se alege opţiunea Pie ( cerc de structură )

În cazul în care avem valori care lipsesc ( Missing ) datorită non-răspunsurilor se recomandă excluderea acestora în momentul

realizării graficului.

romana

maghiara

Total

Frequency Percent Valid

Percent

Cumulative

Percent

154 88.5 88.5 88.5

20 11.5 11.5 100.0

174 100.0 100.0

linia de studiu

11.5%

88.5%

maghiara

romana

Page 5: Ghid SPSS (2)

Interpretare: la această întrebare au răspuns doar 173 de persoane, din care 128 nu au restanţe din anii precedenţi, ceea ce reprezintă 73,6% din totalul celor chestionaţi.

Util în acest sens este şi graficul care redă structura eşantionului în raport cu variabila luată în studiu

Frequency Percent Valid Percent

Cumulative Percent

Valid nu 128 73.6 74.0 74.0 da 45 25.9 26.0 100.0 Total 173 99.4 100.0 Missing

System 1 .6

Total 174 100.0

aveti restante acumulate din anii precedenti de studiu

26.0%

74.0%

da

nu

Page 6: Ghid SPSS (2)

II.B. Analiza unei variabile ordinale

B.1. Tabele de frecvenţe

În meniul Analyze – Descriptive Statistics – Frequencies introducem o variabilă ordinală, ex: media anului precedent:media anului precedent

Interpretare: cei mai mulţi studenţi (97) au o medie cuprinsă în intervalul 7-9, ceea ce reprezintă 55,7% din totalul celor care au răspuns la această întrebare. Se observă că 66,3% din totalul repondenţilor au o medie anuală de cel mult 9 ( frecvenţe relative cumulate ).

B.2. Parametrii repartiţiei unidimensionale: valoare mediană (Me), modală (Mo), valori quartile ( Q ,Q ,Q ).

Comanda Analyze – Descriptive Statistics – Frequencies – Statistics ne conduce la deschiderea unei ferestre în care selectăm parametrii doriţi a se calcula referitor la variabila studiată. În fereastra Charts selectăm şi opţiunea Bar Charts pentru a realiza graficul.

Frequency Percent Valid Percent

Cumulative Percent

Valid sub5 1 .6 .6 .65-7 16 9.2 9.3 9.97-9 97 55.7 56.4 66.3

9-10 58 33.3 33.7 100.0Total 172 98.9 100.0

Missing System 2 1.1Total 174 100.0

Page 7: Ghid SPSS (2)

Interpretare: ţinând cont de modul de codificare a variabilei observăm că jumătate dintre studenţii chestionaţi au o medie situată până în intervalul 7-9 iar ceilalţi 50% peste acest interval. Cei mai

mulţi au o medie a anilor precedenţi aflată în intervalul 7-9 ( Mo). Folosind valorile quartile, distribuţia eşantionului în raport cu variabila “media anilor” se prezintă astfel : 25% dintre studenţi au o medie situată până la intervalul 7-9, 25% în intervalul 7-9, 25% în intervalele 7-9 şi 9-10, 25% în intervalul 9-10.

B.3. Grafice – în cazul variabilelor ordinale graficele adecvate sunt diagramele de structură (Pie) şi diagramele prin benzi (Barchart).

N Valid 172Missing 2

Median 3.00 Mode 3 Percentiles 25 3.00

50 3.0075 4.00

media anului precedent

media anului precedent

9-107-95-7sub5

Per

cent

60

50

40

30

20

10

0

Page 8: Ghid SPSS (2)

II.C. Analiza unei variabile cantitative

C.1. Tabele de frecvenţe

În meniul Analyze – Descriptive Statistics – Frequencies introducem o variabilă cantitativă, discretă sau continuă, ex: vârsta:varsta

Cea mai mare frecvenţă o înregistrează studenţii care au 22 de ani ( 108 ), reprezentând 62,1% din totalul celor chestionaţi. De asemenea 97,7% din totalul repondenţilor au o vârstă de cel mult 23 de ani.

C.2. Parametrii repartiţiei unidimensionale – se obţin accesând comanda Analyze – Descriptive Statistics – Frequencies – Statistics şi selectând următorii parametrii: valoarea medie (mean), mediana, modala, valorile quartile, abaterea medie pătratică (std. deviation), varianţa, coeficientul de asimetrie (skewness), de boltire (kurtosis). În fereastra Charts selectăm şi opţiunea Histogram/With normal curve.

Interpretare: vârsta medie a studenţilor în eşantion este 22,01 ani ( mean ); jumătate din cei 173 de studenţi au vârsta sub 22 de ani, cealaltă jumătate peste 22 de ani ( median ); cei mai mulţi studenţi din eşantion au 22 de ani ( mode ); cu 0,87 ani se abate în medie vârsta fiecărui student de la vârsta medie de la nivelul eşantionului de 22,01 ani ( std. deviation );

Frequency Percent Valid Percent

Cumulative Percent

Valid 20 3 1.7 1.7 1.7 21 32 18.4 18.5 20.2 22 108 62.1 62.4 82.7 23 26 14.9 15.0 97.7 24 2 1.1 1.2 98.8 26 1 .6 .6 99.4 28 1 .6 .6 100.0 Total 173 99.4 100.0Missing System 1 .6Total 174 100.0

N Valid 173 Missing 1 Mean 22.01 Median 22.00 Mode 22 Std. Deviation

.87

Variance .76 Skewness 2.341 Std. Error of Skewness

.185

Kurtosis 14.635 Std. Error of Kurtosis

.367

Percentiles 25 22.0050 22.0075 22.00

Page 9: Ghid SPSS (2)

În ceea ce priveşte parametrii formei, se observă că seria este asimetrică pozitiv, predominând studenţii tineri ( skewness>0 ); în ceea ce priveşte boltirea seriei, avem o serie leptocurtică, existând mai multe valori în jurul valorii medii decât în cazul distribuţiei normale.

Ultimele trei rânduri ale tabelului prezintă valorile quartile, valori care împart repartiţia în patru părţi egale. Pachetul de programe SPSS permite şi calculul valorilor decile.

C.3. Grafice – în cazul variabilelor cantitative continue graficul relevant este histograma. Construirea acestui grafic presupune următorul demers: Graphs – Histogram, selectând şi opţiunea Display normal curve.

Histograma permite vizualizarea distribuţiei variabilei, fiind folosită pentru a diagnostica cu uşurinţă dacă distribuţia este normală prin compararea histogramei variabilei observate cu graficul curbei Gauss. În acest sens este utilă şi interpretarea valorilor parametrilor formei. În cazul variabilei „vârsta” se observă că aceasta nu urmează o lege normală.

Deşi coeficienţii de asimetrie şi boltire exprimă numeric în ce măsură o distribuţie se abate de la normalitate, nu dau posibilitatea interpretării gradului de semnificaţie a deviaţiei de la normalitate.

varsta

28.026.024.022.020.0

160

140

120

100

80

60

40

20

0

Std. Dev = .87

Mean = 22.0

N = 173.00

Page 10: Ghid SPSS (2)

III. Analiza statistică a datelor în raport cu o variabilă utilizând inferenţa

statistică

III.1. Elaborarea intervalului de încredere a valorii medii

III.1.1. Elaborarea intervalului de încredere a valorii medii în

ipoteza organizării unui sondaj aleator simplu – cu ajutorul comenzii Analyze –

Descriptive Statistics – Explore introducem variabila studiată, având posibilitatea de a fixa nivelul

de încredere dorit (95%).

Limita inferioară a intervalului

Limita superioară a intervalului

Statistic Std. Error Mean 22.01 6.61E-02

95% Confidence Interval for Mean

Lower Bound

21.88

Upper Bound

22.14

5% Trimmed Mean

21.97

Median 22.00 Variance .756

Std. Deviation .87 Minimum 20

Maximum 28 Range 8

Interquartile Range

.00

Skewness 2.341 .185 Kurtosis 14.635 .367

Page 11: Ghid SPSS (2)

Interpretare: Putem afirma cu o probabilitate de 95% că vârsta medie la nivelul populaţiei cercetate este între 21,88 şi 22,14 ani. Sau, dacă am efectua studiul de 100 de ori ( 100 eşantioane ), în 95 de eşantioane media va aparţine intervalului, şi numai în 5 eşantioane valoarea acesteia ar depăşi limitele intervalului.

Page 12: Ghid SPSS (2)

Acelaşi rezultat se obţine şi activând meniul Analyze

– Compare Means – One Sample T Test;

Test Value = 0 t df Sig. (2-

tailed)Mean

Difference95% Confidence Interval of the

DifferenceLower Upper

333.047 172 .000 22.01 21.88 22.14

Page 13: Ghid SPSS (2)

III.1.2. Elaborarea intervalului de încredere a valorii medii în

ipoteza organizării unui sondaj aleator stratificat – în meniul Analyze – Compare

Means – One-way Anova introducem variabila cantitativă „vârsta”, dependentă de variabila factor

de grupare „specializarea”.

În Options se bifează opţiunea Descriptives.

Se obţin intervale de încredere pentru valorile medii de la nivelul fiecărei grupe.

N Mean Std. Deviation

Std. Error 95% Confidence Interval for Mean

Minimum Maximum

Lower Bound

Upper Bound

CIG 25 21.72 .46 9.17E-02 21.53 21.91 21 22REI 18 21.89 .32 7.62E-02 21.73 22.05 21 22FB 27 21.89 .75 .14 21.59 22.19 21 24MK 24 22.29 .95 .19 21.89 22.69 21 26MG 26 22.15 1.32 .26 21.62 22.69 21 28IE 27 22.07 1.07 .21 21.65 22.50 20 24SPE 12 22.17 .58 .17 21.80 22.53 21 23ECTS 7 21.71 .49 .18 21.26 22.17 21 22EA 7 22.14 .69 .26 21.50 22.78 21 23Total 173 22.01 .87 6.61E-02 21.88 22.14 20 28

Page 14: Ghid SPSS (2)

III.2. Teste de semnificaţie

III.2.1. Testarea semnificaţiei unei medii – face parte din grupa testelor parametrice. Folosind şirul de comenzi Analyze – Compare Means – One Sample T Test introducem variabila „vârsta” pentru care avem valoarea medie observată egală cu 22,01 ani; dorim să verificăm dacă vârsta persoanelor din eşantionul observat diferă semnificativ de valoarea 25 de ani ( test value=25). Formulăm ipoteza nulă: H : = 25 (vârsta medie nu diferă semnificativ de valoarea de 25 de ani)

H : ≠ 25

Interpretare: valoarea nivelului de semnificaţie Sig = 0,000 <0,05 ( confidence interval ), ceea ce duce la respingerea ipotezei nule. Există o diferenţă semnificativă între valoarea medie din eşantion şi cea specificată. Pentru că Sig < 0,01 putem afirma că intre valoarea medie de la nivel de eşantion şi cea specificată există diferenţe semnificative la un nivel de încredere de 99%.

III.2.2. Testarea semnificaţiei unei proporţii – din meniul Analyze – Nonparametric Tests – Binomial testăm ipoteze cu privire la o variabilă cu distribuţie binomială, care poate lua doar două valori, de exemplu anul de studiu ( anul 4 sau anul 5 ): Dorim să verificăm dacă proporţia uneia dintre cele două grupe de studenţi definite prin variabila

anul de „studiu” diferă semnificativ de 0,50.

Astfel formulăm ipotezele : H : p = 50%

H : p ≠ 50%

Interpretare: proporţia observată în eşantion pentru grupa 1 ( anul 4 ) este de 90%, proporţia specificată fiind de 50%. Valoarea Sig <0,01, astfel că putem concluziona, cu o încredere de 99%, că proporţia studenţilor din anul 4 diferă semnificativ de proporţia specificată.

Test Value = 25 t df Sig. (2-

tailed)Mean

Difference95%

Confidence Interval

of the Difference

Lower Upper -45.217 172 .000 -2.99 -3.12 -2.86

Category N Observed Prop.

Test Prop. Asymp. Sig. (2-tailed)

anul de studiu

Group 1 4 156 .90 .50 .000Group 2 5 18 .10

Total 174 1.00

Page 15: Ghid SPSS (2)

III.3. Teste de concordanţă – fac parte din categoria testelor neparametrice.

III.3.1.Verificarea normalităţii unei distribuţii – modelarea statistică cere verificarea ipotezei de normalitate a variabilelor. Astfel, este foarte important ca înaintea inferenţei statistice să se verifice normalitatea distribuţiei populaţiei. Pe lângă vizualizarea histogramei şi a valorilor coeficienţilor de asimetrie şi boltire, în SPSS există posibilitatea aplicării testului Kolmogorov – Smirnov, astfel: Analyze – Nonparametric Test – One Sample Kolmogorov-Smirnov Test:

Formulăm ipoteza nulă H : între cele 2 distribuţii, cea teoretică şi cea empirică nu există diferenţe semnificative ( populaţia este normal distribuită în raport cu variabila „vârsta “), cu alternativa că variabila nu urmează o lege normală.Interpretare: nivelul gradului de semnificaţie, Sig < 0,05 conduce la respingerea ipotezei nule,

distribuţia studiată diferă semnificativ de forma distribuţiei normale.

varsta N 173 Normal Parameters

Mean 22.01

Std. Deviation .87 Most Extreme Differences

Absolute .332

Positive .332 Negative -.292 Kolmogorov-Smirnov Z

4.365

Asymp. Sig. (2-tailed)

.000

Page 16: Ghid SPSS (2)

III.3.2. Verificarea uniformităţii unei distribuţii – se utilizează testul neparametric χ , care presupune următorul demers: Analyze – Nonparametric Tests – Chi Square Test.

Formulăm ipotezele referitoare la variabila “specializarea”: H : distribuţia este uniformă

În tabelul următor sunt comparate frecvenţele observate cu frecvenţele teoretice, pe coloana Residual fiind prezentate diferenţele pentru fiecare stare a variabilei. În acest exemplu se

observă că sunt 24 de studenţi la secţia de marketing; potrivit ipotezei de egalitate a proporţiilor, în fiecare secţie ar trebui să fie 19,3 studenţi. În coloana Residual se observă diferenţa faţă de valorile teoretice: 4,7.

Interpretare: valoarea estimată a statisticii χ este semnificativă la un nivel de încredere de 99%, deoarece Sig <0,01, ceea ce conduce la respingerea ipotezei nule. Cele nouă categorii de studenţi nu au aceeaşi proporţie; distribuţia nu este uniformă.

Observed N

Expected N

Residual

CIG 25 19.3 5.7 REI 18 19.3 -1.3 FB 27 19.3 7.7 MK 24 19.3 4.7 MG 26 19.3 6.7

IE 27 19.3 7.7 SPE 12 19.3 -7.3

ECTS 7 19.3 -12.3 EA 8 19.3 -11.3

Total 174

ce specializare urmati? Chi-Square 28.552

df 8 Asymp. Sig. .000

Page 17: Ghid SPSS (2)

IV. Analiza statistică a datelor în raport

1. Tabele de repartiţie bidimensionale – pentru a reda distribuţia eşantionului în raport cu 2 variabile se procedează astfel: Analyze – Descriptive Statistics – Crosstabs:

În fereastra Cells putem opta pentru opţiunea Counts Observed, caz în care ne va afişa tabelul bidimensional cu ajutorul frecvenţelor absolute, sau alegând opţiunea Percentages, vom obţine distribuţia eşantionului în raport cu cele 2 variabile cu ajutorul frecvenţelor relative.

Page 18: Ghid SPSS (2)

Interpretare: tabelul redă distribuţia studenţilor din eşantion în raport cu cele două variabile, fiind construit cu ajutorul frecvenţelor absolute. Ultima coloană şi ultimul rând din tabelul de frecvenţe corespund repartiţiilor marginale.

Ex: doar 2 din cei 24 de studenţi chestionaţi de la secţia de marketing ar alege altă specializare.

Aceeaşi

distribuţie a eşantionului în raport cu cele două variabile poate fii redată şi cu ajutorul frecvenţelor relative. Se observă că 21,3% din totalul studenţilor ar alege altă secţie, un procent însemnat având cei de la secţia management (5,9%).

2. Grafice – adecvate în acest caz sunt diagramele prin coloane.

ce specializare urmati?

EA

ECTS

SPE

IE

MG

MK

FB

REI

CIG

Co

un

t

30

20

10

0

daca ar fi a alegeti

aceeasi

alta

daca ar fi a alegeti din nou pentru ce specializare ati

opta?

Total

aceeasi altace

specializare urmati?

CIG 22 3 25REI 13 4 17FB 23 1 24MK 22 2 24MG 15 10 25IE 22 5 27

SPE 9 3 12ECTS 5 2 7

EA 2 6 8

Total 133 36 169

daca ar fi a alegeti din nou pentru ce specializare ati

opta?

Total

aceeasi altace

specializare urmati?

CIG 13.0% 1.8% 14.8%REI 7.7% 2.4% 10.1%FB 13.6% .6% 14.2%MK 13.0% 1.2% 14.2%

G

8.9% 5.9% 14.8%

IE 13.0% 3.0% 16.0%SPE 5.3% 1.8% 7.1%

ECTS 3.0% 1.2% 4.1%EA 1.2% 3.6% 4.7%

Total 78.7% 21.3% 100.0%

Page 19: Ghid SPSS (2)

3. Analiza asocierii dintre cele două variabile – presupune în prima etapă verificarea existenţei legăturii dintre cele două variabile cu ajutorul testului χ şi apoi interpretarea coeficientului de contingenţă pentru a analiza gradul de asociere dintre variabile. Din meniul Analyze – Descriptive Statistics – Crosstabs se aleg cele două variabile şi în fereastra Statistics se selectează parametrii doriţi.

Se formulează ipotezele referitoare la existenţa legăturii:

H : χ = 0 ( nu există legătură )

H : χ ≠ 0

Value df Asymp. Sig. (2-sided)

Pearson Chi-Square

27.369 8 .001

Likelihood Ratio 25.686 8 .001 Linear-by-Linear Association

10.197 1 .001

N of Valid Cases 169 Interpretare: putem afirma cu o probabilitate de 95% ( Sig.< 0,05 ) că între cele două variabile există legătură.

Valoarea coeficientului de contingenţă este de 0,373, fiind semnificativ diferit de 0, deci legătura dintre variabile este de intensitate medie.

Value Approx. Sig.

Nominal by Nominal

Contingency Coefficient

.373 .001

N of Valid Cases

169

Page 20: Ghid SPSS (2)

IV.2. Cazul a două variabile ordinale

1. Tabele de repartiţie bidimensionale – şi în acest caz prezintă importanţă repartiţia eşantionului în raport cu cele variabile atât sub forma frecvenţelor absolute, cât şi relative. Această prezentare a datelor presupune următorii paşi: Analyze – Descriptive Statistics – Crosstabs, în fereastra Cells alegând şi opţiunea Percentages. Cele două tipuri de frecvenţe, absolute şi relative, se pot prezenta în acelaşi tabel de repartiţie.

2. Grafice – informaţii privind repartiţia eşantionului în raport cu două variabile ordinale sunt disponibile şi din vizualizarea graficului adecvat – diagrama prin benzi. Modul de obţinere a acestuia este: Graphs – Bar – Clustered.

3. Analiza corelaţiei – se realizează cu ajutorul coeficientului lui Kendall, astfel: Analyze – Descriptive Statistics – Crosstabs, selectând în fereastra Statistics acest coeficient.

Value Asymp. Std. Error

Approx. T

Approx. Sig.

Ordinal by Ordinal

Kendall's tau-b

-.252 .063 -3.765 .000

N of Valid Cases

172

Valoarea coeficientului lui Kendall de - 0,252 indică faptul că între media anului precedent şi ordinea repartizării pe secţii a studenţilor există o legătură inversă, de intensitate slabă. Cu cât studenţii au o medie

mai mare, cu atât au şansa de a fi repartizaţi în secţia pentru care şi-au exprimat prima preferinţă.Valoarea coeficientului este semnificativ diferită de 0 cu o probabilitate de 95% ( Sig.= 0,000 < 0,05 ).

Page 21: Ghid SPSS (2)

IV.3. Cazul a două variabile cantitative

1. Tabele de repartiţie bidimensionale – se parcurg aceleaşi etape ca şi

mai sus;

2. Grafice – pentru a reda repartiţia eşantionului folosim în acest caz norul statistic. Demersul pentru construirea acestuia este: Graphs – Scatter – Simple. Construirea norului statistic constituie prima etapă în analiza legăturii dintre două variabile numerice. În funcţie de poziţiile punctelor norului putem formula de asemenea ipoteze cu privire la forma funcţiei care explică legătura dintre variabile.

Se observă în distribuţia punctelor o valoare extremă ( 18 ore curs ); se recomandă ca valorile extreme să fie înlăturate înaintea aplicării testelor statistice pentru a nu influenţa calitatea rezultatelor.

3. Analiza corelaţiei – presupune calculul coeficientului lui Pearson, utilizând meniul Analyze – Correlate – Bivariate.

Vom analiza legătura dintre numărul de ore de curs şi cele de seminar frecventate de studenţi într-o săptămână. Coeficientul lui Pearson ne oferă informaţii atât despre sensul legăturii, cât şi despre intensitatea

Page 22: Ghid SPSS (2)

Se obţine matricea de corelaţie, valorile fiind distribuite simetric faţă de diagonala principală. Valoarea coeficientului lui Pearson este de 0,665, ceea ce sugerează că între variabile există o corelaţie directă, de intensitate medie.

Valoarea acestui coeficient este semnificativ diferită de 0, ipoteza existenţei legăturii fiind acceptată cu o probabilitate de 95% ( Sig.< 0,05 ).

Dacă analizăm din nou corelaţia dintre cele două variabile, dar după indepărtarea valorilor extreme din eşantion, rezultatele vor fi mai concludente:Correlations

Se observă că intensitatea legăturii după înlăturarea valorilor extreme se modifică, legătura dintre cele două variabile fiind mai bine pusă în evidenţă.

cate ore de curs ati frecventat sapt

trecuta

cate ore de seminar ati frecventat sapt

trecuta cate ore de curs ati frecventat sapt trecuta

Pearson Correlation

1 .665

Sig. (2-tailed) . .000N 170 169

cate ore de seminar ati frecventat sapt trecuta

Pearson Correlation

.665 1

Sig. (2-tailed) .000 .N 169 170

cate ore de seminar ati

frecventat sapt trecuta

cate ore de curs ati frecventat sapt

trecuta

cate ore de seminar ati frecventat sapt trecuta

Pearson Correlation

1 .721

Sig. (2-tailed) . .000N 170 169

cate ore de curs ati frecventat sapt trecuta

Pearson Correlation

.721 1

Sig. (2-tailed) .000 .N 169 170

Page 23: Ghid SPSS (2)

IV.4. Testarea egalităţii a două medii ( eşantioane independente ) – este un test parametric care verifică dacă mediile a două grupe sunt egale. În SPSS presupune următorul

demers: Analyze – Compare Means – Independent Samples T Test. De exemplu, dorim să testăm dacă, la nivelul eşantionului observat, numărul mediu de ore de curs frecventate de studenţii din anul 4 este diferit de numărul mediu de ore de curs frecventate de studenţii din anul 5.Variabila de grupare va fi în acest caz anul

de studiu, în definirea grupelor ţinând cont

de codificările făcute pentru stările acesteia (

1 – anul 4, 2 – anul 5 ).

Ipoteza privind egalitatea mediilor se formulează astfel:

H : =

H : ≠

Dorim să verificăm dacă numărul mediu de ore de curs frecventate de studenţii din anul 4 ( 5,29≈5 ), diferă semnificativ de 3,65≈4 (numărul mediu de ore de curs

frecventate de studenţii din anul 5 ).Construcţia testului pentru compararea mediilor a două eşantioane presupune testarea în

prealabil a egalităţii varianţelor la nivelul celor două grupe. Statistica t se calculează diferit după cum dispersiile sunt egale sau nu la nivelul celor două grupe. Ca urmare, formulăm ipoteza nulă şi alternativa referitoare la egalitatea dispersiilor:H : σ = σ iar H : σ ≠ σ

Levene's Test for Equality of Variances

t-test for Equality of Means

F Sig. t dfSig. (2-tailed)

Mean Difference

cate ore de curs ati frecventat sapt trecuta

Equal variances assumed

.706 .402 1.935 168 .055 1.64

Equal variances not assumed

2.336 22.130 .029 1.64

Interpretare: probabilitatea de acceptare a ipotezei nule în cazul egalităţii varianţelor este de 0,402 ( > 0,05 ), varianţele la nivelul celor două grupe sunt egale. Pentru a verifica egalitatea mediilor folosim statistica t corespunzătoare cazului în care dispersiile sunt egale. În acest caz, testul t este egal cu 1,935, cu 168 grade de libertate şi un nivel de semnificaţie de 0,055 ( Sig.> 0,05 ), ceea ce arată că nu se poate trage concluzia că cele două medii diferă semnificativ.

IV.5. Testarea legăturii dintre două variabile – dorim să verificăm dacă modificarea variabilei dependente Y este rezultatul influenţei variabilei explicative X. Pentru a

anul de studiu

N Mean Std. Deviation

Std. Error Mean

cate ore de curs ati frecventat sapt trecuta

4 153 5.29 3.377 .2735 17 3.65 2.668 .647

Page 24: Ghid SPSS (2)

testa existenţa legăturii procedăm astfel: Analyze – Compare Means – One Way Anova. ANOVA este un procedeu de analiză a unei variabile numerice sub influenţa unei variabile de grupare care prezintă mai multe stări.

De exemplu dorim să verificăm dacă există legătură între numărul de ore de curs frecventate şi media anuală.

În meniul Options avem posibilitatea selectării graficului pentru a formula ipoteze cu privire la forma legăturii dintre cele două variabile.

Cu cât mediile grupelor au valori mai diferite între ele, cu atât variaţia dintre grupe este mai mare; cu cât variaţia în cadrul grupelor este mai mică, cu atât statistica F este mai mare (F = media varianţei dintre grupe /media varianţei din cadrul grupei ) şi numărul orelor de curs frecventate variază mai mult în raport cu media anuală. Se formulează ipoteza nulă H : F = 0, adică dispersia dintre grupe este nulă şi deci grupele nu sunt diferite între ele, adică media anuală nu influenţează numărul orelor de curs frecventate de studenţi. Deoarece probabilitatea de a greşi când respingem ipoteza este 0,016< 0,05, rezultă că ipoteza nulă se respinge, adică media influenţează frecvenţa la cursuri,. În cadrul fiecărui interval al mediei anului precedent, studenţii sunt relativ omogeni din punct de vedere al frecventării cursurilor, media anului precedent fiind un criteriu semnificativ de segmentare.

Sum of Squares

df Mean Square

Sig.

Between Groups

114.321 3 38.107 3.524 .016

Within Groups

1773.298 164 10.813

Total 1887.619 167

Page 25: Ghid SPSS (2)