SPSS_II

download SPSS_II

of 23

Transcript of SPSS_II

II. ALTE PROCEDURI PENTRU REPREZENTRI GRAFICE N SPSS

Comenzile pentru diverse alte grafice le putem gsi n meniul Graphs. Din acest meniu vom detalia cteva opiuni care sunt mai uzuale. Vom gsi i aici de exemplu opiunea Histogram dar cu o fereastr uor diferit:

Din acelai meniu Graphs putem obine pentru graficele de tip Bar Charts o serie de reprezentri mai sugestive. Vom ncerca s reprezentm grafic alt variabil scoala0 [Ultima scoala absolvit?] din baza BOP_mai2003_Gallup FINAL.sav. Ne propunem s reprezentm aceast variabil innd cont de venitul respondenilor. Vom deschide fereastra necesar dup comenzile GraphsBar. Din aceast fereastr vom pstra opiunea Simple care este potrivit situaiei noastre deoarece exist o singur variabil independent scoala0. Din partea de jos vom lsa setarea Summaries for groups of cases (barele reprezint grupuri de cazuri). Clic pe butonul Define: Se observ n aceast fereastr c am deplasat variabila scoala0 n rubrica Category Axis (este variabila independent care va defini axa OX) iar n rubrica Variable am trecut variabila vensub iar pentru aceasta n grafic vor apare pe axa OY mediile veniturilor. De altfel aceast opiune a fost aleas de program n mod automat dar ea poate fi schimbat din butonul Change Sumary. Pentru exemplul nostru vom lsa aceste setri i vom continua cu OK! Obs: Dac variabila independent are valori lips atunci din butonul Options se va dezactiva comanda Display groups defined by missing values!Mean D ar ve nitu l d vs. perso nal n lu na tre7 6 6 5 4 4 3 2 1 1 0 1 3 2 1 1 1 3 4

S presupunem c vrem s facem histograma variabilei loc4 [Care este suprafaa total (n metri ptrai) a camerelor (fr baie, buctrie, hol) pe care le ocup gospodria dumneavoastr?]. Vom trece variabila din stnga n dreapta, putem seta opiunea Display normal curve, de asemenea putem s cutm un titlu adecvat graficului:Suprafata totala800

600

400

200 Std. Dev = 32.24 Mean = 53.0 0 N = 2100.00

Ultima coal absolvit (respondent)

Valorile de pe axa OY reprezint mediile veniturilor n milioane lei n luna aprilie 2003. Se observ din grafic modul cum influeneaz variabila independent studii variabila dependent venit. Pentru studii postuniversitare se manifest o scdere a mediei veniturilor!

f r l oa c

ar m pri (1 -4

z ia na gim l( 5 ) se cla

ala co pro fe cla -8

tre ta ap Id e l na sio

e lic u (9 eu lic (

l oa c

sit NR er niv stu po i g ud st lun e rd it a rs t ur ive sc un e rd ta rs i ive l un ea lic ) st- s e a po cl 12

Care este suprafaa total (n metri ptrai) a camerelor (fr baie, bu

0 0.

40 .0

80 .0

12 0. 0

16 0. 0

20 0. 0

111

24 0 .0

28 0 .0

32 0 .0

36 0 .0

40 0. 0

112

S presupunem c dorim s reprezentm grafic variabila ven (venitul familiei) i variabila vensub (venitul respondentului la chestionar). Reprezentarea se alege de data aceasta dup opiunea Summarise of separate variables. Dup acionarea butonului Define va apare fereastra urmtoare apoi graficul:

O alt variant de reprezentare grafic i care este foarte des uzitat este dat de opiunea reprezentrii de tip cluster (apar grupuri de bare care se pot compara mai uor). De exemplu ne-ar interesa repartiia din eantionul folosit n aceeai cercetare dup variabila scoala0 dar n funcie de sexul respondenilor. Vom alege de data aceasta comenzile ChartsBar ChartsClustered iar opiunea Summaries for groups of cases rmne neschimbat. Dup Define apare fereastra: Observm c pentru axa OX am ales aceeai variabil iar variabila care dicteaz dispunerea cluster este varibila sex. Frecvenele vor reprezenta efectiv numrul de subieci (N of cases). Din Option am deselectat opiunea Display groups defined by missing values! Graficul este urmtorul:

5.5

5.0

4.5

4.0

3.5

3.0

2.5

2.0

Mean

1.5 n luna trecut (apr Dar venitul dvs. per

400

Obs: scala folosit pe axa OY poate crea impresia unei disproporii prea mari ntre mediile celor dou variabile. Respectiva scal poate fi modificat dup ce am dat dublu clic pe grafic i am intrat n fereastra Graph1 vom urma comenzile ChartAxisScale dup care vom modifica n opiunea Range limitele axei OY. Iat cum arat dup o astfel de modificare acelai grafic:

300

200

Genul (respondent)3.0

100

Count

masculin 0 feminin

f r

pr im c oa

gi m na ar

c oa la z ia

t re ap

l ic e u ta

c (9

it rs ive un N R ost un g l ii p e ud rt rd st it a s c u rs e ive r d ) un al e it a rs l i c el a s ive st c po 1 2 ( oa l

un

2.5

pr

(1 -4

Id

of

Ultima coal absolvit (respondent)2.0

l

l( 5 se )

e e li c

es

c la

-8

n io

u

a cl

al

Media veniturilor

1.5 n luna trecut (apr Dar venitul dvs. per

Revenind la primul exemplu care se referea la variabilele scoala0 i vensub le vom reprezenta un nou grafic cu linii dup ce vom urma comenzile GraphsLine. Procedurile sun asemntoare cu cele dinainte i vom obine urmtorul grafic(n fapt un poligon al frecvenelor!):

113

114

Mean Dar venitul dvs. personal n luna tre

7 6 5 4 3 2 1 0r f o c al pr im ar g im -4 (1 t si er iv R N un st po ng ii lu ud de st ar t s it ur er sc iv e un rd ta si l er ea iv -l ic un st ) po se l c la oa c 12 ( (9 eu eu li c l ic e Id l ta na ap io tr e es of pr cla -8 5 l( z ia e) na as cl la oa c

n aceast fereastr vom seta opiunile Simple i Summaries of separate variables. Apoi vom aciona butonul Define. n noua fereastr am selectat i mutat variabila babymort i de asemenea am considerat variabila country prin intermediul creia se pot eticheta cazurile speciale (extreme). Din butonul Option putem alege o variant referitoare la valorile lips.

Ultima coal absolvit (respondent)

Un alt tip de graphic este cel numit box-plot i care este foarte util n a depista distribuia valorilor seriei dar i dispunerea valorilor (scorurilor) extreme ale variabilei. Acest tip de graphic se mai numete cutia cu musti i are urmtoarea conformaie:

Mediana

n cazul graficului obinut se observ o singur valoare extrem: mortalitatea infantil cea mai ridicat este n Afganistan. De altfel se pot compara reperele grafice cu principalele valori statistice obinute din AnalyzeDescriptive StatisticsFrequencies:Statistics200Afghanistan

Musti

Infant mortality (deaths per 1000 live births) N 109 0 Mean 42.313 Median 27.700 Std. Deviation 38.0792 Skewness 1.090 Std. Error of Skewness .231 Kurtosis .365 Std. Error of Kurtosis .459 Range 164.0 Percentiles 9.250 27.700 64.500

Lungimea cutiei

Quartila3100

Quartila 1

0

n cazul acestui grafic 50% din date sunt n interiorul cutiei (care are bazele la 25% i la 75% din date adic la quartilele 1 i 3). Mustile pot avea o lungime de pn la 1,5 limi ale cutiei. Valorile care cad nafara limitelor (desemnate prin drepte orizontale la captul mustilor i numite uneori valori adiacente) se numesc valori extreme. Valorile adiacente se obin scznd din Q1 lungimea cutiei nmulit cu 1,5 i adunnd la Q3 aceeai distan. Dac o valoare extrem este mai ndeprtat de trei lungimi de cutie atunci este reprezentat printr-o stelu marcat i cu numrul cazului respectiv. Dac mustile sunt egale distribuia tinde la una normal. Dac musta superioar este mai mic distribuia este alungit spre stnga. S reprezentm grafic variabila babymort din baza de date word95. Vom urma comenzile GraphsBoxplot:

-100N= 109

Infant mortality (de

Obs1: dac cutia este situat mai jos distribuia este alungit spre dreapta i exist o concentrare a valorilor mici n partea stng. Obs2: daca linia medianei este exact n mijlocul cutiei atunci distribuia este normal.

O alt analiz grafic important se poate face cu ajutorul comenzilor AnalyzeDescriptive StatisticsExplore:

115

116

Am trecut variabila de interes n sectorul Dependent List i apoi vom alege anumite opiuni din cele dou butoane Statistics i Plots. Se pot seta elemente de statistic descriptiv, intervalul de ncredere pentru medie, lista cu primele/ultimele valori din serie, percentilele 5, 10, 25, 50, 75, 90, 95. De asemenea se pot alege graficele histograma i graficul de tip stem-and-leaf. Acest graphic este expus mai jos:

Un alt grafic deosebit de util n cercetarea statistic este cel denumit Error Bar Chart i care e destinat variabilelor numerice. Cu ajutorul acestuia putem reprezenta intervalul de ncredere pe care l putem estima pentru media dintr-o populaie. Dup cum se tie atunci cnd extindem rezultatele de la un eantion la o populaie ntreag suntem ntr-o situaie de tipul urmtor: Am definit anterior intervalul de ncredere ca fiind tocmai [ [x x ; x + x ] unde x este eroarea standard (adic eroarea dat de poziia eantionului n populaia de eantioane).

x = t

SD n

unde t=1,96 pentru un i

nivel de ncredere de 95%. SD i n-deviaia standard mrimea eantionului.

S facem graficul pentru variabila vensub (venitul subiectului) din baza de date BOP_mai-2003_Gallup. Alegem comenzile GraphsError Bar: Opiunea Factor levels together ajut la compararea categoriilor variabilei independente iar opiunea Dependent together ajut la comparri ntre mai multe variabile sau ntre mai multe situaii n timp ale aceleeai variabile. Infant mortality (deaths per 1000 live births) Stem-and-Leaf Plot Frequency Stem & Leaf28.00 0 . 4455555666666666777778888899 13.00 1 . 0122223467799 16.00 2 . 0001123555577788 8.00 3 . 45567999 6.00 4 . 135679 9.00 5 . 011222347 5.00 6 . 03678 Acest tip de grafic ca i box plotul a fost 7.00 7 . 4556679 propus de ctre Kohn W. Tukey i este 1.00 8 . 5 asemntor histogramei. n primul rind sunt 28 1.00 9 . 4 de ri care au babymort egal cu 4,4,5,5....Pe 4.00 10 . 1569 7.00 11 . 0022378 al doilea rnd sunt valorile 10, 12, 12, 2.00 12 . 46 12....Similitudinea cu histograma este vizibil. 1.00 13 . 7 Dispunerea se face dup trunchi (stem) cu 1.00 Extremes (>=168) valorile 0,1,2,3....i frunzele (leaf) dispuse n Stem width: 10.0 Each leaf: 1 case(s)

95% CI Dar venitul dvs. personal n luna trecut (aprilie

2.4

2.3

2.2

2.1

partea dreapt a graficului.

2.0N= 187 1

Putem observa limitele intervalului de ncredere pentru o probabilitate de 95% (sau un prag de semnificaie de 0.05). Spunem c sunt 5% anse s ne nelm atunci cnd facem predicia c media veniturilor din populaie este cuprins n intervalul respectiv.Dar venitul dvs. per

117

118

Obs: Alte variante de reprezentri grafice se pot executa cu opiunea GraphsInteractive din care putem alege tipul de grafic necesar.

III. Notele (cotele) Zn acest capitol vom relua pe scurt cteva precizri din statistica descriptiv i le vom aplica apoi n cadrul programului SPSS. Cotele Z ne dau o imagine direct asupra poziiei pe care o are un subiect fa de media colectivitii respective ct i fa de dispersia datelor. Acest indicator se numete msura standard sau cota Z i ne arat cu cte deviaii standard se abate o valoare de la medie. Nota Z are formula urmtoare:z= xi x x x sau l gsim cu notaia z = i SD

n final amintim i de graficul clasic n statistica descriptiv numit i curba frecvenelor cumulate. Acest grafic este posibil n SPSS doar pentru variabile cu tipul de msur scale. Fie o baz de date de exemplu world95.sav i s presupunem c dorim s facem graficul respectiv pentru variabila babymort cea care reunete cifrele mortalitii infantile pentru cele 109 ri din baz. Vom recurge la irul de comenzi Graphs Interactive Histogram dup care a aprut fereastra urmtoare:

100

III. Notele (cotele) Z75

50

25

n aceast fereastr am adus variabila babymort pe viitoarea ax OX, am bifat opiunea Cumulative histogram, apoi din celelalte ferestre am ales comenzile HistogramNormal Curve i OptionCount din indicaiile privitoare la modul de definire al axei OY. Evident c toate aceste comenzi pot fi salvate i ntr-un fiier de tip sintax cu coman da Paste. Du toate aceste setri graficul de mai jos. Dup cum se tie, ntr-un astfel de grafic apar frecvenele de la un moment dat dar cumulate cu valorile inferioare i la care se adiioneaz apoi celelalte valori. Dac trasm dou segmente de dreapt paralele cu axele de coordonate putem trage concluzia c doar un numr de 50 de state au o mortalitate infantil mai mic de 40 (adic 40 de copii cu vrsta de pn un an decedai la 1000 de nscui vii). Oricum i aceast cifr este ridicat. Statele dezvoltate din punct de vedere economic au cifra de sub 10.

Pentru a nelege importana acestei mrimi s prelum un exemplu din A. Novak [1995]. Astfel, fie cazul unui student care a luat la statistic calificativul 7 iar n grup media m =5 i =1. La obiectul psihologie acelai student a obinut nota 9 iar n grup m = 6 i =2. Se pune ntrebarea la care dintre discipline nota a fost mai bun? Iniial putem crede c nota a doua este mai bun. S calculm i cotele Z ale respectivelor calificative:

Z1 =

75 =2 2

Z2 =

96 = 1,5 2

Din aceste valori deducem c la prima materie studentul se abate de la media grupei cu dou abateri standard iar la cea de a doua materie se abate de la media grupei cu 1,5 abateri standard. nseamn c el se abate n primul caz cu 2 puncte iar n al doilea cu 3 puncte, de unde rezult c la prima materie studentul este mai bine plasat. Deoarece datele provin de la aceeai colectivitate atunci cele dou note Z pot fi cumulate: (2+1,5)/2=1,75 care poate da o poziie n ansamblu. O aplicaie important a variabilei Z o gsim n diverse probleme care impun totui utilizarea tablei legii normale (afiat n orice carte de statistic). Pentru a nelege astfel de aplicaii s dm un alt exemplu, dup M. Colin et alii [1995]: ntr-o universitate rezultatele obinute la un test se distribuie dup o lege normal cu m=75 i =8. Dac lum un student la ntmplare care sunt ansele ca el s aib un rezultat cuprins ntre 75 i 95 ? Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urmtoare: m-3 m-2 m- m m+ m+2 m+3

Count

0 40.0 80.0 120.0 160.0

Infant mortality (deaths per 1000 live births)

51

59

67

75

83

91

99

119

120

Fiind o distribuie normal putem spune c 68,26% din rezultatele la examen se gsesc ntre [59; 91] etc. Acest grafic poate fi reprezentat i n cote Z. Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urmtoare:

Obs. 2 : n general se consider c scorurile z trebuie s se nscrie n intervalul [-3,+3]. Dac z +1 se consider c valorile respective sunt mici (respectiv mari) pentru o serie statistic dat. Dac z [-1, +1] mrimea respectiv este considerat medie.

-3

-2

-1

0

1

2

3

Vom calcula cotele Z pentru principalele valori din problem: Zm=( 75-75)/8 = 0 Z1 = (X 75) / 8 Z2= (95 75)/ 8= 2,50 Dac rezumm pe scurt problema noastr cu enunul P (75< X < 95) [a se citi probabilitatea ] atunci n limbajul notelor Z acest enun devine P (0< Z < 2,50) . Cutnd n tabelul legii normale [vezi tabelul de pe pagina urmtoare ; n acest tabel sunt date doar valorile pozitive, cele negative find simetrice vor fi considerate cu semnul minus] se gsete valoarea 0,4938 care reprezint proporia din suprafaa delimitat de ctre curba normal, axa OX i perpendicularele ridicate n punctele 0 i 2,5. Aceast valoare se poate scrie i 49,38 % i reprezint chiar probabilitatea cutat: sunt 49,38 % anse ca studentul respectiv s aib calificativul cuprins ntre 75 i 95. Practic s-a fcut urmtorul transfer:

49,38% 49,38%

75

95

0

2,5

Obs. 1 : din tabelul urmtor atragem atenia i asupra valorii corespunztoare lui z=1.96 care este de 0,4750 valoare pe care dac o multiplicm cu doi rezult 0.95. Citim c la un nivel de 95% ncredere z=1,96. La fel raionm i pentru o alt valoare importanta z=2,58!

Aria de sub curba normal de 0 la x ________________________________________________________________________ X 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 ________________________________________________________________________ 0.0 0.00000 0.00399 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586 0.1 0.03983 0.04380 0.04776 0.05172 0.05567 0.05962 0.06356 0.06749 0.07142 0.07535 0.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409 0.3 0.11791 0.12172 0.12552 0.12930 0.13307 0.13683 0.14058 0.14431 0.14803 0.15173 0.4 0.15542 0.15910 0.16276 0.16640 0.17003 0.17364 0.17724 0.18082 0.18439 0.18793 0.5 0.19146 0.19497 0.19847 0.20194 0.20540 0.20884 0.21226 0.21566 0.21904 0.22240 0.6 0.22575 0.22907 0.23237 0.23565 0.23891 0.24215 0.24537 0.24857 0.25175 0.25490 0.7 0.25804 0.26115 0.26424 0.26730 0.27035 0.27337 0.27637 0.27935 0.28230 0.28524 0.8 0.28814 0.29103 0.29389 0.29673 0.29955 0.30234 0.30511 0.30785 0.31057 0.31327 0.9 0.31594 0.31859 0.32121 0.32381 0.32639 0.32894 0.33147 0.33398 0.33646 0.33891 1.0 0.34134 0.34375 0.34614 0.34849 0.35083 0.35314 0.35543 0.35769 0.35993 0.36214 1.1 0.36433 0.36650 0.36864 0.37076 0.37286 0.37493 0.37698 0.37900 0.38100 0.38298 1.2 0.38493 0.38686 0.38877 0.39065 0.39251 0.39435 0.39617 0.39796 0.39973 0.40147 1.3 0.40320 0.40490 0.40658 0.40824 0.40988 0.41149 0.41308 0.41466 0.41621 0.41774 1.4 0.41924 0.42073 0.42220 0.42364 0.42507 0.42647 0.42785 0.42922 0.43056 0.43189 1.5 0.43319 0.43448 0.43574 0.43699 0.43822 0.43943 0.44062 0.44179 0.44295 0.44408 1.6 0.44520 0.44630 0.44738 0.44845 0.44950 0.45053 0.45154 0.45254 0.45352 0.45449 1.7 0.45543 0.45637 0.45728 0.45818 0.45907 0.45994 0.46080 0.46164 0.46246 0.46327 1.8 0.46407 0.46485 0.46562 0.46638 0.46712 0.46784 0.46856 0.46926 0.46995 0.47062 1.9 0.47128 0.47193 0.47257 0.47320 0.47381 0.47441 0.47500 0.47558 0.47615 0.47670 2.0 0.47725 0.47778 0.47831 0.47882 0.47932 0.47982 0.48030 0.48077 0.48124 0.48169 2.1 0.48214 0.48257 0.48300 0.48341 0.48382 0.48422 0.48461 0.48500 0.48537 0.48574 2.2 0.48610 0.48645 0.48679 0.48713 0.48745 0.48778 0.48809 0.48840 0.48870 0.48899 2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158 2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361 2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520 2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643 2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736 2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807 2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861 3.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49896 0.49900 3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929 3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950 3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965 3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976 3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983 3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989 3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49992 0.49992 0.49992 0.49992 3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995 3.9 0.49995 0.49995 0.49996 0.49996 0.49996 0.49996 0.49996 0.49996 0.49997 0.49997 4.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998

121

122

Ne propunem s calculm cotele z pentru variabila salary din baza de date Employee Data. Pentru aceasta vom urmri comenzile Analyze Descriptiv StatisticsDescriptives: Vom trece n dreapta variabila de interes i vom seta opiunea Save standardized values as variables. Din butonul Options se pot alege diverse valori generale da statistic descriptiv. n baz va apare o nou variabil:

IV. TESTAREA IPOTEZELOR STATISTICE; PRAGURI DE SEMNIFICAIE

n cazul variabilei zsalary vom putea s comentm n ce msur anumite valori sunt mici, mari sau medii. De exemplu subiectul nr.1 cu un salar mediu anual de 57.000$ are un scor z de 1,32 ceea ce semnific o valoare mare printre valorile seriei. Valoare salariului se abate 1,32 abateri standard de la media salarial. Obs.3 :n general metodele grafice sunt foarte utile pentru analiza prealabil a datelor. Astfel, nainte de a se trece la analiza propriu-zis a datelor pe care le-am inserat n Data Editor trebuie s avem mai nti o imagine general asupra variabilelor. Dup cum am vzut n submeniul Explore putem s obinem o imagine de ansamblu a variabilelor i reprezentarea grafic a acestora. Prin aceste proceduri putem evita greelile inerente: greeli de nregistrare, greeli date de necunoaterea distribuiei variabilei, greeli generate de cazurile lips (exist diverse opiuni cum ar fi Exclude cases pairwise- cnd un caz nu are o valoare pentru o anumit variabil este exclus din analiz) etc. Informaii la fel de importante pot fi obinute i din submeniul Descriptive.

n general majoritatea raionamentelor umane sunt alctuite din combinaii de dou sau mai multe variabile. Este i cazul ipotezelor statistice care nu sunt altceva dect aseriuni privind diverse fenomene naturale sau sociale, aseriuni pe care la facem n vederea testrii lor ulterioare. O ipotez statistic este de obicei compus dintr-un cuplu de dou enunuri: - H0 (ipoteza de nul) i - H1 (ipoteza de lucru). Primul enun H0 descrie, de obicei (dar nu e obligatoriu!) situaia cnd o anumit variabil sau fenomen nu este prezent sau nu acioneaz (sau c, de exemplu, nu exist o diferen semnificativ ntre dou condiii). Este ca i cum am spune c un anumit lucru dac se ntmpl este doar rodul ntmplrii. Ipoteza de nul este tocmai cea care este testat. Al doilea enun H1 descrie situaia contrar enunului H0 cnd o variabil sau fenomen acioneaz i are o influen semnificativ: Exemple: H1: sexul respondenilor influeneaz prerea acestora despre impozite. H0: opinia despre impozite nu este influenat de sexul respondenilor. H1: autoturismul Dacia este mai bun ca unul din import H0: autoturismul Dacia este la fel de bun ca unul din import. Din astfel de exemple deducem c n analiza statistic suntem nevoii fie s acceptm H0 fie pe H1, deoarece ambele sunt disjunctive. Un astfel de raionament se va face ntotdeauna n termeni de prag de semnificaie (sau interval de ncredere) pentru c n realitate orice presupoziie statistic se face cu o anumit marj de eroare, cu o anumit ans de a ne nela. De exemplu cnd vorbim de un prag de semnificaie (notat p) de 0.05 spunem de fapt c sunt 5% anse s ne nelm atunci cnd facem o anumit aseriune statistic (iar n oglind spunem c sunt 95% anse s nu ne nelm cnd facem respectivul raionament). La fel, cnd vorbim de un prag de semnificaie de 0,01 spunem c sunt 1% anse s ne nelm (sau 99% anse s nu ne nelm). Evident c n cel de al doilea caz gradul de siguran este mai mare. i n cazul testrii ipotezelor intervin astfel de precizri. Astfel c vorbim de un prag de semnificaie de 0.05 n sensul c sunt 5% anse de a ne nela atunci cnd acceptm ipoteza de lucru H1 (sau respingem ipoteza de nul H0). n majoritatea cercetrilor este acceptat un prag maxim de 0.05 sau p 0.05 dar se ntlnesc i praguri mai mari dect 0.05 (ntotdeauna aceste praguri trebuie amintite pentru a se clarifica gradul de precizie dorit de cercettor). Trebuie s precizm c exist posibilitatea s ne nelm chiar i n aceste condiii. Adic de exemplu s acceptm o ipotez de lucru pentru c toate datele statistice o confirm dar, n esen, acea ipotez s fie totui fals. n general se pot comite dou feluri de erori: Eroare de gradul I: respingem ipoteza nul dei este adevrat Eroare de gradul II: ipoteza nul este acceptat dei este fals. Aceste dou tipuri de erori sunt complet diferite: eroarea de gradul I este considerat mai grav i tocmai de aceea se cere s micorm pe ct posibil pragul de semnificaie.

123

124

Unii cercettori recomand aici un prag p 0.01 cu att mai mult cu ct influena cercettorului poate fi important. n cel de-al doilea caz gradul de influen al cercettorului este redus i se recomand un prag p 0.05. Legat de aceste erori sunt folosite n statistic noiunile de putere - sau probabilitatea de a respinge ipoteza nul cnd de fapt ea este adevrat ; pentru o analiz pe larg a acestei problematici a se vedea C.Coman, N. Medianu (2002 ; pp. 144 i urm). Ipotezele statistice sunt testate prin teste statistice. De obicei testul statistic desemneaz o comparaie ntre o situaie presupus i una rezultat n urma cercetrii de teren efective. Comparaiile n statistica social sunt foarte diverse: fie se fac observaii pe o singur variabil, fie se compar valori din dou eantioane, fie se compar valorile dintr-un eantion cu valorile unei populaii mai extinse, fie se analizeaz diverse situaii experimentale etc. n general n testarea ipotezelor se urmrete o anumit direcie, un anumit sens al legturilor.Din acest punct de vedere sunt dou tipuri de raionamente: one-tailed (unilateral) i two-tailed (bilateral)! One-tailed este utilizat atunci cnd se cunoate dinainte sensul prediciei statistice iar varianta two-tailed este preferat atunci cnd nu se cunoate n avans sensul prediciei. O alt precizare important este aceea c sunt dou tipuri fundamentale de teste statistice: parametrice i non-parametrice. Testele parametrice sunt considerate mai puternice dar pentru aceasta trebuie s fie ndeplinite mai multe condiii importante: - populaia din care a fost extras eantionul s aib o distribuie normal (distribuia normal trebuie s se regseasc i n eantion altfel se pot face anumite transformri pentru a se ajunge la o distribuie normal) - regula omogenitii varianei (dintre cea din eantion i cea din populaie) - n majoritatea cazurilor variabilele trebuie s fie msurate pe scale de interval - nu trebuie s existe scoruri extreme (metodele parametrice sunt sensibile n astfel de situaii). Dac testele parametrice folosesc metode numerice cele ne-parametrice folosesc poziiile pe care valorile le au n cadrul variabilelor. Nefiind vulnerabile la valori extreme unii statisticieni vorbesc de o mai mare stabilitate a acestor teste. n funcie de aceste precizri se recomand folosirea unor teste diverse n funcie de necesiti. Din multele tipuri de clasificri redm una dintre ele consemnat de Christine P. Dancey i J. Reidy (1999) [vezi tabelul urmtor]. Obs. 1: Testele incluse n tabelul respectiv reprezint modaliti de analiz a legturii dintre variabile. Se disting astfel metode parametrice dar i neparametrice de studiu a acestor legturi. Obs. 2: Testarea diferenei ntre dou condiii reprezint o modalitate foarte rspndit de analiz. De exemplu putem analiza care este influena unei sesiuni de comunicri pentru studenii la sociologie. Probabil c cei ce parcurg sesiunea respectiv vor avea cunotine mai bune. Pentru a testa acest lucru putem dispune de dou tehnici principale: A. Se compar dou grupuri diferite de studeni (alocai aleator) unul care parcurge respectiva sesiune i unul care nu urmeaz acea sesiune, apoi se compar rezultatele unei examinri. Acest tip de analiz se numete between participants design (rezultatele vin de la dou grupuri). B. Se compar un singur grup care trece prin cele dou condiii, odat fr s parcurg sesiunea respectiv iar a doua oar dup parcurgerea acesteia. Rezultatele unor examinri succesive vor decide care este influena urmririi sesiunii. Acest tip de analiz se numete within participant design (rezultatele vin de la acelai grup). n fapt compararea ntre condiii nseamn compararea unor medii i dac diferena dintre aceste medii este semnificativ. Testele folosite n aceste cazuri trebuie s rspund la o ntrebare important: este diferena dat de erori de eantionare sau cu adevrat se manifest influena unei variabile independente cu efecte importante n variaia variabilei dependente?

125

126

V. TESTAREA NORMALITII UNEI DISTRIBUII

Normal Q-Q Plot of Horsepower3

2

1

Nu de puine ori asumia ca un eantion sau o populaie s aib o distribuie normal dup o variabil cantitativ este necesar pentru a executa anumite analize statistice. O prim impresie poate fi dat de histograma seriei dar nu este suficient acest lucru. Un test care poate susine aceast analiz este testul Kolmogorov-Smirnov i care de fapt compar distribuia din eantion cu o alt distribuie (normal) care are aceeai medie i abatere standard. S presupunem c dorim s verificm normalitatea variabilei horsepower (puterea motorului) din baza de date Cars din programul SPSS. Vom urma comenzile AnalyzeDescrtiptive StatisticsExplore: n rubrica Dependent list am trecut variabila care urmeaz s fie analizat. Din butonul Statistics putem selecta principalele valori de statistic descriptiv iar din butonul Plots nu trebuie uitat setarea Normality plots with tests.

0

-1

-2

-3 -100 0 100 200 300

Observed Value

Aceast concluzie apare simplu i din graficul de tip Q-Q plots. n figura alturat linia oblic reprezint valorile teoretice (ateptate) ale distribuiei normale. Linia curb reprezint valorile observate ale variabilei studiate. Cu ct diferena fa de linia dreapt este mai mare cu att deviaia de la normalitate este mai mare. Situaia de normalitate ar nsemna coincidena perfect dintre cele dou grafice. n concluzie se recomand n astfel de cazuri folosirea testelor non-parametrice.

Obs: n aplicarea testului de mai sus am inut seama i de mrimea eantionului. Astfel se consider c testul K.-Smirnov este valabil cnd eantionul>50 de subieci. Dac eantionul este mai mic atunci se aplic testul W al lui Shapiro-Wilks. Programul SPSS calculeaz oricum automat ambele teste. Formularea n sensul ipotezelor statistice ar fi urmtoarea: Ho: ntre distribuia variabilei i cea teoretic nu este o diferen semnificativ iar H1: ntre cele dou distribuii exist o diferen semnificativ. Dac p