Spss Curs Id2

download Spss Curs Id2

of 44

Transcript of Spss Curs Id2

  • 7/30/2019 Spss Curs Id2

    1/44

    II. Alte proceduri pentru reprezentri grafice n SPSS

    S presupunem c vrem s facem histograma variabilei loc4 [Care este suprafaa total(n metri ptrai) a camerelor (fr baie, buctrie, hol) pe care le ocup gospodriadumneavoastr?].

    Vom trece variabila din stnga n dreapta, putem seta opiunea Display normal curve, deasemenea putem s cutm un titlu adecvat graficului:

    Care este suprafaa total (n metri ptrai) a camerelor (fr baie, bu

    400.0

    360.0

    320.0

    280.0

    240.0

    200.0

    160.0

    120.0

    80.040.0

    0.0

    Suprafata totala800

    600

    400

    200

    0

    Std. Dev = 32.24

    Mean = 53.0

    N = 2100.00

    Comenzile pentru diverse alte grafice le putem gsi n meniul

    Graphs. Din acest meniu vom detalia cteva opiuni care suntmai uzuale. Vom gsi i aici de exemplu opiunea Histogramdar cu o fereastr uor diferit:

  • 7/30/2019 Spss Curs Id2

    2/44

    Ultima coal absolvit (respondent)

    NR

    studiipostuniversit

    universitardelung

    universitardescurt

    coalpost-liceal

    liceu (912clase)

    treaptaIdeliceu(

    coalaprofesional

    gimnazial(5-8cla

    primar(1-4clase)

    frcoal

    MeanDarvenituldvs.personalnlunatr

    7

    6

    5

    4

    3

    2

    1

    01

    4

    6

    3

    4

    3

    1

    2

    11

    1

    Din acelai meniu Graphs putem obine pentru graficele detip Bar Charts o serie de reprezentri mai sugestive. Vomncerca s reprezentm grafic alt variabilscoala0 [Ultima

    scoala absolvit?] din baza BOP_mai-2003_GallupFINAL.sav. Ne propunem s reprezentm aceast variabilinnd cont de venitul respondenilor. Vom deschidefereastra necesar dup comenzile GraphsBar. Dinaceast fereastr vom pstra opiunea Simple care este

    potrivit situaiei noastre deoarece exist o singur variabilindependent scoala0. Din partea de jos vom lsa setareaSummaries for groups of cases (barele reprezint grupuride cazuri). Clic pe butonul Define:

    Se observ n aceast fereastr cam deplasat variabila scoala0 nrubrica Category Axis (estevariabila independent care vadefini axa OX) iar n rubricaVariable am trecut variabilavensub iar pentru aceasta n graficvor apare pe axa OY mediileveniturilor. De altfel aceastopiune a fost aleas de program n

    mod automat dar ea poate fischimbat din butonul ChangeSumary. Pentru exemplul nostruvom lsa aceste setri i vomcontinua cu OK!Obs: Dac variabila independentare valori lips atunci dinbutonul Options se va dezactivacomanda Display groups definedby missing values!

    Valorile de pe axa OY reprezintmediile veniturilor n milioane lein luna aprilie 2003. Se observdin grafic modul cum influeneazvariabila independent studiivariabila dependent venit.Pentru studii postuniversitare semanifest o scdere a medieiveniturilor!

  • 7/30/2019 Spss Curs Id2

    3/44

    S presupunem c dorim s reprezentm grafic variabila ven (venitul familiei) ivariabila vensub (venitul respondentului la chestionar). Reprezentarea se alege de data aceastadup opiunea Summarise of separate variables. Dup acionarea butonului Define va aparefereastra urmtoare apoi graficul:

    Dar venitul dvs. pern luna trecut (aprMean

    5.5

    5.0

    4.5

    4.0

    3.5

    3.0

    2.5

    2.0

    1.5

    Obs: scala folosit pe axa OY poate crea impresia unei disproporii prea mari ntre mediilecelor dou variabile. Respectiva scal poate fi modificat dup ce am dat dublu clic pe grafic iam intrat n fereastra Graph1 vom urma comenzile ChartAxisScale dup care vommodifica n opiunea Range limitele axei OY. Iat cum arat dup o astfel de modificareacelai grafic:

    Dar venitul dvs. pern luna trecut (aprMediaveniturilor

    3.0

    2.5

    2.0

    1.5

  • 7/30/2019 Spss Curs Id2

    4/44

    O alt variant de reprezentare grafic i care este foarte des uzitat este dat de opiuneareprezentrii de tip cluster (apar grupuri de bare care se pot compara mai uor). De exemplune-ar interesa repartiia din eantionul folosit n aceeai cercetare dup variabila scoala0 dar nfuncie de sexul respondenilor. Vom alege de data aceasta comenzile ChartsBar

    ChartsClustered iar opiunea Summaries for groups of cases rmne neschimbat. DupDefine apare fereastra:

    Ultima coal absolvit (respondent)

    NRstudiipostuniversit

    universitardelung

    universitardescurt

    coalpost-liceal

    liceu(912clase)

    treaptaIdeliceu(

    coalaprofesional

    gimnazial(5-8cla

    primar(1-4clase)

    frcoal

    Count

    400

    300

    200

    100

    0

    Genul (respondent)

    masculin

    feminin

    Revenind la primul exemplu care se referea la variabilele scoala0 i vensub le vomreprezenta un nou grafic cu linii dup ce vom urma comenzile GraphsLine.

    Procedurile sun asemntoare cu cele dinainte i vom obine urmtorul grafic(n fapt unpoligon al frecvenelor!):

    Observm c pentru axaOX am ales aceeaivariabil iar variabila caredicteaz dispunereacluster este varibila sex.Frecvenele vor reprezentaefectiv numrul desubieci (N of cases). DinOption am deselectatopiunea Display groupsdefined by missing values!

    Graficul este urmtorul:

  • 7/30/2019 Spss Curs Id2

    5/44

    Ultima coal absolvit (respondent)

    NRstudiipostuniversit

    universitardelung

    universitardescurt

    coalpost-liceal

    liceu(912clase)

    treaptaIdeliceu(

    coalaprofesional

    gimnazial(5-8cla

    primar(1-4clase)

    frcoal

    MeanDarvenituldvs.p

    ersonalnlunatr

    7

    6

    5

    4

    3

    2

    1

    0

    Un alt tip de graphic este cel numit box-plot i care este foarte util n a depista distribuiavalorilor seriei dar i dispunerea valorilor (scorurilor) extreme ale variabilei. Acest tip degraphic se mai numete cutia cu musti i are urmtoarea conformaie:

    n cazul acestui grafic 50% din date sunt n interiorul cutiei (care are bazele la 25% i la 75%din date adic la quartilele 1 i 3). Mustile pot avea o lungime de pn la 1,5 limi ale cutiei.Valorile care cad nafara limitelor (desemnate prin drepte orizontale la captul mustilor inumite uneori valori adiacente) se numesc valori extreme. Valorile adiacente se obin scznddin Q1 lungimea cutiei nmulit cu 1,5 i adunnd la Q3 aceeai distan. Dac o valoareextrem este mai ndeprtat de trei lungimi de cutie atunci este reprezentat printr-o stelumarcat i cu numrul cazului respectiv. Dac mustile sunt egale distribuia tinde la unanormal. Dac musta superioar este mai mic distribuia este alungit spre stnga.

    S reprezentm grafic variabila babymort din baza de date word95. Vom urmacomenzile GraphsBoxplot:

    Musta iMediana

    Lungimeacutiei

    Quartila 1

    Quartila3

  • 7/30/2019 Spss Curs Id2

    6/44

    109N =

    Infant mortality (de

    200

    100

    0

    -100

    Afghanistan

    Obs1: dac cutia este situat mai jos distribuia este alungit spre dreapta i exist oconcentrare a valorilor mici n partea stng.Obs2: daca linia medianei este exact n mijlocul cutiei atunci distribuia este normalO alt analiz grafic important se poate face cu ajutorul comenzilor AnalyzeDescriptiveStatisticsExplore:

    n aceast fereastr vom seta opiunile Simple iSummaries of separate variables. Apoi vom aciona

    butonul Define. n noua fereastr am selectat i mutatvariabila babymort i de asemenea am considerat

    variabila country prin intermediul creia se pot etichetacazurile speciale (extreme). Din butonul Option putemalege o variant referitoare la valorile lips.

    n cazul graficului obinut seobserv o singur valoareextrem: mortalitateainfantil cea mai ridicateste n Afganistan. De altfelse pot compara reperelegrafice cu principalele valoristatistice obinute dinAnalyzeDescriptive

    StatisticsFrequencies:

    Statistics

    Infant mortality (deaths per 1000109

    042.313

    27.700

    38.0792

    1.090

    .231

    .365

    .459

    164.0

    9.250

    27.700

    64.500

    N

    Mean

    Median

    Std. Deviation

    Skewness

    Std. Error of Skewne

    Kurtosis

    Std. Error of Kurtosis

    Range

    Percentiles

  • 7/30/2019 Spss Curs Id2

    7/44

    Am trecut variabila de inters

    Opiunea Factor levels together ajut la compararea categoriilor variabilei independente iaropiunea Dependent together ajut la comparri ntre mai multe variabile sau ntre mai multesituaii n timp ale aceleeai variabile.

    Infant mortality (deaths per 1000 live births) Stem-and-Leaf Plot

    Frequency Stem & Leaf

    28.00 0 . 4455555666666666777778888899

    13.00 1 . 0122223467799

    16.00 2 . 0001123555577788

    8.00 3 . 45567999

    6.00 4 . 135679

    9.00 5 . 011222347

    5.00 6 . 03678

    7.00 7 . 4556679

    1.00 8 . 5

    1.00 9 . 4

    4.00 10 . 1569

    7.00 11 . 0022378

    2.00 12 . 46

    1.00 13 . 7

    1.00 Extremes (>=168)

    Stem width: 10.0

    Each leaf: 1 case(s)

    Am trecut variabila de interesn sectorul Dependent List iapoi vom alege anumiteopiuni din cele dou butoaneStatistics i Plots. Se pot setaelemente de statisticdescriptiv, intervalul dencredere pentru medie, listacu primele/ultimele valori dinserie, percentilele 5, 10, 25,50, 75, 90, 95. De asemenea sepot alege graficele histogramai graficul de tip stem-and-leaf. Acest graphic este expusmai jos:

    Acest tip de grafic c i box plotul a fostpropus de ctre Kohn W. Tukey i esteasemntor histogramei. n primul rindsunt 28 de ri care au babymort egal cu4,4,5,5....Pe al doilea rnd sunt valorile 10,12, 12, 12....Similitudinea cu histogramaeste vizibil. Dispunerea se face duptrunchi (stem) cu valorile 0,1,2,3....ifrunzele (leaf) dispuse n partea dreapt agraficului.

  • 7/30/2019 Spss Curs Id2

    8/44

    Un alt grafic deosebit de util n cercetarea statistic este cel denumit Error Bar Charti care e destinat variabilelor numerice. Cu ajutorul acestuia putem reprezenta intervalul dencredere pe care l putem estima pentru media dintr-o populaie. Dup cum se tie atunci cndextindem rezultatele de la un eantion la o populaie ntreag suntem ntr-o situaie de tipul

    urmtor:

    S facem graficul pentru variabila vensub (venitul subiectului) din baza de dateBOP_mai-2003_Gallup. Alegem comenzile GraphsError Bar:

    Obs: Alte variante de reprezentri graficese pot executa cu opiuneaGraphsInteractive din care putem alegetipul de grafic necesar.

    Interval dencredere

    Media din populatie

    Media din eantion

    Am definit anterior intervalul dencredere ca fiind tocmai[ [ ]xx xx + ; unde x esteeroarea standard (adic eroarea datde poziia eantionului n populaiade eantioane).

    tx =

    n

    SDunde t=1,96 pentru un

    nivel de ncredere de 95%.SD i n-deviaia standard imrimea eantionului.

    1871N=

    Dar venitul dvs. per

    95%C

    IDarventudvs.personalnlunatecu

    aprili

    2.4

    2.3

    2.2

    2.1

    2.0

    Putem observa limitele intervalului dencredere pentru o probabilitate de 95% (sau unprag de semnificaie de 0.05). Spunem c sunt5% anse s ne nelm atunci cnd facempredicia c media veniturilor din populaieeste cu rins n intervalul res ectiv.

  • 7/30/2019 Spss Curs Id2

    9/44

    n final amintim i de graficul clasic n statistica descriptiv numit i curba frecvenelorcumulate. Acest grafic este posibil n SPSS doar pentru variabile tipul de msurscale.

    Fie o baz de date de exemplu world95.sav i s presupunem c dorim s facemgraficul respectiv pentru variabila babymort cea care reunete cifrele mortalitii infantile

    pentru cele 109 ri din baz. Vom recurge la irul de comenzi Graphs

    Interactive

    Histogram dup care a aprut fereastra urmtoare:

    40.0 80.0 120.0 160.0

    Infant mortality (deaths per 1000 live births)

    0

    25

    50

    75

    100

    Count

    n aceast fereastr am adus variabilababymort pe viitoarea ax OX, am

    bifat opiunea Cumulativehistogram, apoi din celelalte ferestream ales comenzileHistogramNormal Curve iOptionCount din indicaiile

    privitoare la modul de definire al axeiOY. Evident c toate aceste comenzi

    pot fi salvate i ntr-un fiier de tipsintax cu coman da Paste. Dutoate aceste setri graficul de mai jos.Dup cum se tie, ntr-un astfel de

    grafic apar frecvenele de la unmoment dat dar cumulate cu valorileinferioare i la care se adiioneazapoi celelalte valori.

    Dac trasm dou segmentede dreapt paralele cu axele decoordonate putem trage concluzia cdoar un numr de 50 de state au omortalitate infantil mai mic de40 (adic 40 de copii cu vrsta de

    pn un an decedai la 1000 denscui vii). Oricum i aceast cifreste ridicat. Statele dezvoltate din

    punct de vedere economic au cifra desub 10.

  • 7/30/2019 Spss Curs Id2

    10/44

    III. Notele (cotele) Z

    n acest capiutol vom relua pe scurt cteva precizri din statistica descriptiv i le vomaplica apoi n cadrul programului SPSS. Cotele Z ne dau o imagine direct asupra poziiei pecare o are un subiect fa de media colectivitii respective ct i fa de dispersia datelor.

    Acest indicator se numete msura standard sau cota Z i ne arat cu cte deviaii standardse abate o valoare de la medie. Nota Z are formula urmtoare:

    z=SD

    xxi sau l gsim cu notaia z=

    xxi

    Pentru a nelege importana acestei mrimi s prelum un exemplu din A. Novak[1995]. Astfel, fie cazul unui student care a luat la statistic calificativul 7 iar n grup mediam =5 i =1. La obiectul psihologie acelai student a obinut nota 9 iar n grup m = 6 i =2.Se pune ntrebarea la care dintre discipline nota a fost mai bun? Iniial putem crede c nota adoua este mai bun. S calculm i cotele Z ale respectivelor calificative:

    22

    571 ==Z 5,12692 ==Z

    Din aceste valori deducem c la prima materie studentul se abate de la media grupei cudou abateri standard iar la cea de a doua materie se abate de la media grupei cu 1,5 abateristandard. nseamn c el se abate n primul caz cu 2 puncte iar n al doilea cu 3 puncte, de underezult c la prima materie studentul este mai bine plasat. Deoarece datele provin de la aceeaicolectivitate atunci cele dou note Z pot fi cumulate: (2+1,5)/2=1,75 care poate da o poziie nansamblu. O aplicaie important a variabilei Z o gsim n diverse probleme care impun totuiutilizarea tablei legii normale (afiat n orice carte de statistic).

    Pentru a nelege astfel de aplicaii s dm un alt exemplu, dup M. Colin et alii [1995]:ntr-o universitate rezultatele obinute la un test se distribuie dup o lege normal cu m=75 i=8. Dac lum un student la ntmplare care sunt ansele ca el s aib un rezultat cuprins ntre75 i 95 ?

    Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urmtoare:m-3 m-2 m- m m+ m+2 m+3

    51 59 67 75 83 91 99

    Fiind o distribuie normal putem spune c 68,26% din rezultatele la examen se gsescntre [59; 91] etc. Acest grafic poate fi reprezentat i n cote Z.

  • 7/30/2019 Spss Curs Id2

    11/44

    Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urmtoare:

    -3 -2 -1 0 1 2 3

    Vom calcula cotele Z pentru principalele valori din problem:Zm=( 75-75)/8 = 0 Z1 = (X 75) / 8 Z2= (95 75)/ 8= 2,50Dac rezumm pe scurt problema noastr cu enunul P (75< X < 95) [a se citi

    probabilitatea ] atunci n limbajul notelor Z acest enun devine P (0< Z < 2,50) .Cutnd n tabelul legii normale [vezi tabelul de pe pagina urmtoare ; n acest tabel

    sunt date doar valorile pozitive, cele negative find simetrice vor fi considerate cu semnulminus] se gsete valoarea 0,4938 care reprezint proporia din suprafaa delimitat de ctrecurba normal, axa OX i perpendicularele ridicate n punctele 0 i 2,5. Aceast valoare se

    poate scrie i 49,38 % i reprezint chiar probabilitatea cutat: sunt 49,38 % anse castudentul respectiv s aib calificativul cuprins ntre 75 i 95. Practic s-a fcut urmtorultransfer:

    fcut urmtorul transfer:

    75 95 0 2,5

    Obs1 : din tabelul urmtor atragem atenia i asupra valorii corespunztoare lui z=1.96 careeste de 0,4750 valoare pe care dac o multiplicm cu doi rezult 0.95. Citim c la un nivel de95% ncredere z=1,96. La fel raionm i pentru o alt valoare importanta z=2,58!

    Obs2 : n general se consider c scorurile z trebuie s se nscrie n intervalul [-3,+3]. Dac z+1 se consider c valorile respective sunt mici (respectiv mari) pentru o seriestatistic dat. Dac z [-1, +1] mrimea respectiv este considerat medie.

    49,38

    49,38

  • 7/30/2019 Spss Curs Id2

    12/44

    Ne propunem s calculm cotele z pentru variabila salary din baza de date Employee Data.Pentru aceasta vom urmri comenzile AnalyzeDescriptiv StatisticsDescriptives:

    Aria de sub curba normal de 0 lax________________________________________________________________________X 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

    ________________________________________________________________________

    0.0 0.00000 0.00399 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.035860.1 0.03983 0.04380 0.04776 0.05172 0.05567 0.05962 0.06356 0.06749 0.07142 0.075350.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.114090.3 0.11791 0.12172 0.12552 0.12930 0.13307 0.13683 0.14058 0.14431 0.14803 0.151730.4 0.15542 0.15910 0.16276 0.16640 0.17003 0.17364 0.17724 0.18082 0.18439 0.187930.5 0.19146 0.19497 0.19847 0.20194 0.20540 0.20884 0.21226 0.21566 0.21904 0.222400.6 0.22575 0.22907 0.23237 0.23565 0.23891 0.24215 0.24537 0.24857 0.25175 0.254900.7 0.25804 0.26115 0.26424 0.26730 0.27035 0.27337 0.27637 0.27935 0.28230 0.285240.8 0.28814 0.29103 0.29389 0.29673 0.29955 0.30234 0.30511 0.30785 0.31057 0.313270.9 0.31594 0.31859 0.32121 0.32381 0.32639 0.32894 0.33147 0.33398 0.33646 0.338911.0 0.34134 0.34375 0.34614 0.34849 0.35083 0.35314 0.35543 0.35769 0.35993 0.362141.1 0.36433 0.36650 0.36864 0.37076 0.37286 0.37493 0.37698 0.37900 0.38100 0.382981.2 0.38493 0.38686 0.38877 0.39065 0.39251 0.39435 0.39617 0.39796 0.39973 0.401471.3 0.40320 0.40490 0.40658 0.40824 0.40988 0.41149 0.41308 0.41466 0.41621 0.417741.4 0.41924 0.42073 0.42220 0.42364 0.42507 0.42647 0.42785 0.42922 0.43056 0.431891.5 0.43319 0.43448 0.43574 0.43699 0.43822 0.43943 0.44062 0.44179 0.44295 0.444081.6 0.44520 0.44630 0.44738 0.44845 0.44950 0.45053 0.45154 0.45254 0.45352 0.454491.7 0.45543 0.45637 0.45728 0.45818 0.45907 0.45994 0.46080 0.46164 0.46246 0.463271.8 0.46407 0.46485 0.46562 0.46638 0.46712 0.46784 0.46856 0.46926 0.46995 0.470621.9 0.47128 0.47193 0.47257 0.47320 0.47381 0.47441 0.47500 0.47558 0.47615 0.476702.0 0.47725 0.47778 0.47831 0.47882 0.47932 0.47982 0.48030 0.48077 0.48124 0.48169

    2.1 0.48214 0.48257 0.48300 0.48341 0.48382 0.48422 0.48461 0.48500 0.48537 0.485742.2 0.48610 0.48645 0.48679 0.48713 0.48745 0.48778 0.48809 0.48840 0.48870 0.488992.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.491582.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.493612.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.495202.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.496432.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.497362.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.498072.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.498613.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49896 0.499003.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929

    3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.499503.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.499653.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.499763.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.499833.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.499893.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49992 0.49992 0.49992 0.499923.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.499953.9 0.49995 0.49995 0.49996 0.49996 0.49996 0.49996 0.49996 0.49996 0.49997 0.499974.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998

  • 7/30/2019 Spss Curs Id2

    13/44

    n cazul variabilei zsalary vom putea s comentm n ce msur anumite valori suntmici, mari sau medii. De exemplu subiectul nr.1 cu un salar mediu anual de 57.000$ are unscor z de 1,32 ceea ce semnific o valoare mare printre valorile seriei. Valoare salariului seabate 1,32 abateri standard de la media salarial.

    Observaie : n general metodele grafice sunt foarte utile pentru analiza prealabil a datelor.Astfel, nainte de a se trece la analiza propriu-zis a datelor pe care le-am inserat n DataEditor trebuie s avem mai nti o imagine general asupra variabilelor. Dup cum am vzut nsubmeniul Explore putem s obinem o imagine de ansamblu a variabilelori reprezentareagrafic a acestora. Prin aceste proceduri putem evita greelile inerente: greeli de nregistrare,greeli date de necunoaterea distribuiei variabilei, greeli generate de cazurile lips (existdiverse opiuni cum ar fi Exclude cases pairwise- cnd un caz nu are o valoare pentru o

    anumit variabil este exclus din analiz) etc. Informaii la fel de importante pot fi obinute idin submeniul Descriptive.

    Vom trece n dreapta variabila deinteres i vom seta opiunea Savestandardized values asvariables. Din butonul Options

    se pot alege diverse valorigenerale da statistic descriptiv.n baz va apare o nou variabil:

  • 7/30/2019 Spss Curs Id2

    14/44

    IV. Testarea ipotezelor statistice; praguri de semnificaie

    n general majoritatea raionamentelor umane sunt alctuite din combinaii de dou saumai multe variabile. Este i cazul ipotezelor statistice care nu sunt altceva dect aseriuni

    privind diverse fenomene naturale sau sociale, aseriuni pe care la facem n vederea testrii lorulterioare. O ipotez statistic este de obicei compus dintr-un cuplu de dou enunuri:-H0 (ipoteza de nul) i-H1 (ipoteza de lucru).

    Primul enun H0 descrie, de obicei (dar nu e obligatoriu!) situaia cnd o anumit variabil saufenomen nu este prezent sau nu acioneaz (sau c, de exemplu, nu exist o diferensemnificativ ntre dou condiii). Este ca i cum am spune c un anumit lucru dac se ntmpleste doar rodul ntmplrii. Ipoteza de nul este tocmai cea care este testat.Al doilea enun H1 descrie situaia contrar enunului H0 cnd o variabil sau fenomenacioneazi are o influen semnificativ:Exemple: H1: sexul respondenilor influeneaz prerea acestora despre impozite.

    H0: opinia despre impozite nu este influenat de sexul respondenilor.H1: autoturismul Dacia este mai bun ca unul din importH0: autoturismul Dacia este la fel de bun ca unul din import.

    Din astfel de exemple deducem c n analiza statistic suntem nevoii fie s acceptm H0 fie peH1, deoarece ambele sunt disjunctive. Un astfel de raionament se va face ntotdeauna ntermeni de prag de semnificaie (sau interval de ncredere) pentru c n realitate orice

    presupoziie statistic se face cu o anumit marj de eroare, cu o anumitans de a ne nela.De exemplu cnd vorbim de un prag de semnificaie (notat p) de 0.05 spunem de fapt c sunt5% anse s ne nelm atunci cnd facem o anumit aseriune statistic (iar n oglindspunem c sunt 95% anse s nu ne nelm cnd facem respectivul raionament). La fel, cndvorbim de un prag de semnificaie de 0,01 spunem c sunt 1% anse s ne nelm (sau 99%anse s nu ne nelm). Evident c n cel de al doilea caz gradul de siguran este mai mare.

    i n cazul testrii ipotezelor intervin astfel de precizri. Astfel c vorbim de un prag desemnificaie de 0.05 n sensul c sunt 5% anse de a ne nela atunci cnd acceptm ipoteza delucru H1 (sau respingem ipoteza de nul H0). n majoritatea cercetrilor este acceptat un pragmaxim de 0.05 sau p 0.05 dar se ntlnesc i praguri mai mari dect 0.05 (ntotdeauna aceste

    praguri trebuie amintite pentru a se clarifica gradul de precizie dorit de cercettor).Trebuie s precizm c exist posibilitatea s ne nelm chiar i n aceste condiii.

    Adic de exemplu s acceptm o ipotez de lucru pentru c toate datele statistice o confirmdar, n esen, acea ipotez s fie totui fals. n general se pot comite dou feluri de erori:

    Eroare de gradul I: respingem ipoteza nul dei este adevrat

    Eroare de gradul II: ipoteza nul este acceptat dei este fals.Aceste dou tipuri de erori sunt complet diferite: eroarea de gradul I este considerat mai gravi tocmai de aceea se cere s micorm pe ct posibil pragul de semnificaie. Unii cercettorirecomand aici un prag p 0.01 cu att mai mult cu ct influena cercettorului poate fiimportant. n cel de-al doilea caz gradul de influen al cercettorului este redus i serecomand un prag p0.05. Legat de aceste erori sunt folosite n statistic noiunile de putere- sau probabilitatea de a respinge ipoteza nul cnd de fapt ea este adevrat ; pentru o analiz

    pe larg a acestei problematici a se vedea C.Coman, N. Medianu (2002 ; pp. 144 i urm).Ipotezele statistice sunt testate prin teste statistice. De obicei testul statistic desemneaz

    o comparaie ntre o situaie presupus i una rezultat n urma cercetrii de teren efective.

  • 7/30/2019 Spss Curs Id2

    15/44

    Comparaiile n statistica social sunt foarte diverse: fie se fac observaii pe o singur variabil,fie se compar valori din dou eantioane, fie se compar valorile dintr-un eantion cu valorileunei populaii mai extinse, fie se analizeaz diverse situaii experimentale etc. n general ntestarea ipotezelor se urmrete o anumit direcie, un anumit sens al legturilor.Din acest

    punct de vedere sunt dou tipuri de raionamente: one-tailed (unilateral) i two-tailed(bilateral)! One-tailed este utilizat atunci cnd se cunoate dinainte sensul prediciei statisticeiar varianta two- tailed este preferat atunci cnd nu se cunoate n avans sensul prediciei.

    O alt precizare important este aceea c sunt dou tipuri fundamentale de testestatistice: parametrice i non-parametrice. Testele parametrice sunt considerate mai puternicedar pentru aceasta trebuie s fie ndeplinite mai multe condiii importante:

    - populaia din care a fost extras eantionul s aib o distribuie normal (distribuianormal trebuie s se regseasci n eantion altfel se pot face anumite transformri pentru ase ajunge la o distribuie normal)

    -regula omogenitii varianei (dintre cea din eantion i cea din populaie)-n majoritatea cazurilor variabilele trebuie s fie msurate pe scale de interval.

    -nu trebuie s existe scoruri extreme (metodele parametrice sunt sensibile n astfel desituaii).

    Dac testele parametrice folosesc metode numerice cele ne-parametrice folosescpoziiile pe care valorile le au n cadrul variabilelor. Nefiind vulnerabile la valori extreme uniistatisticieni vorbesc de o mai mare stabilitate a acestor teste.In funcie de aceste precizri se recomand folosirea unor teste diverse n funcie de necesiti.Din multele tipuri de clasificri redm una dintre ele consemnat de Christine P. Dancey i J.Reidy (1999) [vezi tabelul urmtor]. Spaiul limitat al acestui curs nu permite ns dect

    parcurgerea a ctorva proceduri din acest tabel.

    Obs: 1.Testele incluse n tabelul respectiv reprezint modaliti de analiz a legturii dintrevariabile. Se disting astfel metode parametrice dari neparametrice de studiu a acestor legturi.

    2. Testarea diferenei ntre dou condiii reprezint o modalitate foarte rspndit deanaliz. De exemplu putem analiza care este influena unei sesiuni de comunicari pentrustudenii la sociologie. Probabil c cei ce parcurg sesiunea respectiv vor avea cunotine mai

    bune. Pentru a testa acest lucru putem dispune de dou tehnici principale:A. Se compar dou grupuri diferite de studeni (alocai aleator) unul care parcurge

    respectiva sesiune i unul care nu urmeaz acea sesiune, apoi se compar rezultatele uneiexaminri. Acest tip de analiz se numete between participants design (rezultatele vin de ladou grupuri).

    B. Se compar un singur grup care trece prin cele dou condiii, odat fr s parcurg

    sesiunea respectiv iar a doua oar dup parcurgerea acesteia. Rezultatele unor examinrisuccesive vor decide care este influena urmrii sesiunii. Acest tip de analiz se numetewithin participant design (rezultatele vin de la acelai grup).

    In fapt compararea ntre condiii nseamn compararea unor medii i dac diferenadintre aceste medii este semnificativ. Testele folosite n aceste cazuri trebuie s rspund la ontrebare important: este diferena dat de erori de eantionare sau cu adevrat se manifestinfluena unei variabile independente cu efecte importante n variaia variabilei dependente?

  • 7/30/2019 Spss Curs Id2

    16/44

    Tipuri de statistic inferenialNivel almsurrii

    Tip de statistic descriptiv

    Teste decorelatie/asociere

    Teste alediferentei intredou condiiiasupra unei var.Independ.

    Teste ale difereneimai mult de doucondiiiasupra unei var.independente

    Teste referitoadou sau mai mvar. Independ.var. depend

    Nominal Mode Testul 2 pentruindependen

    Ordinal

    NU

    DADA

    Spearman ( )

    Within-

    participants

    TestWilcoxon

    Between-

    participants

    MannWhitney UTest

    Within-

    participants

    FriedmanANOVA

    Between-

    participants

    Kruskal-Wallace oneway ANOVA

    nterval/ratio

    NU

    NUCoeficientul luiPearson

    DA

    Within-

    participants

    Related t-test

    Between-

    participants

    Independent t-test

    One wayANOVA

    FactorialANOVAMultivariateANOVA

    Sunt indeplinitecondiiile

    parametrice?

    Scalapoate fide

    interval?

    Mediana/modul

    Avei

    valoriextreme? Media

  • 7/30/2019 Spss Curs Id2

    17/44

    V. Testarea normalitii unei distribuii

    Nu de puine ori asumia ca un eantion sau o populaie s aib o distribuie normal

    dup o variabil cantitativ este necesar pentru a executa anumite analize statistice. O primimpresie poate fi dat de histograma seriei dar nu este suficient acest lucru. Un test care poatesusine aceast analiz este testul Kolmogorov-Smirnovi care de fapt compar distribuia dineantion cu o alt distribuie (normal) care are aceeai medie i abatere standard. S

    presupunem c dorim s verificm normalitatea variabilei horsepower (puterea motorului) dinbaza de date Cars din programul SPSS. Vom urma comenzile AnalyzeDescrtiptiveStatisticsExplore:

    Tests of Normality

    .160 400 .000HorsepowerStatistic df Sig.

    Kolmogorov-Smirnova

    Lilliefors Significance Correctiona.

    n rubrica Dependent listam trecut variabila careurmeaz s fie analizat. Dinbutonul Statistics putemselecta principalele valori destatistic descriptiv iar dinbutonul Plots nu trebuieuitat setarea Normalityplots with tests.

    Rezultatul testului este urmtorul:

    Interpretarea testului este urmtoarea: dacpragul de semnificaie este p

  • 7/30/2019 Spss Curs Id2

    18/44

    Normal Q-Q Plot of Horsepower

    Observed Value

    3002001000-100ExpectedNormal

    3

    2

    1

    0

    -1

    -2

    -3

    Obs: n aplicarea testului de mai sus am inut seama i de mrimea eantionului. Astfel seconsider c testul K.-Smirnov este valabil cnd eantionul>50 de subieci. Dac eantionuleste mai mic atunci se aplic testul W al lui Shapiro-Wilks. Programul SPSS calculeaz oricumautomat ambele teste. Formularea n sensul ipotezelor statistice ar fi urmtoarea: Ho: ntredistribuia variabilei i cea teoretic nu este o diferen semnificativ iar H1: ntre cele doudistribuii exist o diferen semnificativ. Dac p

  • 7/30/2019 Spss Curs Id2

    19/44

    VI. Corelaia dintre dou variabile cantitative

    Se pune deseori problema de a analiza legtura dintre dou variabile cantitative nsensul de a vedea n ce msur valorile respective co-variaz (de exemplu valorile mari dintr-o

    variabil coreleaz cu valorile mari din cealalt variabil). Corelaia msoar relaia liniardintre variabile i se msoar cu coeficientul de corelaie Pearson (r). Acest coeficient are oformul simpli care sugereaz modul cum este calculat:

    ( )( )

    yx

    ii

    SDnSD

    yyxxr

    = .

    Din formul se vede c la numitor avem suma tuturor produselor distanelor valorilor din celedou serii de la mediile respective iar la numitor produsul dintre numrul de cazuri (n) i celedou abateri standard din cele dou serii. Fiind aadar un test parametric (lund n calcul n

    mod direct toate valorile seriilor) calcularea acestui coeficient trebuie s in seama decondiiile din acest caz [A. Field, 2000; 37]:1.Asumia distribuiei normale [datele trebuie s provin din populaii normal

    distribuite (se poate verifica acest lucru cu testul K.-Smirnov)],2. Asumia omogenitii varianei [varianele din cele dou variabile trebuie s fie

    stabile la orice nivel],3. Asumia scalei de msurare (scala de msurare trebuie s fie cea de interval)4. Asumia independenei (subiecii de la care s-au obinut valorile respective s fieindependeni unul de altul).

    Coeficientul de corelaie este ntotdeauna cuprins n intervalul [-1, +1] nelegnd prin aceastatoate valorile reale din acest interval. Interpretarea valorilor este urmtoarea:

    Se impun aici o serie de observaii:1. Relaia de corelaie nu trebuie privit ca i o relaie cauz- efect, de la o variabilindependent la una dependent, dei de multe ori se face un astfel de raionament.

    Interpretarea nu privete dect faptul c valorile ambelor variabile co-variaz ntr-un anumesens!2. In general dac variabilele sunt independente atunci coeficientul r se anuleaz. Dar reciprocanu este adevrat: nu este sigur c dac r se anuleaz atunci i variabilele sunt independente [ase vedea T. Rotariu, 1999; 173]. Aici se impune o observaie important: cnd r=0 suntemsiguri doar c nu exist o corelaie liniar a celor dou variabile dar poate exista o corelaie dealt fel (curbilinie). Cnd vorbim de corelaie liniar nelegem faptul c dac reprezentmgrafic corelaia cu ambele variabile axe de coordonate vom obine un nor de puncte care se

    poate alinia dup o dreapt (ntotdeauna este recomandat s verificm i grafic corelaiadeoarece ea este valabil doar ca i corelaie liniar). Situaiile pot fi urmtoarele:

    1. r tinde sau este foarte aproape de 1 atunci corelaia este puternic(de acelai sens sau de sens contrar)

    2. r tinde la 0 atunci corelaia nu exist3. r tinde la 0,5 corelaia este de intensitate medie.

  • 7/30/2019 Spss Curs Id2

    20/44

    r1 r -1 r0

    3. Coeficientul de corelaie d dou rezultate importante: puterea asocierii dintre variabile isensul acestei asocieri. n general valorile din jurul valorilor 1 sugereaz o corelaie foarte

    puternic, aproape perfect. Valorile ntre 0,6 i 0,8 denot o corelaie puternic, valoriledin jurul valorilor de 0,5 dau o corelaie de intensitate medie iar cele mrimea 0,1 0,4sugereaz corelaii slabe. Sensul corelaiilor este dat de semnul acestora: semnul +sugereaz cvariabilele cresc sau scad n acelai timp iar semnul sugereaz faptul c valorile uneivariabile cresc n acelai timp ce valorile celeilalte variabile scad.

    S d un exemplu clasic din literatura de specialitate: corelaia dintre variabilelesalbegin i salary din baza de date Employee Data. Mai nti vom face analiza asumiilordestinate metodelor parametrice. Apoi este recomandat vizualizarea grafic a corelaieiurmnd comenzile GraphsScatteri vom alege varianta Simple apoi Define:

    )))

    )) ) )

    ) )) ))

    Cele dou variabile vor defini chiaraxele de coordonate. Opiunea SetMarkers by ajut la analiza corelaieidup diferite categorii de subieci.Label Cases by ajut la identificareacazurilor dup o anumit variabil (dincare putem ataa etichete sau numerede ordine). Graficul este urmtorul:

  • 7/30/2019 Spss Curs Id2

    21/44

    Beginning Salary

    100000800006000040000200000CurrentSalary

    140000

    120000

    100000

    80000

    60000

    40000

    20000

    0

    Acestea fiind spuse putem calcula coeficientul de corelaie dup alegerea comenzilor:AnalyzeCorrelateBivariate:

    Varibilele de interes le-am trecut dincoloana din stnga n dreapta.Coeficientul de corelaie Pearson estesetat prin definiie ceilali doicoeficieni fiind metode neparametricede calcul. Testele de semnificaieimplicate sunt de dou feluri: two-tailed (este folosit atunci cnd nuputem prezice natura legturii dintrevariabile i este recomandat pentru maimult siguran); one-tailed (estefolosit cnd avem o ipotezdirecional sau putem prezice sensullegturii). Opiunea Flag... va asiguraprezentarea datelor legate de pragul desemnificaie. Din butonul Optionputem alege elemente de statisticdescriptiv dari modaliti de lucru n

    cazul valorilor lips:Exclude cases pairwise- eliminperechile de rezultate pentru care unadin valori lipsete. Aceast opiuneeste mai des ntlnit.Exclude cases listwise- elimin dinanaliz un rnd ntreg dac lipsetedoar una dintre valori. Dup Continueobinem rezultatul urmtor:

    Se observ gruparea punctelor dinplan dup o dreapt nclinat laaproximativ 450 fa de axa OX.Putem fi deci siguri privindlinearitatea legturii iar ca iintensitate se prefigureaz olegtur puternic de acelai sens.

  • 7/30/2019 Spss Curs Id2

    22/44

    Correlations

    1 .880**

    . .000

    474 474

    .880** 1

    .000 .

    474 474

    Pearson Correlation

    Sig. (2-tailed)

    N

    Pearson Correlation

    Sig. (2-tailed)

    N

    Beginning Salary

    Current Salary

    BeginningSalary Current Salary

    Correlation is significant at the 0.01 level (2-tailed).**.

    n partea dreapt a tabelului se intersecteaz cele dou variabile. Vedem c corelaiadintre Beginning Salaryi ea nsi este perfecta (r=1). Corelaia dintre Beginning Salary iCurrent Salary se dovedete a fi foarte puternic i de acelai sens (r=0.880). Pragul de

    semnificaie Sig. (2-tailed) este de 0.000 valoare care nu este un zero absolut ci n realitate doaro valoare foarte mic. Corelaia cuprinde n studiu un numr de 474 perechi de valori sau 474cazuri. Pe diagonal observm n matrice aceleai rezultate. Sub tabel este specificat faptul ccorelaia calculat este semnificativ la un prag de p= 0.01. n primul rand se observ c acest

    prag are proprietatea p

  • 7/30/2019 Spss Curs Id2

    23/44

    Rezultatele se interpreteaz dou cte dou excluznd prima diagonal unde corelaiile suntperfecte! n unele analize nu este prezentat dect partea de deasupra sau de dedesuptul acesteidiagonale!

    VI.1 Coeficientul de variaie

    Dup cum am spus mai nainte corelaia nu se interpreteaz ca i o relaie cauzaldeoarece nu se poate dovedi statistic care dintre variabile o influeneaz pe alta chiar dacuneori noi raionm n acest sens. Pe de alt parte n evoluia unei variabile pot interveni i altevariabile dect cele considerate n calculul corelaiei. Imaginea dependenei dintre douvariabile putem s o avem dup ce am analizat variana comun mprtit de acestea. Dac amavea dou variabile i am reprezenta grafic varianele lor prin dou diagrame circulare putemspune c partea din intersecia comun este varian comun mprtit:

    Cu ct suprafa interseciei este mai mare cu att variana comun mprtit este mai mare. Incazul nostru dac am nota suprafa interseciei cu 100% putem deduce c aproximativ 70%este varian comun restul de 30% nefiind comun. Variana comun ne d o informaiedespre dependena dintre variabile: putem spune c 70% din variana unei variabile depinde devariana celeilalte (altfel spus ct la sut din variaia unei variabile se explic prin variaiaceleilalte) iar 15% nu este varian mprtit sau este datorat influenei altor variabile. ngeneral variana comun este calculat prin ridicarea la ptrat a coeficientului de corelaie darse interpreteaz procentual. Se obin astfel valorile urmtoare [adaptat dup Ch. P. Dancey i J.Reidy (1999)]:Coeficientul de

    corelaier

    Ptratul coeficientuluir2

    Procentul varianeicomun mprtite

    0.00.10.20.30.40.50.60.70.80.91.0

    0.000.010.040.090.160.250.360.490.640.811.00

    0%1%4%5%16%25%36%49%64%81%

    100%

    70%

    Variabila 1 Variabila 2 Varian comun mprit

    15%

    15%

    Se observ c de exemplu ocorelaie care este foarte

    puternic de 0,8 desemneazdoar 64% din variancomun. De asemenea seobserv c o corelaie de 0.8este n realitate de patru orimai puternic dect ocorelaie de 0.4 (varianacomun crete de la 16% la64%). Aceste interpretri nutrebuie ns vzute carelaii de tip cauz-efect!

  • 7/30/2019 Spss Curs Id2

    24/44

    VI.2 Corelaie parial

    Din consideraiile de pn acum se deduce faptul c atunci cnd studiem corelaia

    dintre dou variabile poate exista i influena altor variabile care vor explica evoluia, variaiaunei variabile. De exemplu o bun parte din mrimea salariului actual se poate explica prinmrimea salariului de debut dar pot exista i alte variabile care s influeneze remuneraia:nivel de motivaie, performana n munc, numrul de inovaii aduse procesului muncii etc. Se

    pune ns i problema relaiilor false dintre dou variabile cnd o corelaie puternic dintredou variabile s depind n primul rnd de evoluia unei a treia variabile. De exemplu P.Lazarsfeld amintea de legtura care se fcea cndva ntre numrul mare de berze apruteundeva n nordul Franei i numrul de nateri n cretere. Cu alte cuvinte se putea obine ocorelaie puternic ntre cele dou variabile, ceea ce ar fi explicat mitul berzelor aductoare decopii! Numai c relaia dintre variabile controlat de o a treia (denumitmediu) a artat cdac rata natalitii se pstra relativ ridicat n mediul rural, ea scdea semnificativ n mediul

    urban. Un alt exemplu, cunoscut n literatura de specialitate se referea la corela ia dintreapariia unui numr crescut de furnici n cutare de hrani numrul turitilor care au venit lamare pe plaj. Corelaia dintre fenomene se dovedete fals din moment ce ele sunt controlatede o a treia variabilcldura care va explica n final co-evoluia primelor dou.

    Vom calcula o corelaie parial plecnd de la baza de date World95 [pe larg i nSPSS Base 9.0 Application guide]. Vom analiza mai nti variabilele urban (People living incities %) i birth_rt (Birth rate per 1000 people). Pentru nceput vom calcula corelaia simplntre cele dou variabile:

    Correlations

    1 -.629**

    . .000

    108 108

    -.629** 1

    .000 .

    108 109

    Pearson Correlation

    Sig. (2-tailed)

    N

    Pearson Correlation

    Sig. (2-tailed)

    N

    People living in cities (%)

    Birth rate per 1000 people

    People livingin cities (%)

    Birth rate per1000 people

    Correlation is significant at the 0.01 level (2-tailed).**.

    Rezultatul ne arat o corelaie puternic de sens contrar (r = - 0.629) la un prag desemnificaie de 0.01. Ceea ce nsemn c cifrele nalte ale urbanizrii sunt nsoite de cifre

    sczute ale ratei natalitii. Se pune problema dac aceast corelaie rmne valid dac ocontrolm cu o a treia variabil. Am ales pentru control variabila log_gdp (logaritm zecimaldin produsul intern brut/locuitor). Aceast variabil a fost obinut prin logaritmare dinvariabila gdp_cap dar sensul acesteia este acelai: gradul de prosperitate al unei ri oarecare.Aceast operaie a fost necesar pentru a normaliza distribuia variabilei i astfel pentru a puteaintra n calculele de tip parametric!

  • 7/30/2019 Spss Curs Id2

    25/44

    Pentru a genera o corelaie parial vom urma comenzile urmtoare: AnalyzeCorrelatePartial dup care a va apare fereastra urmtoare:

    Obs: situaia de pn acum descrie corelaia parial de prim ordin. Se pot face nsi corelaiipariale de al doilea ordin atunci cnd introducem dou variabile de control. Pot urma chiar maimulte variabile de control.

    VI.3 Corelaia ca metod neparametric

    Dup cum am observat corelaia se leag de variabile exprimate cantitativ (prinnumere). Aceste variabile pentru a putea fi tratate prin metode parametrice trebuie sndeplineasc o serie de condiii (asumii). Dac aceste condiii nu sunt ndeplinite serecomand folosirea metodelor neparametrice deoarece n acest caz se va lucra cu poziiilevalorilor respective i nu cu valorile n sine. Apelm la astfel de tehnici atunci cnd, deexemplu, variabilele de interes nu provin dintr-o populaie normal distribuit sau cnd anumitevalori extreme (outliers) pot vicia rezultatele statistice. Practic se produce o trasnsformare aunor date numerice oarecare ntr-o variabil ordinal dar n care distanele dintre valori sunt

    n aceast fereastr am trecut ndreapta variabilele de studiat iarn rubrica Controlling for amtrecut variabila de control. Dinbutonul Option pot fi selectate ialte elemente de statisticdescriptiv i chiar matriceacorelaiilor dintre toate cel treivariabile. Rezultatul corelaieipariale este vizibil nurmtoarea situaia de mai jos.Se observ c corelaia dintre

    variabilele urban i birth_rtscade semnificativ la -0.11aproape de zero ceea ce face carelaia dintre variabile s seanuleze. Dac se ntmpl acestlucru spunem c influenavariabilei de control estesemnificativ i c fostacorelaie nu se mai pstreaz.Este ca i cum am spune c ratanatalitii se va menine ridicat

    n zonele cu o populaie urbanmai puin prosper. Daccoeficientul de corelaie rmneaaproximativ la fel atunci seconsidera c influena variabileide control este neglijabil.

  • 7/30/2019 Spss Curs Id2

    26/44

    egale. De exemplu dac ntr-o serie avem 5 subieci cu salariile de 1,5; 2,3; 4,8; 3,9 i 25,4milioane de lei, avnd n vedere distribuia seriei putem s le dm poziii acestora dup salariulrespectiv: 5, 4, 2,3, 1. Aceste valori nu sunt cantitative dar genereaz o ordine exact ca i pe oscar de interval cu intervale egale.

    Pentru exemplificare s alegem variabilele agei educ din baza de date GSS93 subset.

    Vom observa c cele dou variabile sunt definite ca ordinale i vor mpri populaia n maimulte categorii. De exemplu cnd un subiect primete eticheta 10 pentru variabila educ astainseamn c el intr n clasa celor cu 10 ani de studii. La fel se procedeazi n variabila age.n acest caz este mai recomandat coeficientul Spearman ( ) care are aceleai valori ca icoeficientul Pearson. Dup aceleai etape i dup setarea coeficientului Spearman obinemrezultatul urmtor:

    Correlations

    1.000 -.203**

    . .000

    1495 1491

    -.203** 1.000

    .000 .

    1491 1496

    Correlation Coefficie

    Sig. (2-tailed)

    N

    Correlation Coefficie

    Sig. (2-tailed)

    N

    Age of Responde

    Highest Year ofSchool Completed

    Spearman's rho

    Age ofRespondent

    Highest Yearof SchoolCompleted

    Correlation is significant at the 0.01 level (2-tailed).**.

    Se observ c corelaia este = -0.203 i este semnificativ (p=0.01). Corelaia este slabi desens contrar.

    n astfel de cazuri se recomand chiar folosirea unui al treilea coeficient Kendall ( ).El este util mai ales cnd exist foarte multe valori care c aib acelai rang. n cazul nostru deexemplu 55 de subieci au poziia 10 (ani de studiu) n timp ce poziia 12 (12 ani de studiu)este destinat la 445 de subieci dintr-un eantion de 1500. Se poate deci calcula i acestcoeficient:

    Correlations

    1.000 -.142**

    . .000

    1495 1491

    -.142** 1.000

    .000 .

    1491 1496

    Correlation Coefficie

    Sig. (2-tailed)

    N

    Correlation Coefficie

    Sig. (2-tailed)

    N

    Age of Responde

    Highest Year ofSchool Completed

    Kendall's tau_b

    Age ofRespondent

    Highest Yearof School

    Completed

    Correlation is significant at the 0.01 level (2-tailed).**.

    Se observ c corelaia este = -0.142 i este semnificativ (p=0.01). Corelaia este slab desens contrar. Avnd n vedere condiiile de aplicare se poate spune c acest coeficient este mai

  • 7/30/2019 Spss Curs Id2

    27/44

    fidel n a reflecta corelaia dintre variabile. Este deci important de a analiza atent variabilelepentru a aplica mai apoi testarea corelaiei.

    VII. Regresia

    Dup cum am vzut analiza corelaiei dintre variabile dispune i de metode grafice. Sepleac de la ideea c, de exemplu un subiect statistic, din moment ce are valoarea x ipentruvariabila X i valoarea yi pentru variabila Y, atunci acestea se pot reprezenta n plan, ntr-unsistem de coordonate, rezultnd astfel un nor de puncte. S-a pus apoi problema de a se gsiecuaia unei drepte sau a unei curbe care s aproximeze ct mai bine acest nor sau s treac ctmai aproape de acest nor. Grafic se consider c axa OX este a variabilei independente iar axaOY a celei dependente. Dac lum un exemplu de lucru din programul SPSS atunci am vzutc exist posibilitatea vizualizrii dreptei de corelaie mai precis a dreptei de regresie. Fie

    baza de date World95 i s calculm corelaia dintre variabilele lifeexpfi lifeexpm. Se obinefoarte uor un coeficient de corelaie r = 0,982 ceea ce denot o corelaie foarte puternici deacelai sens pentru p=0.01. Pentru reprezentarea grafic putem apela la comenzile dejacunoscute Graphs Scatter Simple Define etc. Dup ce am obinut graficul se poateintra n Chart Options dup care apare fereastra urmtoare n care este setat opiunea FitLine Total :

    Dup cum se observ dreapta din imagine traverseaz norul de puncte aproximnd

    destul de bine ntreaga mulime a punctelor respective fiind o imagine a relaionrii(dependenei) dintre variabile.

    Metoda folosit pentru a analiza dependena dintre variabile n acest mod poartdenumirea de regresie iar curba (dreapta) respectiv se numete curb de regresie. n funciede numrul factorilor care influeneaz variabila dependent se disting: regresia simpl(unifactorial) i regresia multipl (multifactorial). n cadrul acestui capitol ne vom mrginidoar la regresia unifactorial. Iat dou exemple de legturi exprimate grafic:

    Average male life expectancy

    8070605040

    Averagefemalelifeexpectancy

    90

    80

    70

    60

    50

    40

  • 7/30/2019 Spss Curs Id2

    28/44

    xi

    Din aceste grafice se observ c o dreapt sau o curb poate aproxima destul de bine un nor de

    puncte i bineneles msura n care cele dou variabile sunt corelate. De asemenea trebuieprecizat c pentru fiecare xi din seria statistic corespunde un yi, cel real dari un yi* adicvaloarea care corespunde pe dreapta sau curba de regresie. Scopul msurrilor n cazulregresiei este acela de a gsi ecuaia dreptei (curbei) pentru care suma distanelor yi yi

    * esteminim ( se poate demonstra de fapt c acea dreapt sau curb este unic).

    VII.1. Dreapta de regresie

    Dup cum am spus, ne vom ocupa aici doar de regresia simpl liniar urmnd calectorii interesai s parcurg n continuare n volumele de specialitate regresia multiliniar cti regresia non-liniar (graficul nu este o dreapt). Amnunte despre aceste teme se pot gsi ncapitolele 8 i 9 din T. Rotariu [1999].

    Dup cum am spus, principiul aflrii ecuaiei dreptei de regresie pleac de laminimizarea unei expresii de tipul R = ( yi yi*)

    2, aceast expresie reprezentnd sumatuturor diferenelor dintre valorile reale ale seriei i cele ateptate (de pe dreapta de regresie),ridicarea la ptrat fcndu-se pentru a nu apare n plus problema semnului acestor diferene. Oalt problem este aceea a determinrii ecuaiei unei drepte de tipul y* = a + bx , determinarecare nseamn n fapt calcularea celor doi parametri a i b. n acest moment putem nlocui n

    prima relaie expresia lui y*. Va rezulta relaia:

    R = ( yi a bxi )2

    S-a obinut practic o ecuaie cu dou necunoscute al crei minim nseamn anulareacelor dou derivate pariale dup a i b. Se obin astfel dou ecuaii care formeaz un sistem:

    yi

    yi

    na + b x = y

    a x +b x2 = xy

  • 7/30/2019 Spss Curs Id2

    29/44

    Evident c determinnd a i b ecuaia dreptei respective este complet determinat: y* =a + bx, formul n care coeficientul a (pozitiv sau negativ) reprezint valoarea ecuaiei cndx=0 sau punctul prin care este intersectat axa OY. Coeficientul b (coeficient de regresie)semnific cum se modific n medie variabila dependent n cazul n care variabila

    independent variaz cu o unitate, evident admind c ntre cele dou variabile exist o relaiede dependen. Dac coeficientul b > 0 sau b< 0 corelaia este fie direct fie invers (cndvalorile unei variabile cresc valorile celeilalte descresc) iar cnd b =0 variabilele suntindependente ntre ele. Aceste cazuri se pot reprezenta grafic foarte simplu ca i n cazulcorelaiei:

    b> 0 b

  • 7/30/2019 Spss Curs Id2

    30/44

    Se poate verifica fidelitatea ajustrii prin calcularea coeficientului de variaie a ajustriicare se exprim n procente i nu trebuie s depeasc 5% pentru ca ajustarea s fie optim.

    100=y

    Sc

    y

    v 2*)(

    1 = yy

    n

    Sy

    Y y* y y* (y y *) 2

    3,84,65,76,98,09,0

    60,7659,6258,4857,3456,2055,06

    -56,96-55.02-52.78-50.44-48.20-46.06

    3244.43027.25812.92544.12323.22121.5

    Media=6,3

    Cu ajutorul acestui tabel putem calcula Sy i Cv pentru a vedea valoarea acestuia i a-l

    compara cu pragul de 5% !

    Obs1. n calculele de mai sus Sy reprezint abarea medie a valorilor msurate fa devalorile indicate prin dreapta de regresie. ns statisticienii s-au ntrebat dac se poate face olegtur cu abaterea medie ptratic n general a seriei respective! Dup cum vom observa i nT. Rotariu [1991; 183-184] s-a ajuns la o formul foarte simpl care face legtura de carevorbeam :

    2222yy rS +=

    n aceast formul abaterea medie ptratic general care trebuie explicat este egal cuabaterea medie a valorilor seriei fa de cele ale dreptei de regresie (aceasta fiind variananeexplicat) la care se adaug un termen ce sintetizeaz variana punctelor de pe dreapta deregresie n jurul mediei i care reprezintpartea din variana variabilei dependenteexplicatde variabila independent). Reprezentarea grafic a acestor mrimi simplific modul lor denelegere (a se vedea n E. Jaba, 2004; 237):

  • 7/30/2019 Spss Curs Id2

    31/44

    Se observ i notaiile aferente : VT= variana total, VE=variana explicat,

    VR=variana rezidual. Suma ultimelor dou apare clar n cea de a patra figur. Se observ cpentru un punct oarecare al seriei (yi) exist un corespondent n variabila independent (xi).

    Punctul respectiv din plan (xi , yi ) are o abatere total compus din abaterea fa de medie iabaterea fa de dreapta de regresie. Extras din formula de mai sus coeficientul r2 (notatdeseori i R2) se mai numete coeficient de determinaie, ia valori ntre 0 i +1 iar n termeni

    procentuali el i denot ct la sut din variana variabilei dependente se explic prin varianavariabilei independente. Restul pn la 100% este reprezentat de variana neexplicat.

    Obs.2 : n cazul acestei ajustri se observ c b< 0 deci exist o corelaie invers ntrevariabile.

    Obs. 3 : numeroi autori atrag atenia asupra faptului c studiul corelaiei i regresiei trebuies fie foarte judicios interpretat deoarece dou variabile pot fi corelate dar nu este obligatorius avem imediat o semnificaie explicativ sau cauzal. Exist deci i ceea ce s-a numitcorelaie aparent atunci cnd de exemplu o variabil se modific de fapt sub influena unei altevariabile necunoscute (variabil test). Numai analiza de regresie poate sugera o eventualrelaie de cauzalitate. Obs. 4 : Calcularea coeficienilor de regresie de mai sus se face ntotdeauna cu o anumit

    probabilitate deoarece se pleac ndeobte de la eantioane. Putem spune, deci, c aceste valorisunt estimri punctuale ale unui model general de regresie de tipul: ++= XY , formuln care i au aceleai semnificaii ca i coeficienii ai b iar nu reprezint altceva dect ovariabil aleatoare de eroare sau reziduu (explicat prin influena altor variabile dect celeintroduse n model). Generalizarea trebuie s in cont de faptul c i se gsesc nurmtoarele intervale de ncredere :

    ( )apap SDtaSDta + ; ; ( )bpbp SDtbSDtb + ; .Limitele acestor intervale pleac de la valorile a i b la care se adaug sau se scad

    produsul dintre valorile tp(care sunt de fapt valorile din distribuia teoretic t-Student pentru unprag 2p de semnificaie i un numr n-2 de grade de libertate) i SDa,b erori standard alecoeficienilor a i b. La rndul lui i coeficientul de corelaie r poate fi de ajutor pentru a estimaun coeficient general de corelaie.

    Prin astfel de calcule se caut un interval de ncredere pentru i se urmrete dacoriginea este inclus n interval (n cazul n care =0 se tie c variabilele sunt independente) ;dac intervalul nu conine i originea atunci se trage concluzia c pentru un anumit prag desemnificaie variabila dependent este semnificativ influenat de variabila independent.

    Obs. 5 Distanele de la punctele din plan la dreapta de regresie (de fapt segmentele careintersecteaz dreapta de regresie i sunt perpendiculare pe axa OX) se mai numesc reziduurii reprezint ceea ce nu este explicat n model prin variabilele alese. Se cere imperios ca acestereziduuri s fie analizate grafic cu toat atenia.

    ***

    Pentru a calcula elementele dreptei de regresie prin intermediul programului SPSS vomrecurge la comenzile AnalizeRegressionLinear dup care vom considera dou variabileconsacrate n manualele de profil i anume cele numite salary i salbegin din baza de date

  • 7/30/2019 Spss Curs Id2

    32/44

    Employee Data. Dup parcurgerea comenzilor StatisticsRegressionLinear se obinefereastra urmtoare :

    Se observ n aceast fereastr cele dou variabile importante ale analizei specificatefiecare ca fiind dependent sau independent. Metoda de analiz este Enter (o variantgeneral de studiu a regresiei) dup care putem s alegem i alte instrumente de lucru dinultimile butoane orizontale. Existi opiunea de a restriciona cercetarea de exemplu doar

    pentru subiecii care au cel puin 12 ani de coal (se trece variabila Educational Level nrubrica Selection Variablei apoi se pune condiia respectiv din butonul Rule).

    Prin apsarea pe butonul Statistics obinem fereastra urmtoare:

    Cele mai uzuale setri n aceastfereastr sunt: Estimates (se estimeazcoeficienii din regresie ai variabileiindependente), Confidence interval (laun prag de semnificaie de 0.05 seestimeaz intervalele ntre carecoeficienii de regresie sunt valizi),Model Fit (estimeaz coeficienii R, R2etc. i spune dac modelul propus esteviabil ; dac modelul nu este viabilorice alt analiz nu este acceptabil)iar Descriptives (calculeaz Mean,Standard Deviation etc. pentruvariabile).

  • 7/30/2019 Spss Curs Id2

    33/44

    Dac se aleg setrile de mai nainte se poate aciona butonul Continue apoi vom alegebutonulPlots rezultnd fereastra urmtoare :

    Iat cum vor arta noile variabile din baza de date aici numite pre_1 i res_1 :

    Rezultatele din Output se prezint ca n imaginile urmtoare i plecnd de la acestea s

    adoptm apoi interpretrile asupra modelului.

    Se observ c am ales n aceastfereastr o serie de reprezentri graficeutile: zpred i zresid, dou opiuni

    pentru valorile normalizate predictivei pentru valorile reziduale normalizatei care pot da informaii preioase

    privind eficiena modelului (se cere deexemplu ca distribuia reziduurilor sfie normal etc.). Nu vom insista nsn acest volum pe semnificaia acestorgrafice.

    Ct privete comanda Regression Save va apare fereastra din imaginen care dac sunt setate varianteleUnstandardized Predicted Values(se refer la valorile predicionate dectre modelul statistic pentru fiecarecaz n parte) i UnstandardizedReziduals (se afieaz valoareaefectiv din cadrul variabileidependente din care s-a sczutvaloare predicionat de ctre

    modelul de regresie)vom observa cn baza de date apar noi variabile cusemnificaiile specificate mai nainte.Prediction interval se refer lalimitele intervalelor n care sunt

    predicionate media i valorileindividuale la un interval de ncredere

  • 7/30/2019 Spss Curs Id2

    34/44

    De asemenea vom depista valorile R Square= 0.775 i Adjusted R Square= 0.774 (care nearat proporia din variana variabilei dependente explicat de variana din variabilaindependent) precum i dispersia n cadrul variabilei dependente (estimat).

    ANOVA b

    1.07E+11 1 1.068E+11 1622.118 .000a

    3.11E+10 472 65858997.22

    1.38E+11 473

    Regression

    Residual

    Total

    Model

    1

    Sum ofSquares df Mean Square F Sig.

    Predictors: (Constant), Beginning Salarya.

    Dependent Variable: Current Salaryb.

    Coefficients a

    1928.206 888.680 2.170 .031

    1.909 .047 .880 40.276 .000

    (Constant)

    Beginning Salary

    Model

    1

    B Std. Error

    UnstandardizedCoefficients

    Beta

    StandardizedCoefficients

    t Sig.

    Dependent Variable: Current Salarya.

    n tabelul Coefficients vom putea identifica coloana B unde este specificat influenavariabilei independente cu un anumit grad de ncredere a acestei influen e (a se vedea coloanaSig.). Ca de obicei valoarea respectiv trebuie s fie mai mic de 0.05 (unii analiti ofer totuio marj de pn la 0.1 prag peste care nu se poate admite estimarea respectiv).

    Variables Entered/Removedb

    BeginningSalarya . Enter

    Model

    1

    VariablesEntered

    VariablesRemoved Method

    All requested variables entered.a.

    Dependent Variable: Current Salaryb.

    Se vede din prima configuraie care suntvariabilele intrate n model: beginning icurrent salary.Urmeaz s citim valoarea lui Sig. din

    tabelul ANOVA de mai jos. Din momentce valoarea este mai mic de 0.05 atuncimodelul propus este bun n sensul c putem

    presupune doar cu o ans de a ne nela demaximul 0.05 c variabila dependent esten mod semnificativ explicat de ctrevariabila independent.

    Model Summaryb

    .880a .775 .774 $8,115.356

    Model

    1

    R R SquareAdjustedR Square

    Std. Error ofthe Estimate

    Predictors: (Constant), Beginning Salarya.

    Dependent Variable: Current Salaryb.

    n exemplul nostru p=0.000 ceea cene asigur de potrivirea (goodness offit) a modelului. n tabelul alturat

    Model Summary revedem precizattipul de variabile care intr n model .

  • 7/30/2019 Spss Curs Id2

    35/44

    Valoarea de 1.909 este de fapt coeficientul de regresie n timp ce valoarea de 0.880(Standardized coefficient) reprezint coeficientul de corelaie Pearson. Valorile din coloana Bsunt de ajutor pentru a scrie ecuaia de regresie :

    Current sallary = 1928.2+1.9* beginning salaryn acest moment putem trage urmtoarea concluzie: modelul propus urmrete predicia

    salariului actual n funcie de salariul de nceput. Rezultatul obinut este semnificativ statisticdeoarece F=1622 la un prag de semnificaie p< 0.001. Ecuaia relaiei dintre variabile estesallary = 1928.2+1.9* salbegin. Se mai observ c Adjusted R Square= 0.774 ceea ce justificfaptul c o mare parte a varianei variabilei dependente este explicat de variana variabileidependente.

    Obs6. Atragem atenia c restul varianei variabilei dependente este datorat altor variabile.De asemenea precizm c valoarea de 1.9 reprezint sporul valoric n variabila dependent

    dac variabila independent ar crete cu o unitate. Din modelul prezentat deducem c salariuliniial este un bun predictor al salariului actual ns nu este singurul. Putem deduce ci altevariabile precum nivel de interes, numr de inovaii etc. pot justifica i ele creterea salarial.Cu toate acestea ponderea cea mai mare o are salariul de nceput.

    Obs7. Revenind la o imagine anterioar n care am precizat noile variabile care apar n bazacum putem preciza c variabila pre_1 este valoarea prezis prin intermediul ecuaiei deregresie n timp ce variabila res_1 nu conine dect valorile diferenelor dintre cele alevariabilei salary i pre_1 (sau reziduurile) :

    Obs. 7. Principiile de lucru enunate pn acum se pstreazi n cazul regresiei multipleatunci cnd variabilele independente sunt mai multe. Vom dezvolta i aceast problematicntr-un viitor volum. Alte precizri pe aceast tem se gsesc i n bibliografia indicat n acestvolum.

  • 7/30/2019 Spss Curs Id2

    36/44

    VIII. Asocierea variabilelor calitative (nominale)

    Dac pentru variabilele cantitative vorbim de corelaie atunci pentru variabilecategoriale (calitative) vorbim de asociere. Exemple de astfel de variabie sunt foarte frecvente

    n analizele sociale: sexul respondenilor, religia respondenilor, statut marital, apreciereadespre eful direct (1. foarte bun, 2. bun, 3.proast, 4. foarte proast, 5. ns/nr), etc. n toateaceste variabile subiecii sunt mprii n mai multe categorii dup o caracteristic sau rspunsdat cu precizarea c fiecare subiect va intra ntr-o singur categorie. Se pune deci problema dea vedea n ce msur dou variabile de acest fel sunt asociate. De exemplu dac sexulrespondenilor influeneaz opinia despre eful direct. Datele obinute n urma anchetelor saucercetrilor se introduc n ceea ce se numete tabel de contingen asemntor cu o matrice ncare pe linie intr categoriile unei variabile iar pe coloan categoriile celeilalte variabile. naceste condiii fiecare celul este la intersecia a dou variante de rspuns din cele douvariabile. n general se disting mai multe ci de a studia asocierea:

    -cnd ne referim doar la o singur variabil

    -cnd ne referim la dou variabile dihotomice-cnd ne referim la asocierea dintre variabile cu mai mult de dou categorii.

    Ne propunem n continuare s ne ocupm de problematica asocierii dar numai pentruvariabile categoriale nominale cei interesai putnd urmri tematica pentru variabile ordinale idin bibliografia anexat cursului.

    Cnd ne referim doar la o singur variabil analizm practic o grupare de subieci dupdiverse valori nominale sau ordinale ale unei variabile. Ideea este de a compara frecven eleobservate cu o serie de valori impuse de cercettori care sunt considerate valori teoretice. Sanalizm un exemplu din baza de date GSS 93 subset. Una din variabile este opera ireprezint rspunsurile subiecilor privitoare la acest gen muzical. Se pune ntrebarea dacrespondenii au o prere format despre acest gen muzical. Se va apela la comenzileAnalyzeNonparametric Tests Chi-Square Test:

    Facem precizarea c situaia teoretic descrie n fapt situaia de independen cnd toatevariantele de rspuns ar fi indicate de acelai numr de subieci. Faptul c frecvenele

    Dup ce am trecut variabilade interes n dreapta putemalege variante privindvalorile teoretice. Astfelvom alege opiunea Allcategories equal care ar fisituaia teoretic n caretoate variantele de rspunssunt egale cantitativ. Pot fialese i alte cofiguraiiteoretice prin opiuneaValuesAdd sau date deanumute ranguri (Usespecified ranges).

  • 7/30/2019 Spss Curs Id2

    37/44

    observate (cele din teren) nu coincid cu cele teoretice ne poate da o sugestie privind preferinapentru acest gen muzical. Rezultatele sunt urmtoarele:

    Opera

    66 282.0 -216.0

    239 282.0 -43.0

    332 282.0 50.0

    480 282.0 198.0

    293 282.0 11.0

    1410

    Like Very Much

    Like It

    Mixed Feelings

    Dislike It

    Dislike Very Much

    Total

    Observed N Expected N Residual

    Test Statistics

    320.319

    4

    .000

    Chi-Squarea

    df

    Asymp. Sig.

    Opera

    0 cells (.0%) have expected frequencies less than5. The minimum expected cell frequency is 282.0.

    a.

    Cazul a dou variabile dihotomice (ambele cu cte dou valori) este tratat pe larg n T. Rotariu(1999; 121-133) i de aceea vom face doar cteva precizri sumare. S construim un tabel decontingen plecnd de la variabilele a1 (Credei c n ara noastr lucrurile merg ntr-o direcie

    bun sau ntr-o direcie greit?) i sex0 (sexul respondenilor) din baza de date BOP_mai-2003_Gallup. sav. Tabelul respectiv se obine dup comenzile Analyze DescriptiveStatisticsCrosstabs dup ce n prealabil am considerat valorile care nu sunt principaleledou variante de rspuns ca fiind valori lips:

    Se observ variaiile scorurilorobinute fa de situaia teoretic:cei ce declar Like Very Muchsunt cei mai puini iar cei maimuli declar contrariul ( DislikeVery Much). Frecveneleteoretice se distribuie n mod egal

    prin mprirea celor 1410 devariante de rspuns la 5 posibilerspunsuri n mod egal. n parteaa doua se observ c pragul desemnificaie este foarte mic

    (Asymp. Sig. =0.000) ceea cedenot c valoarea testului estesemnificativdeci respondenii auo prere format despre muzicade oper. Din pcate cei maimuli resping acest gen muzical.

    Dup ce trecem cele dou variabile ndreapta ca definind liniile (rows) icolooanele (columns) vom apela labutonul Cells pentru o serie de opiunisuplimentare:

  • 7/30/2019 Spss Curs Id2

    38/44

    Se observ c am selectat apoi opiunile Observed, Expected precum i procentajele pe linii(Percentages Rows). Se mai pot alege opiuni privind reziduurile care nu sunt altceva dectdiferenele ntre frecvenele observate i cel ateptate. Dup ContinueOK tabelul esteurmtorul:

    Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit? * Genul

    (respondent) Crosstabulation

    383 367 750

    358.9 391.1 750.0

    51.1% 48.9% 100.0%

    511 607 1118

    535.1 582.9 1118.0

    45.7% 54.3% 100.0%

    894 974 1868894.0 974.0 1868.0

    47.9% 52.1% 100.0%

    Count

    Expected Count

    % within Credei c nara noastr...

    Count

    Expected Count

    % within Credei c nara noastr...

    CountExpected Count

    % within Credei c nara noastr...

    direcia este bun

    direcia este greit

    Credei c n aranoastr lucrurile mergntr-o direcie bun sauntr-o direcie greit?

    Total

    masculin feminin

    Genul (respondent)

    Total

    Datele din astfel de tablouri sunt relativ simplu de interpretat. Astfel 389 (51%) dintrerespondenii care cred c direcia este bun sunt de gen masculin i la fel 511 (45,7%) dintrecei ce cred c direcia este greit. Se observ c totalul cazurilor valide este de 1868 persoanedin care 894 brbai i 974 femei. n fiecare celul se gsesc i valorile numite Expected,valori teoretice care corespund situaiei cnd cele dou variabile sunt independente.

    Atunci cnd analizm problematica asocierii de fapt urmm raionamentul unei ipotezestatistice:

    H0: variabilele calitative nu sunt asociateH1: variabilele sunt asociate.Pentru msurarea asocierii dintre cele dou variabile se folosete testul 2 . Acest test

    se bazeaz pe diferenele calculate dintre dou tipuri de date: cele ateptate (teoretice) carereprezint situaia de independen dintre variabile i cele observate (obinute n urmacercetrii efective). Conform formulei de calcul 2 este o mrime care se obine din suma

    ptratelor diferenelor dintre frecvenele observate (fo) i i cele teoretice (ft) mprite la

    frecvenele teoretice:( )

    =t

    to

    f

    ff2

    2 . Se pleac de la ideea c cu ct acest coeficient este

    mai mic cu att cresc ansele ca variabilele s fie independente i cu ct coeficientul este maimare cu att mai sigur variabilele sunt asociate. Pentru c aceste aprecieri au nevoie deintervale precise de fapt se impune compararea valorilor coeficientului cu alte valori,considerate teoretice i care se gsesc n tabele statistice speciale. De fapt se ajunge lareformularea ipotezei statistice de care vorbeam:

    1. Dac teoreticcalculat 22 < atunci resping H0 i admit H1

    2. Dac teoreticcalculat 22 > atunci resping H1 i admit H0.

  • 7/30/2019 Spss Curs Id2

    39/44

    Aceste raionamente trebuie sin seama de urmtoarele condiii:a. relaiile de mai sus se specific pentru un anumit prag de semnificaie

    b. trebuie avute n vedere gradele de libertate ale tabelului de contingen. Se noteaz cu df(degree of freedom) i se calculeaz cu formula: df= (n-1)(m-1), unde n este numrul de liniiale tabloului iar m numrul de coloane.c. n tabloul de contingen trebuie s nu existe celule n care valoarea frecvenelor ateptate(Expected Count) s fie mai mici de 5. n unele calcule se cere ca numrul acestor cazuri s fiemai mic de 20%. Reducerea numrului de cazuri este ns foarte important: dac cretemrimea tabelului de contingeni invariabil crete i coeficientul 2 !d. valorile teoretice (sau critice) ale coeficientului sunt cele din urmtoarea list:

    Df\ Praguri semnif .10 .05 .02 .01 .001

    1 2.71 3.84 5.41 6.64 10.832 4.60 5.99 7.82 9.21 13.823 6.25 7.82 9.84 11.34 16.274 7.78 9.49 11.67 13.28 18.465 9.24 11.07 13.39 15.09 20.526 10.64 12.59 15.03 16.81 22.467 12.02 14.07 16.62 18.48 24.328 13.36 15.51 18.17 20.09 26.129 14.68 16.92 19.68 21.67 27.8810 15.99 18.31 21.16 23.21 29.59

    11 17.28 19.68 22.62 24.72 31.2612 18.55 21.03 24.05 26.22 32.9113 19.81 22.36 25.47 27.69 34.5314 21.06 23.68 26.87 29.14 36.1215 22.31 25.00 28.26 30.58 37.7016 23.54 26.30 29.63 32.00 39.2517 24.77 27.59 31.00 33.41 40.7918 25.99 28.87 32.35 34.80 42.3119 27.20 30.14 33.69 36.19 43.8220 28.41 31.41 35.02 37.57 45.3221 29.62 32.67 36.34 38.93 46.8022 30.81 33.92 37.66 40.29 48.2723 32.01 35.17 38.97 41.64 49.7324 33.20 36.42 40.27 42.98 51.1825 34.38 37.65 41.57 44.31 52.6226 35.56 38.88 42.86 45.64 54.0527 36.74 40.11 44.14 46.96 55.4828 37.92 41.34 45.42 48.28 .56.8929 39.09 42.56 46.69 49.59 58.3030 40.26 43.77 47.96 50.89 59.70

    Se obsev n acest tabel pe prima

    linie orizontal pragurile desemnificaie de las 0.1 la 0.001. Peprima coloan se gsesc gradele delibertate. Valoarea critic a lui

    2 se citete la intersecia unuiprag de semnificaie i a unuianumit numr de grade delibertate. Se compar apoi valoareacoeficientului cu valoarea calculat(de ctre computer) i se urmreteraionamentul de mai sus.

    Pentru a calcula coeficientul2

    vom apela n fereastra de mai susla butonul Statistics i vom alegedoar varianta Chi-Square dincolul din stnga sus apoiContinueOK:

  • 7/30/2019 Spss Curs Id2

    40/44

    Chi-Square Tests

    5.168b 1 .023

    4.955 1 .026

    5.168 1 .023.023 .013

    5.165 1 .023

    1868

    Pearson Chi-Square

    Continuity Correction a

    Likelihood RatioFisher's Exact Test

    Linear-by-LinearAssociation

    N of Valid Cases

    Value df Asymp. Sig.

    (2-sided)Exact Sig.(2-sided)

    Exact Sig.(1-sided)

    Computed only for a 2x2 tablea.

    0 cells (.0%) have expected count less than 5. The minimum expected count is358.94.

    b.

    Rezultatul se interpreteaz din acest tabel. Coeficientul 2 =5,168 pentru 1 grad delibertate i un prag de semnificaie de 0.023 (Asymp. Sig). Programul mai calculeaz uncoeficient de corecie care se aplic de obicei cnd exist celule cu valori teoretice mai mici

    dect 5; un coeficient echivalent cu primul (Likelihood Ratio) apoi un gen de corelaie care nueste semnificativ aici (Linear-by-Linear Association). Distingem valorile testului Fisher (ale crui valori le vom detalia n continuare) care confirm lipsa asocierii. Sunt precizatenumrul de cazuri valide (aici 1868) iar la final se precizeaz cte celule au valori ateptate nnumr mai mic dect 5. Valoarea lui 2 =5,168 se compar cu cea din tabelul de mai nainte ianume cu valoarea 5,41 (pentru df=1 i p=0.02). Deducem urmtoarele:

    2 calculat=5,1680 tendina datelor este s se grupeze pe diagonala principal caz n care exist oasociere pozitiv ntre variabile. Asocierea este negativ dac

  • 7/30/2019 Spss Curs Id2

    41/44

    2. Coeficientul Q al lui Yule are formula urmtoare: Q=21122211

    21122211

    kkkk

    kkkk

    +

    i ia valori n

    intervalul [-1, +1]. Interpretarea este asemntoare cu aceea de la corelaie (pentru Q=0 situaiaeste de independen).

    3. Coeficientul Y al lui Yule, pe care nu l mai detaliem aici i care are valori tot ntre[-1,+1].

    Pentru variabile categoriale cu mai mult de dou variante se impun i ali coeficieni:

    1. Coeficientul de contingen (C) ia valori n intervalul [0,1] i are formula:

    C=n+2

    2

    , formula n care n este volumul eantionului.

    Acest coeficient dac e aplicat n cazul a dou variabile dihotomice are valoareamaxima de 0,707. Aceast valoare crete apoi odat cu creterea tabelului de contingen darnu va atinge niciodat valoare 1 deoarece fracia de sub radical este subunitar. T. Rotariu[1999;135] recomand folosirea acestui coefficient pentru tabele mari. Oricum dac C1atunci asocierea dintre variabile este puternic iar dac C0 asocierea este slab.

    2. Coeficientul V (Cramer) ia valori tot n intervalul [0,1] interpretarea fiind aceeai.Formula de calcul este urmtoarea:

    V=( )1

    2

    sn

    , formula n care s*=min (n,m) adic minimul din nr. de linii/coloane.

    3. Coeficientul (Goodman i Kruskal) ia valori n intervalul [0,1] dar interpretarealui este diferit: el urmrete proporia cu care se reduc erorile prin introducerea variabileiindependente. Dac tinde la 0 atunci variabila independent nu are un aport n prediciavariabilei dependente. Dac tinde la 1 atunci aportul n predicie este mare. O variant estecoeficientul cu interpretri apropiate.

    4. Coeficientul de incertitudineU se mai numete coeficientul de entropiei iavalori n intervalul [0,1]. El reprezint procentul de reducere a a erorilor de interpretare avariaiei variabilei dependente cnd acioneaz variabila independent (variana este definitn termeni de entropie sau grad de nedeterminare dat de plasarea subiec ilor n categoriile din

    tabelul de contingen) . dac U0 variabila independent nu explic variana celeidependente situaia fiind opus dac U1.

    Vom ncerca s aplicm i aceti din urm coeficieni la o analiz pentru variabilenominale cu mai mult de dou categorii. Din baza de date GSS93 subset vom analiza asociereadintre variabilele marital status i life: ne intereseaz dac rasa respondenilor influeneazopinia despre via n general. Marital status are cinci categorii iar variabila life [Is lifeexciting or dull?] are i ea trei variante principale (exciting, routine i dull). Vom urmaaceleai comenzi: Analyze Descriptive StatisticsCrosstabs i vom opta ipentru cei

    patru coeficieni din fereastra Statistics: Contingency Coefficient, Phi and Cramers V,Lambda i Uncertainty coefficient. Rezultatele sunt urmtoarele:

  • 7/30/2019 Spss Curs Id2

    42/44

    Case Processing Summary

    996 66.4% 504 33.6% 1500 100.0%Marital Status * ILife Exciting or D

    N Percent N Percent N Percent

    Valid Missing Total

    Cases

    Marital Status * Is Life Exciting or Dull Crosstabulation

    21 241 251 513

    33.5 236.4 243.1 513.0

    4.1% 47.0% 48.9% 100.0%

    17 54 40 111

    7.2 51.2 52.6 111.0

    15.3% 48.6% 36.0% 100.0%

    10 74 65 149

    9.7 68.7 70.6 149.06.7% 49.7% 43.6% 100.0%

    6 11 8 25

    1.6 11.5 11.8 25.0

    24.0% 44.0% 32.0% 100.0%

    11 79 108 198

    12.9 91.2 93.8 198.0

    5.6% 39.9% 54.5% 100.0%

    65 459 472 996

    65.0 459.0 472.0 996.0

    6.5% 46.1% 47.4% 100.0%

    Count

    Expected Count

    % within Marital Status

    Count

    Expected Count

    % within Marital Status

    Count

    Expected Count% within Marital Status

    Count

    Expected Count

    % within Marital Status

    Count

    Expected Count

    % within Marital Status

    Count

    Expected Count

    % within Marital Status

    married

    widowed

    divorced

    separated

    never married

    MaritalStatus

    Total

    Dull Routine Exciting

    Is Life Exciting or Dull

    Total

    Chi-Square Tests

    39.220a 8 .00031.911 8 .000

    .034 1 .854

    996

    Pearson Chi-SquareLikelihood Ratio

    Linear-by-LinearAssociation

    N of Valid Cases

    Value df Asymp. Sig.

    (2-sided)

    1 cells (6.7%) have expected count less than 5. Theminimum expected count is 1.63.

    a.

    Directional Measures

    .026 .016 1.640 .101

    .000 .000 .c .c

    .050 .030 1.640 .101

    .009 .004 .000d

    .011 .005 .004d

    .015 .006 2.639 .000e

    .012 .005 2.639 .000e

    .018 .007 2.639 .000e

    Symmetric

    Marital Status Dependent

    Is Life Exciting or DullDependent

    Marital Status DependentIs Life Exciting or DullDependent

    Symmetric

    Marital Status Dependent

    Is Life Exciting or DullDependent

    Lambda

    Goodman andKruskal tau

    Uncertainty Coefficient

    Nominal byNominal

    ValueAsymp.Std. Error a Approx. T b Approx. Sig.

    Not assuming the null hypothesis.a.

    Using the asymptotic standard error assuming the null hypothesis.b.

    Cannot be computed because the asymptotic standard error equals zero.c.

    Based on chi-square approximationd.

    Likelihood ratio chi-square probability.e.

    Symmetric Measures

    .198 .000

    .140 .000

    .195 .000

    996

    PhiCramer's V

    Contingency Coefficient

    Nominal byNominal

    N of Valid Cases

    Value Approx. Sig.

    Not assuming the null hypothesis.a.

    Using the asymptotic standard error assuming the nu llhypothesis.

    b.

    Se observ c au fost procesate

    un numr de 995 cazuri valideiar 504 au fost considerate lips.

  • 7/30/2019 Spss Curs Id2

    43/44

    Symmetric Measures

    .198 .000

    .140 .000

    .195 .000

    996

    Phi

    Cramer's V

    Contingency Coeffici

    Nominal byNominal

    N of Valid Cases

    Value pprox. Sig.

    Not assuming the null hypothesis.a.

    Using the asymptotic standard error assuming the nullhypothesis.

    b.

    13.2 Asocierea i raporturile de anse (odds ratio)

    Cu ajutorul tabelului de contingen se poate analiza ansa (probabilitatea) ca un anumitfenomen s se petreac. Dac un fenomen, s spunem, are o probabilitate p de apariie atunci

    prin ans se nelege raportul p/ (1-p). Dintr-un exemplu anterior vom spune c existprobabilitatea de 0.511 ca subiecii care cred c direcia este bun s fie brbai. Altfel ansaca un intervievat s fie brbat a fost 511/(1-0.511)= 1.04.

    S analizm aceast problematic plecnd de la baza de date GSS93 subset i de ladou variabile sex i gunlaw (acordul sau dezacordul portului armei). Dup ce am transferatvariabilele pe linie i coloan din fereastra statistics alegem doarChi-squarei Risk:

    Respondent's Sex * Favor or Oppose Gun Permits Crosstabulation

    314 111 425

    350.3 74.7 425.0

    73.9% 26.1% 100.0%

    497 62 559

    460.7 98.3 559.0

    88.9% 11.1% 100.0%

    811 173 984

    811.0 173.0 984.0

    82.4% 17.6% 100.0%

    Count

    Expected Count

    % withinRespondent's Sex

    Count

    Expected Count

    % withinRespondent's Sex

    Count

    Expected Count

    % withinRespondent's Sex

    Male

    Female

    Respondent'sSex

    Total

    Favor Oppose

    Favor or Oppose GunPermits

    Total

    Risk Estimate

    .353 .251 .496

    .603 .524 .695

    1.710 1.391 2.103

    984

    Odds Ratio for Favor orOppose Gun Permits(Favor / Oppose)

    For cohort Respondent'sSex = Male

    For cohort Respondent'sSex = Female

    N of Valid Cases

    Value Lower Upper

    95% ConfidenceInterval

    Observm 2 calculat=32,2>2 teoretic=26,1 pentru

    8 grade de libertate i p=0.000. Acceptm ipotezaH1 deci variabilele sunt asociate. Intensitateaasocierii este totui slab (C=0.190;V=0.140) iardirecia presupus de var independent maritalstatus explicnd var. dependent life este maiplauzibil ( =0.05> =0.00 sau =0.011> =0.009). Se observ de asemeneavalorile mici pentru coeficientul U.

    Chi-Square Tests

    37.622b 1 .000

    36.592 1 .000

    37.417 1 .000

    .000 .000

    37.584 1 .000

    984

    Pearson Chi-Squ

    Continuity Correca

    Likelihood Ratio

    Fisher's Exact Te

    Linear-by-LinearAssociation

    N of Valid Cases

    Value df Asymp. Sig.

    (2-sided)Exact Sig.(2-sided)

    Exact Sig.(1-sided)

    Computed only for a 2x2 tablea.

    0 cells (.0%) have expected count less than 5. The minimum expect74.72.

    b.

  • 7/30/2019 Spss Curs Id2

    44/44

    Din rezultatele obinute se observ c cele dou variabile sunt asociate[deoarece 2 calculat=37,6>

    2 teoretic=10,83 pentru 1 grad de libertate i p=0.000 deci vomaccepta H1]. Cu alte cuvinte sexul respondenilor influeneaz opinia despre portul armei.ansa ca un respondent s fie de acord este diferit pentru brbai i pentru femei. Pentru

    brbai este de 314/111=2,82 iar pentru femei este de 497/62= 8.01 valoare semnificativ maimare. Raportul de anse dintre femei i brbai este de 8.01/2.82= 2,84 cu alte cuvinte sunt 2,8anse ca o femeie s fie de acord fa de un brbat. Aceast valoare cu ct este mai mare dect1 cu att sunt mai pronunate diferenele dintre grupuri. Pentru cei ce sunt de acordcoeficientul de risc este de 1.20 iar pentru cei ce nu sunt de acord 0,42.