Spss Curs Id 3

download Spss Curs Id 3

of 13

Transcript of Spss Curs Id 3

  • 7/30/2019 Spss Curs Id 3

    1/13

    IX. Operaiuni executate asupra variabilelor i bazelor de date

    Complexitatea i varietatea calculelor statistice din programu SPSS sunt amplificate denumeroasele faciliti de lucru n cadrul bazelor de date. O parte din ele sunt ntlnite i ndiverse programe, altele sunt specifice. Pentru a trece n revist aceste faciliti ni s-a prut maisimplu de a prezenta meniuri ntregi de comenzi cu precizarea c nu vom detalia toateutilitile specifice; vom detalia doar acele aspecte pe care le considerm fundamentale sauoricum sunt mai des ntlnite. Vom ncepe cu meniul Data care este compus din urmtoarelesubmeniuri:Fig 1. Meniul Data

    1. Define Variable Properties- ajut la schimbri de numesau atribute ale variabilelor din Data Editor. Dup ce amtrecut o variabil din coloana din stnga n dreapta se vadeschide fereastra care poart chiar numele submeniului,fereastr n care avem o descriere amnunit a variabilei.Aici putem face i schimbrile pe care le considermnecesare. Dac Data Editor nu conine o baz de date

    submeniul nu poate fi activ.2. Copy Data Properties- ajut la transferul datelor ntrediverse baze de date3. Define Dates-ajut la definirea datelor calendaristice maiales pentru lucrul cu serii de timp4. Insert Variable-ajut la inserarea unei noi variabile n

    baza de date. S presupunem c celula activ dintr-o baz dedate este poziionalt pe o coloan (variabil):

    ca n situaia de mai jos. Dup activarea comenzii n partea dreapt va apare o nou variabilcare trebuie definit (aceeai operaie putea fi setat dac ne opream cu mausul pe numele

    variabilei maritalclic dreapta i alegeam Insert Variable sau direct de pe bara de

    instrumente cu butonul ):Fig 2. Inserarea unei variabile

    5. Insert Cases-ajut la inserarea unor noi cazuri (linii orizontale). Dac celula activ esteplasat pe un anumit rnd atunci va apare un nou rnd imediat deasupra acestuia. Se poate

  • 7/30/2019 Spss Curs Id 3

    2/13

    apela i la plasarea mausului pe rndul respectiv i clic dreapta sau direct de pa bara su

    instrumente acionnd butonul .6. Go to Case- se poate indica un anumit caz din baz pentru a se ajunge imediat la acesta.

    7. Sort Cases-ajut la sortarea (ordonarea) valorilor seriei dup valorile dintr-una sau maimulte variabile. Aici un exemplu de reordonare a bazei dup valorile cresctoare din variabilaage:

    Fig. 3 Sortarea bazei dup o variabil

    8. Transpose-ajut la inversarea coloanelor cu liniile din baza de date. Variabilele neselectatevor fi pierdute!

    9. Restructure-ajut la transformri complexe n interiorul bazelor de date. Sunt trei opiuni:restructurarea anumitor variabile n cazuri, restructurarea unor cazuri n variabile sau

    inversarea ntrecazuri i variabile tuturor datelor.

    10. Merge files-ajut la unirea mai multor date din baze diferite. S presupunem c am aplicatun chestionar n oraul X i apoi acelai chestionar n oraul Z. Datele respective sunt n bazediferite dei au acelai numr de variabile. Reunirea ntr-o singur baz se face plecnd de launa dintre ele (baza1) la care se adaug cea de a doua baz . S presupunem c am construit o

    baz cu doar zece cazuri la care vom aduga alte 10 cazuri din cealalt baz :

  • 7/30/2019 Spss Curs Id 3

    3/13

    Vom aciona comenzileDataMerge FilesAdd Cases iar dup cevom selecta noua baz seva deschide urmtoareafereastr. S presupunemc in noua baz variabila

    religie a fost scris greitrelig.

    n aceast fereastrvariabilele cu semnul (*) facparte din baza iniial iarcele cu semnul (+) din bazaadugat. Numele celei de-a

    doua variabile poate fischimbat din butonulRename sau pot fi selectateambele i trecute n parteadreapt cu butonul Pair.Butonul Paste esteconsevarea lucrului n limbajsintaxa. Dup OK rezult:

    Noua baz (baza2)cuprinde acum toatecele 20 de cazuri iar

    numele acesteia estecel al primei baze dela care s-a plecat. O

    putem salva naceast formFileSaveas...

  • 7/30/2019 Spss Curs Id 3

    4/13

    Dup ce am salvatnoua baz (sortat!)am formulat

    comenzileDataMerge

    FileAdd

    Variables i dupOK observm cnoua variabil aintrat n prima baz.

    S presupunem c n cea de a doua baz aveam numai cinci observa ii dup cum urmeaz:

    Aceast nou baz va trebui s fie sortat ascendent dupvariabila id deoarece cazurile nu sunt n ordine. Dupsortare, salvm fiierul. Baza de date de la care se va plecaeste baza1 din exemplul precedent. Dup ce am deschisaceast baz vom parcurge DataMerge FilesAddVariable i va apare urmtoarea feereastr:

    Comanda Merge Files ajut i laconectarea cu alte baze de date careau variabile diferite. S presupunemc avem prima baz cu cele 10cazuri i n alt baz de date avemsituaia respectivilor subieci

    privind numrul de copii. Se

    observ c subiecii au aceleainumere de identificare dar nu suntn ordine. Aplnd la Sort Casesdu variabila id rezult:

  • 7/30/2019 Spss Curs Id 3

    5/13

    Obs. 2. Exist i alte dou opiuni n fereastra de mai nainte: External file is keyed tablei Working Data File is keyed table.

    S presupunem c n localitatea X n funcie de religie cetenii trebuie s plteasc o taxanual exprimat n sute de mii de lei astfel:

    Se cere ca n baza2 unde sunt nregistrai 20 de subieci s seataeze fiecruia dup religia proprie taxa pe care o va plti.Practic trebuie s reunim baza2 cu aceasta din urm. Pentrunceput ambele baze vor fi sortate ascendent dup variabilareligie i vor fi salvate n aceast form. Apoi vom deschidebaza2 i vom urma comenzile Data Merge File AddVariable dup care vom seta opiunea External file is keyedtable, iar variabila cheie este religia:

    Iniial variabila id se afla ncoloana din stnga(Excluded Variables) dar afost desemnat drept key

    variable dup setarea opiuniiMatch Case....Both filesprovide cases. Se observ cvalorile din baza extern s-auataat n baza de plecare

    pentru cazurilecorespunztoare.

    Practic au aprut n final toatevaribilele dar acolo unde au fost mai

    puine observaii s-au salvat doar aceledate. Obs. 1. Dup ce au fost luate toatesetrile nainte de OK se poate dacomanda Paste care salveaz n limbajsintax comenzile de pn acum ntr-unfiier separat care poate fi salvat ifolosit alt dat.

  • 7/30/2019 Spss Curs Id 3

    6/13

    Se observ c n baza iniil a aprut o nou variabil care atribuie fiecrei categorii valoareataxelor respective. Practic apar toate variabilele din cele dou fiiere iar criteriul de alipirermne alocare unor valori-perechi.

    Obs. 3. Opiunea Working Data File is keyed table o vom alege dac drumul parcurs esteinvers: de la ultima baz cu cele trei cazuri la baza mare: deci baza de plecare (Working DataFile) va da criteriul de alipire a bazelor.

    Obs. 4. Operaiile de alipire a bazelor de date trebuie s respecte condiiile: trebuie s existen ambele baze o variabil comun dup care se face alipirea; trebuie o atenie sporit lavariabilele care au acelai nume i care nu sunt criterii de alipire; variabilele trebui8e sortateambele n acelai sens nainte de a fi alipite.

    8. Agregarea datelor

    Uneori este nevoie de a sintetiza anumite informaii despre valorile dintr-o baz de dategrupndu-le dup o serie de categorii care sunt specifice unei variabile alese. S lum deexemplu baza de date Cars.sav:

  • 7/30/2019 Spss Curs Id 3

    7/13

    n aceast baz de date sunt diverse informaii despre autoturisme: cilindree (variabila engine)

    puterea motorului (horse), greutate (weight), acceleraie (accel), an de fabricaie (year).Plecnd de la aceast baz de date dorim s obinem pentru toate aceste caracteristici mrimimedii sau alte mrimi, grupate dup anii de fabricaie. Pentru aceasta vom apela comenzileDataAggregate dup care va apare fereastra urmtoare:

    Se impun unele precizri privind aceast fereastr:-variabila n funcie de care se vor face calcule separate o trecem n rubrica Break Variable-variabilele asupra crora se vor face calculele se trec n cea de a doua rubric iar opera iile nsine sunt opionale i se pot alege din butonul Function:

    -opiunea Save number of cases...va introduce o nou variabil care contorizeaz numrul decazuri din fiecare categorie-opiunea Create new data file va indica o nou baz de date care va fi salvat de program in care vom avea rezultatele agregrii. Din butonul File putem s denumim baza respectiv!Pentru acest caz vom lsa denumirea aggr.sav

    Dup cum se vede pot fi alesediverse modaliti de calcul de laprincipalele valori statistice laspecificarea anumitor valoristatistice (prima, ultima etc.), lanumrul de cazuri, la precizarea

    procentajelor mai mari/mai micifa de o anumit valoare sau celedintr-un interval sau dinafaraacestuia, la precizare unuifragment din date ntre anumitelimite precizate.

  • 7/30/2019 Spss Curs Id 3

    8/13

    -opiunea Replace Working data file va elimina datele din baza curent!Dup ce vom da OK trebuie s cutm i s deschidem noul fiier creat de ctre program icare se afl de obicei n Program filesSPSS.Noua baz de date este urmtoarea:

    9. Split File-comand des utilizat care permite analizarea diverselor valori statistice pentrugrupuri ntregi de subieci generate tocmai de categoriile din variabile. S presupunem c n

    baza GSS93 subset.sav dorim s cunoatem n care dintre regiunile americane respondenii aun medie, un nivel de educaie mai mare. Conform variabilei region4 subiecii din anchet suntdivizai n 4 regiuni iar variabila educ reprezint anii de studiu pentru o coal ncheiat. Vomapela la comanda DataSplit file pentru a produce filtrarea bazei conform unui criteriu

    impus:

    Urmeaz s calculm media anilor de studiu cu comenzile AnalyzeDescriptiveStatisticsFrequencies iar din meniul Statistics vom alege doar media (mean). Rezultatul nOutput este urmtorul:

    Se observ categoriilegenerate de ctrevariabila year i pentrufiecare categorie (an defabricaie) sunt calculatemediile respective.Pentru accel suntspecificate doar valorilemaxime. Ultimavariabil coninenumrul de cazuri dinfiecare categorie. Se potapoi face analize

    plecnd de la aceste

    date.

    Variabila dup care vom mpisubiecii n grupuri disticteregion4 este trecut n dreapta iarca variant de vizualizare arezultatelor am ales opiuneaCompare Groups. Dup OK nData Editor va apare n colul dindreapta jos meniunea Split FileOn care ne avertizeaz c bazaeste filtrati orice rezultat viitorva fi definit de filtrarea respectiv:

  • 7/30/2019 Spss Curs Id 3

    9/13

    Statistics

    Highest Year of School Completed

    741

    2

    13.07

    136

    0

    13.39221

    0

    13.18

    248

    0

    12.30

    150

    2

    13.56

    Valid

    Missing

    N

    Mean

    Valid

    Missing

    N

    MeanValid

    Missing

    N

    Mean

    Valid

    Missing

    N

    Mean

    Valid

    Missing

    N

    Mean

    .

    Northeast

    Midwest

    South

    West

    Obs: rezultatele pot fi afiate i separat dac setam opiunea Organize output by groups.

    10. Select Cases-dintr-o baz de date se pot analiza anumite cazuri selectate dup un criteriunecesar cercetrii statistice. Procedura urmeaz comenzile DataSelect Cases. S

    presupunem c n baza de date BOP_mai/2003_Gallup.sav dorim s vedem care suntopiunile persoanelor de sex masculine privind direcia n care se ndreapt Romnia: estevorba de variabilele sex0 (genul respondenilor) i a1 (direcia n care se ndreapt aranoastr). Prima variabil este variabila criteriu cu valorile: 1. masculin, 2.feminin. Vom selectadoar respondenii de sex masculin prin If condition is satisfiedIf:

    Se va deschide o nou fereastr n care am pus condi ia de selecie: sex0=1. DupContinue se va reveni n baza de date care are acum, n dreapta jos precizarea Filter On. n

    baza de date vor apare n partea dreapt o serie de tieturi semn c liniile ce cpurind sexulfeminin au fost -pentru moment-eliminate. Din acest moment orice calcule statistice efectuatevor ine cont de selectarea efectuat. La final respectiva setare trebuie anulat dac seintenioneaz alte calcule.

    Dup cum se observ din tabelulalturat cei ce nu au declaratregiunea au n medie 13.07 ani decoal. Media cea mai mare sentlnete printre cei din vestul SUA.Restul comparaiilor sunt evidente.Obs. Dac trebuie s facem alteanalize statistice care nu privescmprirea populaiei pe categoriiatunci trebuie s eliminm comenzileanterioare astfel: DataSplitFileResetOK sau prin alegereaopiunii Analyze all cases...

  • 7/30/2019 Spss Curs Id 3

    10/13

    Statistics

    Credei c n ara noastr lucrurile merg ntr-o

    direcie bun sau ntr-o direcie greit?

    970

    0

    Valid

    Missing

    N

    Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie

    greit?

    383 39.5 39.5 39.5

    511 52.7 52.7 92.2

    69 7.1 7.1 99.3

    7 .7 .7 100.0

    970 100.0 100.0

    direcia este bun

    direcia este greit

    NS

    NR

    Total

    Valid

    Frequency Percent Valid Percent

    Cumulative

    Percent

    Obs: Metodele de selecie sunt foarte diverse: selectarea unui eantion din baz putndu-se

    indica n mod precis ct la sut din cazuri vor fi selectate (Random sample of cases), selecien funcie de o variabil temporal sau dup anumite ranguri care se pot preciza (Based ontime or case range), selecie n funcie de o variabil filtru care dac ia valoarea nul atuncicazul respectiv se elimin (Use filtre variable). Existi posibilitatea ca liniile neselectate sfie terse din baz ns aceast operaie trebuie fcut cu precauie. n cadrul ferestrei SelectCases If se pot folosi butoanele cu cifre sau semne matematice pentru condiiile impuse ichiar o serie de funcii care sunt listate n tabelul din dreapta ferestrei. Acestea pot fi: funciiaritmetice (ABS[modul], LN[log. natural], SQRT [radical], etc,) funcii statistice (MEAN,SUM, VARIANCE, etc.) funcii de lucru cu variabile nominale, funcii pentru date temporale,funcii logice, funcii referitoare la valorile lips etc. O parte din aceste func ii le regsim si n

    programul Excel.

    11. Weight Cases-ajut la ponderarea observaiilor adic la repetarea unei observaii de unanumit numr de ori. Aceast operaie este necesar n cazurile n care anumite subgrupuri din

    populaie nu sunt bine reprezentate n eantion. De exemplu proporia de tineri ntre 18-25 deani este de 30% n eantion iar n populaia mare este de 25%. Eantionarea poate introducedistorsiuni i de aceea se cere ponderarea acelor cazuri care sunt supra/sub-evaluate. Sedefinete o variabil de ponderare conform creia se vor aplica respectivele ponderri.

    Din acest moment orice calculestatistice efectuate vor ine contde selectarea efectuat. La finalrespectiva setare trebuie anulatdac se intenioneaz altecalcule. Rezultatul final esteurmtorul:

    Numrul de cazuri valide sunt doarrespondenii de sex masculin dintr-uneantion de 2100 de persoane.Rezultatele finale sunt urmtoarele:

  • 7/30/2019 Spss Curs Id 3

    11/13

    Procedura impus de ctre program pleac de la o ponderare egal a fiecrui caz ca i cumansele de intra n eantion sunt egale (eantionare simpl aleatoare). Aceste anse sunt nsinegale atunci cnd eantionul ine cont de o anumit stratificare.

    Folosirea comenzii Weight Cases se dovedete foarte util atunci cnd pondermsubgrupuri dintr-un eantion deoarece acestea nu reflect proporiile dintr-o populaie extins.De exemplu T. Rotariu i P. Ilu (1997; 191-192) propun dou strategii: eliminarea aleatorie aunor chestionare din grupul supra-reprezentat n eantion sau duplicare unui anumit numr dechestionare n grupul mai puin reprezentat n eantion. Evident, autorii atrag atenia asuprariscului ca aceste operaiuni s introduc n mod nepermis alte erori pe lng cele provenite dinneconcordanele dintre statisticile oficiale i populaia real. Prudena n acest caz trebuiecombinat cu verificri suplimentare din perspectiva altor variabile. O alt surs de eroare pecae au constatat-o cei doi autori se refer la modalitile de alegere a unei persoane din cadrulunei gospodrii n cazul unei anchete prin chestionar (op. cit., 147-148). ntr-adevransele dea fi ales n eantion pentru un adult de exemplu scad odat cu mrimea familiei: dac familia eformat dintr-o singur persoanansa de a fi aleas este 100% iar dac sunt dou persoaneansa scade la 50% etc. Se recomand n acest caz ca familia cu dou persoane s aib o ansdubl de a fi extras, apoi familia cu trei persoane s aib o ans tripl etc. Atorii recomad nacest caz ca la final s se fac o ponderare dup mrimea familiei din care provine

    respondentul. Iat un exemplu a unei astfel de ponderri dat de ctre M. Rteiu et al. (2003,vol. 2; 132-134). Analiza autorilor se oprete la baza de date gss98.sav i care se poate gsi peInternet. n respectiva baz de date se pot identifica variabila adults (care reprezint numrulde persoane cu vrsta de peste 18 ani din familie). Simpla analiz statistic a acestei variabiled urmtoarea configuraie:

    HOUSEHOLD MEMBERS 18 YRS AND OLDER

    967 34.1 34.2 34.2

    1510 53.3 53.3 87.5

    275 9.7 9.7 97.264 2.3 2.3 99.5

    13 .5 .5 99.9

    1 .0 .0 100.0

    1 .0 .0 100.0

    2831 100.0 100.0

    1 .0

    2832 100.0

    1

    2

    34

    5

    6

    7

    Total

    Valid

    NAMissing

    Total

    Frequency Percent Valid Percent

    Cumulative

    Percent

    HOUSEHOLD MEMBERS 18 YRSAND OLDER

    Valid 1 967 967

    2 1510 3020

    3 275 825

    4 64 256

    5 13 65

    6 1 6

    7 1 7

    Total 2831 5146 1.81773225

    Missing NA 1

    Total 2832

    n acest context se pune problemaacordrii unor anse mai mari deapariie a persoanelor din familiimai mari. Pentru aceasta se

    calculeaz un anumit coeficientde multiplicare i a crui valoareeste n acest caz egal cu 1,818.Aceast valoare s-a obinutconform algoritmului din tabelulde mai jos. Se observ c se cautun eantion n care se cumuleaz

    produsele de genul 1x967,2x1510, 3x275 etc., care justificansele acordate dup aprecierile

    de mai nainte. La final suma de5146 a fost mprit la 2831 i arezultat coeficientul de 1,818(rotunjit). n continuare autoriiintroduc o nou variabil numitwadults creat cu ajutorul sub-meniului Compute prin

    ponderarea variabilei adults cuacest coeficient:

  • 7/30/2019 Spss Curs Id 3

    12/13

    Abia acum poate fi apelat procedura weight cases cu variabila wadults drept criteriu:

    Odat activat butonul OK se vaobserva c pe bara de jos va apare

    specificarea de rigoare:

    La final distribuia persoanelor cu vrste de peste 18 ani va fi urmtoarea:

    Obs. Se poate reveni lasituaia iniial a bazei de datealegndu-se opiunea Do notweight cases.

    Obs. Am folosit pentruafiarea n Output un alt model

    pentru tabele. Acest model sepoate seta urmnd meniul

    EditOptionPivot Tables:

    Ca de obicei noua variabil se vagsi n baz pe ultima poziie:

    HOUSEHOLD MEMBERS 18 YRS AND OLDER

    532 18.8 18.8 18.8

    1661 58.7 58.7 77.5

    454 16.0 16.0 93.5

    141 5.0 5.0 98.5

    36 1.3 1.3 99.7

    3 .1 .1 99.9

    4 .1 .1 100.0

    2831 100.0 100.0

    1

    2

    3

    4

    5

    6

    7

    Total

    Valid

    Frequency Percent Valid Percent

    Cumulative

    Percent

  • 7/30/2019 Spss Curs Id 3

    13/13