2_

10
Analiza datelor OPERAŢII DE TRANSFORMARE A VARIABILELOR Dacă privim variabilele SPSS din punctul de vedere al modului în care au fost create, putem distinge două categorii: a) variabile „primare” care includ valori rezultate direct din cercetare si care au fost introduse, de regulă, de la tastatură; b) variabile „secundare” rezultate prin transformările aplicate variabilelor primare. Exemple de situaţii în care se impune transformarea variabilelor: Avem mai multe variabile „primare” care conţin valorile aferente diferitelor categorii de venituri pe care le încasează o persoană şi suntem interesaţi să calculăm (într-o variabilă „secundară”) veniturile totale ale acesteia; Avem o variabilă care conţine data naşterii şi dorim să creăm pe baza ei o altă variabilă, care să conţină vârsta; Dorim să transformăm variabila care conţine vârsta într-o altă variabilă, care conţine valori pentru categorii de vârstă. Pentru toate aceste situaţii, care sunt unele dintre cele mai des întâlnite, dar şi pentru multe altele încă, SPSS oferă proceduri de transformare în meniul Transform. În continuare, vom prezenta câteva dintre cele mai frecvent utilizate funcţii de transformare a variabilelor. Însumarea valorilor variabilelor Se utilizează atunci când dorim să obţinem o variabilă prin adunarea valorilor din două sau mai multe variabile. Imaginea de mai jos prezintă o tabelă de date SPSS în care a fost necesară calcularea veniturilor totale obţinute de o persoană pornind de la diferite categorii de venituri şi a cheltuielilor totale acceptate pornind de la cheltuilelile efectuate şi de rata acceptată pentru cumpărarea unui autoturism. Prin calculare, o nouă variabilă este plasată după toate variabilele existente. Pentru obţinerea celor două variabile se utilizează succesiunea de comenzi Transform – Compute variable care deschide fereastra din imaginea următoare:

description

ddddddddddd

Transcript of 2_

  • Analiza datelor

    OPERAII DE TRANSFORMARE A VARIABILELOR

    Dac privim variabilele SPSS din punctul de vedere al modului n care au fost create, putem distinge dou categorii:

    a) variabile primare care includ valori rezultate direct din cercetare si care au fost introduse, de regul, de la tastatur;

    b) variabile secundare rezultate prin transformrile aplicate variabilelor primare. Exemple de situaii n care se impune transformarea variabilelor:

    Avem mai multe variabile primare care conin valorile aferente diferitelor categorii de venituri pe care le ncaseaz o persoan i suntem interesai s calculm (ntr-o variabil secundar) veniturile totale ale acesteia;

    Avem o variabil care conine data naterii i dorim s crem pe baza ei o alt variabil, care s conin vrsta;

    Dorim s transformm variabila care conine vrsta ntr-o alt variabil, care conine valori pentru categorii de vrst.

    Pentru toate aceste situaii, care sunt unele dintre cele mai des ntlnite, dar i pentru multe altele nc, SPSS ofer proceduri de transformare n meniul Transform. n continuare, vom prezenta cteva dintre cele mai frecvent utilizate funcii de transformare a variabilelor. nsumarea valorilor variabilelor

    Se utilizeaz atunci cnd dorim s obinem o variabil prin adunarea valorilor din dou sau mai multe variabile. Imaginea de mai jos prezint o tabel de date SPSS n care a fost necesar calcularea veniturilor totale obinute de o persoan pornind de la diferite categorii de venituri i a cheltuielilor totale acceptate pornind de la cheltuilelile efectuate i de rata acceptat pentru cumprarea unui autoturism.

    Prin calculare, o nou variabil este plasat dup toate variabilele existente. Pentru

    obinerea celor dou variabile se utilizeaz succesiunea de comenzi Transform Compute variable care deschide fereastra din imaginea urmtoare:

  • Analiza datelor

    n caseta Compute Variable se efectueaz urmtoarea succesiune de operaii:

    1. Se introduce numele noii variabile n zona Target Variable (de exemplu pentru calculul cheltuielilor totale Chelt_totale). Dac variabila nu exist, ea va fi creat automat de SPSS.

    2. Se scrie expresia de nsumare n zona Numeric Expression, ntr-una din formele de mai jos, la alegere:

    a. Utiliznd funcia SUM (expresie numeric, expresie numeric, ...), aa cum se vede i n zona listei Functions: Ea poate fi scris de la tastatur sau selectat din lista de funcii i ridicat prin acionarea butonului . Atenie, sintaxa fiecrei funcii trebuie respectat ntocmai. n cazul nostru, variabilele numerice se vor scrie ntre paranteze, una cte una, cu virgul ntre ele. Variabilele pot fi scrise de la tastatur sau mutate la rndul lor din lista de variabile cu butonul . Dac variabilele ce vor fi nsumate se afl n baza de date una dup alta, ca n cazul exemplului nostru, atunci avem posibilitatea s scriem o expresie de nsumare simplificat, astfel SUM (prima_variabil TO ultima_variabil). n acest caz, clauza TO va fi cuprins ntre spaii, pentru a nu fi confundat cu un nume de variabil. Aceast opiune ne sugereaz ct de important poate fi s aranjm corespunztor variabilele n structura unei tabele SPSS.

    b. Prin adunarea una cte una a fiecrei variabile care se nsumeaz (Cheltuileli+Rata_auto). Avantajul acestei variante este c variabilele respective nu trebuie s fie plasate una lng alta n baza de date. Dezavantajul este c, dac expresia conine multe variabile, dureaz mai mult completarea ei. Atenie, dac oricare dintre variabilele nsumate cu aceast expresie are o valoare lips, pentru un caz, atunci totalul va fi o valoare lips! Acest neajuns nu se ntlnete dac se face adunarea cu funcia SUM, ca la punctul a.

    3. Se apas butonul OK 4. Deoarece variabila rezultat din nsumare exist deja, SPSS ne ntreab dac dorim s

    modificm coninutul acesteia. Dac nu ar exista o variabil cu acest nume, rezultatul operaiei de calcul ar fi depus ntr-o variabil creat automat i amplasat dup ultima variabil din baza de date.

    Rspundem OK, deoarece tim c am creat aceast variabil tocmai pentru a depune

    n ea suma.

  • Analiza datelor

    Calcularea mediei a dou sau mai multe variabile

    Presupunnd c n loc de sum ne-ar interesa media valorilor de la mai multe variabile, se procedeaz n mod similar. Expresia de calcul a mediei este MEAN (expresie_numeric, expresie_numeric, ...). Putem pune oricte variabile (sau valori) numerice, cu virgul ntre ele. Ca i n cazul sumei, se poate realiza o expresie cu clauza TO, cu condiia ca variabilele pentru care se realizeaz media s se afle una dup alta n tabela SPSS.

    Este de la sine neles c expresia de calcul poate fi realizat i ntr-o manier direct, fr utilizarea funciei MEAN, astfel: (var_1+var_2+var_3)/3

    Se va face o distincie clar ntre suma sau media astfel obinute, care se refer la suma sau media valorilor de la mai multe variabile, pentru acelai subiect, i suma sau media pe care am calcula-o pe vertical, la nivelul fiecrei variabile n parte, pe ntreaga distribuie de valori, pentru toi subiecii. Se pot realiza diverse alte funcii de transformare, utilizndu-se marea varietate de funcii care se gsesc n lista Functions, i a cror semnificaie se poate afl din Help-ul casetei Compute. Extragerea valorii anului dintr-o variabil de tip cronologic (date)

    SPSS ofer funcii de transformare pentru variabilele de tip cronologic. Dintre acestea vom exemplifica cu realizarea unei variabile care s conin vrsta, extras dintr-o variabil care conine data naterii. Imaginea de mai jos este extras din baza de date Employee data.sav (care se gsete n folderul de instalare al SPSS, n C:\Program Files\SPSSInc\SPSS16\Samples)

    Observm c exist variabila bdate (birth date), care conine data naterii. Pentru a

    avea vrsta, trebuie s calculm diferena dintre anul curent extras din variabila de sistem $DATE11 i anul naterii extras din variabila bdate. Extragerea anului dintr-o variabil de tip dat se face cu ajutorul funciei XDATE.YEAR().

    Variabila sistem $DATE11 permite de fapt determinarea datei curente a sistemului sub form de string (ir de caractere alfanumeric) i care pentru a fi acceptat de funcia XDATE.YEAR() rezultatul ei trebuie convertit cu ajutorul funciei NUMBER($DATE11, Date11) la o valoare numeric de tip dat. Astfel formula final de determinare a vrstei va fi:

    vrsta = XDATE.YEAR(NUMBER($DATE11,Date11))-XDATE.YEAR(bdate)

  • Analiza datelor

    n cmpul Target variable introducem numele noii variabile (varsta). n zona Numeric Expression vom scrie expresia de transformare

    XDATE.YEAR(NUMBER($DATE11,Date11))-XDATE.YEAR(bdate). Rezultatul operaiei poate fi vzut mai jos:

    Se observ n variabil varsta, valorile rezultate prin transformare. Posibilitile de transformare a variabilelor oferite de SPSS permit crearea unor noi

    variabile pe baza celor existente, n funcie de necesitile de prelucrare pe care le avem. n toate cazurile ns, nu se va alege soluia modificrii valorilor dintr-o variabil primar peste valorile deja existente. Cu alte cuvinte, este recomandabil s crem prin transformare variabile noi, deoarece odat pierdute valorile unei variabile primare, ne va fi imposibil s le reconstituim, n cazul n care am fcut o greeal de transformare. Identificarea i contorizarea anumitor valori particulare ale unei variabile Succesiunea de comenzi Transform- Count values within Cases... - se utilizeaz cnd se dorete identificarea i contorizarea valorilor de un anumit fel din cadrul uneia sau mai multor variabile ntr-o variabil nou.

    De exemplu dac se dorete identificarea i contorizarea n cadrul variabilei gender (sex) a valorilor egale cu m atunci se procedeaz astfel:

    - se activeaz fereastra Count occurences of Values within cases folosind succesiunea de comenzi Transform- Count values within Cases...

    - se scrie numele variabilei n care vor fi contorizate valorile n caseta Target variable (n cazul de fa am notat noua variabil cu sex_m)

  • Analiza datelor

    - se completeaz descrierea in extenso a acesteia n caseta Target label (n exemplu am

    scris Identific doar valorile sex=m) - se selecteaz variabila gender din lista variabilelor disponibile - se apas butonul Define Values... pentru a deschide fereastra Count values within

    Cases: Values to Count n care se va defini valoarea ce trebuie identificat i contorizat. n cazul nostru se trece m n caseta Value i se apas butonul Add pentru a o aduga n lista valorilor de identificat i contorizat.

    - se apas Continue pentru a reveni n fereastra iniial. - se apas Ok n fereastra Count occurences of Values within cases Efectul comenzii se observ n coloana variabilei sex_m unde pentru cazurile n care

    variabila gender are valoarea m s-a trecut valoarea 1 iar pentru cazurile n care variabila gender are valoarea f s-a trecut valoarea 0.

    Recodificarea variabilelor

    Recodificarea unei variabile nseamn convertirea valorilor acesteia, cu scopul obinerii unei distribuii bazat pe frecvene absolute sau cumulate. Limitele claselor de grupare nu sunt stabilite automat de SPSS, ci se aleg de ctre utilizator.

    Procesul este similar cu crearea unei distribuii de frecvene dup intervale, despre care ne amintim c n varianta manual se poate derula n maniera descris mai jos:

  • Analiza datelor

    1. se face diferena dintre valoarea cea mai mare i valoarea cea mai mic a variabilei dup care se face distribuia (adic se calculeaz amplitudinea absolut a variabilei)

    2. se determin mrimea intervalului prin mprirea amplitudinii absolute a variabilei calculat la punctul 1. la numrul de intervale ales (sau estimat - de exemplu prin formula lui Sturges: ) ( . i variabileale valoridenr log32231 intervalenr += )

    3. se determin limita inferioar a primului interval ca fiind egal cu valoarea minim a variabilei studiate.

    4. se determin limita superioar a primului interval prin adugarea la limita inferioar a acestuia a mrimii intervalului.

    5. se alege ca limit inferioar pentru urmtorul interval limita superioar a primului interval i se repet procedeul de calcul al limitei superioare a intervalului ca i n cazul primului interval.

    6. se continu cu determinarea limitelor tuturor intervalelor pn se ajunge la ultimul unde trebuie s avem n vedere ca limita superioar a acestuia s fie egal sau cu puin mai mare dect valoarea maxim a variabilei.

    n principiu, dei este recomandabil obinerea unei grupri de frecvene pe 5-15

    clase, se poate opta pentru un numr de clase care servete cel mai bine interesul de cercetare. De exemplu, n cazul unei distribuii de vrst exprimat n ani, este preferabil s se opteze pentru clase de cinci sau zece ani, acestea avnd i o anumit semnificaie psihologic.

    n urma transformrii de mai sus, am obinut variabila varsta. Utilizarea ei ca atare n analize statistice nu este uzual, de aceea ar fi foarte util obinerea unei variabile care s asocieze anumite valori convenionale pentru categorii de varsta. Pentru aceasta putem efectua recodificarea variabilei varsta pentru a obine o distribuie grupat de frecvene. Pentru aceasta se lanseaz procedura Recode Into Different Variables din meniul Transform. Atenie, se poate alege i opiunea Recode Into Same Variables, dar nu este recomandabil deoarece, n cazul unei erori, nu mai avem la dispoziie variabila iniial pentru o nou recodificare.

    Paii de efectuat la apariia casetei Recode into Different Variable:

    se trece variabila varsta n zona Numeric Variable Output Variable. Semnul ntrebrii arat c se ateapt numele variabilei ce urmeaz s fie creat prin recodificare.

    n zona: Name se va trece numele variabilei noi ce va fi create dup recodificare, dup care se apas butonul Change. n zona Label se introduce eticheta variabilei nou create. n exemplul nostru numele noii variabile dup operaia de recodificare este Varsta_grupe. trebuie s descriem limitele grupelor de vrst. Pentru aceasta, se acioneaz butonul Old and New Values

  • Analiza datelor

    Dei relativ complicat, caseta de declarare a noilor valori n funcie de cele vechi este

    uor de neles. n zona Old value, se alege una dintre variantele de definire a valorilor de la care se pleac. S zicem c am ales soluia s recodificm anii pe intervale de zece ani, primul interval fiind 15-25, al doilea 25-40, .a.m.d. Pentru aceasta activm opiunea Range i scriem valorile limite al intervalului dorit. Dup aceasta, n zona New value n caseta Value scriem care este valoarea convenional pe care o atribuim acestei clase. n fine, acionm butonul Add pentru a definitiva operaiunea i trecem la definirea urmtoarei clase, pn terminm.

    n zona OldNew se poate observa lista recodificrilor definite. Se acioneaz butonul Continue i, la revenirea n caseta anterioar, butonul OK.

    Rezultatul operaiunii se vede mai jos:

    Se observ corespondena dintre valoarea din variabila varsta, cu valoarea din

    variabila Varsta_grupe. Atenie, la declararea intervalelor de grupare n categorii, trebuie avut grij ca intervalele s nu se suprapun dar nici s rmn goluri neacoperite ntre ele!

    Transformarea operat pe variabila vrsta nu este de loc inutil. n analizele statistice pe vrste este recomandabil, s operm cu grupe de vrst.

    Dac de exemplu am dori s obinem o distribuie a angajailor pe grupe de vrst

  • Analiza datelor

    folosind comanda Analize-Descriptive Statistics-Frequencies folosind variabila Varsta_grupe

    se obine urmtorul tabel observabil n fereastra de afiare a rezultatelor:

    grupe de varsta

    Frequency Percent Valid Percent

    Cumulative

    Percent

    35-45 212 44,7 44,7 44,7

    45-55 113 23,8 23,8 68,6

    55-65 61 12,9 12,9 81,4

    65-75 66 13,9 13,9 95,4

    75-85 22 4,6 4,6 100,0

    Valid

    Total 474 100,0 100,0

    Determinarea rangurilor valorilor unei variabile

    Utilizarea direct a valorilor unei variabile n cercetri poate conduce la concluzii deplasate dac de exemplu au fost nregistrate valori excesive (mult prea mari sau prea mici fa de restul valorilor) i acestea se utilizeaz n calculul anumitor indicatori. n aceste situaii este recomandat s trecem la utilizarea rangurilor valorilor unei variabile i nu a valorilor acesteia deoarece rangurile nu sunt la fel de sensibile la valorile excesive.

    Ranguri locurile ocupate n cadrul unui ir al valorilor unei variabile ordonate n prealabil cresctor.

    ntr-o astfel de situaie o soluie este transformarea valorilor unei variabile n ranguri folosind procedura Transform-Rank cases:

  • Analiza datelor

    Dac de exemplu am dori s trecem de la valorile variabilei vrsta la rangurile acestora o vom alege din lista variabilelor n fereastra Rank Cases i o vom trece n caseta Variables.

    Se alege modul de atribuire al rangurilor n zona Assign Rank 1 to astfel: - Smallest value va conduce la atribuirea rangurilor pornind n sens cresctor de la

    cea mai mic valoare creia i va atribui rangul 1. - Largest value va conduce la atribuirea rangurilor pornind n sens descresctor de

    la cea mai mare valoare creia i va atribui rangul 1. Se acioneaz apoi butonul OK. Procedura permite fixarea unor parametri de

    transformare cu ajutorul butoanelor Rank Types i Ties, precum i atribuirea rangurilor pe grupuri.

    Dac n caseta By se introduc una sau mai multe variabile din lista de variabile disponibile, atunci vor fi create grupuri pentru fiecare combinaie de valori a acestor variabile iar rangurile vor fi atribuite n cadrul fiecrui grup.

    Acionarea butonului Rank Types va deschide caseta Rank Cases: Types, care permite alegerea unui mod de atribuire a rangurilor. De exemplu, bifnd Rank, se atribuie fiecrei valori chiar rangul ei. Pentru a afla ce efect au celelalte opiuni, se poate face clic dreapta de mouse pe textul opiunii sau se apas butonul Help al casetei.

    Caseta Rank Cases: Ties, permite alegerea modului de atribuire a rangurilor n cazuri

    de valori egale. Astfel, opiunea Sequential ranks to unique values permite atribuirea succesiv i unic a rangurilor 1,2,3... . Opiunea Mean permite atribuirea rangului mediu n cazul valorilor egale. De exemplu, pentru un set de 5 valori: 29, 31, 31, 31, 33, valoarea 29 va primi rangul 1, valoarea 31 va primi rangul 3 (ca medie a rangurilor 2, 3 i 4) iar valoarea 33 va primi rangul 5. Celelalte opiuni vizeaz atribuirea rangului cel mai mic (Low), al celui mai mare (High).

    Procedura se finalizeaz prin crearea unei noi variabile, pe care SPSS o denumete automat, care conine poziia de rang a fiecrei valori din variabila scor, n raport cu celelalte valori ale distribuiei.

    Rezultatul se poate observa n fereastra urmtoare:

  • Analiza datelor

    Lucrare practic 1. Folosind baza de date creat la cursul anterior recodificati variabila aferent intervalului din zi afectat studiului din valorile vechi n: 05-11 pentru dimineaa, 11-14 pentru prnz, 14-17 pentru dupamiaza, 17-22 pentru seara, 22-05 pentru noaptea. 2. Creai o repartiie a cazurilor introduse dup variabila obinut la punctul anterior. 3. Repetai operaia de la punctul 2 separat pe fiecare sex. 4. Determinai rangurile aferente valorilor variabilei nota la examen ncepnd de la valoarea cea mai mic i folosind ranguri unice.