4_

17
Analiza datelor CALCULAREA INDICATORILOR STATISTICI DESCRIPTIVI Una dintre primele operaţii care este realizată atunci când se doreşte caracterizarea variabilelor este calcularea indicatorilor statistici descriptivi. Aceşti indicatori au ca obiectiv analiza caracteristicilor variabilelor sub aspectul tendinţei centrale, împrăştierii şi formei distribuţiei. Descrierea unei variabile poate fi realizată prin: 1.reprezentări: o numerice (analiza distribuţiei sale) o grafice (diagrame prin coloane, histograme, diagrame de tip box-plot, stem and leaf) 2.calculul indicatorilor tendinţei centrale o mod (dominantă) o medie o mediană 3.calculul indicatorilor variaţiei (împrăştierii) o amplitudine, dispersie, o abatere standard 4.calculul indicatorilor formei distribuţiei o indice de simetrie (skewness) o indice de boltire (kurtosis) SPSS oferă posibilităţi variate de reprezentare şi de calcul a acestor indicatori. În acest sens există proceduri dedicate pentru calculul lor însă aceşti indicatori pot fi calculaţi şi în cadrul altor proceduri opţional. Procedurile dedicate se lansează din meniul Analyze-Descriptive statistics. Acestea sunt: Frequencies, Descriptives şi Explore. În plus în acelaşi meniu veţi găsi şi alte proceduri care pot fi folosite, de exemplu, pentru reprezentarea adecvată a datelor în vederea determinării legăturii dintre două variabile. Aceste proceduri oferă, fiecare, atât prelucrări distincte, cât şi identice. Alegerea uneia sau alteia dintre proceduri depinde de necesităţile de analiză sau de modul specific de afişare a rezultatelor în Viewer. Procedura Frequencies Aceasta este singura procedură care permite analiza de frecvenţe. La apariţia casetei Frequencies, variabila pe care dorim să o supunem analizei se mută în lista de calcul Variable(s), prin selectarea ei şi acţionarea butonului de transfer . Pot fi incluse mai multe variabile simultan în această listă, rezultatele fiind afişate distinct, pentru fiecare în parte. În cazul nostru, am ales variabila varsta din exemplul prezentat în fişierul employees_data_1.sav. 1

description

xxxx

Transcript of 4_

  • Analiza datelor

    CALCULAREA INDICATORILOR STATISTICI DESCRIPTIVI

    Una dintre primele operaii care este realizat atunci cnd se dorete caracterizarea

    variabilelor este calcularea indicatorilor statistici descriptivi. Aceti indicatori au ca obiectiv analiza caracteristicilor variabilelor sub aspectul tendinei centrale, mprtierii i formei distribuiei.

    Descrierea unei variabile poate fi realizat prin: 1.reprezentri: o numerice (analiza distribuiei sale) o grafice (diagrame prin coloane, histograme, diagrame de tip box-plot, stem and leaf)

    2.calculul indicatorilor tendinei centrale o mod (dominant) o medie o median

    3.calculul indicatorilor variaiei (mprtierii) o amplitudine, dispersie, o abatere standard

    4.calculul indicatorilor formei distribuiei o indice de simetrie (skewness) o indice de boltire (kurtosis)

    SPSS ofer posibiliti variate de reprezentare i de calcul a acestor indicatori. n acest sens

    exist proceduri dedicate pentru calculul lor ns aceti indicatori pot fi calculai i n cadrul altor proceduri opional.

    Procedurile dedicate se lanseaz din meniul Analyze-Descriptive statistics. Acestea sunt: Frequencies, Descriptives i Explore. n plus n acelai meniu vei gsi i alte proceduri care pot fi folosite, de exemplu, pentru reprezentarea adecvat a datelor n vederea determinrii legturii dintre dou variabile.

    Aceste proceduri ofer, fiecare, att prelucrri distincte, ct i identice. Alegerea uneia sau alteia dintre proceduri depinde de necesitile de analiz sau de modul specific de afiare a rezultatelor n Viewer. Procedura Frequencies

    Aceasta este singura procedur care permite analiza de frecvene. La apariia casetei Frequencies, variabila pe care dorim s o supunem analizei se mut n lista de calcul Variable(s), prin selectarea ei i acionarea butonului de transfer . Pot fi incluse mai multe variabile simultan n aceast list, rezultatele fiind afiate distinct, pentru fiecare n parte.

    n cazul nostru, am ales variabila varsta din exemplul prezentat n fiierul employees_data_1.sav.

    1

  • Analiza datelor

    Rezultatele obinute n urma derulrii acestei proceduri vor fi implicit afiate n tabele

    dedicate n fereastra SPSS Viewer. n urma rulrii procedurii se obin urmtoarele tabele:

    Statistics

    varsta Valid 474N

    Missing 0

    n tabelul de mai sus se prezint cte cazuri au fost utilizate n calcule (Valid), adic 474 n

    exemplul de fa, i cte valori lips exist n cazul acestei variabile (Missing), adic 0 n acest exemplu. n tabelul de mai jos se prezint valorile pentru variabila varsta, frecvena acestora de apariie (Frequencies), proporia n totalul cazurilor a fiecrei valori ntlnite (Percent), proporia fiecrei valori n totalul cazurilor valide (Valid Percent) i procentele cumulate pentru fiecare valoare n parte, calculate numai pentru cazurile valide.

    Observaie : Valorile valide sunt valorile variabilei mai puin valorile lips marcate.

    De exemplu, valoarea 42 apare n 26 de cazuri, care reprezint 5,5% din totalul cazurilor.

    Pentru c n cazul acestei variabile nu exist valori lips marcate acest procent este acelai i n cazul n care l calculm doar pentru valorile valide ale variabilei varsta.

    Dac dorim s aflm ci dintre angajai au vrsta cuprins ntre vrsta minim (37 de ani) i 42 de ani inclusiv privim coloana (Cumulative Percent), care n acest caz arat c 22,6% dintre angajai sunt cuprini n acest interval.

    varsta

    Frequency Percent Valid Percent

    Cumulative Percent

    37,00 1 ,2 ,2 ,2

    38,00 13 2,7 2,7 3,0

    39,00 29 6,1 6,1 9,1

    40,00 25 5,3 5,3 14,3

    41,00 13 2,7 2,7 17,1

    42,00 26 5,5 5,5 22,6

    43,00 29 6,1 6,1 28,7

    44,00 38 8,0 8,0 36,7

    45,00 38 8,0 8,0 44,7

    Valid

    46,00 26 5,5 5,5 50,2

    2

  • Analiza datelor

    varsta

    Cumulative Frequency Percent Valid Percent Percent

    47,00 22 4,6 4,6 54,9

    48,00 14 3,0 3,0 57,8

    49,00 14 3,0 3,0 60,8

    50,00 9 1,9 1,9 62,7

    51,00 1 ,2 ,2 62,9

    52,00 5 1,1 1,1 63,9

    53,00 6 1,3 1,3 65,2

    54,00 9 1,9 1,9 67,1

    55,00 7 1,5 1,5 68,6

    56,00 5 1,1 1,1 69,6

    57,00 6 1,3 1,3 70,9

    58,00 6 1,3 1,3 72,2

    59,00 8 1,7 1,7 73,8

    60,00 6 1,3 1,3 75,1

    61,00 8 1,7 1,7 76,8

    62,00 7 1,5 1,5 78,3

    63,00 5 1,1 1,1 79,3

    64,00 5 1,1 1,1 80,4

    65,00 5 1,1 1,1 81,4

    66,00 11 2,3 2,3 83,8

    67,00 4 ,8 ,8 84,6

    68,00 6 1,3 1,3 85,9

    69,00 6 1,3 1,3 87,1

    70,00 11 2,3 2,3 89,5

    71,00 3 ,6 ,6 90,1

    72,00 6 1,3 1,3 91,4

    73,00 3 ,6 ,6 92,0

    74,00 9 1,9 1,9 93,9

    75,00 7 1,5 1,5 95,4

    76,00 6 1,3 1,3 96,6

    77,00 5 1,1 1,1 97,7

    78,00 8 1,7 1,7 99,4

    79,00 3 ,6 ,6 100,0

    Total 474 100,0 100,0

    Dac se dorete obinerea, pe lng tabelul frecvenelor, i a altor indicatori atunci prin

    utilizarea butonului Statistics... se deschide o fereastr nou (Frecquencies:Statistics) care permite alegerea indicatorilor dorii.

    3

  • Analiza datelor

    Prin bifarea opiunilor corespunztoare se aleg indicatorii statistici descriptivi ce vor fi

    calculai i afiai. De exemplu, bifnd toate casetele din aceast fereastr se obine:

    Statistics

    varsta

    Valid 474,000N

    Missing ,000

    Mean 51,648

    Std. Error of Mean ,541

    Median 46,000

    Mode 44,000a

    Std. Deviation 11,784

    Variance 138,859

    Skewness ,862

    Std. Error of Skewness ,112

    Kurtosis -,566

    Std. Error of Kurtosis ,224

    Range 42,000

    Minimum 37,000

    Maximum 79,000

    Sum 24481,000

    25 43,000

    50 46,000

    Percentiles

    75 60,250

    a. Multiple modes exist. The smallest value is shown

    4

  • Analiza datelor o N - numrul total de cazuri studiate. n exemplul nostru sunt 474 de angajai ce

    au fost inclui n studiu o Mean ( x ) - valoarea medie a variabilei, calculat ca medie aritmetic.

    N

    xx

    N

    ii

    == 1

    unde: xi - valorile variabilei studiate. n exemplul nostru valorile vrstei pentru fiecare angajat. n exemplul de mai sus, vrsta medie a angajailor este 51,648 de ani. o Variance ( ) - dispersia (variana) variabilei studiate 2

    ( )

    =

    =

    = N

    ii

    N

    iii

    f

    fxx

    1

    1

    2

    2

    n exemplu dispersia are valoarea : 138,859. Cu ct este mai mare valoarea sa cu att arat o mprtiere mai mare a valorilor fa de media lor. Cu ct este mai mic cu att arat o concentrare mai mare a valorilor n jurul mediei. Dac este 0 atunci toate valorile coincid cu valoarea mediei lor. o Std. deviation ( ) - abaterea standard a variabilei studiate

    2 = Are interpretare similar cu a dispersiei dar are avantajul c aceasta se msoar n aceeai

    unitate de msur ca i variabila studiat. n cazul de fa n ani i are valoarea 11,784.

    o Std. Error of Mean (SEM) eroarea standard pentru medie

    NSEM =

    n cazul de fa are valoarea 0,541 = 11.784/474. o Quartiles - Cuartile trei valori speciale ale variabilei studiate care permit mprirea

    numrului total de cazuri ale variabilei n patru pri egale care conin cte 25% din numrul total de cazuri. Numrul de cazuri total poate fi mprit ntr-un anumit numr de pri egale cu ajutorul unor valori speciale. Dac se mparte numrul total de cazuri:

    - n 4 pri atunci valorile speciale poart denumirea de cuartile i sunt n numr de 3. - n 10 atunci valorile speciale se numesc decile i sunt n numr de 9. - n 100 atunci valorile speciale se numesc percentile i sunt n numr de 99.

    n exemplul de fa valorile care mpart n 4 pri egale numrul total de cazuri se gsesc n ultima parte a tabelului sub denumirea de Percentiles (prima cuartil este egal cu a 25-a percentil, a doua cuartil este egal cu a 50-a percentil iar a treia cuartil este egal cu a 75-a percentil). o Median (Mediana) - Valoare special a variabilei studiate care mparte numrul de cazuri

    n dou pri egale. Este egal cu cuartila a doua. n cazul de fa are valoarea 46. Jumtate din angajai au vrsta sub 46 de ani iar jumtate peste. o Mode (Modul sau Dominanta) - Valoarea care arat cel mai des ntlnit caz (cu frecvena cea

    mai mare). n exemplul de mai sus are valoarea 44. Vrsta cea mai des ntalnit printre angajai este 44 de ani. Observaie: SPSS avertizeaz prin nota de subsol a tabelului asupra faptului c exist mai

    5

  • Analiza datelor

    multe vrste cel mai des ntlnite i este afiat doar cea mai mic dintre ele. Dac ne uitm la tabelul cu frecvenele de apariie a vrstelor se observ c vrsta 44 de ani apare de 38 de ori (cea mai mare frecven de apariie) i acelai lucru se mai ntmpl i pentru vrsta de 45 de ani. Cu alte cuvinte sunt dou vrste dominante.

    o Skewness (coeficientul de asimetrie) - indicator care arat gradul de simetrie/asimetrie al formei distribuiei. Ia valori ntre -1 i 1. Dac are valoarea 0 atunci distribuia este simetric. Dac are valori pozitive atunci distribuia are o abatere de simetrie n partea dreapt iar dac are valori negative atunci abaterea de la simetrie este n partea stng. Cu ct se apropie de -1 sau 1 cu att distribuia prezint o asimetrie mai accentuat. n exemplul de fa are valoarea 0,862, adic distribuia variabilei studiate prezint o abatere accentuat de la simetrie n dreapta.

    o Std. Error of Skewness - eroarea standard a coeficientului de asimetrie. o Kurtosis (coeficientul de boltire/aplatizare) - indicator care arat ct de aplatizat este

    distribuia variabilei studiate fa de distribuia normal. Valoarea sa normal este 0. Valorile negative arat c forma distribuie este platicurtic (mai aplatizat dect curba normal), iar cele pozitive arat c forma distribuiei este leptocurtic (mai ascuit dect curba normal).

    n exemplul de fa are valoarea -0,566 ceea ce spune c distribuia variabilei vrsta este platicurtic. o Std. Error of Kurtosis - eroarea standard a coeficientului de boltire. n exemplul de fa are

    valoarea 0,224 o Minimum - valoarea minim a variabilei. n exemplul de fa vrsta minim este 37 de

    ani. o Maximum - valoarea maxim a variabilei. n exemplul de fa vrsta maxim este 79 de

    ani. o Range (Amplitudinea absolut) - amplitudinea, se calculeaz ca diferen dintre valoarea

    maxim i valoarea minim a variabilei studiate. minmax xxR =

    n exemplul de fa are valoarea 42 = 79-37. o Sum - suma valorilor variabilei studiate. Se poate interpreta pentru variabilele a cror

    nsumare are sens. n cazul de fa suma vrstelor angajailor este 24481 de ani. Butonul Chart... permite alegerea tipului de grafic ce va fi utilizat la reprezentarea valorilor

    variabilei studiate.

    6

  • Analiza datelor Se poate selecta ntre construirea unui grafic de tip diagram prin coloane, diagram de structur prin cerc sau histrogram. Se poate opta ca peste graficul ales s fie trasat curba normal. Acest fapt uureaz foarte mult vizualizarea simetriei sau aplatizrii distribuiei fa de distribuia normal. Dac se selecteaz None nu va fi construit nici un grafic. n exemplul de mai sus am selectat construirea unei histograme peste care s fie trasat curba normal. Rezulltatul arat astfel:

    Butonul Format... permite alegerea ntre diverse moduri de prezentare a rezultatelor.

    Opiunile din aceast fereastr permit ordonarea rezultatelor cresctor/descresctor dup valorile variabilei sau frecvenelor acestora.

    Procedura Descriptives Aceast procedur vizeaz doar indicatorii statistici descriptivi. Se apeleaz cu urmtoarea

    succesiune de comenzi Analyze - Descriptive Satistics Descriptives. Fereastra care se deschide permite alegerea variabilei/variabilelor pentru care se calculeaz indicatorii precum i care dintre

    7

  • Analiza datelor indicatorii descriptivi vor fi calculai. Alegerea indicatorilor se face prin acionarea butonului Options...

    n plus se poate selecta construirea unei variabile standardizate noi care va fi salvat n baza de date.

    Rezultatul va arta astfel :

    Descriptive Statistics

    N Range Minimum Maximum Sum Mean

    Std.

    Deviation Variance Skewness Kurtosis

    Statistic Statistic Statistic Statistic Statistic Statistic

    Std.

    Error Statistic Statistic Statistic

    Std.

    Error Statistic

    Std.

    Error

    varsta 474 42,00 37,00 79,00 24481,00 51,6477 ,54125 11,78383 138,859 ,862 ,112 -,566 ,224

    8

  • Analiza datelor

    Descriptive Statistics

    N Range Minimum Maximum Sum Mean

    Std.

    Deviation Variance Skewness Kurtosis

    Statistic Statistic Statistic Statistic Statistic Statistic

    Std.

    Error Statistic Statistic Statistic

    Std.

    Error

    Std.

    Statistic Error

    varsta 474 42,00 37,00 79,00 24481,00 51,6477 ,54125 11,78383 138,859 ,862 ,112 -,566 ,224

    Valid N

    (listwise) 474

    Indicatorii calculai sunt aceeai i au fost prezentai anterior. Pentru aceeai variabil varsta

    s-au obinut rezultatele de mai sus. De foarte multe ori se pune problema dac datele utilizate n analiz respect condiia de

    normalitate, adic au valori care sunt apropiate ca mod de distribuire de distribuia normal. Folosind indicatorii descriptivi putem afla dac o distribuie a unei variabile este normal dac de exemplu valorile pentru kurtosis i skewness sunt 0. Adic distribuia este simetric i mezocurtic. Dar, chiar i n cazul unui eantion aleator, extras dintr-o populaie normal, este puin probabil s obinem indici de simetrie i boltire egali cu 0, din cauza variaiei de eantionare. Ca urmare, este util s tim dac eantionul valorilor analizate provine dintr-o populaie asimetric sau boltit anormal. Sau, altfel spus, n cazul unui eantion, sunt skewness i kurtosis att de diferite de zero nct trebuie s respingem ipoteza c valorile eantionului provin dintr-o distribuie normal? Pentru a rspunde la aceast ntrebare poate fi utilizat eroarea standard a fiecruia dintre cei doi indici pentru calcularea limitelor intervalului lor de ncredere. Dac n limitele unui interval de ncredere de 95% se va afla i valoarea zero (caracteristic unei distribuii normale), atunci va trebui s acceptm ipoteza c distribuia populaiei are simetrie sau boltire normal.

    Limitele unui interval de ncredere de 95% pentru skewness se calculeaz la fel ca pentru oricare indicator statistic: [Skewness - 1.96 * (eroarea std. a lui skewness) ; Skewness + 1.96 * (eroarea std. a lui skewness)]

    Iar pentru kurtosis: [Kurtosis - 1.96 * (eroarea std. a lui kurtosis) ; Kurtosis + 1.96 * (eroarea std. a lui kurtosis)]

    n exemplul de mai sus avem: Skewness = 0,862 iar eroarea standard a sa 0,112. Intervalul de ncredere va fi:

    [0,862-0,112; 0,862+0,112] [0,750; 0,974] Cum intervalul nu include i valoarea 0 nu putem spune c distribuia variabilei varsta este

    simetric, ci are o abatere de la simetrie n partea dreapt. Calculnd n mod similar i pentru kurtosis vom avea un interval de ncredere astfel:

    [-0,566-0,224 ; -0,566+0,224] [-0,790 ; -0,322] Nici n acest caz valoarea 0 nu este inclus n interval deci se poate spune c distribuia nu

    este mezocurtic ci platicurtic. Procedura Explore

    Procedura Explore este cea mai complex dintre toate procedurile statisticii descriptive i se poate utiliza atunci cnd se dorete o analiz exhaustiv a variabilei (sau variabilelor).

    Dup apelarea sa prin succesiunea de comenzi Analyze Descriptive Statistcs Explore se deschide fereastra.

    9

  • Analiza datelor

    n zona Dependent List se includ variabilele de analizat.. n zona Factor List se includ eventualele variabile nominale, n funcie de care se dorete

    analiza variabilei analizate. Label cases by, permite etichetarea cazurilor la afiare. Display, permite alegerea opiunilor de afiare a rezultatelor numerice (Statistics), grafice

    (Plots) sau ambele categorii (Both). Butonul Statistics deschide fereastra urmtoare pentru alegerea indicatorilor care vor fi

    calculai.

    n aceast fereastr opiunea implicit o reprezint Descriptives, care calculeaz toi indicatorii statistici descriptivi de baz.

    M-estimators, calculeaz estimri ale valorilor tendinei centrale la nivelul populaiei mai robuti, innd cont de forma distribuiei.

    Percentiles, calculeaz percentilele 5, 10, 25, 50, 75, 90 i 100.

    Tot n fereastra Explore butonul Plots, permite alegerea reprezentrilor grafice dorite.

    10

  • Analiza datelor

    Una dintre opiunile importante ale acestei aceste este Normality plots with tests, care

    testeaz normalitatea distribuiei. De asemenea n fereastra Explore, butonul Options..., permite setarea modului de tratare a

    valorilor lips. Rezultatele procedurii Explore, definit mai sus, se prezint astfel:

    Case Processing Summary

    Cases Valid Missing Total N Percent N Percent N Percent

    varsta 474 100,0% 0 ,0% 474 100,0%

    Un tabel sintetic al variabilei, de unde aflm numrul valorilor i procentul lor, pentru

    cazurile valide, pentru cele care lipsesc i pentru total. O privire atent pe acest tabel este necesar cu scopul de a identifica eventuale probleme cu datele. n acest caz, variabila are 474 de valori i nu exist valori lips.

    Tabelul Descriptives conine toi indicatorii statistici descriptivi cunoscui: 95% Confidence Interval for mean ne d limita inferioar (Lower Bound) i pe cea superioar (Upper Bound) a intervalului de ncredere pentru medie, calculate pe baza erorii standard a acesteia, afiate pe ultima coloan. 5% Trimmed Mean, este o medie calculat fr participarea a 5% dintre valorilor de la extremele distribuiei, ceea ce are ca efect eliminarea efectului eventualelor valori extreme. Cu ct aceasta este mai apropiat de media obinuit, cu att se poate aprecia c distribuia nu are valori extreme. Pe o distribuie normal, media i 5% trim-media, sunt identice.

    Se vor observa: - distana relativ mare dintre medie i median n cazul distribuiei asimetrice, comparativ cu

    celelalte dou. - faptul c media 5% trim a distribuiei asimetrice se apropie mult de media aritmetic uzual. - Tabelul percentilelor afieaz valorile percentile. Percentilele de pe linia Tuckeys Hinges

    sunt valorile care intr n calcularea nlimii casetei boxplot (abaterea interquartil).

    11

  • Analiza datelor

    Descriptives

    Statistic Std. Error

    Mean 51,6477 ,54125

    Lower Bound 50,5841 95% Confidence Interval for

    Mean Upper Bound 52,7112

    5% Trimmed Mean 50,9662

    Median 46,0000

    Variance 138,859

    Std. Deviation 11,78383

    Minimum 37,00

    Maximum 79,00

    Range 42,00

    Interquartile Range 17,25

    Skewness ,862 ,112

    varsta

    Kurtosis -,566 ,224

    Tabelul Tests of Normality cuprinde rezultatele testelor de normalitate. n esen, acestea

    testeaz gradul de suprapunere dintre distribuia cumulativ a variabilei analizate i distribuia cumulativ a unei variabile a crei distribuie urmeaz forma Gauss. Cele mai uzuale sunt testele Kolmogorov-Smirnov (numit i statistica D) i Shapiro-Wilk (numit i statistica W). Desigur, dintre ele se va lua n considerare numai unul singur. Tendina actual este de a se da un credit mai mare testului Shapiro-Wilk, deoarece se apreciaz c dispune de o putere mai mare de a surprinde normalitatea unei distribuii, atunci cnd aceasta este real (Shapiro, Wilk, & Chen, 1968), mai ales dac numrul valorilor este mic. SPSS calculeaz testul Shapiro-Wilk numai pentru distribuii cu mai puin de 50 de valori, n celelalte cazuri limitndu-se doar la Kolmogorov-Smirnov.

    Att pentru testul Kolmogorv-Smirnov, ct i pentru testul Shapiro-Wilk, conteaz numai valoarea lui p (Sig.), care se interpreteaz invers dect interpretrile cu care ne-am obinuit pentru p, astfel:

    - dac p (Sig.) este mai mic sau egal cu 0.05, atunci se respinge ipoteza de normalitate a distribuiei (distribuia variabilei se abate de la forma normal);

    - Dac p (Sig.) este mai mare dect 0.05, atunci se accept ipoteza de normalitate a distribuiei.

    Tests of Normality

    Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig. Statistic df Sig.

    varsta ,202 474 ,000 ,867 474 ,000

    a. Lilliefors Significance Correction

    n cazul nostru, observm c testul de normalitate are valori p (Sig.) mai mici de 0.05 pentru variabila varsta, ceea ce ne confirm c nu prezint o form normal.

    Principala problem care se pune n legtur cu interpretarea testelor de normalitate este

    12

  • Analiza datelor legat de faptul c, pe msur ce eantionul este mai mic, este din ce n ce mai dificil s fie apreciat corect normalitatea distribuiei unei variabile. Nici chiar un test statistic nu ne poate oferi o concluzie fundamentat, deoarece nu este suficient de sensibil pentru a distinge ntre o distribuie normal i una ne-normal. Pentru mai puin de 5 valori, SPSS nici nu mai calculeaz testul de normalitate, chiar dac este cerut. Pentru a avea suficient ncredere n rezultatul testelor de normalitate distribuia trebuie s aib cel puin cteva zeci de valori. Rezult c interpretarea rezultatului la testele de normalitate depinde simultan de valoarea lui p i de mrimea eantionului. n mod obinuit, aceast interpretare se face dup urmtoarea gril:

    Valoarea p a testului de normalitate

    Mrimea eantionului Interpretare

    0.05 oricare Forma distribuiei nu este normal.

    >0.05 mare (cel puin cteva zeci)

    Distribuia are o form normal.

    >0.05 mic (sub cteva zeci)

    Dei testul confirm forma normal a distribuiei, o astfel de concluzie este riscant, dat fiind capacitatea real testului de a surprinde acest lucru.

    Utilitatea testului de normalitate a distribuiei se raporteaz la decizia de a utiliza teste

    parametrice n cazul variabilelor cantitative, care, dup cum tim, sunt supuse acestei condiii. Att testul K-S ct i Shapiro-Wilk sunt sensibile att la asimetrie ct i la boltire. n general, testele statistice bazate pe scale de interval (raport) sunt mai robuste (mai sigure) dac distribuiile sunt simetrice, dar existena unei boltiri nu reprezint o problem. Ca urmare, atunci cnd utilizm testul t sau analiza de varian, existena boltirii este mai puin preocupant dect aceea a asimetriei. Din acest motiv, dac testul de normalitate este semnificativ este recomandabil s verificm dac acest lucru se datoreaz asimetriei, boltirii sau ambelor.

    M-Estimators

    Huber's M-Estimatora Tukey's Biweightb

    Hampel's M-

    Estimatorc Andrews' Waved

    Varsta 48,3449 46,4588 48,7225 46,4105

    a. The weighting constant is 1,339.

    b. The weighting constant is 4,685.

    c. The weighting constants are 1,700, 3,400, and 8,500

    d. The weighting constant is 1,340*pi.

    Percentiles

    Percentiles 5 10 25 50 75 90 95

    Weighted

    Average(Definition 1)

    varsta 39,0000 40,0000 43,0000 46,0000 60,2500 71,5000 75,0000

    Tukey's Hinges varsta 43,0000 46,0000 60,0000

    13

  • Analiza datelor

    Extreme Values

    Case Number Value

    1 3 79,00

    2 152 79,00

    3 443 79,00

    4 108 78,00

    Highest

    5 171 78,00a

    1 459 37,00

    2 439 38,00

    3 412 38,00

    4 403 38,00

    varsta

    Lowest

    5 402 38,00b

    a. Only a partial list of cases with the value 78,00 are shown in the

    table of upper extremes.

    b. Only a partial list of cases with the value 38,00 are shown in the

    table of lower extremes. Reprezentrile Stem-and-leaf pentru distribuia vrstei. varsta Stem-and-Leaf Plot Frequency Stem & Leaf 43,00 3 . 88888899999999999999& 131,00 4 . 0000000000001111112222222222222333333333333334444444444444444444 114,00 4 . 555555555555555555566666666666667777777777788888889999999 30,00 5 . 0000223334444& 32,00 5 . 555667778889999 31,00 6 . 00011112223344 32,00 6 . 556666677888999 32,00 7 . 00000122234444 29,00 7 . 5556667788889 Stem width: 10,00 Each leaf: 2 case(s) & denotes fractional leaves.

    Reprezentrile boxplot

    Redm mai nti schema constructiv a unei reprezentri boxplot:

    14

  • Analiza datelor

    n cazul variabilei studiate varsta a rezultat:

    Aa cum tim, caseta din mijlocul reprezentrii boxplot include 50% dintre valorile distriuiei, liniile verticale fiind trasate la o lungime de 1.5xH, unde H este distana dintre limitele casetei (abaterea interquartil, Q3-Q1). Punctele marcate n dincolo de limitele orizontale ale reprezentrii marcheaz valorile marginale ale distribuiei (O=Outliers) i valorile extreme (E).

    Histogramele reprezint ntr-o manier diferit ceea ce reprezint i graficele boxplot de mai sus. Recomandm analiza comparativ a histogramei i boxplot-ului fiecrei variabile.

    15

  • Analiza datelor

    Toate cele trei tipuri de reprezentri grafice (stem-and-leaf, boxplot i histogram) pot fi utile n analiza distribuiilor, dar se va evita introducerea lor simultan ntr-un document de cercetare. De asemenea, este de evitat introducerea acestor reprezentri pentru variabile singulare (descrise n mod suficient cu valorile numerice ale indicatorilor statistici). De regul, graficele de acest gen sunt introduse n lucrri pentru a prezenta imagini comparative ale variabilelor. Graficele Normal Q-Q Plot

    Graficul Normal plot compar scorul brut (pe axa Ox) cu scorul z ateptat al unei distribuii care ar avea o form normal (pe axa Oy). Scorul z ateptat se gsete prin convertirea rangului percentil al fiecrui scor n scor z, utiliznd tabelul probabilitilor de sub curba normal. Acesta reprezint o expresie grafic a normalitii. Dac valorile variabilei se distribuie normal, atunci graficul scorurilor brute i ateptate va urma o linie dreapt pe diagonala axelor de coordonate. Dac scorurile nu se distribuie normal, linia celor dou scoruri deviaz de la modelul rectiliniu. Se poate observa c variabila varsta nu urmeaz o distribuie normal.

    16

  • Analiza datelor Lucrare practic

    1. Folosind datele din fiierul employees_data_1.sav calculai indicatorii statistici descriptivi pentru variabilele salary i educ.

    2. Interpretai rezultatele obinute. 3. Testai normalitatea variabilelor uiliznd statistici descriptivi corespunztori i apoi utiliznd

    modalitile de reprezentare grafic corepsunztoare.

    17