4_
-
Upload
sandoi-ionut -
Category
Documents
-
view
14 -
download
1
description
Transcript of 4_
-
Analiza datelor
CALCULAREA INDICATORILOR STATISTICI DESCRIPTIVI
Una dintre primele operaii care este realizat atunci cnd se dorete caracterizarea
variabilelor este calcularea indicatorilor statistici descriptivi. Aceti indicatori au ca obiectiv analiza caracteristicilor variabilelor sub aspectul tendinei centrale, mprtierii i formei distribuiei.
Descrierea unei variabile poate fi realizat prin: 1.reprezentri: o numerice (analiza distribuiei sale) o grafice (diagrame prin coloane, histograme, diagrame de tip box-plot, stem and leaf)
2.calculul indicatorilor tendinei centrale o mod (dominant) o medie o median
3.calculul indicatorilor variaiei (mprtierii) o amplitudine, dispersie, o abatere standard
4.calculul indicatorilor formei distribuiei o indice de simetrie (skewness) o indice de boltire (kurtosis)
SPSS ofer posibiliti variate de reprezentare i de calcul a acestor indicatori. n acest sens
exist proceduri dedicate pentru calculul lor ns aceti indicatori pot fi calculai i n cadrul altor proceduri opional.
Procedurile dedicate se lanseaz din meniul Analyze-Descriptive statistics. Acestea sunt: Frequencies, Descriptives i Explore. n plus n acelai meniu vei gsi i alte proceduri care pot fi folosite, de exemplu, pentru reprezentarea adecvat a datelor n vederea determinrii legturii dintre dou variabile.
Aceste proceduri ofer, fiecare, att prelucrri distincte, ct i identice. Alegerea uneia sau alteia dintre proceduri depinde de necesitile de analiz sau de modul specific de afiare a rezultatelor n Viewer. Procedura Frequencies
Aceasta este singura procedur care permite analiza de frecvene. La apariia casetei Frequencies, variabila pe care dorim s o supunem analizei se mut n lista de calcul Variable(s), prin selectarea ei i acionarea butonului de transfer . Pot fi incluse mai multe variabile simultan n aceast list, rezultatele fiind afiate distinct, pentru fiecare n parte.
n cazul nostru, am ales variabila varsta din exemplul prezentat n fiierul employees_data_1.sav.
1
-
Analiza datelor
Rezultatele obinute n urma derulrii acestei proceduri vor fi implicit afiate n tabele
dedicate n fereastra SPSS Viewer. n urma rulrii procedurii se obin urmtoarele tabele:
Statistics
varsta Valid 474N
Missing 0
n tabelul de mai sus se prezint cte cazuri au fost utilizate n calcule (Valid), adic 474 n
exemplul de fa, i cte valori lips exist n cazul acestei variabile (Missing), adic 0 n acest exemplu. n tabelul de mai jos se prezint valorile pentru variabila varsta, frecvena acestora de apariie (Frequencies), proporia n totalul cazurilor a fiecrei valori ntlnite (Percent), proporia fiecrei valori n totalul cazurilor valide (Valid Percent) i procentele cumulate pentru fiecare valoare n parte, calculate numai pentru cazurile valide.
Observaie : Valorile valide sunt valorile variabilei mai puin valorile lips marcate.
De exemplu, valoarea 42 apare n 26 de cazuri, care reprezint 5,5% din totalul cazurilor.
Pentru c n cazul acestei variabile nu exist valori lips marcate acest procent este acelai i n cazul n care l calculm doar pentru valorile valide ale variabilei varsta.
Dac dorim s aflm ci dintre angajai au vrsta cuprins ntre vrsta minim (37 de ani) i 42 de ani inclusiv privim coloana (Cumulative Percent), care n acest caz arat c 22,6% dintre angajai sunt cuprini n acest interval.
varsta
Frequency Percent Valid Percent
Cumulative Percent
37,00 1 ,2 ,2 ,2
38,00 13 2,7 2,7 3,0
39,00 29 6,1 6,1 9,1
40,00 25 5,3 5,3 14,3
41,00 13 2,7 2,7 17,1
42,00 26 5,5 5,5 22,6
43,00 29 6,1 6,1 28,7
44,00 38 8,0 8,0 36,7
45,00 38 8,0 8,0 44,7
Valid
46,00 26 5,5 5,5 50,2
2
-
Analiza datelor
varsta
Cumulative Frequency Percent Valid Percent Percent
47,00 22 4,6 4,6 54,9
48,00 14 3,0 3,0 57,8
49,00 14 3,0 3,0 60,8
50,00 9 1,9 1,9 62,7
51,00 1 ,2 ,2 62,9
52,00 5 1,1 1,1 63,9
53,00 6 1,3 1,3 65,2
54,00 9 1,9 1,9 67,1
55,00 7 1,5 1,5 68,6
56,00 5 1,1 1,1 69,6
57,00 6 1,3 1,3 70,9
58,00 6 1,3 1,3 72,2
59,00 8 1,7 1,7 73,8
60,00 6 1,3 1,3 75,1
61,00 8 1,7 1,7 76,8
62,00 7 1,5 1,5 78,3
63,00 5 1,1 1,1 79,3
64,00 5 1,1 1,1 80,4
65,00 5 1,1 1,1 81,4
66,00 11 2,3 2,3 83,8
67,00 4 ,8 ,8 84,6
68,00 6 1,3 1,3 85,9
69,00 6 1,3 1,3 87,1
70,00 11 2,3 2,3 89,5
71,00 3 ,6 ,6 90,1
72,00 6 1,3 1,3 91,4
73,00 3 ,6 ,6 92,0
74,00 9 1,9 1,9 93,9
75,00 7 1,5 1,5 95,4
76,00 6 1,3 1,3 96,6
77,00 5 1,1 1,1 97,7
78,00 8 1,7 1,7 99,4
79,00 3 ,6 ,6 100,0
Total 474 100,0 100,0
Dac se dorete obinerea, pe lng tabelul frecvenelor, i a altor indicatori atunci prin
utilizarea butonului Statistics... se deschide o fereastr nou (Frecquencies:Statistics) care permite alegerea indicatorilor dorii.
3
-
Analiza datelor
Prin bifarea opiunilor corespunztoare se aleg indicatorii statistici descriptivi ce vor fi
calculai i afiai. De exemplu, bifnd toate casetele din aceast fereastr se obine:
Statistics
varsta
Valid 474,000N
Missing ,000
Mean 51,648
Std. Error of Mean ,541
Median 46,000
Mode 44,000a
Std. Deviation 11,784
Variance 138,859
Skewness ,862
Std. Error of Skewness ,112
Kurtosis -,566
Std. Error of Kurtosis ,224
Range 42,000
Minimum 37,000
Maximum 79,000
Sum 24481,000
25 43,000
50 46,000
Percentiles
75 60,250
a. Multiple modes exist. The smallest value is shown
4
-
Analiza datelor o N - numrul total de cazuri studiate. n exemplul nostru sunt 474 de angajai ce
au fost inclui n studiu o Mean ( x ) - valoarea medie a variabilei, calculat ca medie aritmetic.
N
xx
N
ii
== 1
unde: xi - valorile variabilei studiate. n exemplul nostru valorile vrstei pentru fiecare angajat. n exemplul de mai sus, vrsta medie a angajailor este 51,648 de ani. o Variance ( ) - dispersia (variana) variabilei studiate 2
( )
=
=
= N
ii
N
iii
f
fxx
1
1
2
2
n exemplu dispersia are valoarea : 138,859. Cu ct este mai mare valoarea sa cu att arat o mprtiere mai mare a valorilor fa de media lor. Cu ct este mai mic cu att arat o concentrare mai mare a valorilor n jurul mediei. Dac este 0 atunci toate valorile coincid cu valoarea mediei lor. o Std. deviation ( ) - abaterea standard a variabilei studiate
2 = Are interpretare similar cu a dispersiei dar are avantajul c aceasta se msoar n aceeai
unitate de msur ca i variabila studiat. n cazul de fa n ani i are valoarea 11,784.
o Std. Error of Mean (SEM) eroarea standard pentru medie
NSEM =
n cazul de fa are valoarea 0,541 = 11.784/474. o Quartiles - Cuartile trei valori speciale ale variabilei studiate care permit mprirea
numrului total de cazuri ale variabilei n patru pri egale care conin cte 25% din numrul total de cazuri. Numrul de cazuri total poate fi mprit ntr-un anumit numr de pri egale cu ajutorul unor valori speciale. Dac se mparte numrul total de cazuri:
- n 4 pri atunci valorile speciale poart denumirea de cuartile i sunt n numr de 3. - n 10 atunci valorile speciale se numesc decile i sunt n numr de 9. - n 100 atunci valorile speciale se numesc percentile i sunt n numr de 99.
n exemplul de fa valorile care mpart n 4 pri egale numrul total de cazuri se gsesc n ultima parte a tabelului sub denumirea de Percentiles (prima cuartil este egal cu a 25-a percentil, a doua cuartil este egal cu a 50-a percentil iar a treia cuartil este egal cu a 75-a percentil). o Median (Mediana) - Valoare special a variabilei studiate care mparte numrul de cazuri
n dou pri egale. Este egal cu cuartila a doua. n cazul de fa are valoarea 46. Jumtate din angajai au vrsta sub 46 de ani iar jumtate peste. o Mode (Modul sau Dominanta) - Valoarea care arat cel mai des ntlnit caz (cu frecvena cea
mai mare). n exemplul de mai sus are valoarea 44. Vrsta cea mai des ntalnit printre angajai este 44 de ani. Observaie: SPSS avertizeaz prin nota de subsol a tabelului asupra faptului c exist mai
5
-
Analiza datelor
multe vrste cel mai des ntlnite i este afiat doar cea mai mic dintre ele. Dac ne uitm la tabelul cu frecvenele de apariie a vrstelor se observ c vrsta 44 de ani apare de 38 de ori (cea mai mare frecven de apariie) i acelai lucru se mai ntmpl i pentru vrsta de 45 de ani. Cu alte cuvinte sunt dou vrste dominante.
o Skewness (coeficientul de asimetrie) - indicator care arat gradul de simetrie/asimetrie al formei distribuiei. Ia valori ntre -1 i 1. Dac are valoarea 0 atunci distribuia este simetric. Dac are valori pozitive atunci distribuia are o abatere de simetrie n partea dreapt iar dac are valori negative atunci abaterea de la simetrie este n partea stng. Cu ct se apropie de -1 sau 1 cu att distribuia prezint o asimetrie mai accentuat. n exemplul de fa are valoarea 0,862, adic distribuia variabilei studiate prezint o abatere accentuat de la simetrie n dreapta.
o Std. Error of Skewness - eroarea standard a coeficientului de asimetrie. o Kurtosis (coeficientul de boltire/aplatizare) - indicator care arat ct de aplatizat este
distribuia variabilei studiate fa de distribuia normal. Valoarea sa normal este 0. Valorile negative arat c forma distribuie este platicurtic (mai aplatizat dect curba normal), iar cele pozitive arat c forma distribuiei este leptocurtic (mai ascuit dect curba normal).
n exemplul de fa are valoarea -0,566 ceea ce spune c distribuia variabilei vrsta este platicurtic. o Std. Error of Kurtosis - eroarea standard a coeficientului de boltire. n exemplul de fa are
valoarea 0,224 o Minimum - valoarea minim a variabilei. n exemplul de fa vrsta minim este 37 de
ani. o Maximum - valoarea maxim a variabilei. n exemplul de fa vrsta maxim este 79 de
ani. o Range (Amplitudinea absolut) - amplitudinea, se calculeaz ca diferen dintre valoarea
maxim i valoarea minim a variabilei studiate. minmax xxR =
n exemplul de fa are valoarea 42 = 79-37. o Sum - suma valorilor variabilei studiate. Se poate interpreta pentru variabilele a cror
nsumare are sens. n cazul de fa suma vrstelor angajailor este 24481 de ani. Butonul Chart... permite alegerea tipului de grafic ce va fi utilizat la reprezentarea valorilor
variabilei studiate.
6
-
Analiza datelor Se poate selecta ntre construirea unui grafic de tip diagram prin coloane, diagram de structur prin cerc sau histrogram. Se poate opta ca peste graficul ales s fie trasat curba normal. Acest fapt uureaz foarte mult vizualizarea simetriei sau aplatizrii distribuiei fa de distribuia normal. Dac se selecteaz None nu va fi construit nici un grafic. n exemplul de mai sus am selectat construirea unei histograme peste care s fie trasat curba normal. Rezulltatul arat astfel:
Butonul Format... permite alegerea ntre diverse moduri de prezentare a rezultatelor.
Opiunile din aceast fereastr permit ordonarea rezultatelor cresctor/descresctor dup valorile variabilei sau frecvenelor acestora.
Procedura Descriptives Aceast procedur vizeaz doar indicatorii statistici descriptivi. Se apeleaz cu urmtoarea
succesiune de comenzi Analyze - Descriptive Satistics Descriptives. Fereastra care se deschide permite alegerea variabilei/variabilelor pentru care se calculeaz indicatorii precum i care dintre
7
-
Analiza datelor indicatorii descriptivi vor fi calculai. Alegerea indicatorilor se face prin acionarea butonului Options...
n plus se poate selecta construirea unei variabile standardizate noi care va fi salvat n baza de date.
Rezultatul va arta astfel :
Descriptive Statistics
N Range Minimum Maximum Sum Mean
Std.
Deviation Variance Skewness Kurtosis
Statistic Statistic Statistic Statistic Statistic Statistic
Std.
Error Statistic Statistic Statistic
Std.
Error Statistic
Std.
Error
varsta 474 42,00 37,00 79,00 24481,00 51,6477 ,54125 11,78383 138,859 ,862 ,112 -,566 ,224
8
-
Analiza datelor
Descriptive Statistics
N Range Minimum Maximum Sum Mean
Std.
Deviation Variance Skewness Kurtosis
Statistic Statistic Statistic Statistic Statistic Statistic
Std.
Error Statistic Statistic Statistic
Std.
Error
Std.
Statistic Error
varsta 474 42,00 37,00 79,00 24481,00 51,6477 ,54125 11,78383 138,859 ,862 ,112 -,566 ,224
Valid N
(listwise) 474
Indicatorii calculai sunt aceeai i au fost prezentai anterior. Pentru aceeai variabil varsta
s-au obinut rezultatele de mai sus. De foarte multe ori se pune problema dac datele utilizate n analiz respect condiia de
normalitate, adic au valori care sunt apropiate ca mod de distribuire de distribuia normal. Folosind indicatorii descriptivi putem afla dac o distribuie a unei variabile este normal dac de exemplu valorile pentru kurtosis i skewness sunt 0. Adic distribuia este simetric i mezocurtic. Dar, chiar i n cazul unui eantion aleator, extras dintr-o populaie normal, este puin probabil s obinem indici de simetrie i boltire egali cu 0, din cauza variaiei de eantionare. Ca urmare, este util s tim dac eantionul valorilor analizate provine dintr-o populaie asimetric sau boltit anormal. Sau, altfel spus, n cazul unui eantion, sunt skewness i kurtosis att de diferite de zero nct trebuie s respingem ipoteza c valorile eantionului provin dintr-o distribuie normal? Pentru a rspunde la aceast ntrebare poate fi utilizat eroarea standard a fiecruia dintre cei doi indici pentru calcularea limitelor intervalului lor de ncredere. Dac n limitele unui interval de ncredere de 95% se va afla i valoarea zero (caracteristic unei distribuii normale), atunci va trebui s acceptm ipoteza c distribuia populaiei are simetrie sau boltire normal.
Limitele unui interval de ncredere de 95% pentru skewness se calculeaz la fel ca pentru oricare indicator statistic: [Skewness - 1.96 * (eroarea std. a lui skewness) ; Skewness + 1.96 * (eroarea std. a lui skewness)]
Iar pentru kurtosis: [Kurtosis - 1.96 * (eroarea std. a lui kurtosis) ; Kurtosis + 1.96 * (eroarea std. a lui kurtosis)]
n exemplul de mai sus avem: Skewness = 0,862 iar eroarea standard a sa 0,112. Intervalul de ncredere va fi:
[0,862-0,112; 0,862+0,112] [0,750; 0,974] Cum intervalul nu include i valoarea 0 nu putem spune c distribuia variabilei varsta este
simetric, ci are o abatere de la simetrie n partea dreapt. Calculnd n mod similar i pentru kurtosis vom avea un interval de ncredere astfel:
[-0,566-0,224 ; -0,566+0,224] [-0,790 ; -0,322] Nici n acest caz valoarea 0 nu este inclus n interval deci se poate spune c distribuia nu
este mezocurtic ci platicurtic. Procedura Explore
Procedura Explore este cea mai complex dintre toate procedurile statisticii descriptive i se poate utiliza atunci cnd se dorete o analiz exhaustiv a variabilei (sau variabilelor).
Dup apelarea sa prin succesiunea de comenzi Analyze Descriptive Statistcs Explore se deschide fereastra.
9
-
Analiza datelor
n zona Dependent List se includ variabilele de analizat.. n zona Factor List se includ eventualele variabile nominale, n funcie de care se dorete
analiza variabilei analizate. Label cases by, permite etichetarea cazurilor la afiare. Display, permite alegerea opiunilor de afiare a rezultatelor numerice (Statistics), grafice
(Plots) sau ambele categorii (Both). Butonul Statistics deschide fereastra urmtoare pentru alegerea indicatorilor care vor fi
calculai.
n aceast fereastr opiunea implicit o reprezint Descriptives, care calculeaz toi indicatorii statistici descriptivi de baz.
M-estimators, calculeaz estimri ale valorilor tendinei centrale la nivelul populaiei mai robuti, innd cont de forma distribuiei.
Percentiles, calculeaz percentilele 5, 10, 25, 50, 75, 90 i 100.
Tot n fereastra Explore butonul Plots, permite alegerea reprezentrilor grafice dorite.
10
-
Analiza datelor
Una dintre opiunile importante ale acestei aceste este Normality plots with tests, care
testeaz normalitatea distribuiei. De asemenea n fereastra Explore, butonul Options..., permite setarea modului de tratare a
valorilor lips. Rezultatele procedurii Explore, definit mai sus, se prezint astfel:
Case Processing Summary
Cases Valid Missing Total N Percent N Percent N Percent
varsta 474 100,0% 0 ,0% 474 100,0%
Un tabel sintetic al variabilei, de unde aflm numrul valorilor i procentul lor, pentru
cazurile valide, pentru cele care lipsesc i pentru total. O privire atent pe acest tabel este necesar cu scopul de a identifica eventuale probleme cu datele. n acest caz, variabila are 474 de valori i nu exist valori lips.
Tabelul Descriptives conine toi indicatorii statistici descriptivi cunoscui: 95% Confidence Interval for mean ne d limita inferioar (Lower Bound) i pe cea superioar (Upper Bound) a intervalului de ncredere pentru medie, calculate pe baza erorii standard a acesteia, afiate pe ultima coloan. 5% Trimmed Mean, este o medie calculat fr participarea a 5% dintre valorilor de la extremele distribuiei, ceea ce are ca efect eliminarea efectului eventualelor valori extreme. Cu ct aceasta este mai apropiat de media obinuit, cu att se poate aprecia c distribuia nu are valori extreme. Pe o distribuie normal, media i 5% trim-media, sunt identice.
Se vor observa: - distana relativ mare dintre medie i median n cazul distribuiei asimetrice, comparativ cu
celelalte dou. - faptul c media 5% trim a distribuiei asimetrice se apropie mult de media aritmetic uzual. - Tabelul percentilelor afieaz valorile percentile. Percentilele de pe linia Tuckeys Hinges
sunt valorile care intr n calcularea nlimii casetei boxplot (abaterea interquartil).
11
-
Analiza datelor
Descriptives
Statistic Std. Error
Mean 51,6477 ,54125
Lower Bound 50,5841 95% Confidence Interval for
Mean Upper Bound 52,7112
5% Trimmed Mean 50,9662
Median 46,0000
Variance 138,859
Std. Deviation 11,78383
Minimum 37,00
Maximum 79,00
Range 42,00
Interquartile Range 17,25
Skewness ,862 ,112
varsta
Kurtosis -,566 ,224
Tabelul Tests of Normality cuprinde rezultatele testelor de normalitate. n esen, acestea
testeaz gradul de suprapunere dintre distribuia cumulativ a variabilei analizate i distribuia cumulativ a unei variabile a crei distribuie urmeaz forma Gauss. Cele mai uzuale sunt testele Kolmogorov-Smirnov (numit i statistica D) i Shapiro-Wilk (numit i statistica W). Desigur, dintre ele se va lua n considerare numai unul singur. Tendina actual este de a se da un credit mai mare testului Shapiro-Wilk, deoarece se apreciaz c dispune de o putere mai mare de a surprinde normalitatea unei distribuii, atunci cnd aceasta este real (Shapiro, Wilk, & Chen, 1968), mai ales dac numrul valorilor este mic. SPSS calculeaz testul Shapiro-Wilk numai pentru distribuii cu mai puin de 50 de valori, n celelalte cazuri limitndu-se doar la Kolmogorov-Smirnov.
Att pentru testul Kolmogorv-Smirnov, ct i pentru testul Shapiro-Wilk, conteaz numai valoarea lui p (Sig.), care se interpreteaz invers dect interpretrile cu care ne-am obinuit pentru p, astfel:
- dac p (Sig.) este mai mic sau egal cu 0.05, atunci se respinge ipoteza de normalitate a distribuiei (distribuia variabilei se abate de la forma normal);
- Dac p (Sig.) este mai mare dect 0.05, atunci se accept ipoteza de normalitate a distribuiei.
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig. Statistic df Sig.
varsta ,202 474 ,000 ,867 474 ,000
a. Lilliefors Significance Correction
n cazul nostru, observm c testul de normalitate are valori p (Sig.) mai mici de 0.05 pentru variabila varsta, ceea ce ne confirm c nu prezint o form normal.
Principala problem care se pune n legtur cu interpretarea testelor de normalitate este
12
-
Analiza datelor legat de faptul c, pe msur ce eantionul este mai mic, este din ce n ce mai dificil s fie apreciat corect normalitatea distribuiei unei variabile. Nici chiar un test statistic nu ne poate oferi o concluzie fundamentat, deoarece nu este suficient de sensibil pentru a distinge ntre o distribuie normal i una ne-normal. Pentru mai puin de 5 valori, SPSS nici nu mai calculeaz testul de normalitate, chiar dac este cerut. Pentru a avea suficient ncredere n rezultatul testelor de normalitate distribuia trebuie s aib cel puin cteva zeci de valori. Rezult c interpretarea rezultatului la testele de normalitate depinde simultan de valoarea lui p i de mrimea eantionului. n mod obinuit, aceast interpretare se face dup urmtoarea gril:
Valoarea p a testului de normalitate
Mrimea eantionului Interpretare
0.05 oricare Forma distribuiei nu este normal.
>0.05 mare (cel puin cteva zeci)
Distribuia are o form normal.
>0.05 mic (sub cteva zeci)
Dei testul confirm forma normal a distribuiei, o astfel de concluzie este riscant, dat fiind capacitatea real testului de a surprinde acest lucru.
Utilitatea testului de normalitate a distribuiei se raporteaz la decizia de a utiliza teste
parametrice n cazul variabilelor cantitative, care, dup cum tim, sunt supuse acestei condiii. Att testul K-S ct i Shapiro-Wilk sunt sensibile att la asimetrie ct i la boltire. n general, testele statistice bazate pe scale de interval (raport) sunt mai robuste (mai sigure) dac distribuiile sunt simetrice, dar existena unei boltiri nu reprezint o problem. Ca urmare, atunci cnd utilizm testul t sau analiza de varian, existena boltirii este mai puin preocupant dect aceea a asimetriei. Din acest motiv, dac testul de normalitate este semnificativ este recomandabil s verificm dac acest lucru se datoreaz asimetriei, boltirii sau ambelor.
M-Estimators
Huber's M-Estimatora Tukey's Biweightb
Hampel's M-
Estimatorc Andrews' Waved
Varsta 48,3449 46,4588 48,7225 46,4105
a. The weighting constant is 1,339.
b. The weighting constant is 4,685.
c. The weighting constants are 1,700, 3,400, and 8,500
d. The weighting constant is 1,340*pi.
Percentiles
Percentiles 5 10 25 50 75 90 95
Weighted
Average(Definition 1)
varsta 39,0000 40,0000 43,0000 46,0000 60,2500 71,5000 75,0000
Tukey's Hinges varsta 43,0000 46,0000 60,0000
13
-
Analiza datelor
Extreme Values
Case Number Value
1 3 79,00
2 152 79,00
3 443 79,00
4 108 78,00
Highest
5 171 78,00a
1 459 37,00
2 439 38,00
3 412 38,00
4 403 38,00
varsta
Lowest
5 402 38,00b
a. Only a partial list of cases with the value 78,00 are shown in the
table of upper extremes.
b. Only a partial list of cases with the value 38,00 are shown in the
table of lower extremes. Reprezentrile Stem-and-leaf pentru distribuia vrstei. varsta Stem-and-Leaf Plot Frequency Stem & Leaf 43,00 3 . 88888899999999999999& 131,00 4 . 0000000000001111112222222222222333333333333334444444444444444444 114,00 4 . 555555555555555555566666666666667777777777788888889999999 30,00 5 . 0000223334444& 32,00 5 . 555667778889999 31,00 6 . 00011112223344 32,00 6 . 556666677888999 32,00 7 . 00000122234444 29,00 7 . 5556667788889 Stem width: 10,00 Each leaf: 2 case(s) & denotes fractional leaves.
Reprezentrile boxplot
Redm mai nti schema constructiv a unei reprezentri boxplot:
14
-
Analiza datelor
n cazul variabilei studiate varsta a rezultat:
Aa cum tim, caseta din mijlocul reprezentrii boxplot include 50% dintre valorile distriuiei, liniile verticale fiind trasate la o lungime de 1.5xH, unde H este distana dintre limitele casetei (abaterea interquartil, Q3-Q1). Punctele marcate n dincolo de limitele orizontale ale reprezentrii marcheaz valorile marginale ale distribuiei (O=Outliers) i valorile extreme (E).
Histogramele reprezint ntr-o manier diferit ceea ce reprezint i graficele boxplot de mai sus. Recomandm analiza comparativ a histogramei i boxplot-ului fiecrei variabile.
15
-
Analiza datelor
Toate cele trei tipuri de reprezentri grafice (stem-and-leaf, boxplot i histogram) pot fi utile n analiza distribuiilor, dar se va evita introducerea lor simultan ntr-un document de cercetare. De asemenea, este de evitat introducerea acestor reprezentri pentru variabile singulare (descrise n mod suficient cu valorile numerice ale indicatorilor statistici). De regul, graficele de acest gen sunt introduse n lucrri pentru a prezenta imagini comparative ale variabilelor. Graficele Normal Q-Q Plot
Graficul Normal plot compar scorul brut (pe axa Ox) cu scorul z ateptat al unei distribuii care ar avea o form normal (pe axa Oy). Scorul z ateptat se gsete prin convertirea rangului percentil al fiecrui scor n scor z, utiliznd tabelul probabilitilor de sub curba normal. Acesta reprezint o expresie grafic a normalitii. Dac valorile variabilei se distribuie normal, atunci graficul scorurilor brute i ateptate va urma o linie dreapt pe diagonala axelor de coordonate. Dac scorurile nu se distribuie normal, linia celor dou scoruri deviaz de la modelul rectiliniu. Se poate observa c variabila varsta nu urmeaz o distribuie normal.
16
-
Analiza datelor Lucrare practic
1. Folosind datele din fiierul employees_data_1.sav calculai indicatorii statistici descriptivi pentru variabilele salary i educ.
2. Interpretai rezultatele obinute. 3. Testai normalitatea variabilelor uiliznd statistici descriptivi corespunztori i apoi utiliznd
modalitile de reprezentare grafic corepsunztoare.
17