001 stat-descriptiva-2014-pdf
-
Upload
nina-timotin -
Category
Marketing
-
view
259 -
download
0
Transcript of 001 stat-descriptiva-2014-pdf
1
TEMATICA CURSULUI
1. Statistica descriptivă
2. Tabele de contingență
3. Testarea neparametrică
4. Testarea parametrică
5. Eșantionarea
6. Analiza varianței (ANOVA)
7. Corelarea și regresia
8. Analiza discriminantă
TEMA 1: Statistica descriptivă
1. Tipurile de scale
2. Organizarea datelor
3. Tendința centrală
4. Variația (împrăștierea) datelor
5. Asimetria și boltirea distribuției
2
I. Patru tipuri de scale
Tip scală
Caracteristici
Clasificări Ordonări Intervale egale
Intervale proporționale
Nominală X – – –
Ordinală X X – –
Interval X X X –
Proporțională X X X X
Exemple de întrebări din chestionar
Care este ocupația Dvs.? (nominală)
Ce apreciați la un calculator în primul, al doilea și al treilea rând? (ordinală)
Aveți vârsta de:
□ 20-29
□ 30- 39 (interval)
□ 40-49
Care este venitul Dvs. lunar (lei)? (proporțională)
3
II. Organizarea Datelor2.1. Frecvența distribuției
În cadrul unei cercetări au fost obținute următoarelevalori ale variabilei studiate:
X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).
În total sunt 35 de date colectate.
2.1. …
În cazul unei distributii simple a frecventei suntnecesari urmatorii pasi:
Se cauta valorile extreme din șirul de date (valoarea cea maimare și cea mai mica);
Se scriu toate valorile cuprinse între cele doua extreme într-o ordine ascendentă (crescătoare) pe o coloană;
Se numără de câte ori apare fiecare valoare în șirul de date;
Se trec apoi în tabel, frecvențele de apariție a fiecărei valori.
4
2.1. …Tabelul de frecvențe
Obținem:
(N=35)
Valoarea, X Frecvența, f1 2
2 0
3 1
4 3
5 4
6 4
7 9
8 7
9 3
10 2
În cazul datelor nominale în prima coloană sunt incluse valorile calitative ale acestora (cuvinte, nu cifre)
Exemplu:
De ordonat pe intervale, rezultatele intervievării a 48 de subiecți.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).
2.2. Gruparea datelor pe intervale
5
1. Ordonăm datele (în ordine ascendentă sau descendentă)
X = (4, 5, 6, 7, 8, 10, 10, 10, 11, 12, 12, 12, 14, 14, 14, 14, 14, 15, 15, 15, 16,16, 16, 17,17, 17, 17,17, 18, 18, 18, 18, 19, 19, 19, 19, 20, 21, 21, 22, 22, 23, 23, 24, 25, 27, 29, 31).
2. Notam valorile extreme (4 si 31)
3. Calculam diferenta dintre cele doua valori = 27
4. Stabilim marimea intervalului (h) și numărul de intervale (i),
astfel că h•i =27+1 .
Rezolvare:
De exemplu, h=2 ne va oferi 28/2=14 intervale
h=3 ‐ respectiv 28/3=9 intervale și 1 rest (neacoperit)
h=4 – respectiv 28/4=7 intervale
h=5 – respectiv 28/5 = 5 intervale și 3 rest (neacoperit)
Dacă există resturi ‐ se adaugă un interval și calculăm supraacoperirea:
h=3, deci 3‐restul =2, deci 2 puncte le repartizăm la extreme, conform următoarelor opțiuni ale extremelor intervalelor: [2;31] sau [3;32] sau [4;33]
h=5, deci 5 minus‐restul =2, deci iarăși 2 puncte le repartizăm la extreme și obținem: [2;31] sau [3;32] sau [4;33]
Rezolvare:
6
Rezolvare:
Opțiuni de intervale pentru h=3
Extremități
Intervale [2;31] [3;32] [4;33]
1 2‐4 3‐5 4‐6
2 5‐7 6‐8 7‐9
3 8‐10 9‐11 10‐12
4 11‐13 12‐14 13‐15
5 14‐16 15‐17 16‐18
6 17‐19 18‐20 19‐21
7 20‐22 21‐23 22‐24
8 23‐25 24‐26 25‐27
9 26‐28 27‐29 28‐30
10 29‐31 30‐32 31‐33
Trei, cinci și zece constitue marimea cea mai des întâlnită a intervalelor.
Dacă pentru analiză sunt necesare date ”scale”, putem transforma intervalele înlocuind categoriile - cu cifre care reprezintă media intervalului.
Este bine dacă primul interval începe, cu o valoare multiplu de hales. De exemplu, daca 22 este cel mai mic număr, iar marimeaintervalului este 3, atunci vom începe cu valoarea 21 deoarece estemultiplu de trei (în exemplul nostru - opțiunea din coloana 2).
Pentru h= 5 în afară de intervalul {1-5, 6-10, etc.} se mai recomandă și {3-7, 8-12, etc.} care asigură mijlocul intervalului multiplu de 5.
Intervale: concluzii și sugestii finale
7
Exemplu: soluția – coloana 2
Intervalul (I) Mijlocul clasei Frecventa (f)30-32 31 127-29 28 224-26 25 221-23 22 618-20 19 915-17 16 1112-14 13 89-11 10 46-8 7 33-5 4 2
III. Indicatori ai tendinței centrale
• Media
• Mediana
• Modul
8
Media
Media este un indicator care caracterizeaza un esantion (o populatie) din punctul de vedere al unei caracteristici studiate. Exista mai multenotări pentru medie: M si X reprezinta media unui eșantion, iar µ (miu) este media unei colectivități generale (populații).
Media aritmetică a unui sir de date se calculează astfel:
X = ∑ X / N
Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)
Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.
În cazul în care sirul de date este prezentat într‐un tabel de frecvențe se aplică formula mediei ponderate:
∑fi * XiX = ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
∑fi
Unde: fi reprezinta frecvența grupată, iar Xi ‐ centrul intervalului (exemplu – slide‐ul următor).
…
9
∑fi = 48 ∑ =Xi*fi= 789 X = 789 / 48 = 16,4
… exemplu (cazul unui tabel de frecvențe)
Intervalul (i) Centrul (Xi) Frecventa (fi) Xi * fi
30‐32 31 1 31
27‐29 28 2 56
24‐26 25 2 50
21‐23 22 6 132
18‐20 19 9 171
15‐17 16 11 176
12‐14 13 8 104
9‐11 10 4 40
6‐8 7 3 21
3‐5 4 2 8
∑ = 48 ∑ = 789
Mediana
Mediana este acel parametru care prin pozitia sa, se afla în mijlocul serieide date. Ea reprezinta punctul central al seriei, deoarece la stânga si la dreapta ei se situeaza câte 50% din totalitatea datelor. Mediana coincide cu media în cazul unei distributii teoretice normale si se îndeparteaza multde aceasta daca distributia este asimetrica.
Pentru a calcula mediana în cazul distributiei simple a datelor exista douasituatii:
1. Când n este impar locul medianei se stabileste astfel:
Loc mediana = (n+1) / 2
2. Când n este par sunt adunate valorile din centrul seriei si se împart la doi.
10
Mediana- cazul unui șir simplu
De exemplu, șirul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)
Mai întâi datele sunt aranjate în ordine crescatoare sau descrescatoare.
Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). Înacest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorbade locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana adunam cele doua valori gasite si împartim rezultatul la doi. Astfel, Me = (8+9) / 2 = 8,5
Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilitdupa formula: (n+1) / 2, (deci, poziţia cinci). Respectiv, mediana
Me = 8.
Mediana – cazul șirului de date sub formă de tabel de frecvențe
unde:
x0 ‐ limita inferioară a intervalului median (sau media între limita inferioară a intervalului median și limita superioară a intervalului precedent)
h ‐mărimea intervalului median
N ‐ numarul total al cazurilor
nm ‐ frecvența intervalului median
ncpm ‐ frecvențele cumulative până la intervalul median
m
cpm
n
nN
hxMe
21
0
11
… exemplu
Intervalul Centrul i Frecventa (fi) Frecventa cumulata
30-32 31 1 4827-29 28 2 4724-26 25 2 4521-23 22 6 4318-20 19 9 3715-17 16 11 2812-14 13 8 179-11 10 4 96-8 7 3 53-5 4 2 2
6,1611
172
148
35,14
Me
… etapele procesului de calcul
Stabilirea punctului mai jos și mai sus de care se situeaza câte 50% din cazuri(N+1)/2. În cazul dat vom avea (48+1)/2=24,5;
Stabilirea intervalului care contine mediana. Se cauta în coloana frecventelorcumulate intervalul care corespunde locului medianei (28). Pozitia 24 din sirul de date este ocupată de o valoare cuprinsa în intervalul 15‐17;
Se stabileste limita inferioara a intervalului care cuprinde mediana (15+14)/2 =14,5 cât si frecventa datelor sale (11);
Se calculeaza frecventele cumulate, care preced clasa care contine mediana ‐ 17;
Se calculeaza marimea intervalului (h=3) ‐ care cuprinde valorile 15,16 si 17 sau altfel ‐ diferenta dintre limita maxima ((16+19)/2 =17,5) si cea minima a intervalului ce contine mediana este 3 (17,5 ‐14,5).
12
Cuartilele și decilele
Cuartilele sunt acele valori ale caracteristicii, care separă seria în patru părţi egale:
cuartila inferioară, notată cu Q1, este mai mare sau egală de 25% din termenii seriei şi mai mică sau egală de 75% dintre ei;
cuartila a doua Q2 și decila a cincea D5 coincide cu Me şi separă seria în două părţi egale;
cuartila superioară Q3 este mai mare sau egală de 75% din numărul termenilor şi mai mică sau egală de 25% din numărul lor.
În cazul în care se calculează decilele, seria se divide în zece părţi egale folosind înacest scop nouă decile (D1, D2 … D9).
Cuartilele și decilele
unde:
Q1, Q3 – cuartila 1 (25%) și 3 (75%)
x0 este limita inferioară a intervalului cuartilei, decilei
h este mărimea intervalului cuartilei, decilei
N este numarul total al cazurilor
nq și nd frecvența intervalului cuartilei, decilei
ncpq și ncpd ‐ frecvențele cumulative până la intervalul cuartilei, decilei
q
cpq
n
nN
hxQ
41
01
q
cpq
n
nN
hxQ
4)1(
3
03
d
cpd
n
nN
hxD
10)1(
1
01
13
… exemplu
Intervalul Centrul i Frecventa (fi) Frecventa cumulata30-32 31 1 4827-29 28 2 4724-26 25 2 4521-23 22 6 4318-20 19 9 3715-17 16 11 2812-14 13 8 179-11 10 4 96-8 7 3 53-5 4 2 2
4,209
284
1483
35,173
Q
Modul
Modul este parametrul care corespunde celei mai mari frecvente, adica este valoareacea mai frecvent întâlnita.
De exemplu, X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7).
Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa cavaloarea cea mai întâlnita este 9 (apare de trei ori).
Ca urmare modul pentru acest sir este: Mo = 9
14
Modul - cazul sirului de date sub formă de tabel de frecvente
Pentru date grupate, se cauta intervalul care are cea mai mare frecvență. Încazul de mai jos, acest interval este 15‐17, în interiorul caruia se afla 11valori.
Valoarea modala este egala cu valoarea plasată în centrul acestui interval, adică Mo = 16.
Intervalul (i) Frecventa (f) Intervalul (i) Frecventa (f)
30-32 (31) 1 15-17 (16) 11
27-29 (28) 2 12-14 (13) 8
24-26 (25) 2 9-11 (10) 4
21-23 (22) 6 6-8 (9) 3
18-20 (19) 9 3-5 (4) 2
IV. Indicatori ai variației (dispersiei)
Principalii indicatori ai variaţiei sunt:
1. Amplitudinea A
2. Abaterea medie pătratică (σ pentru populație și S pentru eșantion)
3. Dispersia (σ2 pentru populație și S 2 pentru eșantion)
4. Coeficientul de variaţie V.
1. AMPLITUDINEA: A = (Xmax – Xmin)
Pentru a calcula amplitudinea sirului de date:
X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: A =10 ‐ 4 = 6.
15
Abaterea medie patratică: cazul unui șir simplu
Unde:
Xi sunt valorile individuale;
X este media esantionului;
µ este media populatiei
N, n este numarul de subiecti observati
(mărimea populației și respectiv, a eșantionului)
N
xN
ii
1
2)µ(
n
xxS
n
ii
1
2)(
Exemplu
De calculat S pentru urmatorul sir de date:
X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6) X= 66/10 = 6,6
X X-X (X-X) 2
4 -2,6 6,76
6 -0,6 0,36
7 0,4 0,16
9 2,4 5,76
8 1,4 1,96
5 -1,6 2,56
8 1,4 1,96
3 -3,6 12,96
10 3,4 11,56
6 -0,6 0,36
∑ (X‐X)2 = 44,40
10,210
40,44S
16
Abaterea medie patratică: cazul seriilor cu frecvente
Unde: Xi sunt valorile individuale;
X este media esantionului;
µ este media populatiei
n reprezintă frecvențele observate
k
ii
ii
i
n
nk
xxS
1
1
2)(
k
ii
i
k
ii
n
nx
1
1
2)µ(
Exemplu
De calculat S pentru urmatoarele date:
X = 16,4∑ ni = 48∑ ni *(X‐X)2 = 1709,9
97,548
9,1709S
(i) Xi ni (Xi-X) (Xi-X)2 ni * (Xi-X)2
30-32 31 1 14,6 213,2 213,2
27-29 28 2 11,6 134,6 269,1
24-26 25 2 8,6 73,96 147,9
21-23 22 6 5,6 31,36 188,2
18-20 19 9 2,6 6,76 60,84
15-17 16 11 -0,4 0,16 1,76
12-14 13 8 -3,4 11,56 92,48
9-11 10 4 -6,4 40,96 163,8
6-8 7 3 -9,4 88,36 265,1
3-5 4 2 -12,4 153,8 307,5
17
Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion
Unde: S este abaterea standard a esantionului studiat; X este mediaeșantionului.
Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea:
V = (2,7/11,4)*100 = 23,68%
Pentru cazul de mai sus V = (5,97/16,4)*100 = 36,4%
Coeficientul de variație
100x
SV
Interpretarea coeficientului de variație
daca V este cuprins între 0 si 15%, atunci împrastierea datelor (variația) estefoarte mica, iar media este reprezentativă, deoarece eșantionul măsurat esteomogen;
daca valoarea lui este între 15 si 30%, variația datelor este mijlocie, media fiindînca suficient de reprezentativa;
daca V depășește 30%, media nu este reprezentativă pentru eșantionul în cauză, fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului.
18
V. Indicatori de asimetrie si boltire
Exista situatii destul de frecvente când media nu corespunde cu mediana. Daca elear coincide am vorbi despre o distributie complet simetrica, specifica uneidistributii normale teoretice.
Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteazade mediana, si implicit, în ce masura curba de distributie normala a datelor se departeaza de mijloc, deplasându‐se spre stânga sau spre dreapta. Suntconsiderate distributii relativ normale cazurile în care acesti indicatori nu depasesc±1,96 abateri medii patratice.
Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decâtmediana, caz în care indicele de asimetrie ia valori pozitive si apare o deplasare a datelor spre stânga.
Vorbim despre o asimetrie negativă în situatia în care media este mai mică decâtmediana, caz în care indicele de asimetrie ia valori negative si apare o deplasare a datelor spre dreapta.
Reprezentarea grafică
fi fi fi
fmax fmax fmax
xi xi xi
x =Me=Mo Mo Me x x Me Mo
serie perfect simetrică asimetrie pozitivă asimetrie negativă
19
Asimetrie (skewness)
Formula de calcul a coeficientului de asimetrie Ca:
unde σ este abaterea medie patratică de sondaj
Dacă Ca =0 serie simetrică.
Dacă Ca>0 serie cu asimetrie pozitivă (deplasare spre stânga).
Dacă Ca<0 serie cu asimetrie negativă (deplasare spre dreapta).
3
3)(
n
xxC i
a
Asimetrie (skewness): 3 cazuri
a d e
1 0 2
2 0 2
2 0 2
3 0 2
3 0 2
3 0 2
4 0 2
4 0 2
4 0 2
4 0 2
5 0 2
5 0 2
5 0 2
6 1 1
6 2 0
7 3 0
20
Asimetrie – lipsa (cazul a)
Ca = 0,000
Asimetrie pozitiva – spre stanga (cazul d)(produse de lux)
Ca = 2,411
21
Asimetrie negativa – spre dreapta (cazul e)(produse de larg consum consum – zaharul)
Ca = -2,082
Boltire (kurtosis)
Un indice de aplatizare mare arată o repartiţie cu “cozi” mari(sunt prezente categorii depărtate de medie), în timp ce un indice de aplatizare mic arată o repartiţie “ascuţită” sau “boltită”în care sunt prezente mai puţine categorii depărtate de medie.
Formula de calcul este :
unde σ este abaterea medie patratică de sondaj.
În cazul unei repartiţii apropiate de repartiţia normală, coeficientul de aplatizare este în jurul valorii 0.
Cb >0, atunci distribuția are forma ascuțită iar dacă Cb <0 -aplatizată
3)(
4
4
n
xxC i
b
22
Boltire: 2 cazuri
b c1 11 2
1 31 31 31 3
1 35 36 39 3
9 39 39 39 3
9 49 5
Boltire: cazul a 2 segmente distincte
Cb = - 2,118
23
Boltire: cazul omogenitatii excesive
Cb = 3,913
Exemplu de calcul pentru tabele de frecvențe
Vânzări lunare
(mii lei) Nr. comis voiajori
41 – 50 10
51 – 60 30
61 – 70 50
71 – 80 50
81 – 90 70
91 – 100 60
101 – 110 30
Total 300
O mare companie de cosmetică are o rețea dezvoltată de distribuție prin comis voiajori. A fost extras un eșantion de 300 de persoane din rândurile acestora. Datele cu privire la vânzările lunare sunt prezentate în tabel. Caracterizaţi şi măsuraţi asimetria și boltirea distribuţiei comis voiajorilor.
Me = 86,67 mii lei
x = 80,17 mii lei
= 16,10
24
Coeficientul de asimetrie se calculează în baza formulei:
Eroarea standard pentru asimetrie este
În SPSS în calitate de test de normalitate a asimetrie este considerat raportul
Adică în cazul nostru:
… asimetrie
254,007,16300
315797)(33
3
n
nxxC
iias
141,0300/6/6 nE a
2;2/6/ nC as
2;280,1141,0/254,0
Coeficientul de boltire se calculează conform formulei:
Eroarea standard pentru boltire este
În SPSS în calitate de test de normalitate a boltirii este considerat raportul
Adică în cazul nostru:
Adică putem vorbi despre un nivel de aplatizare excesiv
… boltire
283,0300/24/24 nE b
2;2/24/ nC b
2;289,2283,0/819,0
819,031806,207,16300
436200283
)(44
4
n
nxxC
iib