Curs2 3 4 Serii Univariate

43
2. Analiza unei serii statistice unidimensionale 2.1. Variabile cantitative A. Variabilă discretă A.1. Prezentarea seriei (distribuţiei) statistice - seria simplă X:(x i ), cu i=1,m , când n 1 =n 2 = =n i . - seria cu frecvenţe diferite X: , când n i n j . X: , cu fi=n/n i i n x i i f x

description

sdgdfv

Transcript of Curs2 3 4 Serii Univariate

Page 1: Curs2 3 4 Serii Univariate

2. Analiza unei serii statistice unidimensionale

2.1. Variabile cantitative

A. Variabilă discretă

A.1. Prezentarea seriei (distribuţiei) statistice

- seria simplă X:(xi), cu i=1,m , când n1=n2= … =ni.

- seria cu frecvenţe diferite X: , când ni≠nj.

X: , cu fi=ni/n

i

i

n

x

i

i

f

x

Page 2: Curs2 3 4 Serii Univariate

• Frecvenţe absolute cumulate crescător (Ni ) sau descrescător (Ni )

- exprimă numărul de unităţi statistice cumulate “până la” sau “peste” nivelul considerat al caracteristicii, adică valori ≤ xi, respectiv ≥ xi.

i

hhiii nnNN

11

m

ihhiii nnNN 1

Page 3: Curs2 3 4 Serii Univariate

• Frecvenţe relative cumulate crescător (Fi ) sau descrescător (Fi )

- exprimă ponderea unităţilor statistice cumulate “până la” sau “peste” nivelul considerat al caracteristicii, adică valori ≤ xi, respectiv ≥ xi.

i

hhiii ffFF

11

m

ihhiii ffFF 1

Page 4: Curs2 3 4 Serii Univariate

Exemplu

Distribuţia unui eşantion de persoane după numărul de spectacole de teatru vizionate într-o lună

xi ni fi

0 9 5,17

1 29 16,67

2 95 54,6

3 35 20,11

4 6 3,45

Total 174 100,0

Page 5: Curs2 3 4 Serii Univariate

A.2. Analiza seriei folosind metode numerice

Presupune calculul indicatorilor statisticii descriptive, cunoscuţi şi sub denumirea de caracteristici numerice ale unei distribuţii.

A.2.1. Indicatori ai tendinţei centrale (mărimi medii)

a. Definire: - mediile sunt acele valori în jurul cărora se repartizează

unităţile unei populaţii. - cele mai importante mărimi medii sunt media aritmetică,

modul şi mediana .

Page 6: Curs2 3 4 Serii Univariate

A.2. Analiza seriei folosind metode numerice

b. Media aritmetică ( )- Media aritmetică este valoarea pe care am observa-o dacă

unităţile statistice ar înregistra aceleaşi valori ale variabilei (dacă nu ar exista variaţii ale valorilor înregistrate de unităţile statistice).

x

Page 7: Curs2 3 4 Serii Univariate

Mod de calcul în cazul seriilor simple şi seriilor cu frecvenţe diferite (variabilă discretă)

Media simplă:

Media ponderată.

sau

Observaţie: Media aritmetică este sensibilă la prezenţa valorilor extreme (outliers).

n

xx i

i

ii

ii

i

n

nxx i

ii fxx

Page 8: Curs2 3 4 Serii Univariate

Cele mai importante proprietăţi ale mediei aritmetice:

1. Media unei distribuţii este o valoare internă:

xmin≤ ≤xmax.

2. Media este o mărime normală: suma abaterilor valorilor individuale ale unei variabile X de la media lor este egală cu zero.

Exemplu: Să considerăm distribuţia membrilor unei familii după numărul de litri de Coca-Cola consumaţi într-o săptămână:

1, 1, 4, 6, 8.

x

Page 9: Curs2 3 4 Serii Univariate

c. Modul (Mo) este valoarea variabilei cea mai frecvent observată într-o

distribuţie, adică valoarea xi care corespunde frecvenţei maxime (nimax).

Observaţie: modul poate fi aflat doar în cazul seriilor cu frecvenţe

diferite. o distribuţie poate avea una, două sau mai multe valori

modale (serii unimodale, bimodale sau plurimodale).

Interpretare: Cele mai multe unităţi înregistrează valoarea modală.

Page 10: Curs2 3 4 Serii Univariate

d. Mediana (Me) - este acea valoare a variabilei unei serii ordonate, crescător sau

descrescător, până la care şi peste care sunt distribuite în număr egal unităţile colectivităţii: jumătate din unităţi au valori mai mici decât mediana, iar jumătate au valori mai mari decât mediana.

- corespunde locului unităţii mediane calculate astfel:

2

1nU Me

Page 11: Curs2 3 4 Serii Univariate

Aflarea medianei se face diferit în funcţie de tipul seriei:

1. Serii simple: - număr impar de termeni. Exemplu: 7, 3, 8, 4, 5- număr par de termeni. Exemplu: 7, 3, 8, 4, 5, 5

2. Serii cu frecvenţe diferite- se calculează unitatea mediană (UMe).- se calculează

- se află prima valoare- valoarea xi corespunzătoare acesteia este Me.

Observaţie:mediana nu este influenţată de valorile extreme.

Exemplu: 1, 1, 2, 4, 4, 80

iNMe

i UN

Page 12: Curs2 3 4 Serii Univariate

f. Quartilele

- sunt valori ale variabilei care împart volumul eşantionului în 4 părţi egale.

- reprezentare grafică şi mod de calcul ( Q1, Q2, Q3).

g. Decile- sunt valori ale variabilei care împart volumul

eşantionului în 4 părţi egale.- decila unu (D1) şi decila 9 (D9).

Page 13: Curs2 3 4 Serii Univariate

A.2.2. Indicatori ai dispersiei (variaţiei) Definire: - dispersia exprimă gradul de variaţie a valorilor individuale

ale unei variabile faţă de nivelul mediu.- aprecierea fenomenului de dispersie al unei distribuţii

permite identificarea gradului de reprezentativitate a mediei unei distribuţii.

Page 14: Curs2 3 4 Serii Univariate

Indicatori sintetici ai dispersiei:

1. Abaterea medie liniară

1. Varianţa

, respectiv

Varianţa este întotdeauna pozitivă, nu are unitate de măsură şi nu se interpretează.

Prin ridicarea la pătrat a abaterilor valorilor xi faţă de medie creşte “influenţa” valorilor extreme asupra nivelului varianţei.

ii

ii

i

n

nxxs

2

2

)(

n

xxs i

i

2

2

)(

Page 15: Curs2 3 4 Serii Univariate

3. Abaterea standard (s) arată cu cât variază, în medie, valorile xi ale variabilei faţă

de nivelul mediu al distribuţiei, în sens pozitiv şi negativ. Se calculează ca radical din varianţă se exprimă în aceeaşi unitate de măsură cu cea a variabilei.

n

xxs i

i

2

2

)(

ii

ii

i

n

nxxs

2

2

)(

Page 16: Curs2 3 4 Serii Univariate

4. Coeficientul de variaţie (v)

se exprimă în procente. valori ridicate ale acestui coeficient (v>50%) arată o

distribuţie eterogenă, care se caracterizează printr-o variaţie mare a valorilor xi faţă de nivelul mediu şi o medie nereprezentativă.

este sensibil faţă de valoarea mediei: cu cât media este mai apropiată de zero, cu atât coeficientul de variaţie este mai dificil de folosit (tinde spre infinit).

100x

sv

Page 17: Curs2 3 4 Serii Univariate

5. Intervalul interquartilic

IQ=Q3-Q1.

- cuprinde 50% din volumul eşantionului.

În mod sintetic, cele mai importante caracteristici numerice ale unei distribuţii pot fi “cuplate” astfel: media - abaterea standard - coeficientul de variaţie mediana - intervalul interquartilic media - mediana

Page 18: Curs2 3 4 Serii Univariate

A.2.3. Indicatori ai formei

1. Asimetria:

- reprezintă o deviere de la forma simetrică a unei distribuţii.

Asimetria poate fi apreciată:- pe cale grafică: curba frecvenţelor, diagrama box-plot.- pe cale numerică: - prin calculul indicatorilor de asimetrie

(Skewness).

Coeficientul de asimetrie Fisher: 33

1s

Page 19: Curs2 3 4 Serii Univariate

Relaţii între cele trei mărimi medii

Arată forma unei distribuţii:

1. Când distribuţia este simetrică.

2. Când distribuţia este asimetrică la dreapta (asimetrie pozitivă).

3. Când distribuţia este asimetrică la stânga (asimetrie negativă).

MeMox

MoMex

MoMex

Page 20: Curs2 3 4 Serii Univariate

2. Boltirea

- este definită prin compararea distribuţiei empirice cu distribuţia normală din punctul de vedere al variaţiei variabilei X şi a frecvenţei ni.

Boltirea poate fi apreciată:

– pe cale grafică: curba frecvenţelor.- numeric: prin calculul indicatorilor boltirii (kurtosis).

Coeficientul de boltire Fisher:

3344

22

42

s

Page 21: Curs2 3 4 Serii Univariate

A.3. Analiza seriei folosind metode graficea. Poligonul frecvenţelor: - construirea acestuia presupune găsirea locului geometric al

punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unirea acestora prin segmente de dreaptă.

- aproximează forma unei distribuţii.b. Histogramac. Curba frecvenţelor:- presupune ajustarea printr-o linie curbă, continuă a

histogramei.- aproximează mai bine forma de distribuţie a colectivităţii

după variabila considerată.

Page 22: Curs2 3 4 Serii Univariate
Page 23: Curs2 3 4 Serii Univariate

d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers” Forma diagramei (D1, Q1, Q2, Q3, D9);

Avantaje:

- permite aprecierea nivelului mediu (Me), dispersiei şi asimetriei unei distribuţiei;

- facilitează compararea mai multor distribuţii (prin reprezentarea simultană a diagramelor).

Exemplu: Pentru o distributie s-au inregistrat valorile: D1=5, Q1=12, Q2=20, Q3=22, D9=25. Sa se interpreteze asimetria distributiei folosind diagrama box-plot.

Page 24: Curs2 3 4 Serii Univariate

Diagrama box-plot

Analysis weighted by NRSTUD

NOTA

11109876543

1

Page 25: Curs2 3 4 Serii Univariate

NOTA_1

NOTA_2

11109876543

Page 26: Curs2 3 4 Serii Univariate

Indicatorii statisticii descriptive în ExcelColumn1  

Mean 8.6

Standard Error 0.347735

Median 8

Mode 10

Standard Deviation 1.904622

Sample Variance 3.627586

Kurtosis -0.14315

Skewness -0.40554

Range 8

Minimum 4

Maximum 12

Sum 258

Count 30

Page 27: Curs2 3 4 Serii Univariate

B. Variabilă continuăB.1 Prezentarea seriei statistice- gruparea unităţilor statistice este realizată pe intervale de

variaţie. Observaţie:- Gruparea pe intervale de variaţie duce la pierderea unei părţi

a informaţiei iniţiale.

B.2. Indicatori ai statisticii descriptive - se calculează în mod identic, prin “discretizarea” variabilei

(calculul mijlocului intervalelor de variaţie).

Page 28: Curs2 3 4 Serii Univariate

B.3. Prelucrarea seriei statistice folosind metode grafice

a. Histograma

b. Poligonul frecvenţelor

c. Curba frecvenţelor

d. Box-plot

Page 29: Curs2 3 4 Serii Univariate

Distribuţia unui eşantion de firme după valoarea profitului (mil. lei), în anul 2012

'ix

i'i nx xi-1-xi ni

0 -10 205 100

10-20 4015 600

20-30 3525 875

30-40 1535 525

40-50 1045 450

TOTAL 120 -2550

Page 30: Curs2 3 4 Serii Univariate

Statistics

Profit120

21.2500

20.3333

15.00

11.52728

132.878

.442

-.484

5.6667

9.6667

11.6667

13.6667

17.1333

20.3333

23.5333

27.6000

30.0000

32.4000

39.4000

ValidN

Mean

Median

Mode

Std. Deviation

Variance

Skewness

Kurtosis

10

20

25

30

40

50

60

70

75

80

90

Percentiles

Page 31: Curs2 3 4 Serii Univariate

50.0040.0030.0020.0010.000.00

Profit

50

40

30

20

10

0

Fre

qu

en

cy

Mean = 21.25Std. Dev. = 11.52728N = 120

Cases weighted by nr.firme

Histogram

Page 32: Curs2 3 4 Serii Univariate

Profit

50.0040.0030.0020.0010.000.00

Cases weighted by nr.firme

Page 33: Curs2 3 4 Serii Univariate

2. Analiza unei serii univariate

2.1. Variabilă cantitativă

A. Variabilă discretă

B. Variabilă continuă

2.2. Variabilă calitativă

I. Tipuri de variabileA. Variabile nominaleB. Variabile ordinale

Page 34: Curs2 3 4 Serii Univariate

III. Indicatori statistici specifici

a) Variabile nominale:

1. Mărimi relative- frecvenţe relative (fi)

2. Indicatori ai tendinţei centrale- modul arată categoria cea mai frecvent observată.

Page 35: Curs2 3 4 Serii Univariate

II. Reprezentare grafică

a) Variabile nominale:• Pentru a reprezenta structura pe categorii la

nivelul unui eşantion se calculează frecvenţe relative;

• Reprezentarea structurii unui eşantion se realizează folosind diagrame de structură: dreptunghiul, pătratul şi cercul de structură (Pie Chart) sau folosing diagrame prin coloane (Bar Chart).

Page 36: Curs2 3 4 Serii Univariate

Religie ni fi (%)

Budism 7 6,80

Catolic 41 39,81

Hinduism 1 0,97

Iudaism 1 0,97

Islam 27 26,21

Ortodox 8 7,77

Protestantism 16 15,53

Taoism 2 1,94

Total 103 100

7%

1%

1%

26%

8%

16%2%

39%

Budism

Catolic

Hinduism

Iudaism

Islam

Ortodox

Protestantism

Taoism

Page 37: Curs2 3 4 Serii Univariate
Page 38: Curs2 3 4 Serii Univariate
Page 39: Curs2 3 4 Serii Univariate

b) Variabile ordinale:1. Mărimi relative- frecvenţe relative (fi)- frecvenţe relative cumulate (Fi)

2. Indicatori ai tendinţei centrale- mediana şi modul.

3. Reprezentare grafica• Histograma• Poligonul frecvenţelor• Box-plot

Page 40: Curs2 3 4 Serii Univariate

Distribuţia medaliilor olimpice obţinute de România la JO după categoria medaliei, în perioada 1924-2012.

Medalia ni fi (%) Ni Fi

Aur 88 29 88 29

Argint 95 31,4 183 60,4

Bronz 120 39,6 303 100

Total 303 100 - -

Page 41: Curs2 3 4 Serii Univariate
Page 42: Curs2 3 4 Serii Univariate
Page 43: Curs2 3 4 Serii Univariate