Serii Univariate

33
BAZELE STATISTICII BAZELE STATISTICII - anul universitar 2014-2015-

description

Matematica Economica Anul 1

Transcript of Serii Univariate

Page 1: Serii Univariate

BAZELE STATISTICIIBAZELE STATISTICII- anul universitar 2014-2015-

Page 2: Serii Univariate

Programa analitică

1. Noţiuni introductive

2. Analiza unei serii statistice unidimensionale, folosindmetode graficeşi numerice (variabile numerice saucantitative: indicatori ai tendinţei centrale,indicatori aicantitative: indicatori ai tendinţei centrale,indicatori aidispersieişi indicatori ai formei; variabile nenumericesaucalitative).

3. Analiza unei serii statistice bidimensionale.

4. Indicatori ai seriilor de timp.

Page 3: Serii Univariate

Programa analitică5. Probabilităţi şi distribuţii teoretice6. Estimarea parametrilor unei populaţii7. Testarea statistică

Page 4: Serii Univariate

2. Analiza unei serii statisticeunidimensionale2.1. Variabile cantitative

A. Variabilă discretă

A.1. Prezentarea seriei (distribuţiei) statistice

- seria simplă X:(xi), cu i=1,m, când n1=n2= … =ni.

- seria cu frecvenţe diferiteX: , când ni≠nj.

X: , cu fi=ni/n.

i

i

n

x

i

i

f

x

Page 5: Serii Univariate

• Frecvenţe absolute cumulate crescător (Ni ) sau descrescător (Ni )

- exprimă numărul de unităţi statisticecumulate “până la”sau “peste” nivelul considerat al caracteristicii, adică

valori ≤ xi, respectiv≥ xi.

∑=

− =+↓↓=i

hhiii nnNN

11

∑=

+ =+↑↑=m

ihhiii nnNN 1

Page 6: Serii Univariate

• Frecvenţe relative cumulate crescător (Fi )sau descrescător (Fi )

- exprimă ponderea unităţilor statistice cumulate “pânăla” sau “peste” nivelul considerat al caracteristicii, adică

valori ≤ xi, respectiv≥ xi.

∑=

− =+↓↓=i

hhiii ffFF

11

∑=

+ =+↑↑=m

ihhiii ffFF 1

Page 7: Serii Univariate

A.2. Analiza seriei folosind metode numerice

Presupune calculul indicatorilor statisticii descriptive,cunoscuţi şi sub denumirea de caracteristici numerice aleunei distribuţii.

A.2.1. Indicatori ai tendinţei centrale (mărimi medii)A.2.1. Indicatori ai tendinţei centrale (mărimi medii)

a. Definire:- mediile sunt acele valori în jurul cărora se repartizează

unităţile unei populaţii.- cele mai importante mărimi medii sunt media aritmetică,

modulşi mediana.

Page 8: Serii Univariate

A.2. Analiza seriei folosind metode numerice

b. Media aritmetică ( )

- Media aritmetică este valoarea pe care amobserva-o dacăunităţile statistice ar înregistra aceleaşi valori ale variabilei(dacă nu ar exista variaţii ale valorilor înregistrate de

x

unităţile statistice).

Page 9: Serii Univariate

Mod de calcul în cazul seriilor simpleşi seriilor cu frecvenţediferite (variabilă discretă).

� Media simplă:

� Media ponderată.n

xx i

i∑=

sau

Observaţie:Media aritmetică este sensibilă la prezenţa valorilor extreme(outliers).

⋅∑=

ii

ii

i

n

nxx i

ii fxx ⋅∑=

Page 10: Serii Univariate

Cele mai importante proprietăţi ale mediei aritmetice:

1. Media unei distribuţii este o valoare internă:

xmin≤ ≤xmax.

2. Media este o mărime normală: suma abaterilor valorilor

x

2. Media este o mărime normală: suma abaterilor valorilorindividuale ale unei variabileX de la media lor este egală cuzero.

Page 11: Serii Univariate

c. Modul (Mo)� este valoarea variabilei cea mai frecvent observată într-o

distribuţie, adică valoarea xi care corespunde frecvenţeimaxime (nimax).

Observaţie:Observaţie:� modul poate fi aflat doar în cazul seriilor cu frecvenţe

diferite.� o distribuţie poate avea una, două sau mai multe valori

modale (serii unimodale, bimodale sau plurimodale).

Interpretare: Cele mai multe unităţi înregistrează valoareamodală.

Page 12: Serii Univariate

d. Mediana (Me)

- este acea valoare a variabilei unei serii ordonate, crescător saudescrescător, până la care şi peste care sunt distribuite înnumăr egal unităţile colectivităţii: jumătate din unităţi (50%)au valori mai mici decât mediana, iar jumătate (50%) au valorimai mari decât mediana.

- corespunde locului unităţii mediane calculate astfel:

2

1nU Me +=

Page 13: Serii Univariate

Aflarea medianei se face diferit în funcţie de tipul seriei:

1. Serii simple:- număr impar de termeni. - număr par de termeni.

2. Serii cu frecvenţe diferite- se calculează unitatea mediană (UMe).- se calculează - se află prima valoare- valoarea xi corespunzătoare acesteia este Me.

Observaţie:mediana nu este influenţată de valorile extreme.

↓iNMe

i UN ↓≥

Page 14: Serii Univariate

f. Quartilele

- sunt valori ale variabilei care împart volumul eşantionului în 4 părţiegale.

- reprezentare grafică şi mod de calcul (Q1, Q2, Q3).

g. Decile

- sunt valori ale variabilei care împart volumul eşantionului în 10 părţiegale.

- decila unu (D1) şi decila 9 (D9).

Page 15: Serii Univariate

A.2.2. Indicatori ai dispersiei (variaţiei)

Definire:

- dispersia exprimă gradul de variaţie a valorilor individualeale unei variabile faţă de nivelul mediu.

- aprecierea fenomenului de dispersie al unei distribuţii- aprecierea fenomenului de dispersie al unei distribuţiipermite identificarea gradului de reprezentativitate a medieiunei distribuţii.

Page 16: Serii Univariate

Indicatori sintetici ai dispersiei:

1. Abaterea medie liniară

, respectiv ∑

∑ ⋅−=

ii

i

n

nxx

dn

xxd i

i∑ −= , respectiv

� arată cu cât variază, în medie, valorile xi ale variabilei faţăde nivelul mediu al distribuţiei, în sens pozitivşi negativ.

∑i

innd =

Page 17: Serii Univariate

2. Varianţa

, respectiv ∑

∑ ⋅−=

ii

ii

i

n

nxxs

2

2

)(

n

xxs i

i∑ −=

2

2

)(

Varianţa este întotdeauna pozitivă, nu are unitate de măsură şi nu se interpretează.

Prin ridicarea la pătrat a abaterilor valorilorxi faţăde medie creşte “influenţa” valorilor extremeasupra nivelului varianţei.

Page 18: Serii Univariate

3. Abaterea standard (s)� arată cu cât variază, în medie, valorile xi ale variabilei faţă

de nivelul mediu al distribuţiei, în sens pozitivşi negativ.� se calculează ca radical din varianţă.

seexprimă în aceeaşi unitatedemăsură cuceaavariabilei.� seexprimă în aceeaşi unitatedemăsură cuceaavariabilei.

,)( 2

n

xxs i

i∑ −=

∑ ⋅−=

ii

ii

i

n

nxxs

2)(

Page 19: Serii Univariate

4. Coeficientul de variaţie (v)

� se exprimă în procente.

100x

sv ⋅=

� valori ridicate ale acestui coeficient (v>50%) arată odistribuţie eterogenă, care se caracterizează printr-ovariaţie mare a valorilor xi faţă de nivelul mediuşi o medienereprezentativă.

� este sensibil faţă de valoarea mediei: cu cât media este maiapropiată de zero, cu atât coeficientul de variaţie este maidificil de folosit (tinde spre infinit).

Page 20: Serii Univariate

5. Intervalul interquartilic

IQ=Q3-Q1.

- cuprinde 50% din volumul eşantionului.

� În mod sintetic, cele mai importante caracteristici numericeale unei distribuţii pot fi “cuplate” astfel:

� media - abaterea standard - coeficientul de variaţie;

� mediana - intervalul interquartilic.

Page 21: Serii Univariate

A.2.3. Indicatori ai formei1. Asimetria:

- reprezintă o deviere de la forma simetrică a unei distribuţii.

Asimetria poate fi apreciată:Asimetria poate fi apreciată:

- pe cale grafică: curba frecvenţelor, diagrama box-plot.

- pe cale numerică: - prin calculul indicatorilor de asimetrie(Skewness).

Coeficientul de asimetrie Fisher: , cu 33

1s

µγ =n

xxi

i3

3

)(∑ −=µ

Page 22: Serii Univariate

Relaţii între cele trei mărimi medii

Arată forma unei distribuţii:

1. Când distribuţia este simetrică.MeMox ==2. Când distribuţia este asimetrică la

dreapta (asimetrie pozitivă).

3. Când distribuţia este asimetrică lastânga (asimetrie negativă).

MoMex >>

MoMex <<

Page 23: Serii Univariate

2. Boltirea

- este definită prin compararea distribuţiei empirice cudistribuţia normală din punctul de vedere al variaţieivariabileiX şi a frecvenţei ni.variabileiX şi a frecvenţei ni.

Boltirea poate fi apreciată:

– pe cale grafică: curba frecvenţelor.

- numeric: prin calculul indicatorilor boltirii (kurtosis).

Coeficientul de boltire Fisher:

, cu 3344

22

42 −=−=

s

µµµγ

n

xxi

i4

4

)(∑ −=µ

Page 24: Serii Univariate

A.3. Analiza seriei folosind metode graficea. Poligonul frecvenţelor:- construirea acestuia presupune găsirea locului geometric al

punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unireaacestora prin segmente de dreaptă.

- aproximează formauneidistribuţii .- aproximează formauneidistribuţii .b. Histogramac. Curba frecvenţelor- presupune ajustarea printr-o linie curbă, continuă a

histogramei.- aproximează mai bine forma de distribuţie a colectivităţii

după variabila considerată, comparativ cu histograma.

Page 25: Serii Univariate
Page 26: Serii Univariate

d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers”

� Forma diagramei (D1, Q1, Q2, Q3, D9);

� Avantaje:� Avantaje:

- permite aprecierea nivelului mediu (Me), dispersiei şiasimetriei unei distribuţiei;

- facilitează compararea mai multor distribuţii (prinreprezentarea simultană a diagramelor).

Page 27: Serii Univariate

Diagrama box-plot

Analysis weighted by NRSTUD

NOTA

11109876543

1

Page 28: Serii Univariate

� identificarea valorilor extreme şi analiza influenţei lor asupra rezultatelor statistice (diagrama box-plot).

Page 29: Serii Univariate

Indicatorii statisticii descriptive în ExcelColumn1

Mean 8.6

Standard Error 0.347735

Median 8

Mode 10Mode 10

Standard Deviation 1.904622

Sample Variance 3.627586

Kurtosis -0.14315

Skewness -0.40554

Range 8

Minimum 4

Maximum 12

Sum 258

Count 30

Page 30: Serii Univariate

B. Variabilă continuăB.1. Prezentarea seriei statistice

- gruparea unităţilor statistice este realizată pe intervale devariaţie.

Observaţie:Observaţie:

- Gruparea pe intervale de variaţie duce la pierderea unei părţia informaţiei iniţiale.

B.2. Prelucrarea seriei statistice folosind metode grafice

a. Histograma

Page 31: Serii Univariate

b. Poligonul frecvenţelor

c. Curba frecvenţelor

B.3. Indicatori ai statisticii descriptiveB.3. Indicatori ai statisticii descriptive

- se calculează în mod identic, prin “discretizarea” variabilei(calculul mijlocului intervalelor de variaţie).

Page 32: Serii Univariate

2. Analiza unei serii univariate

2.2. Variabilă calitativă

I. Tipuri de variabileA. Variabile nominaleA. Variabile nominaleB. Variabile ordinale

Page 33: Serii Univariate

II. Indicatori specifici si reprezentare grafică

a) Variabile nominale:• Pentru a reprezenta structura pe categorii la nivelul unui

eşantion se calculează frecvenţe relative.• Reprezentarea frecvenţelor pentru un eşantion se realizează

folosind diagramele:Bar ChartsauPie Chart.• Indicatorispecifici: modul.• Indicatorispecifici: modul.

b) Variabile ordinale:• Reprezentarea frecvenţelor pentru un eşantion se realizează

folosind diagramele:Bar ChartsauPie Chart.• Frecvenţe absoluteşi relative.• Indicatori specifici: modulşi quartilele.