Serii Univariate

Post on 07-Dec-2015

326 views 4 download

description

Matematica Economica Anul 1

Transcript of Serii Univariate

BAZELE STATISTICIIBAZELE STATISTICII- anul universitar 2014-2015-

Programa analitică

1. Noţiuni introductive

2. Analiza unei serii statistice unidimensionale, folosindmetode graficeşi numerice (variabile numerice saucantitative: indicatori ai tendinţei centrale,indicatori aicantitative: indicatori ai tendinţei centrale,indicatori aidispersieişi indicatori ai formei; variabile nenumericesaucalitative).

3. Analiza unei serii statistice bidimensionale.

4. Indicatori ai seriilor de timp.

Programa analitică5. Probabilităţi şi distribuţii teoretice6. Estimarea parametrilor unei populaţii7. Testarea statistică

2. Analiza unei serii statisticeunidimensionale2.1. Variabile cantitative

A. Variabilă discretă

A.1. Prezentarea seriei (distribuţiei) statistice

- seria simplă X:(xi), cu i=1,m, când n1=n2= … =ni.

- seria cu frecvenţe diferiteX: , când ni≠nj.

X: , cu fi=ni/n.

i

i

n

x

i

i

f

x

• Frecvenţe absolute cumulate crescător (Ni ) sau descrescător (Ni )

- exprimă numărul de unităţi statisticecumulate “până la”sau “peste” nivelul considerat al caracteristicii, adică

valori ≤ xi, respectiv≥ xi.

∑=

− =+↓↓=i

hhiii nnNN

11

∑=

+ =+↑↑=m

ihhiii nnNN 1

• Frecvenţe relative cumulate crescător (Fi )sau descrescător (Fi )

- exprimă ponderea unităţilor statistice cumulate “pânăla” sau “peste” nivelul considerat al caracteristicii, adică

valori ≤ xi, respectiv≥ xi.

∑=

− =+↓↓=i

hhiii ffFF

11

∑=

+ =+↑↑=m

ihhiii ffFF 1

A.2. Analiza seriei folosind metode numerice

Presupune calculul indicatorilor statisticii descriptive,cunoscuţi şi sub denumirea de caracteristici numerice aleunei distribuţii.

A.2.1. Indicatori ai tendinţei centrale (mărimi medii)A.2.1. Indicatori ai tendinţei centrale (mărimi medii)

a. Definire:- mediile sunt acele valori în jurul cărora se repartizează

unităţile unei populaţii.- cele mai importante mărimi medii sunt media aritmetică,

modulşi mediana.

A.2. Analiza seriei folosind metode numerice

b. Media aritmetică ( )

- Media aritmetică este valoarea pe care amobserva-o dacăunităţile statistice ar înregistra aceleaşi valori ale variabilei(dacă nu ar exista variaţii ale valorilor înregistrate de

x

unităţile statistice).

Mod de calcul în cazul seriilor simpleşi seriilor cu frecvenţediferite (variabilă discretă).

� Media simplă:

� Media ponderată.n

xx i

i∑=

sau

Observaţie:Media aritmetică este sensibilă la prezenţa valorilor extreme(outliers).

⋅∑=

ii

ii

i

n

nxx i

ii fxx ⋅∑=

Cele mai importante proprietăţi ale mediei aritmetice:

1. Media unei distribuţii este o valoare internă:

xmin≤ ≤xmax.

2. Media este o mărime normală: suma abaterilor valorilor

x

2. Media este o mărime normală: suma abaterilor valorilorindividuale ale unei variabileX de la media lor este egală cuzero.

c. Modul (Mo)� este valoarea variabilei cea mai frecvent observată într-o

distribuţie, adică valoarea xi care corespunde frecvenţeimaxime (nimax).

Observaţie:Observaţie:� modul poate fi aflat doar în cazul seriilor cu frecvenţe

diferite.� o distribuţie poate avea una, două sau mai multe valori

modale (serii unimodale, bimodale sau plurimodale).

Interpretare: Cele mai multe unităţi înregistrează valoareamodală.

d. Mediana (Me)

- este acea valoare a variabilei unei serii ordonate, crescător saudescrescător, până la care şi peste care sunt distribuite înnumăr egal unităţile colectivităţii: jumătate din unităţi (50%)au valori mai mici decât mediana, iar jumătate (50%) au valorimai mari decât mediana.

- corespunde locului unităţii mediane calculate astfel:

2

1nU Me +=

Aflarea medianei se face diferit în funcţie de tipul seriei:

1. Serii simple:- număr impar de termeni. - număr par de termeni.

2. Serii cu frecvenţe diferite- se calculează unitatea mediană (UMe).- se calculează - se află prima valoare- valoarea xi corespunzătoare acesteia este Me.

Observaţie:mediana nu este influenţată de valorile extreme.

↓iNMe

i UN ↓≥

f. Quartilele

- sunt valori ale variabilei care împart volumul eşantionului în 4 părţiegale.

- reprezentare grafică şi mod de calcul (Q1, Q2, Q3).

g. Decile

- sunt valori ale variabilei care împart volumul eşantionului în 10 părţiegale.

- decila unu (D1) şi decila 9 (D9).

A.2.2. Indicatori ai dispersiei (variaţiei)

Definire:

- dispersia exprimă gradul de variaţie a valorilor individualeale unei variabile faţă de nivelul mediu.

- aprecierea fenomenului de dispersie al unei distribuţii- aprecierea fenomenului de dispersie al unei distribuţiipermite identificarea gradului de reprezentativitate a medieiunei distribuţii.

Indicatori sintetici ai dispersiei:

1. Abaterea medie liniară

, respectiv ∑

∑ ⋅−=

ii

i

n

nxx

dn

xxd i

i∑ −= , respectiv

� arată cu cât variază, în medie, valorile xi ale variabilei faţăde nivelul mediu al distribuţiei, în sens pozitivşi negativ.

∑i

innd =

2. Varianţa

, respectiv ∑

∑ ⋅−=

ii

ii

i

n

nxxs

2

2

)(

n

xxs i

i∑ −=

2

2

)(

Varianţa este întotdeauna pozitivă, nu are unitate de măsură şi nu se interpretează.

Prin ridicarea la pătrat a abaterilor valorilorxi faţăde medie creşte “influenţa” valorilor extremeasupra nivelului varianţei.

3. Abaterea standard (s)� arată cu cât variază, în medie, valorile xi ale variabilei faţă

de nivelul mediu al distribuţiei, în sens pozitivşi negativ.� se calculează ca radical din varianţă.

seexprimă în aceeaşi unitatedemăsură cuceaavariabilei.� seexprimă în aceeaşi unitatedemăsură cuceaavariabilei.

,)( 2

n

xxs i

i∑ −=

∑ ⋅−=

ii

ii

i

n

nxxs

2)(

4. Coeficientul de variaţie (v)

� se exprimă în procente.

100x

sv ⋅=

� valori ridicate ale acestui coeficient (v>50%) arată odistribuţie eterogenă, care se caracterizează printr-ovariaţie mare a valorilor xi faţă de nivelul mediuşi o medienereprezentativă.

� este sensibil faţă de valoarea mediei: cu cât media este maiapropiată de zero, cu atât coeficientul de variaţie este maidificil de folosit (tinde spre infinit).

5. Intervalul interquartilic

IQ=Q3-Q1.

- cuprinde 50% din volumul eşantionului.

� În mod sintetic, cele mai importante caracteristici numericeale unei distribuţii pot fi “cuplate” astfel:

� media - abaterea standard - coeficientul de variaţie;

� mediana - intervalul interquartilic.

A.2.3. Indicatori ai formei1. Asimetria:

- reprezintă o deviere de la forma simetrică a unei distribuţii.

Asimetria poate fi apreciată:Asimetria poate fi apreciată:

- pe cale grafică: curba frecvenţelor, diagrama box-plot.

- pe cale numerică: - prin calculul indicatorilor de asimetrie(Skewness).

Coeficientul de asimetrie Fisher: , cu 33

1s

µγ =n

xxi

i3

3

)(∑ −=µ

Relaţii între cele trei mărimi medii

Arată forma unei distribuţii:

1. Când distribuţia este simetrică.MeMox ==2. Când distribuţia este asimetrică la

dreapta (asimetrie pozitivă).

3. Când distribuţia este asimetrică lastânga (asimetrie negativă).

MoMex >>

MoMex <<

2. Boltirea

- este definită prin compararea distribuţiei empirice cudistribuţia normală din punctul de vedere al variaţieivariabileiX şi a frecvenţei ni.variabileiX şi a frecvenţei ni.

Boltirea poate fi apreciată:

– pe cale grafică: curba frecvenţelor.

- numeric: prin calculul indicatorilor boltirii (kurtosis).

Coeficientul de boltire Fisher:

, cu 3344

22

42 −=−=

s

µµµγ

n

xxi

i4

4

)(∑ −=µ

A.3. Analiza seriei folosind metode graficea. Poligonul frecvenţelor:- construirea acestuia presupune găsirea locului geometric al

punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unireaacestora prin segmente de dreaptă.

- aproximează formauneidistribuţii .- aproximează formauneidistribuţii .b. Histogramac. Curba frecvenţelor- presupune ajustarea printr-o linie curbă, continuă a

histogramei.- aproximează mai bine forma de distribuţie a colectivităţii

după variabila considerată, comparativ cu histograma.

d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers”

� Forma diagramei (D1, Q1, Q2, Q3, D9);

� Avantaje:� Avantaje:

- permite aprecierea nivelului mediu (Me), dispersiei şiasimetriei unei distribuţiei;

- facilitează compararea mai multor distribuţii (prinreprezentarea simultană a diagramelor).

Diagrama box-plot

Analysis weighted by NRSTUD

NOTA

11109876543

1

� identificarea valorilor extreme şi analiza influenţei lor asupra rezultatelor statistice (diagrama box-plot).

Indicatorii statisticii descriptive în ExcelColumn1

Mean 8.6

Standard Error 0.347735

Median 8

Mode 10Mode 10

Standard Deviation 1.904622

Sample Variance 3.627586

Kurtosis -0.14315

Skewness -0.40554

Range 8

Minimum 4

Maximum 12

Sum 258

Count 30

B. Variabilă continuăB.1. Prezentarea seriei statistice

- gruparea unităţilor statistice este realizată pe intervale devariaţie.

Observaţie:Observaţie:

- Gruparea pe intervale de variaţie duce la pierderea unei părţia informaţiei iniţiale.

B.2. Prelucrarea seriei statistice folosind metode grafice

a. Histograma

b. Poligonul frecvenţelor

c. Curba frecvenţelor

B.3. Indicatori ai statisticii descriptiveB.3. Indicatori ai statisticii descriptive

- se calculează în mod identic, prin “discretizarea” variabilei(calculul mijlocului intervalelor de variaţie).

2. Analiza unei serii univariate

2.2. Variabilă calitativă

I. Tipuri de variabileA. Variabile nominaleA. Variabile nominaleB. Variabile ordinale

II. Indicatori specifici si reprezentare grafică

a) Variabile nominale:• Pentru a reprezenta structura pe categorii la nivelul unui

eşantion se calculează frecvenţe relative.• Reprezentarea frecvenţelor pentru un eşantion se realizează

folosind diagramele:Bar ChartsauPie Chart.• Indicatorispecifici: modul.• Indicatorispecifici: modul.

b) Variabile ordinale:• Reprezentarea frecvenţelor pentru un eşantion se realizează

folosind diagramele:Bar ChartsauPie Chart.• Frecvenţe absoluteşi relative.• Indicatori specifici: modulşi quartilele.