C1.Introd.grupare.prezentarea Datelor

of 47 /47

Embed Size (px)

description

statistica

Transcript of C1.Introd.grupare.prezentarea Datelor

Page 1: C1.Introd.grupare.prezentarea Datelor
Page 2: C1.Introd.grupare.prezentarea Datelor

StatisticStatisticăăStatisticStatisticăăProfProf..drdr.. Zizi Goschin Zizi Goschin

DepartamentulDepartamentul de de Statistic Statistică şi ă şi eeconometriconometriee

[email protected]

Page 3: C1.Introd.grupare.prezentarea Datelor

Noţiuni introductive1. Definirea statisticii2. Concepte de bază3. Gruparea datelor

Page 4: C1.Introd.grupare.prezentarea Datelor

I.Ce este statistica?

Accepţiuni: • Date ex.: statistici ale cursului valutar, şomajului,

ratei inflaţiei etc.• Ştiinţa care studiază aspectele cantitative ale

fenomenelor de masă.

Caracteristici:•Colectivităţi mari•Variabilitatea formelor de manifestare•Incertitudine

Page 5: C1.Introd.grupare.prezentarea Datelor

1. Colectivitate (populaţie)= un ansamblu de elemente de aceeaşi natură (cel

puțin o trăsătură comună)

• Un grup de persoane/ obiecte /evenimente • Are caracter obiectiv, finit• Delimitată după conţinut, spaţiu şi timp.

Ex. agenţii economici privaţi din Bucureşti în 2009; falimentele din industria turismului în 2008, în jud. Constanţa

II. Concepte de bază

Page 6: C1.Introd.grupare.prezentarea Datelor

• 1.Colectivitate statică: un stoc existent la un moment dat.

Ex. Populaţia României la 1 iulie 2009,

stocul de produse finite al unui agent economic la 1.02.2012

• 2. Colectivitate dinamică: un proces, o evolutie pe o perioadă de timp.

Ex. Cheltuielile de consum ale populaţiei României în anul 2009, produse

fabricate de un agent economic în luna februarie 2012.

Page 7: C1.Introd.grupare.prezentarea Datelor

2. Unitate statistică

= elementul de bază al populatiei investigate

A. simplă: o persoană/ obiect

B. complexă: un grup de unităţi simple (subansamblu independent) familia, echipa, firma

Datele sunt înregistrate pentru fiecare unitate statistică.

Page 8: C1.Introd.grupare.prezentarea Datelor

3.Caracteristica (variabila)= o proprietate, un atribut al unităţilor statistice

Ex. Vârsta persoanei, cifra de afaceri a agentului economic, preţul bunului

Variază de la o unitate statistică la alta

• Variante= mărimi distincte ale unei variabile într-o colectivitate

• Frecvenţa= numărul unităţilor statistice cu aceeaşi variantă (valoare a caracteristicii)

Page 9: C1.Introd.grupare.prezentarea Datelor

1. Variabilă cronologică (timp)

2. Variabilă teritorială (spaţiu)

3. Variabilă atributivă:

3.1. Calitativă= exprimată în cuvinte (profesia, ramura economică)

3.1.1.Alternativă (binară)= doua forme de manifestare (urban/rural, admis/respins)

3.1.2.Nealternativă

3.2. Cantitativă= numerică

3.2.1.Discretă= se obține prin numărare; valori întregi (nr. copii pe familie, nr. de falimente/an)

3.2.2.Continuă = se obține prin măsurare; orice valoare într-un interval de variaţie (greutatea, profitul)

Page 10: C1.Introd.grupare.prezentarea Datelor

III. Gruparea datelor= separarea unităţilor colectivităţii în subansambluri

omogene, după o caracteristică de grupare

-Variabile calitative clasificate pe variante

-Variabile cantitative

grupate pe variante (când sunt puţine valori distincte)

grupate pe intervale de variaţie egale (A moderat, variaţie uniformă)

grupate pe intervale de variaţie neegale (A mare, variaţie neuniformă).

Amplitudinea variației:

A=Xmax – Xmin

Page 11: C1.Introd.grupare.prezentarea Datelor

Grupare pe intervale egale de variaţie:

1.Amplitudinea variaţiei: A=Xmax-Xmin

2.Nr. de grupe k:

a. Ales după mărimea colectivităţii, scopul analizei; în general: 5-20 grupe

b. Calculat (formula Sturges): k=1+3.322 lg n,

unde n=volumul colectivităţii.

2.Mărimea unui interval de grupare:

h = A/k (rotunjire în plus !).

3.Definirea intervalelor (pornind de la Xmin şi adunând repetat h până se ajunge la Xmax):

xmin - xmin+h ; xmin+h - xmin+2h ; xmin+2h – xmin+3h etc.

4.Numărarea unităţilor care aparţin fiecărui interval (frecvenţe absolute)

Page 12: C1.Introd.grupare.prezentarea Datelor

Ex. Gruparea salariaţilor unei firme după vârstăVârsta: 22, 25, 29, 30, 30, 31, 32, 34, 45, 61.

1.Amplitudinea variațieiA=61-22=39

2.Nr. grupe alesk=4

3.Mărimea intervalului de grupare

h=A/k=9.75≈104.Intervalele de variație

(col.1) și frecvențele absolute (col.2)

Grupe după vârstă*

(ani)

Număr de persoane(frecvenţă absolută)

22-3232-4242-5252-62

6211

Total 10

*Limita inferioară inclusă în interval

Page 13: C1.Introd.grupare.prezentarea Datelor

Gruparea pe intervale neegale de variaţie: când A este mare şi variaţia neuniformă.

Ex. Firme de construcţii pe clase de mărime, după nr.de salariaţi, în 2006

Clasa de mărime(persoane)

Nr de firme

0-910-49

50-249250 şi peste

2479942111194

168

Total 30372

Sursa: Anuarul statistic al României, 2007

Page 14: C1.Introd.grupare.prezentarea Datelor

Prezentarea datelor1.Serii statistice

2.Tabele3.Grafice

Page 15: C1.Introd.grupare.prezentarea Datelor

1. SERII STATISTICE=şiruri de date ordonate rezultate din grupare

1.1. Serii cronologice (de timp) : prezintă valorile unei caracteristici în unităţi de timp succesive.

Exemplu. Producţia lunară a unui bun în 2011

Luna Mar Apr Mai Jun Jul Aug Sept ...

Producţia (mii Euro) 35 51 60 59 62 63 63 ...

1.2.Serii teritoriale: prezintă variaţia în spaţiu a valorilor unei caracteristici statistice.

Exemplu. Vânzarea automobilelor pe regiuni in 2009

Regiunea Nord Sud Est Vest Total

Nr. automobile 860 750 300 90 2000

Page 16: C1.Introd.grupare.prezentarea Datelor

1.3.Serii (distribuţii) de frecvenţe

- rezultă din gruparea datelor în funcţie de o variabilă: -cantitativă (ex.distribuţia salariaţilor după venit) sau -calitativă (ex. distribuţia salariaţilor după profesie).

- sunt formate din două şiruri corelate:1. variantele/ intervalele de variaţie2. frecvenţele (absolute/relative).

• Frecvenţele absolute ni = numărul de observaţii incluse într-un interval de variaţie.

• Frecvenţele relative ni* = ponderea frecvenţelor absolute corespunzătoare grupelor în total (în suma tuturor frecvenţelor).

100*

%

i

i

i n

nn

i

i

i n

nn*

Page 17: C1.Introd.grupare.prezentarea Datelor

Distribuţii de frecvenţe absolute şi relative

Exemplu: distribuţia muncitorilor după salariu

Salariu(RON)

765-810

810-855

855-900

900-945

945-990

Total

Număr de muncitori

(ni)7 14 7 5 3 40

Pondereamuncitorilor

(n*i%)17,5 35,0 17,5 12,5 7,5 100

Page 18: C1.Introd.grupare.prezentarea Datelor

2.TABELE

• Toate seriile statice sunt prezentate în tabele.

Elemente:

titlul general, titlurile interne, unităţile de măsură a datelor, sursa datelor, note explicative.

Tipuri:– Tabele simple – pentru date grupate după o

singură variabilă– Tabele bidimensionale (cu dublă intrare) -

pentru date grupate după două variabile simultan.

Page 19: C1.Introd.grupare.prezentarea Datelor

Vechimea în muncă

(ani)

Salariu (RON) Total după

vechime720-765

765-810

810-855

855-900

900-945

945-990

2-8 4 2 - - - - 6

8-14 - 2 3 - - 5

14-20 - 3 5 - - - 8

20-26 - - 5 5 4 - 14

26-32 - - 1 1 1 1 4

32-38 - - - 1 - 2 3

Total după

salariu4 7 14 7 5 3 40

Distribuţia salariaţilor după vechimea în muncă şi salariu

Page 20: C1.Introd.grupare.prezentarea Datelor

3.GRAFICE

• Evidenţiază într-o formă sugestivă distribuţia valorilor, tendiţele de evoluţie, legăturile dintre variabile sau structura colectivităţii.

• Elemente:

titlul, coordonatele (X şi Y), scara de reprezentare, legenda, sursa datelor,

note explicative.

• Fiecare punct al graficului este definit în funcţie de coordonatele sale.

Page 21: C1.Introd.grupare.prezentarea Datelor

a) Pictogramă cu simboluri multiplicate

3.1.Pictograma foloseşte simboluri pentru a reprezenta informaţia statistică.

• Variante: a) simboluri multiplicate

b) simboluri proportionale• sugestive, uşor de înţeles, dar cu nivel mai redus de

precizie

Page 22: C1.Introd.grupare.prezentarea Datelor

b) pictogramă cu simboluri proporţionale

Page 23: C1.Introd.grupare.prezentarea Datelor

3.2. Grafice prin coloane = valorile variabilei sunt reprezentate grafic prin coloane cu baze egale şi înălţimea proporţională cu mărimea variabilei.

Coloane simple – una pentru fiecare grupă

Page 24: C1.Introd.grupare.prezentarea Datelor

Coloane multiple (grupate) –compară variabile diferite pentru aceleaşi grupe.

Page 25: C1.Introd.grupare.prezentarea Datelor

Coloane de structură - compară structura grupelor

Page 26: C1.Introd.grupare.prezentarea Datelor

3.3.Benzi •Simple •Grupate•De structură

Ex.Distribuţia elevilor unei şcoli după desertul preferat(benzi grupate)

Page 27: C1.Introd.grupare.prezentarea Datelor

Piramida vârstelor

Page 28: C1.Introd.grupare.prezentarea Datelor
Page 29: C1.Introd.grupare.prezentarea Datelor

3.4.Cercuri de structură

• sectoarele cercului reprezintă proporţiile grupelor colectivităţii

• Etape:

1.Se calculează frecvenţa relativă a fiecărei grupe.

2.Se înmulţesc frecvenţele cu 360 pentru a obţine dimensiunile sectoarelor în grade.

3.Se delimitează sectoarele cercului şi se colorează/haşurează diferit.

Page 30: C1.Introd.grupare.prezentarea Datelor

Student response to the poll 'Should the college adopt student uniforms?'

Page 31: C1.Introd.grupare.prezentarea Datelor

Cercurile proporţionale arată simultan dimensiunea şi structura.

Page 32: C1.Introd.grupare.prezentarea Datelor

Ex. Evoluţia costurilor de producţie (aceleaşi date, scări de reprezentare diferite)

originea diferită de zero

3.5. Cronograma –> pentru serii cronologice- Valorile variabilei sunt măsurate pe OY, iar pe OX se trec

unităţile de timp- arată variaţia în timp şi tendinţa de evoluţie, dar imaginea

poate fi distorsionată de alegerea scării de reprezentare.

Page 33: C1.Introd.grupare.prezentarea Datelor
Page 34: C1.Introd.grupare.prezentarea Datelor

3.6.Corelograma (scatterplot)

• identifică legăturile dintre variabile: variabila independentă pe axa OX, variabila dependentă pe axa OY

• originea graficului este întotdeauna zero (0,0). • fiecare unitate statistică e reprezentată printr-un punct; punctele

nu sunt unite

Page 35: C1.Introd.grupare.prezentarea Datelor

Cartogramă:

PIB/locuitor in 2004 (% din media UE 27) pe regiuni

Source: Eurostat Regional Yearbook 2007

Page 36: C1.Introd.grupare.prezentarea Datelor

3.7. Grafice pentru distribuţii de frecvenţe

Histograma

- fiecare grupă e reprezentată printr-o coloană cu suprafaţa proporţională cu frecvenţa absolută a grupei respective

- atunci când caracteristica reprezentată grafic are variaţie continuă, coloanele sunt lipite

- când variaţia e discretă, există spaţii între coloane

Page 37: C1.Introd.grupare.prezentarea Datelor

Ex. Distributia muncitorilor după producţia zilnică (histogramă)

producţie (buc)

nr.

mun

cito

ri

Page 38: C1.Introd.grupare.prezentarea Datelor

Poligonul frecvenţelor se obţine unind vârfurile coloanelor histogramei.

Ex. Distributia muncitorilor după producţia zilnică (histogramă şi poligonul frecvenţelor)

producţie (buc)

nr.

mun

cito

ri

Page 39: C1.Introd.grupare.prezentarea Datelor

Curbele frecvenţelor cumulate (crescător/ descrescător)

• Frecvenţa cumulată crescător a unei grupe este numărul de unităţi statistice cu valori sub limita superioară a intervalului de variaţie.

-> pentru reprezentarea grafică se folosesc limitele superioare ale intervalelor de grupare.

• Frecvenţa cumulată descrescător a unei grupe este numărul de unităţi statistice cu valori peste limita inferioară a intervalului de variaţie.

-> pentru reprezentarea grafică se folosesc limitele inferioare ale intervalelor de grupare

Page 40: C1.Introd.grupare.prezentarea Datelor

Productia (buc)

Număr de muncitori

(ni)

Frecvenţe cumulate

Crescător Descrescător

0 1 3 4

sub 120 10 10 200

120-140 18 28 190

140-160 23 51 172

160-180 38 89 149

180-200 51 140 111

200-220 40 180 60

220-240 15 195 20

240 şi peste 5 200 5

Total 200 - -

Page 41: C1.Introd.grupare.prezentarea Datelor

0

25

50

75

100

125

150

175

200

225

100 120 140 160 180 200 220 240 260producţia (buc.)

nr. m

unci

tori

Ex. Curbele frecvenţelor cumulate

Page 42: C1.Introd.grupare.prezentarea Datelor

Selectarea tipului de grafic– cerc sau coloană de structură pentru descrierea

componentelor colectivităţii (structura) – coloane/ benzi pentru compararea unor variabile

diferite pentru aceleaşi grupe, pt serii de timp şi teritoriale

– cronograma pentru serii de timp– corelogramă pentru evidenţierea legăturii dintre

două variabile– histogramă, poligonul frecvenţelor şi curbele

frecvenţelor cumulate pentru distribuţii de frecvenţe

Page 43: C1.Introd.grupare.prezentarea Datelor

Erori de reprezentare grafică

Prea multe

variabile

Page 44: C1.Introd.grupare.prezentarea Datelor

Variatie nesemnificativă:

Fig. Numărul adulţilor tineri care fac drumeţii săptămânale, după vârstă, 1996 - 2002

Page 45: C1.Introd.grupare.prezentarea Datelor

origine incorectă a graficului

lipsă

Corect:Incorect:

Page 46: C1.Introd.grupare.prezentarea Datelor

1.Cheltuieli guvernamentale, 1930-1980

2.Ponderea cheltuielilor guvernamentaleîn PIB, 1930-1980

Valori absolute, nedeflaţionate (fig.1) în locul mărimilor relative (fig.2)

Page 47: C1.Introd.grupare.prezentarea Datelor

“În timpurile străvechi nu exista

statistica, aşa că oamenii erau nevoiţi să recurgă la poveşti. De aici

exagerările grosolane ale literaturii primitive: giganţi, minuni, miracole...

Ceea ce ei obţineau cu minciuni, noi realizăm cu statistica.

În fond e acelaşi lucru!”

Anonim