C1.Introd.grupare.prezentarea Datelor
-
Author
andreescu-alexandra -
Category
Documents
-
view
39 -
download
4
Embed Size (px)
description
Transcript of C1.Introd.grupare.prezentarea Datelor


StatisticStatisticăăStatisticStatisticăăProfProf..drdr.. Zizi Goschin Zizi Goschin
DepartamentulDepartamentul de de Statistic Statistică şi ă şi eeconometriconometriee

Noţiuni introductive1. Definirea statisticii2. Concepte de bază3. Gruparea datelor

I.Ce este statistica?
Accepţiuni: • Date ex.: statistici ale cursului valutar, şomajului,
ratei inflaţiei etc.• Ştiinţa care studiază aspectele cantitative ale
fenomenelor de masă.
Caracteristici:•Colectivităţi mari•Variabilitatea formelor de manifestare•Incertitudine

1. Colectivitate (populaţie)= un ansamblu de elemente de aceeaşi natură (cel
puțin o trăsătură comună)
• Un grup de persoane/ obiecte /evenimente • Are caracter obiectiv, finit• Delimitată după conţinut, spaţiu şi timp.
Ex. agenţii economici privaţi din Bucureşti în 2009; falimentele din industria turismului în 2008, în jud. Constanţa
II. Concepte de bază

• 1.Colectivitate statică: un stoc existent la un moment dat.
Ex. Populaţia României la 1 iulie 2009,
stocul de produse finite al unui agent economic la 1.02.2012
• 2. Colectivitate dinamică: un proces, o evolutie pe o perioadă de timp.
Ex. Cheltuielile de consum ale populaţiei României în anul 2009, produse
fabricate de un agent economic în luna februarie 2012.

2. Unitate statistică
= elementul de bază al populatiei investigate
A. simplă: o persoană/ obiect
B. complexă: un grup de unităţi simple (subansamblu independent) familia, echipa, firma
Datele sunt înregistrate pentru fiecare unitate statistică.

3.Caracteristica (variabila)= o proprietate, un atribut al unităţilor statistice
Ex. Vârsta persoanei, cifra de afaceri a agentului economic, preţul bunului
Variază de la o unitate statistică la alta
• Variante= mărimi distincte ale unei variabile într-o colectivitate
• Frecvenţa= numărul unităţilor statistice cu aceeaşi variantă (valoare a caracteristicii)

1. Variabilă cronologică (timp)
2. Variabilă teritorială (spaţiu)
3. Variabilă atributivă:
3.1. Calitativă= exprimată în cuvinte (profesia, ramura economică)
3.1.1.Alternativă (binară)= doua forme de manifestare (urban/rural, admis/respins)
3.1.2.Nealternativă
3.2. Cantitativă= numerică
3.2.1.Discretă= se obține prin numărare; valori întregi (nr. copii pe familie, nr. de falimente/an)
3.2.2.Continuă = se obține prin măsurare; orice valoare într-un interval de variaţie (greutatea, profitul)

III. Gruparea datelor= separarea unităţilor colectivităţii în subansambluri
omogene, după o caracteristică de grupare
-Variabile calitative clasificate pe variante
-Variabile cantitative
grupate pe variante (când sunt puţine valori distincte)
grupate pe intervale de variaţie egale (A moderat, variaţie uniformă)
grupate pe intervale de variaţie neegale (A mare, variaţie neuniformă).
Amplitudinea variației:
A=Xmax – Xmin

Grupare pe intervale egale de variaţie:
1.Amplitudinea variaţiei: A=Xmax-Xmin
2.Nr. de grupe k:
a. Ales după mărimea colectivităţii, scopul analizei; în general: 5-20 grupe
b. Calculat (formula Sturges): k=1+3.322 lg n,
unde n=volumul colectivităţii.
2.Mărimea unui interval de grupare:
h = A/k (rotunjire în plus !).
3.Definirea intervalelor (pornind de la Xmin şi adunând repetat h până se ajunge la Xmax):
xmin - xmin+h ; xmin+h - xmin+2h ; xmin+2h – xmin+3h etc.
4.Numărarea unităţilor care aparţin fiecărui interval (frecvenţe absolute)

Ex. Gruparea salariaţilor unei firme după vârstăVârsta: 22, 25, 29, 30, 30, 31, 32, 34, 45, 61.
1.Amplitudinea variațieiA=61-22=39
2.Nr. grupe alesk=4
3.Mărimea intervalului de grupare
h=A/k=9.75≈104.Intervalele de variație
(col.1) și frecvențele absolute (col.2)
Grupe după vârstă*
(ani)
Număr de persoane(frecvenţă absolută)
22-3232-4242-5252-62
6211
Total 10
*Limita inferioară inclusă în interval

Gruparea pe intervale neegale de variaţie: când A este mare şi variaţia neuniformă.
Ex. Firme de construcţii pe clase de mărime, după nr.de salariaţi, în 2006
Clasa de mărime(persoane)
Nr de firme
0-910-49
50-249250 şi peste
2479942111194
168
Total 30372
Sursa: Anuarul statistic al României, 2007

Prezentarea datelor1.Serii statistice
2.Tabele3.Grafice

1. SERII STATISTICE=şiruri de date ordonate rezultate din grupare
1.1. Serii cronologice (de timp) : prezintă valorile unei caracteristici în unităţi de timp succesive.
Exemplu. Producţia lunară a unui bun în 2011
Luna Mar Apr Mai Jun Jul Aug Sept ...
Producţia (mii Euro) 35 51 60 59 62 63 63 ...
1.2.Serii teritoriale: prezintă variaţia în spaţiu a valorilor unei caracteristici statistice.
Exemplu. Vânzarea automobilelor pe regiuni in 2009
Regiunea Nord Sud Est Vest Total
Nr. automobile 860 750 300 90 2000

1.3.Serii (distribuţii) de frecvenţe
- rezultă din gruparea datelor în funcţie de o variabilă: -cantitativă (ex.distribuţia salariaţilor după venit) sau -calitativă (ex. distribuţia salariaţilor după profesie).
- sunt formate din două şiruri corelate:1. variantele/ intervalele de variaţie2. frecvenţele (absolute/relative).
• Frecvenţele absolute ni = numărul de observaţii incluse într-un interval de variaţie.
• Frecvenţele relative ni* = ponderea frecvenţelor absolute corespunzătoare grupelor în total (în suma tuturor frecvenţelor).
100*
%
i
i
i n
nn
i
i
i n
nn*

Distribuţii de frecvenţe absolute şi relative
Exemplu: distribuţia muncitorilor după salariu
Salariu(RON)
765-810
810-855
855-900
900-945
945-990
Total
Număr de muncitori
(ni)7 14 7 5 3 40
Pondereamuncitorilor
(n*i%)17,5 35,0 17,5 12,5 7,5 100

2.TABELE
• Toate seriile statice sunt prezentate în tabele.
Elemente:
titlul general, titlurile interne, unităţile de măsură a datelor, sursa datelor, note explicative.
Tipuri:– Tabele simple – pentru date grupate după o
singură variabilă– Tabele bidimensionale (cu dublă intrare) -
pentru date grupate după două variabile simultan.

Vechimea în muncă
(ani)
Salariu (RON) Total după
vechime720-765
765-810
810-855
855-900
900-945
945-990
2-8 4 2 - - - - 6
8-14 - 2 3 - - 5
14-20 - 3 5 - - - 8
20-26 - - 5 5 4 - 14
26-32 - - 1 1 1 1 4
32-38 - - - 1 - 2 3
Total după
salariu4 7 14 7 5 3 40
Distribuţia salariaţilor după vechimea în muncă şi salariu

3.GRAFICE
• Evidenţiază într-o formă sugestivă distribuţia valorilor, tendiţele de evoluţie, legăturile dintre variabile sau structura colectivităţii.
• Elemente:
titlul, coordonatele (X şi Y), scara de reprezentare, legenda, sursa datelor,
note explicative.
• Fiecare punct al graficului este definit în funcţie de coordonatele sale.

a) Pictogramă cu simboluri multiplicate
3.1.Pictograma foloseşte simboluri pentru a reprezenta informaţia statistică.
• Variante: a) simboluri multiplicate
b) simboluri proportionale• sugestive, uşor de înţeles, dar cu nivel mai redus de
precizie

b) pictogramă cu simboluri proporţionale

3.2. Grafice prin coloane = valorile variabilei sunt reprezentate grafic prin coloane cu baze egale şi înălţimea proporţională cu mărimea variabilei.
Coloane simple – una pentru fiecare grupă

Coloane multiple (grupate) –compară variabile diferite pentru aceleaşi grupe.

Coloane de structură - compară structura grupelor

3.3.Benzi •Simple •Grupate•De structură
Ex.Distribuţia elevilor unei şcoli după desertul preferat(benzi grupate)

Piramida vârstelor


3.4.Cercuri de structură
• sectoarele cercului reprezintă proporţiile grupelor colectivităţii
• Etape:
1.Se calculează frecvenţa relativă a fiecărei grupe.
2.Se înmulţesc frecvenţele cu 360 pentru a obţine dimensiunile sectoarelor în grade.
3.Se delimitează sectoarele cercului şi se colorează/haşurează diferit.

Student response to the poll 'Should the college adopt student uniforms?'

Cercurile proporţionale arată simultan dimensiunea şi structura.

Ex. Evoluţia costurilor de producţie (aceleaşi date, scări de reprezentare diferite)
originea diferită de zero
3.5. Cronograma –> pentru serii cronologice- Valorile variabilei sunt măsurate pe OY, iar pe OX se trec
unităţile de timp- arată variaţia în timp şi tendinţa de evoluţie, dar imaginea
poate fi distorsionată de alegerea scării de reprezentare.


3.6.Corelograma (scatterplot)
• identifică legăturile dintre variabile: variabila independentă pe axa OX, variabila dependentă pe axa OY
• originea graficului este întotdeauna zero (0,0). • fiecare unitate statistică e reprezentată printr-un punct; punctele
nu sunt unite

Cartogramă:
PIB/locuitor in 2004 (% din media UE 27) pe regiuni
Source: Eurostat Regional Yearbook 2007

3.7. Grafice pentru distribuţii de frecvenţe
Histograma
- fiecare grupă e reprezentată printr-o coloană cu suprafaţa proporţională cu frecvenţa absolută a grupei respective
- atunci când caracteristica reprezentată grafic are variaţie continuă, coloanele sunt lipite
- când variaţia e discretă, există spaţii între coloane

Ex. Distributia muncitorilor după producţia zilnică (histogramă)
producţie (buc)
nr.
mun
cito
ri

Poligonul frecvenţelor se obţine unind vârfurile coloanelor histogramei.
Ex. Distributia muncitorilor după producţia zilnică (histogramă şi poligonul frecvenţelor)
producţie (buc)
nr.
mun
cito
ri

Curbele frecvenţelor cumulate (crescător/ descrescător)
• Frecvenţa cumulată crescător a unei grupe este numărul de unităţi statistice cu valori sub limita superioară a intervalului de variaţie.
-> pentru reprezentarea grafică se folosesc limitele superioare ale intervalelor de grupare.
• Frecvenţa cumulată descrescător a unei grupe este numărul de unităţi statistice cu valori peste limita inferioară a intervalului de variaţie.
-> pentru reprezentarea grafică se folosesc limitele inferioare ale intervalelor de grupare

Productia (buc)
Număr de muncitori
(ni)
Frecvenţe cumulate
Crescător Descrescător
0 1 3 4
sub 120 10 10 200
120-140 18 28 190
140-160 23 51 172
160-180 38 89 149
180-200 51 140 111
200-220 40 180 60
220-240 15 195 20
240 şi peste 5 200 5
Total 200 - -

0
25
50
75
100
125
150
175
200
225
100 120 140 160 180 200 220 240 260producţia (buc.)
nr. m
unci
tori
Ex. Curbele frecvenţelor cumulate

Selectarea tipului de grafic– cerc sau coloană de structură pentru descrierea
componentelor colectivităţii (structura) – coloane/ benzi pentru compararea unor variabile
diferite pentru aceleaşi grupe, pt serii de timp şi teritoriale
– cronograma pentru serii de timp– corelogramă pentru evidenţierea legăturii dintre
două variabile– histogramă, poligonul frecvenţelor şi curbele
frecvenţelor cumulate pentru distribuţii de frecvenţe

Erori de reprezentare grafică
Prea multe
variabile

Variatie nesemnificativă:
Fig. Numărul adulţilor tineri care fac drumeţii săptămânale, după vârstă, 1996 - 2002

origine incorectă a graficului
lipsă
Corect:Incorect:

1.Cheltuieli guvernamentale, 1930-1980
2.Ponderea cheltuielilor guvernamentaleîn PIB, 1930-1980
Valori absolute, nedeflaţionate (fig.1) în locul mărimilor relative (fig.2)

“În timpurile străvechi nu exista
statistica, aşa că oamenii erau nevoiţi să recurgă la poveşti. De aici
exagerările grosolane ale literaturii primitive: giganţi, minuni, miracole...
Ceea ce ei obţineau cu minciuni, noi realizăm cu statistica.
În fond e acelaşi lucru!”
Anonim