Probleme Rezolvate Statistica - Partea Intai

35
Statistica –probleme rezolvate – partea I Pb. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37. Se cere: a) să se calculeze şi să se interpreteze indicatorii tendinţei centrale; b) să se stabilească dacă media este reprezentativă; c) să se calculeze şi să se interpreteze cuartilele acestei serii de date; d) optiunea Descriptive Statistics din Data Analysis Excel; e) să se analizeze asimetria acestei serii de date; f) stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile: f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei; f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei; f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei; f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei; f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers în raport cu datele iniţiale; f6) coeficientul de variaţie este 26,33%; f7) media este reprezentativă. Rezolvare: a) o Populaţia statistică este mulţimea lucrarilor de grafică puse în vânzare la licitaţiile cu obiecte de artă. o Unitatea statistică este o lucrare de grafică pusă în vânzare la o licitaţie. o Variabila statistică sau caracteristica de interes, notată cu X, arată preţul de vânzare, în sute lei, al unei lucrări de grafică. o Pentru un eşantion de volum n=13 unităţi statistice (lucrări de grafică), se cunoaşte preţul de vânzare, adică avem următoarea serie statistică simplă sau nesistematizată de date numerice: {x 1 =51, x 2 =60, x 3 =72, x 4 =35, x 5 =32, x 6 =57, x 7 =63, x 8 =61, x 9 =48, x 10 =33, x 11 =67, x 12 =54, x 13 =x n =37}. o Pentru o serie simplă de date numerice , 1

Transcript of Probleme Rezolvate Statistica - Partea Intai

Page 1: Probleme Rezolvate Statistica - Partea Intai

Statistica –probleme rezolvate – partea I

Pb. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.Se cere:

a) să se calculeze şi să se interpreteze indicatorii tendinţei centrale;b) să se stabilească dacă media este reprezentativă;c) să se calculeze şi să se interpreteze cuartilele acestei serii de date;d) optiunea Descriptive Statistics din Data Analysis Excel;e) să se analizeze asimetria acestei serii de date;f) stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile:

f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei;f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt

outliers în raport cu datele iniţiale;f6) coeficientul de variaţie este 26,33%;f7) media este reprezentativă.

Rezolvare: a)o Populaţia statistică este mulţimea lucrarilor de grafică puse în vânzare la licitaţiile cu obiecte de artă.o Unitatea statistică este o lucrare de grafică pusă în vânzare la o licitaţie.o Variabila statistică sau caracteristica de interes, notată cu X, arată preţul de vânzare, în sute lei, al unei

lucrări de grafică.o Pentru un eşantion de volum n=13 unităţi statistice (lucrări de grafică), se cunoaşte preţul de vânzare,

adică avem următoarea serie statistică simplă sau nesistematizată de date numerice:{x1=51, x2=60, x3=72, x4=35, x5=32, x6=57, x7=63, x8=61, x9=48, x10=33, x11=67, x12=54, x13=xn=37}.

o Pentru o serie simplă de date numerice ,

media aritmetică (Mean) este .

Nr. crt. Valorile ale variabilei X - preţul de vânzare (sute lei)1 x1= 51 2 x2= 603 x3= 724 x4= 355 x5= 326 x6= 577 x7= 638 x8= 619 x9= 4810 x10=3311 x11=6712 x12=5413 x13=37

670

1

Page 2: Probleme Rezolvate Statistica - Partea Intai

o În cazul nostru, sute lei, adică preţul mediu de

vânzare al unei lucrări de grafică este de 51,54 sute lei.

o Pentru a determina Mediana (Median) unei serii simple de date, se parcurg următoarele etape: Valorile seriei de date se ordonează crescător: , unde

reprezintă a i-a valoare din şirul ordonat crescător de date numerice (astfel, este prima valoare din şirul ordonat crescător, adică cea mai mică valoare, este următoarea valoare în ordine crescătoare şi aşa mai departe până la , care este cea mai mare valoare).

Pentru această serie, cele n=13 valori ordonate crescător sunt:x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72.

Se stabileşte locul medianei:

Mediana este a 7-a valoare din şirul ordonat de date, adică sute de lei (valoarea din mijlocul seriei ordonate de date).

Interpretarea: jumătate dintre unităţile statistice din eşantion au nivelul variabilei de interes mai mic sau egal cu Mediana, iar restul au nivelul variabilei de interes cel puţin egal cu Mediana, adică jumătate dintre lucrările de grafică licitate s-au vândut cu mai puţin de 54 sute lei, iar restul s-au vândut cu un preâ mai mare de 54 sute lei.

o Modul (Mode) sau valoarea modală este acea valoare sau variantă de răspuns care apare cu cea mai mare frecvenţă. În cazul nostru se observă că niciuna dintre valorile seriei de date nu are o frecvenţă mai mare ca 1, adică avem numai valori distincte, prin urmare, seria nu are valoare modală.

b) pentru a stabili dacă media este reprezentativă, se calculează coeficientul de variaţie al seriei de date,

adică , unde este abaterea standard a seriei de date.

o Dispersia de selecţie (sample variance) pentru o serie simplă de date numerice asupra variabilei X este

.

Calculele intermediare sunt prezentate în tabelul de mai jos:

Nr. crt. Valorile

2

Page 3: Probleme Rezolvate Statistica - Partea Intai

1 x1= 51 0,2916

2 x2= 60 71,5716

3 x3= 72 418,6116

4 x4= 35 273,57165 x5= 32 381,81166 x6= 57 29,81167 x7= 63 131,33168 x8= 61 89,49169 x9= 48 12,531610 x10=33 343,731611 x11=67 239,011612 x12=54 6,0516

13 x13=37 211,4116

670 2209,231

51,54 184,1026

13,568426,33%

adică dispersia (sample variance) este ,

iar abaterea standard (standard deviation) este sute lei, cu interpretarea că valorile individuale ale seriei se abat, în medie, cu 13,5684 sute lei faţă de nivelul mediu de 51,84 sute lei al preţului de vânzare din eşantion.

o Coeficientul de variaţie este , ceea ce indică faptul că seria

de date este omogenă; media este reprezentativă pentru colectivitate, ca indicator al tendinţei centrale.

c) Cuartilele seriei de date sunt , iar pentru determinarea lor, seria de date trebuie să fie ordonată crescător .o Q1 – cuartila de ordinul 1 sau cuartila inferioară se determină astfel:

3

Page 4: Probleme Rezolvate Statistica - Partea Intai

se stabileşte locul lui Q1 : N, dar 3 < 3,50 < 4

(locul lui cuartilei este între 3 şi 4, astfel că se va găsi între a 3-a şi a 4-a valoare din şirul ordonat crescător)

şi sute lei.

interpretarea: 25% dintre unităţile statistice din eşantion au nivelul variabilei de interes mai mic sau egal cu , iar restul de 75% dintre unităţile statistice din eşantion au nivelul variabilei de interes cel puţin egal cu ; adică 25% dintre lucrările de grafică licitate s-au vândut pentru un preţ mai mic decât 36 sute lei, iar restul de 75% dintre ele s-au vândut cu un preţ mai mare de 36 sute lei.

o Q2=Me=54 sute lei este cuartila de ordinul 2 sau mediana seriei de date statistice.

o Q3 – cuartila de ordinul 3 sau cuartila superioară se determină astfel:

se stabileşte locul lui Q3 : N, dar 10 < 10,50 < 11

(locul lui cuartilei este între 10 şi 11, astfel că se va găsi între a 10-a şi a 11-a valoare din şirul ordonat crescător)

si sute lei,

interpretarea: 75% dintre unităţile statistice din eşantion au nivelul variabilei de interes mai mic sau egal cu , iar restul de 25% dintre unităţile statistice din eşantion au nivelul variabilei de interes cel puţin egal cu ; adică 75% dintre lucrările de grafică licitate s-au vândut pentru un preţ mai mic decât 62 sute lei, iar restul de 25% dintre ele s-au vândut cu un preţ mai mare de 62 sute lei.

o

Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.Abaterea intercuatilică (interquratile range) este AQ=Q3-Q1=26 sute lei.

d) pentru o serie statistica simpla de date numerice, principalii indicatori ai tendintei centrale, variatiei si formei distributiei se pot calcula in Excel astfel:

datele statistice se introduc intr-o foaie de lucru a unui fisier Excel, asa cum se poate vedea in Figura nr. 1;

in Excel 2003, din meniul Tools se alege Data Analysis, iar apoi se selecteaza Descriptive Statistics asa cum se poate vedea in Figura nr. 1;

4

Page 5: Probleme Rezolvate Statistica - Partea Intai

in Excel 2007 sau versiuni ulterioare, din meniul Data, se alege Data Analysis, iar apoi se selecteazaDescriptive Statistics, asa cum se poate vedea in Figura nr. 1;

Figura nr. 1. Introducerea datelor seriei simple intr-o foaie de lucru si selectarea optiunii Descriptive Statistics din Data Analysis.

in urmatoarea fereastra care se va deschide, asa cum se poate observa in Figura nr. 2, se va completa:

la sectiunea Input Range se selecteaza cu mouse-ul sirul de celule care contin datele seriei statistice simple,

la sectiunea Output options se alege o celula din foaia de lucru unde vor aparea rezultatele prelucrarii datelor,

se bifeaza Summary Statistics, se da click pe butonul OK;

5

Page 6: Probleme Rezolvate Statistica - Partea Intai

Figura nr. 2. Fereastra Descriptive Statistics.

Rezultatele sunt prezentate intr-un tabel de forma:

Mean (media) 51,5385Standard Error 3,7632

Median (mediana) 54 MeMode (modul) #N/A (nu exista)

Standard Deviation (abaterea standard) 13,5684 2xx ss

Sample Variance (dispersia de selectie) 184,1026Kurtosis (coeficientul de boltire sau

aplatizare) -1,29426Skewness (coeficientul de asimetrie) -0,23938

Range (Amplitudinea) 40

Minimum (valoarea minima) 32

Maximum (valoarea maxima) 72

Sum (suma valorilor) 670

Count (volumul esantionului) 13

6

Page 7: Probleme Rezolvate Statistica - Partea Intai

e) asimetria unei serii de date statistice se poate analiza din mai multe puncte de vedere:o prin compararea indicatorilor tendintei centrale:

in cazul nostru, comparam doar media aritmetica si mediana, deoarece modul nu exista, astfel: , ceea ce indica o asimetrie negativa, in seria de date predominand valorile mai mari, adica intre lucrarile de grafica licitate sunt mai numeroase cele care au o valoare de vanzare mai mare;

o prin calculul si evaluarea semnului urmatorului coeficient de asimetrie

ce arata ca distributia prezinta asimetrie negativa;

o prin calculul coeficientului de asimetrie (Skewness), , a carui valoare este data

in tabelul ce reprezinta output-ul prelucrarii datelor statistice in Excel valoarea acestuia este , o valoare negativa si apropiata de 0, indicand ca

distributia prezinta o asimetrie negativa destul de redusa;o prin aprecierea pozitiei medianei fata de cele doua cuartile:

sute lei, sute lei, deci , adica Mediana este mai apropiata de cuartila superioara decat de cea inferioara, ceea ce arata ca seria prezinta asimetrie negativa.

f)f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei:

afirmatie falsa deoarece cuartila de ordinul intai este sute lei;

f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei:afirmatie adevarata deoarece mediana este sute lei;

f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei:afirmatie corecta deoarece curatila superioara este sute lei;

f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei;afirmatie adevarata deoarece cuartila inferioara este sute lei

f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers în raport cu datele iniţiale:Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice dacă:

sau sau

valoarea x este outlier pentru un set de date statistice daca se găseşte în afara intervalului.

În cazul nostru, , deci numai valoarea 124 este outlier în raport cu setul iniţial de date statistice;

f6) coeficientul de variaţie este 26,33%:afirmatie adevarata;

f7) media este reprezentativă pentru colectivitate:afirmatie adevarata deoarece coeficientul de variatie este mai mic de 35%.

7

Page 8: Probleme Rezolvate Statistica - Partea Intai

Pb. 2. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul castigarii premiului:

50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.

Se cere:a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date;b) sa se arate daca seria are valori extreme;c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;d) analizati asimetria;e) Descriptive Statistics.

Rezolvare: a)o Populatia statistica este multimea actritelor care au castigat premiul Oscar.o Unitatea statistica este o actrita.o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul

obtinerii premiului; variabila numerica, discreta.o Pentru un esantion de volum de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44,

x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice numerice.

o Media unei serii simple de date numerice este .

In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este

ani.

o Pentru a determina mediana, vom proceda astfel:- seria simpla de date se ordoneaza crescator , unde este

elementul cu rangul i din seria ordonata crescator,

- locul medianei este ani.

Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani (jumatate dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani).

o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrite fiecare.

Nr. crt. Varsta actritelor Varsta actritelor, in ordine crescatoare

1 x1=50 x(1)=212 x2=44 x(2)=243 x3=35 x(3)=254 x4=80 x(4)=265 x5=26 x(5)=266 28 267 41 268 21 279 61 28

10 38 x(10)=30=Q1

11 49 3012 33 3113 74 31

8

Page 9: Probleme Rezolvate Statistica - Partea Intai

14 30 3315 33 3316 41 3317 31 3418 35 3419 41 3420 42 x(20)=34=Me21 37 3522 26 3523 34 3524 34 3725 35 3726 26 3827 61 3928 60 4129 34 4130 24 x(30)=41=Q3

31 30 4232 37 4433 31 4934 27 x(34)=5035 39 x(35)=6036 34 x(36)=6137 26 x(37)=6138 25 x(38)=7439 x39=33 x(39)=80

o Pentru determinarea cuartilelor procedam astfel:

- locul cuartilei de ordinul 1, Q1, este ani; un sfert dintre

actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar restul la cel putin 30 de ani;

- locul cuartilei de ordinul 3, Q3, este ani; trei sferturi

dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de ani, iar restul la cel putin 41 de ani.

o Abaterea intercuartilica este ani si arata lungimea intervalului in care se gasesc jumatate dintre valorile din mijlocul seriei de date.

- b)oo

Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara intervalului , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers.

c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este

9

Page 10: Probleme Rezolvate Statistica - Partea Intai

,

adica ,

abaterea standard (standard deviation) este ani.

Coeficientul de variatie este , ceea ce indica faptul ca seria de date

este mai putin omogena, iar media este mai putin reprezentativa pentru colectivitate, ca indicator al tendintei centrale.

Nr. crt. Varsta actritelor

1 x1=50 11,8974 141,54892 x2=44 5,8974 34,77973 x3=35 -3,1026 9,62594 x4=80 41,8974 1755,39515 x5=26 -12,1026 146,47206 28 -10,1026 102,06187 41 2,8974 8,39518 21 -17,1026 292,49779 61 22,8974 524,2925

10 38 -0,1026 0,010511 49 10,8974 118,754112 33 -5,1025 26,036113 74 35,8974 1288,625914 30 -8,1025 65,651515 33 -5,1025 26,036116 41 2,8974 8,395117 31 -7,1025 50,446418 35 -3,1025 9,625919 41 2,8974 8,395120 42 3,8974 15,190021 37 -1,1025 1,215622 26 -12,1025 146,472023 34 -4,1025 16,831024 34 -4,1025 16,831025 35 -3,1025 9,625926 26 -12,1025 146,472027 61 22,8974 524,292528 60 21,8974 479,497729 34 -4,10256 16,831030 24 -14,1025 198,882331 30 -8,1025 65,651532 37 -1,1025 1,215633 31 -7,1025 50,446434 27 -11,1025 123,266935 39 0,8974 0,805336 34 -4,1025 16,831037 26 -12,1025 146,472038 25 -13,1025 171,677139 x39=33 -5,1025 26,0361

10

Page 11: Probleme Rezolvate Statistica - Partea Intai

1486 0 6791,5897

38,1025 178,7260

13,3688

35,09%

d) Asimetria unei serii de distribuţie de frecvenţe se poate stabili:- prin compararea indicatorilor tendintei centrale,- prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara,- prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie,- se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor.

- Cum , atunci concluzionam ca seria de date prezinta asimetrie pozitiva.- Cum mediana este mai apropiata de Q1 decat de Q2, adica , atunci concluzionam

ca seria prezinta asimetrie pozitiva, in seria de date predominand valorile mici.

- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) , al carui semn si

marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, , o valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata.

- Sistematizarea printr-o serie de distributie de frecvente pe intervale de variatie de marime egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii premiului Oscar:

Nr. crt.Intervalul i de

variatie(clasa de varsta)

Frecventa absolutaa intervalului i de variatie

(numarul de actrite din fiecare clasa de varsta)

Centrulal intervalului i de variatie

1 20-30 ani 11 252 30-40 ani 16 353 40-50 ani 7 454 50-60 ani 1 555 60-70 ani 2 656 70-80 ani 2 75

39=n

Reprezentarea grafica seriei de distributie de frecvente pe intervale, adica histograma si poligonul frecventelor sugereaza ca aceasta prezinta asimetrie pronuntata la dreapta sau asimetrie pozitiva, adica predomina valorile mai mici ale variabilei de interes, cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica. Intre cele 39 de actrite castigatoare ale premiului Oscar, predomina cele cu varste relativ mai mici.

11

Page 12: Probleme Rezolvate Statistica - Partea Intai

Histograma - distributia celor n=39 de actrite dupa variabila ce arata varsta la momentul castigarii premiului

Oscar

11

16

7

12 2

0

2

4

6

8

10

12

14

16

18

20-30ani

30-40ani

40-50ani

50-60ani

60-70ani

70-80ani

Varsta (intervalele sau clasele de varsta)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ac

trite

)

Poligonul frecventelor pentru seria de distributie de frecvente

11

16

7

12 2

0

2

4

6

8

10

12

14

16

18

0 10 20 30 40 50 60 70 80

Varsta, in ani (centrele intervalelor)

Num

arul

de

actri

te

e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma:

Output-ul Descriptive Statistics in Excel Output-ul Descriptive Statistics in SPSS

12

Page 13: Probleme Rezolvate Statistica - Partea Intai

Observatie: Analiza boltirii/aplatizăriiBoltirea(kurtosis, în engl.) exprimă înălţimea curbei („cocoaşei”) comparativ cu distribuţia normală teoretică. Întâlnim, astfel distribuţii leptocurtice, ascuţite (cu „cocoaşa” înaltă) şi distribuţii platicurtice, aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o măsură a împrăştierii fiecărei observaţii în jurul unei valori centrale şi se determină, pe eşantion, cu formula:

, unde .

Interpretarea valorii coeficientului de aplatizare si boltire: Dacă , avem distribuţie leptocurtică, valorile varibilei fiind mai concentrate în jurul

indicatorilor tendinţei centrale decat in distributia normala. Dacă , avem distribuţie platicurtica, valorile varibilei fiind mai dispersate în raport cu

indicatorii tendinţei centrale decat in distributia normala.

Varsta actritelor

Mean (media) 38.1025Standard Error 2.1407

Median Me=34Mode Mo=26

Standard Deviation(abaterea standard) 13.3688

Sample Variance(dispersia de selectie) 178.7260

Kurtosis 2.3830Skewness

(coeficientul de asimetrie) 1.5734Range

(Amplitudinea) 59

Minimum 21

Maximum 80

Sum 1486

Count n=39

Statistics

Varsta actritelor Oscar

N Valid 39

Missing 0

Mean 38.10

Std. Error of Mean 2.141

Median Me=34.00

Mode Mo=26a

Std. Deviation 13.369

Variance 178.726

Skewness 1.573

Std. Error of Skewness .378

Kurtosis 2.383

Std. Error of Kurtosis .741

Range 59

Minimum 21

Maximum 80

Sum1486

Percentiles 25 30.00

50 34.00

75 41.00

a. Multiple modes exist. The smallest value is shown

13

Page 14: Probleme Rezolvate Statistica - Partea Intai

Dacă , avem distribuţie mezocurtică, adică distribuţia normală.

In cazul acestei serii de date statistice, , ceea ce indica o distributie leptocurtica (cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor).

Pb. 3. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:

a) Construiţi seria de distribuţie de frecvenţe şi analizaţi grafic tendinţa de normalitate a acesteia.b) Caracterizaţi omogenitatea şi asimetria distribuţiei contractelor în funcţie de valoarea primelor

anuale.c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime

anuale de valoare mai mica sau egala cu 90 Eur.

Rezolvare: a)o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W.o Unitatea statistica este un contract de asigurare de locuinta.o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei

anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila numerica, continua.

o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:

Nr.crt.

Valoarea Eura unei prime anuale

Numarul de contracte, ,(frecventa absoluta)

1 50 Eur 2 contracte

2 60 Eur 3

3 70 Eur 6

4 90 Eur 9

5 120 Eur 16

6 130 Eur 8

7 140 Eur 6

contracte

sau ,

unde contracte.

o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.

14

Page 15: Probleme Rezolvate Statistica - Partea Intai

Poligonul frecventelor absolute - distributia celor 50 de contracte incheiate de agentul de asigurari dupa valoarea primei anuale

0

2

4

6

8

10

12

14

16

18

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala de asigurare a unui contract, in Eur

Frec

vent

a ab

solu

ta (n

umar

ul d

e co

ntra

cte)

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga.

o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative

Nr.crt.

Valoarea Eura unei prime anuale

Numarul de contracte, ,(frecventa absoluta)

Frecventa relativa

1 50 Eur 2 contracte 0,04

2 60 Eur 3 0,06

3 70 Eur 6 0,12

4 90 Eur 9 0,18

5 120 Eur 16 0,32

6 130 Eur 8 0,16

7 140 Eur 6 *7n 0,12

contracte

15

Page 16: Probleme Rezolvate Statistica - Partea Intai

Poligonul frecventelor relative

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala, in Eur, pentru un contract de asigurare

Frec

vent

a re

lativ

a

b)o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este

,

unde sunt variantele distincte observate ale variabilei, iar volumul esantionului.

In cazul nostru, Eur este valoarea medie a unei prime anuala

corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari.

o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand urmatorii pasi:

Cele r variante distincte sunt ordonate crescator .

Se determina locul medianei, adica .

Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincte, .

Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata crescator este prima care depaseste locul medianei

si , deci a 5-a varianta sau valoare distincta, , este mediana sau valoarea mediana: Eur, adica jumatate dintre contractele incheiat de agentul de vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur.

16

Page 17: Probleme Rezolvate Statistica - Partea Intai

Nr.crt.

Valoareadistincta,

Eur

,(frecventaabsoluta)

1 50 2 100 2 6316,88

2 60 3 180 5 6403,32

3 70 6 420 11 7862,64

4 90 9 810 20 2361,96

5 120 16 1920 36 3047,04

6 130 8 1040 44 4531,52

7 140 6 840 50 6854,64

5310 37378

106,2 762,8163265

27,61912972

26,01%

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:

Frecventa absoluta cea mai mare este:.

valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de interes, Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale pentru contractele incheiate de respectivul agent.

o Relatia in care se gasesc indicatorii tendintei centrale, , ca si reprezentatrea grafica pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea primelor anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor anuale, iar coada distributiei este alungita spre stanga.

o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este

,

unde sunt variantele distincte observate ale variabilei, volumul esantionului.

In cazul nostru, , iar abaterea standard sau abaterea medie

patratica este Eur, care arata cu cat se abat, in medie, valorile observate fata de nivelul mediu in esantion al primelor anuale.

o Coeficientul de variatie in esantion este , ceea ce arata ca

distributia este omogena si media este reprezentativa pentru colectivitate.

17

Page 18: Probleme Rezolvate Statistica - Partea Intai

c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o prima anuala de valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime

anuale sunt de valoare mai mica sau egala cu 90 Eur este ,

unde pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion care verifica evenimentul favorabil, contracte,

iar pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,

de contracte cu prime anuale mai mari de 90 Eur.

Media variabilei alternative este , adica 40% dintre contracte au valori ale primelor

anuale mai mici sau egale cu 90 Eur.

Dispersia variabilei alternative este , iar abaterea standard

Pb. 4. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie:

Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi1 [7200; 12500] 302 (12500; 17800] 693 (17800; 23100] 3024 (23100; 28400] 3085 (28400; 33700] 2636 (33700; 39000] 957 (39000; 44300] 208 (44300; 49600] 69 (49600; 54900] 510 (54900; 60200] 111 (60200; 65500] 1

Se cere:a) sa se reprezinte grafic aceasta serie de distributie;b) sa se determine si sa se interpreteze indicatorii tendintei centrale;c) sa se stabileasca daca media este reprezentativa pentru colectivitate;d) sa se analizeze asimetria acestei distributii.

Rezolvare: a) Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si

1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului SPSS.

Unitatea statistica este un absolvent. Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din

primul an de dupa finalizarea studiilor, variabila numerica, continua. Pentru un esantion de volum de absolventi s-au inregistrat valorile variabilei, iar setul de

date s-a sistematizat intr-o serie de distributie de frecvente pe intervale de variatie de marime egala, data in enuntul problemei.

Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza prin histograma si poligonul frecventelor absolute.

18

Page 19: Probleme Rezolvate Statistica - Partea Intai

Nr.crt.

Intervalul i de variatie(Salariul anual al unui

absolvent, in $)

Frecventa absoluta a intervalului i

(numarul de absolventi)

Limita inferioara

a intervalului i

Limita superioara

a intervalului i

Centrul al intervalului i

19

Page 20: Probleme Rezolvate Statistica - Partea Intai

1 [7200; 12500] 30 7200 12500 98502 (12500; 17800] 69 12500 17800 151503 (17800; 23100] 302 17800 23100 204504 (23100; 28400] 308 23100 28400 257505 (28400; 33700] 263 28400 33700 310506 (33700; 39000] 95 33700 39000 363507 (39000; 44300] 20 39000 44300 416508 (44300; 49600] 6 44300 49600 469509 (49600; 54900] 5 49600 54900 52250

10 (54900; 60200] 1 54900 60200 5755011 (60200; 65500] 1 60200 65500 62850

1100

Histograma

30

69

302 308

263

95

206 5 1 1

0

50

100

150

200

250

300

350

[7200

; 125

00]

(125

00; 1

7800

]

(178

00; 2

3100

]

(231

00; 2

8400

]

(284

00; 3

3700

]

(337

00; 3

9000

]

(390

00; 4

4300

]

(443

00; 4

9600

]

(496

00; 5

4900

]

(549

00; 6

0200

]

(602

00; 6

5500

]

Salariul, in $ (intervalele de variatie)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ab

solv

enti)

Fig. ..... Histograma – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.

20

Page 21: Probleme Rezolvate Statistica - Partea Intai

Poligonul frecventelor absolute

30

69

263

95

302308

206 5 1 1

0

50

100

150

200

250

300

350

0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (centrele intervalelor de variatie)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ab

solv

enti)

Fig. ..... Poligonul frecventelor absolute – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.

b) Indicatorii tendintei centrale: media, mediana si modul.

Nr.crt.

Intervalul i(Salariul anual al

unuiabsolvent, in $)

Centrul Frecventa absoluta (numarul de absolventi)

Frecventa absolutacumulata crescator

a intervalului k,

1 [7200; 12500] 9850 30 295500 302 (12500; 17800] 15150 69 1045350 993 (17800; 23100] 20450 302 6175900 4014 (23100; 28400] 25750 308 7931000 7095 (28400; 33700] 31050 263 8166150 9726 (33700; 39000] 36350 95 3453250 10677 (39000; 44300] 41650 20 833000 10878 (44300; 49600] 46950 6 281700 10939 (49600; 54900] 52250 5 261250 1098

10 (54900; 60200] 57550 1 57550 109911 (60200; 65500] 62850 1 62850 1100

1100 28563500

25966,82

o Media pentru o serie de distributie de frecvente pe r intervale de variatie este

,

unde sunt centrele celor r intervale, iar volumul esantionului.

21

Page 22: Probleme Rezolvate Statistica - Partea Intai

$ a castigat, in medie, un absolvent in primul an.

o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand urmatorii pasi:

Se determina locul medianei, adica .

Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie, .

Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata crescator depaseste locul medianei

si , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul median.

$, adica jumatate dintre absolventi au castigat

cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza astfel:

Se determina intervalul cu frecventa absoluta cea mai mare:,

deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.

$, aceasta este valoarea cea mai

des intalnita a castigului salarial al unui absolvent intr-un an.

c) Media variabilei de interes in esantion este 25966,82 $.

Nr.crt.

Intervalul i(Salariul anual al

unuiabsolvent, in $)

Centrul Frecventa absoluta (numarul de absolventi)

1 [7200; 12500] 9850 30 7792556607

2 (12500; 17800] 15150 69 80732480493 (17800; 23100] 20450 302 91914614804 (23100; 28400] 25750 308 14479361,025 (28400; 33700] 31050 263 67955830746 (33700; 39000] 36350 95 102419905577 (39000; 44300] 41650 20 49192426988 (44300; 49600] 46950 6 26417630579 (49600; 54900] 52250 5 345402775510 (54900; 60200] 57550 1 997497258,911 (60200; 65500] 62850 1 1360368967

22

Page 23: Probleme Rezolvate Statistica - Partea Intai

1100 55482218864

50484275,587105,2287

Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este

,

unde sunt centrele celor r intervale, volumul esantionului.

, iar abaterea standard este $, care

arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.

Coeficientul de variatie in esantion este , ceea ce

arata ca media este reprezentativa pentru colectivitate.

d) Asimetria unei serii de distribuţie de frecvenţe se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor, si prin modalitatea în care sunt situaţi, unul faţă de celălalt, indicatorii tendinţei centrale.

Histograma

30

69

302 308

263

95

206 5 1 1

0

50

100

150

200

250

300

350

[7200

; 125

00]

(1250

0; 17

800]

(1780

0; 23

100]

(2310

0; 28

400]

(2840

0; 33

700]

(3370

0; 39

000]

(3900

0; 44

300]

(4430

0; 49

600]

(4960

0; 54

900]

(5490

0; 60

200]

(6020

0; 65

500]

Salariul, in $ (intervalele de variatie)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ab

solv

enti)

Poligonul frecventelor absolute

30

69

263

95

302308

206 5 1 1

0

50

100

150

200

250

300

350

0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (centrele intervalelor de variatie)

Frec

vent

a ab

solu

ta (n

umar

ul d

e ab

solv

enti)

Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in seria de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este asimetrica spre dreapta (cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica).

Indicatorii tendintei centrale se gasesc in urmatoarea relatie , ceea ce indica faptul ca distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici.

Gradul de asimetrie prezent în serie poate să fie şi măsurat printr-un indicator specific, numit coeficient de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe r intervale de variatie se calculeaza dupa

,

23

Page 24: Probleme Rezolvate Statistica - Partea Intai

unde sunt centrele celor r intervale, volumul esantionului.

Nr.crt.

Intervalul i(Salariul anual al unui

absolvent, in $)

Centrul Frecventa absoluta (numarul de absolventi)

1 [7200; 12500] 9850 30 -1,25591E+142 (12500; 17800] 15150 69 -8,73269E+133 (17800; 23100] 20450 302 -5,07076E+134 (23100; 28400] 25750 308 -31394150565 (28400; 33700] 31050 263 3,45432E+136 (33700; 39000] 36350 95 1,06344E+147 (39000; 44300] 41650 20 7,71494E+138 (44300; 49600] 46950 6 5,54326E+139 (49600; 54900] 52250 5 9,07828E+13

10 (54900; 60200] 57550 1 3,15041E+1311 (60200; 65500] 62850 1 5,01747E+13

1100 1,82302E+14

0,462

Cum , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în serie predominând valorile mici (modul < mediana < media).

Pb. 5. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a rambursarii creditelor. Datele au fost sistematizate astfel:

Intervale de variatiea numarului de zile de intarziere a platii

Ponderea cumulataa debitorilor (%)

mai putin 25 de zile 2525-35 de zile 7535-45 de zile 8545-55 de zile 9355-65 de zile 98

peste 65 de zile 100Se cere:

a) sa se scrie distributia de frecvente pe intervale de variatie;b) sa se reprezinte grafic distributia de frecvente absolute;c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata

medie de intarziere a platilor este reprezentativa;d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce

au intarziat mai mult de 45 de zile cu efectuarea platilor.

Rezolvare: a)o Populatia statistica – mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor

credite.o Unitatea statistica – un debitor.o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a

efectuarii platii catre banca de catre un deitor; variabila numerica, discreta.o S-a realizat o selectie de volum de debitori restantieri pentru care s-a inregistrat numarul de

zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe intervale de variatie de marime egala.

Notam cu:

24

Page 25: Probleme Rezolvate Statistica - Partea Intai

, frecventa absoluta a intervalului i de variatie (numarul de debitori restantiei pentru care numarul de zile de intarziere apartine intervalului i de variatie), ;

, frecventa relativa a intervalului i de variatie, ;

, frecventa relativa exprimata procentual a intervalului i de variatie sau

ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa i, ;

, este frecventa absoluta cumulata crescator a intervalului k; , este frecventa relativa cumulata crescator a intervalului k; , este frecventa relativa exprimata procentual cumulata crescator a

intervalului k (ponderea cumulata a intervalului k).

Nr.crt.

Intervalul i devariatie a

numarului de zilede intarziere a

platii

Ponderea cumulataa debitorilor (%)

Ponderea intervalului i,

Frecventa relativa,

Frecventa absoluta,

1 15-25 de zile 25% %*1n 25% 0,25 125

2 25-35 de zile 75% 50% 0,50 2503 35-45 de zile 85% 10% 0,10 504 45-55 de zile 93% 8% 0,08 405 55-65 de zile 98% 5% 0,05 256 65-75 de zile 100% 2% 0,02 10

100% 1

Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie de distributie de frecvente pe intervale:

Nr.crt.

Intervalul i de variatiea numarului de zilede intarziere a platii

Numarul de debitori(frecventa absoluta),

Centrul al intervalului i de

variatie1 15-25 de zile 125 debitori 202 25-35 de zile 250 303 35-45 de zile 50 404 45-55 de zile 40 505 55-65 de zile 25 606 65-75 de zile 10 70

debitori

b)

25

Page 26: Probleme Rezolvate Statistica - Partea Intai

Histograma

125

250

5040

2510

0

50

100

150

200

250

300

15-25de zile

25-35de zile

35-45de zile

45-55de zile

55-65de zile

65-75de zile

Numarul de zile de intarziere

Num

arul

de

debi

tori

Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii

Poligonul frecventelor absolute

0

50

100

150

200

250

300

0 10 20 30 40 50 60 70 80

Numarul zilelor de intarziere

Num

arul

de

debi

tori

Fig. .... Poligonul frecventelor absolute pentru distributia celor 500 de debitori dupa numarul de zile de intarziere a platilor

c)Nr.crt. Intervalul i

Numarul dedebitori,

Centrul

1 15-25 de zile 125 20 2500 125 19220

2 25-35 de zile 250 30 7500 375 1440

3 35-45 de zile 50 40 2000 425 2888

4 45-55 de zile 40 50 2000 465 12390,4

5 55-65 de zile 25 60 1500 490 19044

6 65-75 de zile 10 70 700 500 14137,6

16200 =69120

32,4 138,5170

11,7693

36,33%

o Media este , deci zile este numarul mediu de zile de

intarziere a platilor pentru un debitor restantier.

o Locul medianei este ; primul interval cu proprietatea ca este intervalul 25-35

de zile, deoarece , dar , deci:

26

Page 27: Probleme Rezolvate Statistica - Partea Intai

zile, adica jumatate dintre debitorii restantieri au intarziat

cel putin 30 de zile cu efectuarea platilor.

o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare , atunci

zile; numarul cel mai intalnit de zile de intarziere

a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.

o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este , ceea ce indica o asimetrie pozitiva.

o Dispersia in esantion este , deci

, iar abaterea standard zile, care arata cu cate zile se abat, in medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.

o Coeficientul de variatie in esantion este , ceea ce arata ca

distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru colectivitate.

d) Definim “evenimentul favorabil” ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea

platilor este ,

unde pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion pentru care se verifica evenimentul favorabil, debitori,

iar pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,

debitori.

Media variabilei alternative este , adica 15% dintre debitori au intarziat mai

mult de 45 de zile.

Dispersia variabilei alternative este , iar abaterea standard

.

27