Exercitii Statistica Partea 1 Marketing

30
Anul I, Facultatea de Marketing 2011-2012 Statistica Exercitii pregatitoare pentru testul de la seminar si pentru examen – partea I Ex. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37. Se cere: a) să se calculeze şi să se interpreteze indicatorii tendinţei centrale; b) să se stabilească dacă media este reprezentativă; c) să se calculeze şi să se interpreteze cuartilele acestei serii de date; d) optiunea Descriptive Statistics din Data Analysis Excel; e) să se analizeze asimetria acestei serii de date; f) stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile: f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei; f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei; f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei; f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei; f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers în raport cu datele iniţiale; f6) coeficientul de variaţie este 26,33%; f7) media este reprezentativă. Rezolvare: a) o Populaţia statistică este mulţimea lucrarilor de grafică puse în vânzare la licitaţiile cu obiecte de artă. o Unitatea statistică este o lucrare de grafică pusă în vânzare la o licitaţie. o Variabila statistică sau caracteristica de interes, notată cu X, arată preţul de vânzare, în sute lei, al unei lucrări de grafică. o Pentru un eşantion de volum n=13 unităţi statistice (lucrări de grafică), se cunoaşte preţul de vânzare, adică avem următoarea serie statistică simplă sau nesistematizată de date numerice: {x 1 =51, x 2 =60, x 3 =72, x 4 =35, x 5 =32, x 6 =57, x 7 =63, x 8 =61, x 9 =48, x 10 =33, x 11 =67, x 12 =54, x 13 =x n =37}. o Pentru o serie simplă de date numerice { } n x x x ,..., , 2 1 , media aritmetică (Mean) este n x n x x x x n i i n = = + + + = 1 2 1 ... . Nr. crt. Valorile i x ale variabilei X - preţul de vânzare (sute lei) 1 x 1 = 51 2 x 2 = 60 3 x 3 = 72 4 x 4 = 35 5 x 5 = 32 6 x 6 = 57 7 x 7 = 63 8 x 8 = 61 9 x 9 = 48 10 x 10 =33 11 x 11 =67 12 x 12 =54 13 x 13 =37 = = 13 1 i i x 670

Transcript of Exercitii Statistica Partea 1 Marketing

Anul I, Facultatea de Marketing 2011-2012 Statistica

Exercitii pregatitoare pentru testul de la seminar si pentru examen – partea I

Ex. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37. Se cere:

a) să se calculeze şi să se interpreteze indicatorii tendinţei centrale; b) să se stabilească dacă media este reprezentativă; c) să se calculeze şi să se interpreteze cuartilele acestei serii de date; d) optiunea Descriptive Statistics din Data Analysis Excel; e) să se analizeze asimetria acestei serii de date; f) stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile:

f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei; f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei; f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei; f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei; f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt

outliers în raport cu datele iniţiale; f6) coeficientul de variaţie este 26,33%; f7) media este reprezentativă.

Rezolvare: a) o Populaţia statistică este mulţimea lucrarilor de grafică puse în vânzare la licitaţiile cu obiecte de artă. o Unitatea statistică este o lucrare de grafică pusă în vânzare la o licitaţie. o Variabila statistică sau caracteristica de interes, notată cu X, arată preţul de vânzare, în sute lei, al unei

lucrări de grafică. o Pentru un eşantion de volum n=13 unităţi statistice (lucrări de grafică), se cunoaşte preţul de vânzare,

adică avem următoarea serie statistică simplă sau nesistematizată de date numerice: {x1=51, x2=60, x3=72, x4=35, x5=32, x6=57, x7=63, x8=61, x9=48, x10=33, x11=67, x12=54, x13=xn=37}.

o Pentru o serie simplă de date numerice { }nxxx ,...,, 21 ,

media aritmetică (Mean) este n

x

nxxx

x

n

ii

n∑==

+++= 121 ...

.

Nr. crt. Valorile ix ale variabilei X - preţul de vânzare (sute lei) 1 x1= 51 2 x2= 60 3 x3= 72 4 x4= 35 5 x5= 32 6 x6= 57 7 x7= 63 8 x8= 61 9 x9= 48 10 x10=33 11 x11=67 12 x12=54 13 x13=37

=∑=

13

1iix 670

2

o În cazul nostru, 54,515385,5113670

1313...

13

11321 ≅===+++

=∑=i

ixxxx

x sute lei, adică preţul mediu de

vânzare al unei lucrări de grafică este de 51,54 sute lei. o Pentru a determina Mediana (Median) unei serii simple de date, se parcurg următoarele etape:

• Valorile seriei de date se ordonează crescător: ( ) ( ) ( ) ( )nn xxxx ≤≤≤≤ −121 ... , unde ( ) nix i ,1, =

reprezintă a i-a valoare din şirul ordonat crescător de date numerice (astfel, ( )1x este prima

valoare din şirul ordonat crescător, adică cea mai mică valoare, ( )2x este următoarea valoare în

ordine crescătoare şi aşa mai departe până la ( )nx , care este cea mai mare valoare).

• Pentru această serie, cele n=13 valori ordonate crescător sunt: x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72.

• Se stabileşte locul medianei: N∈=+

=+

72

1132

1n

• Mediana este a 7-a valoare din şirul ordonat de date, adică ( ) 547 == xMe sute de lei (valoarea din mijlocul seriei ordonate de date).

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

4444444 34444444 21444444 3444444 21%50

54

%50

13121110987654321

Me

xxxxxxxxxxxxx

≤≤≤≤≤≤≤≤≤≤≤≤

• Interpretarea: jumătate dintre unităţile statistice din eşantion au nivelul variabilei de interes mai

mic sau egal cu Mediana, iar restul au nivelul variabilei de interes cel puţin egal cu Mediana, adică jumătate dintre lucrările de grafică licitate s-au vândut cu mai puţin de 54 sute lei, iar restul s-au vândut cu un preâ mai mare de 54 sute lei.

o Modul (Mode) sau valoarea modală este acea valoare sau variantă de răspuns care apare cu cea mai

mare frecvenţă. În cazul nostru se observă că niciuna dintre valorile seriei de date nu are o frecvenţă mai mare ca 1, adică avem numai valori distincte, prin urmare, seria nu are valoare modală.

b) pentru a stabili dacă media este reprezentativă, se calculează coeficientul de variaţie al seriei de date,

adică 100⋅=xs

v xx , unde 2

xx ss = este abaterea standard a seriei de date.

o Dispersia de selecţie (sample variance) pentru o serie simplă de date numerice asupra variabilei X este

( ) ( ) ( )

11... 1

222

12

−=

−−++−

=∑=

n

xx

nxxxx

s

n

ii

nx .

Calculele intermediare sunt prezentate în tabelul de mai jos:

3

Nr. crt. Valorile ix ( )2xxi −

1 x1= 51 ( ) ( ) =−=− 221 54,5151xx 0,2916

2 x2= 60 ( ) ( ) =−=− 222 54,5160xx 71,5716

3 x3= 72 ( ) ( ) =−=− 223 54,5172xx 418,6116

4 x4= 35 ( ) ( ) =−=− 224 54,5135xx 273,5716

5 x5= 32 381,8116 6 x6= 57 29,8116 7 x7= 63 131,3316 8 x8= 61 89,4916 9 x9= 48 12,5316 10 x10=33 343,7316 11 x11=67 239,0116 12 x12=54 ( ) ( ) =−=− 22

12 54,5154xx 6,0516

13 x13=37 ( ) ( ) =−=− 2213 54,5137xx 211,4116

=∑

=

13

1iix 670 ( ) =−∑

=

13

1

2

ii xx 2209,231

=x 51,54 =

−=

113231,22092

xs 184,1026

=== 1026,1842xx ss 13,5684

=xv 26,33%

adică dispersia (sample variance) este ( )

1026,18412

231,2209113

13

1

2

2 ==−

−=∑=i

i

x

xxs ,

iar abaterea standard (standard deviation) este 5684,131026,1842 === xx ss sute lei, cu interpretarea că valorile individuale ale seriei se abat, în medie, cu 13,5684 sute lei faţă de nivelul mediu de 51,84 sute lei al preţului de vânzare din eşantion.

o Coeficientul de variaţie este %35%33,2610054,51

5684,13100 <=⋅=⋅=

xs

v xx , ceea ce indică faptul că seria

de date este omogenă; media este reprezentativă pentru colectivitate, ca indicator al tendinţei centrale.

4

c) Cuartilele seriei de date sunt 321 ,, QMeQQ = , iar pentru determinarea lor, seria de date trebuie să fie ordonată crescător ( ) ( ) ( ) ( )nn xxxx ≤≤≤≤ −121 ... . o Q1 – cuartila de ordinul 1 sau cuartila inferioară se determină astfel:

• se stabileşte locul lui Q1 : ∉=⋅+

=⋅+

50,314

1131

41n N, dar 3 < 3,50 < 4

(locul lui 1Q cuartilei este între 3 şi 4, astfel că 1Q se va găsi între a 3-a şi a 4-a valoare din şirul ordonat crescător)

( ) ( )413 xQx ≤≤⇒ şi ( ) ( ) 362

37352

431 =

+=

+=

xxQ sute lei.

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )44444444444 344444444444 2144 344 21%75

13121110987654

36

%25

321

1

xxxxxxxxxxxxx

Q

≤≤≤≤≤≤≤≤≤≤≤≤↑

• interpretarea: 25% dintre unităţile statistice din eşantion au nivelul variabilei de interes mai mic sau egal cu 1Q , iar restul de 75% dintre unităţile statistice din eşantion au nivelul variabilei de interes cel puţin egal cu 1Q ; adică 25% dintre lucrările de grafică licitate s-au vândut pentru un preţ mai mic decât 36 sute lei, iar restul de 75% dintre ele s-au vândut cu un preţ mai mare de 36 sute lei.

o Q2=Me=54 sute lei este cuartila de ordinul 2 sau mediana seriei de date statistice. o Q3 – cuartila de ordinul 3 sau cuartila superioară se determină astfel:

• se stabileşte locul lui Q3 : ∉=⋅+

=⋅+

50,1034

1133

41n N, dar 10 < 10,50 < 11

(locul lui 1Q cuartilei este între 10 şi 11, astfel că 3Q se va găsi între a 10-a şi a 11-a valoare din şirul ordonat crescător)

( ) ( )11310 xQx ≤≤⇒ si ( ) ( ) 622

63612

11103 =

+=

+=

xxQ sute lei,

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )44 344 2144444444444 344444444444 21%25

131211

62

%75

10987654321

3

xxxxxxxxxxxxx

Q

≤≤≤≤≤≤≤≤≤≤≤≤↑

• interpretarea: 75% dintre unităţile statistice din eşantion au nivelul variabilei de interes mai

mic sau egal cu 3Q , iar restul de 25% dintre unităţile statistice din eşantion au nivelul variabilei de interes cel puţin egal cu 3Q ; adică 75% dintre lucrările de grafică licitate s-au vândut pentru un preţ mai mic decât 62 sute lei, iar restul de 25% dintre ele s-au vândut cu un preţ mai mare de 62 sute lei.

o

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )444 3444 214444444 34444444 2144 344 21%25

131211

62

%50

10987654

36

%25

321

31

xxxxxxxxxxxxx

QQ

≤≤≤≤≤≤≤≤≤≤≤≤↑↑

Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei. Abaterea intercuatilică (interquratile range) este IQR=Q3-Q1=26 sute lei.

5

d) pentru o serie statistica simpla de date numerice, principalii indicatori ai tendintei centrale, variatiei si formei distributiei se pot calcula in Excel astfel:

• datele statistice se introduc intr-o foaie de lucru a unui fisier Excel, asa cum se poate vedea in Figura nr. 1;

• in Excel 2003, din meniul Tools se alege Data Analysis, iar apoi se selecteaza Descriptive Statistics asa cum se poate vedea in Figura nr. 1;

• in Excel 2007 sau versiuni ulterioare, din meniul Data, se alege Data Analysis, iar apoi se selecteazaDescriptive Statistics, asa cum se poate vedea in Figura nr. 1;

Figura nr. 1. Introducerea datelor seriei simple intr-o foaie de lucru si selectarea optiunii Descriptive

Statistics din Data Analysis.

• in urmatoarea fereastra care se va deschide, asa cum se poate observa in Figura nr. 2, se va completa:

Ø la sectiunea Input Range se selecteaza cu mouse-ul sirul de celule care contin datele seriei statistice simple,

Ø la sectiunea Output options se alege o celula din foaia de lucru unde vor aparea rezultatele prelucrarii datelor,

Ø se bifeaza Summary Statistics, Ø se da click pe butonul OK;

6

Figura nr. 2. Fereastra Descriptive Statistics.

• Rezultatele sunt prezentate intr-un tabel de forma:

Mean (media) 51,5385 x= Standard Error 3,7632

Median (mediana) 54 Me= Mode (modul) #N/A (nu exista)

Standard Deviation (abaterea standard) 13,5684 2xx ss ==

Sample Variance (dispersia de selectie) 184,1026 2xs=

Kurtosis (coeficientul de boltire si aplatizare) -1,29426 CBA= Skewness (coeficientul de asimetrie) -0,23938 CAS=

Range (Amplitudinea) 40 minmax xxAx −==

Minimum (valoarea minima) 32 ( )1min xx ==

Maximum (valoarea maxima) 72 ( )nxx == max

Sum (suma valorilor) 670 ∑=

=n

iix

1

Count (volumul esantionului) 13 n=

7

e) asimetria unei serii de date statistice se poate analiza din mai multe puncte de vedere: o prin compararea indicatorilor tendintei centrale:

Ø in cazul nostru, comparam doar media aritmetica si mediana, deoarece modul nu exista, astfel: Mex < , ceea ce indica o asimetrie negativa, in seria de date predominand valorile mai mari, adica intre lucrarile de grafica licitate sunt mai numeroase cele care au o valoare de vanzare mai mare;

o prin calculul si evaluarea semnului urmatorului coeficient de asimetrie ( )

05442,03

<−=−⋅

=x

as sMex

C ce arata ca distributia prezinta asimetrie negativa;

o prin calculul coeficientului de asimetrie (Skewness), ( )

( )31

3

x

n

ii

sn

xxCAS

−=∑= , a carui valoare este data

in tabelul ce reprezinta output-ul prelucrarii datelor statistice in Excel Ø valoarea acestuia este 2393,0−=CAS , o valoare negativa si apropiata de 0, indicand ca

distributia prezinta o asimetrie negativa moderata; o prin aprecierea pozitiei medianei fata de cele doua cuartile:

Ø 181 =−QMe sute lei, 83 =−MeQ sute lei, deci MeQQMe −>− 31 , adica Mediana este mai apropiata de cuartila superioara decat de cea inferioara, ceea ce arata ca seria prezinta asimetrie negativa.

f) f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei: afirmatie falsa deoarece cuartila de ordinul intai este 361 =Q sute lei; f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei:

afirmatie adevarata deoarece mediana este 54=Me sute lei; f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei: afirmatie corecta deoarece curatila superioara este 623 =Q sute lei; f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei; afirmatie adevarata deoarece cuartila inferioara este 361 =Q sute lei f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers în raport cu datele iniţiale: Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice dacă:

IQRQx ⋅−< 5,11 sau IQRQx ⋅+> 5,13 sau

valoarea x este outlier pentru un set de date statistice daca se găseşte în afara intervalului [ ]IQRQIQRQ ⋅+⋅− 5,1;5,1 31 .

În cazul nostru, [ ] [ ]101;35,1;5,1 31 −=⋅+⋅− IQRQIQRQ , deci numai valoarea 124 este outlier în raport cu setul iniţial de date statistice; f6) coeficientul de variaţie este 26,33%:

afirmatie adevarata; f7) media este reprezentativă pentru colectivitate: afirmatie adevarata deoarece coeficientul de variatie este mai mic de 35%.

8

Ex. 2. Se consideră urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o societate comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei). Alegeti afirmatiile false:

a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei. b) Abaterea intercuartilica este de 10 mil. lei; c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si 56. d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. lei e) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers. f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar fi 396.

Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe calculator este:

A11%

B13%

C20%

D34%

E22%

Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul castigarii premiului:

50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42, 37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.

Se cere: a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date; b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker), punand in

evidenta daca seria are valori extreme; c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena; d) analizati asimetria; e) Descriptive Statistics.

Rezolvare: a) o Populatia statistica este multimea actritelor care au castigat premiul Oscar. o Unitatea statistica este o actrita. o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul

obtinerii premiului; variabila numerica, discreta. o Pentru un esantion de volum 39=n de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44,

x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice numerice.

o Media unei serii simple de date numerice { }nxxx ...,,, 21 esten

x

nxxx

x

n

ii

n∑==

+++= 121 ...

.

In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este

1025,3839

14863939

...

39

13921 ===+++

=∑=i

ixxxx

x ani.

Unde A – nivelul cel mai slab, E – nivelul cel mai inalt.

a) Construiti distributia de frecvente absolute si reprezentati-o grafic.

b) Studiati tendinta centrala a distributiei folosind indicatori adecvati.

c) Calculati media si dispersia unei variabile alternative, a carei stare favorabila este data de copiii care au atins cel mult nivelul C al jocului.

9

o Pentru a determina mediana, vom proceda astfel: - seria simpla de date se ordoneaza crescator ( ) ( ) ( )nxxx ≤≤≤ ...21 , unde ( ) nix i ,1, = este

elementul cu rangul i din seria ordonata crescator,

- locul medianei este ( ) 34202

120 ==⇒∈=

+xMe

nN ani.

Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani (jumatate dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani).

o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrite fiecare.

Nr. crt. Varsta actritelor ix Varsta actritelor, in ordine crescatoare ( )ix

1 x1=50 x(1)=21

2 x2=44 x(2)=24

3 x3=35 x(3)=25

4 x4=80 x(4)=26

5 x5=26 x(5)=26 6 28 26

7 41 26

8 21 27

9 61 28

10 38 x(10)=30=Q1 11 49 30 12 33 31 13 74 31 14 30 33

15 33 33

16 41 33 17 31 34 18 35 34 19 41 34

20 42 x(20)=34=Me 21 37 35 22 26 35 23 34 35 24 34 37 25 35 37 26 26 38 27 61 39 28 60 41 29 34 41

30 24 x(30)=41=Q3 31 30 42 32 37 44 33 31 49

34 27 x(34)=50

35 39 x(35)=60

36 34 x(36)=61

37 26 x(37)=61

38 25 x(38)=74

39 x39=33 x(39)=80

10

o Pentru determinarea cuartilelor procedam astfel:

- locul cuartilei de ordinul 1, Q1, este ( ) 301014

1101 ==⇒∈=⋅

+xQ

nN ani; un sfert

dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar restul la cel putin 30 de ani;

- locul cuartilei de ordinul 3, Q3, este ( ) 413034

1303 ==⇒∈=⋅

+xQ

nN ani; trei sferturi

dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de ani, iar restul la cel putin 41 de ani.

o Abaterea intercuartilica este 1113 =−= QQIQR ani si arata lungimea intervalului in care se gasesc jumatate dintre valorile din mijlocul seriei de date.

b) Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice numerice se construieste punand in evidenta urmatoarele cinci elemente si eventualele valori extreme sau outliers:

- cuartila inferioara sau de ordinul 1, Q1=30 ani; - mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani; - cuartila superioara sau de ordinul al 3-lea, Q3=41 ani; - limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile

seriei de date cu proprietatea ca este mai mare sau egala cu IQRQ ⋅− 5,11 , adica

( ) ( ){ }IQRQxnix iiplotbox ⋅−≥==− 5,1,1,mininflim 1 :

o 5,135,11 =⋅− IQRQ o cea mai mica dintre valorile seriei de date, cu proprietatea ca este 5,13≥ , este

x(1)=21 ani, deci marginea inferioara este egala cu 21 ani, ( )121inflim xplotbox ==− ;

- limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile seriei de date cu proprietatea ca este mai mica sau egala cu IQRQ ⋅+ 5,13 , adica

( ) ( ){ }IQRQxnix iiplotbox ⋅+≤==− 5,1,1,maxsuplim 3 :

o 5,575,13 =⋅+ IQRQ o cea mai mare dintre valorile seriei de date, cu proprietatea ca este 5,57≤ , este

x(34)=50 ani, deci marginea superioara este egala cu 50 ani, ( )3450suplim xplotbox ==− .

Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot,

adica intervalul de numere reale [21; 50] nu contine toate valorile observate, in afara lui ramanand valorile x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.

Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara intervalului [ ] [ ]5,57;5,135,1;5,1 31 =⋅+⋅− IQRQIQRQ , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si vor fi reprezentate distinct in diagrama box-plot.

c) Disp

adica

abatere

30 34 41 50 60 61 74 80

* * * * *

21

11

Fig. …. Diagrama box-plot sau diagrama cu mustati (box-and-whisker).

Fig. …. Diagrama box-plot in SPSS.

ersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este

( ) ( ) ( )

11... 1

222

12

−=

−−++−

=∑=

n

xx

nxxxx

s

n

ii

nx ,

( )7260,178

1395897,6791

139

39

1

2

2 =−

=−

−=∑=i

i

x

xxs ,

a standard (standard deviation) este 3688,132 == xx ss ani.

(Q1) (Me) (Q3)

12

Coeficientul de variatie este %35%09,35100 >=⋅=xs

v xx , ceea ce indica faptul ca seria de date

nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendintei centrale. Nr. crt. Varsta actritelor ix xxi − ( )2xxi −

1 x1=50 11,8974 141,5489 2 x2=44 5,8974 34,7797 3 x3=35 -3,1026 9,6259 4 x4=80 41,8974 1755,3951 5 x5=26 -12,1026 146,4720 6 28 -10,1026 102,0618 7 41 2,8974 8,3951 8 21 -17,1026 292,4977 9 61 22,8974 524,2925

10 38 -0,1026 0,0105 11 49 10,8974 118,7541 12 33 -5,1025 26,0361 13 74 35,8974 1288,6259 14 30 -8,1025 65,6515 15 33 -5,1025 26,0361 16 41 2,8974 8,3951 17 31 -7,1025 50,4464 18 35 -3,1025 9,6259 19 41 2,8974 8,3951 20 42 3,8974 15,1900 21 37 -1,1025 1,2156 22 26 -12,1025 146,4720 23 34 -4,1025 16,8310 24 34 -4,1025 16,8310 25 35 -3,1025 9,6259 26 26 -12,1025 146,4720 27 61 22,8974 524,2925 28 60 21,8974 479,4977 29 34 -4,10256 16,8310 30 24 -14,1025 198,8823 31 30 -8,1025 65,6515 32 37 -1,1025 1,2156 33 31 -7,1025 50,4464 34 27 -11,1025 123,2669 35 39 0,8974 0,8053 36 34 -4,1025 16,8310 37 26 -12,1025 146,4720 38 25 -13,1025 171,6771 39 x39=33 -5,1025 26,0361

∑=

=39

1iix 1486 ( )∑

=

=−39

1ii xx 0 ( )∑

=

=−39

1

2

ii xx 6791,5897

=x 38,1025 =2xs 178,7260

== 2

xx ss 13,3688

=xv 35,09%

13

d) Asimetria unei serii de distribuţie de frecvenţe se poate stabili: - prin compararea indicatorilor tendintei centrale, - prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara, - prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie, - se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor.

- Cum xMe =<= 1025,3834 , atunci concluzionam ca seria de date prezinta asimetrie pozitiva. - Cum mediana este mai apropiata de Q1 decat de Q2, adica MeQQMe −<− 31 , asa cum se poate

vedea din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date predominand valorile mici.

- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) ( )

( )31

3

x

n

ii

sn

xxCAS

−=∑= , al carui semn si

marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, 5734,1=CAS , o valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata.

- Sistematizarea printr-o serie de distributie de frecvente pe 6=r intervale de variatie de marime egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii premiului Oscar:

Nr. crt. Intervalul k de variatie (clasa de varsta)

Frecventa absoluta kn

a intervalului k de variatie (numarul de actrite

din fiecare clasa de varsta)

Centrul kx

al intervalului k de variatie

1 20-30 ani 11 25 2 30-40 ani 16 35 3 40-50 ani 7 45 4 50-60 ani 1 55 5 60-70 ani 2 65 6 70-80 ani 2 75

=

=6

1kkn 39=n

Reprezentarea grafica seriei de distributie de frecvente pe intervale, adica histograma si poligonul frecventelor sugereaza ca aceasta prezinta asimetrie pronuntata la dreapta sau asimetrie pozitiva, adica predomina valorile mai mici ale variabilei de interes, cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica. Intre cele 39 de actrite castigatoare ale premiului Oscar, predomina cele cu varste relativ mai mici.

Histograma - distributia celor n=39 de actrite dupa variabila ce arata varsta la momentul castigarii premiului

Oscar

11

16

7

12 2

0

2

4

6

8

10

12

14

16

18

20-30ani

30-40ani

40-50ani

50-60ani

60-70ani

70-80ani

Varsta (intervalele sau clasele de varsta)

Frecventa absoluta (numarul de

actrite)

Poligonul frecventelor pentru seria de distributie de frecvente

11

16

7

12 2

0

2

4

6

8

10

12

14

16

18

0 10 20 30 40 50 60 70 80

Varsta, in ani (centrele intervalelor)

Numarul de actrite

14

e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma:

Output-ul Descriptive Statistics in Excel Output-ul Descriptive Statistics in SPSS

Varsta actritelor

Mean (media) =x 38.1025

Standard Error 2.1407 Median Me=34 Mode Mo=26

Standard Deviation (abaterea standard) == 2

xx ss 13.3688

Sample Variance (dispersia de selectie) =2

xs 178.7260

Kurtosis 2.3830 Skewness

(coeficientul de asimetrie) =CAS 1.5734 Range

(Amplitudinea) =−= minmax xxAx 59

Minimum =minx 21

Maximum =maxx 80

Sum ∑=

=39

1iix 1486

Count n=39

Statistics

Varsta actritelor Oscar

N Valid 39

Missing 0

Mean =x 38.10

Std. Error of Mean 2.141

Median Me=34.00

Mode Mo=26a

Std. Deviation == 2xx ss 13.369

Variance =2xs 178.726

Skewness =CAS 1.573

Std. Error of Skewness .378

Kurtosis 2.383

Std. Error of Kurtosis .741

Range =−= minmax xxAx 59

Minimum =minx 21

Maximum =maxx 80

Sum ∑=

=39

1iix 1486

Percentiles 25 =1Q 30.00

50 == MeQ2 34.00

75 =3Q 41.00

a. Multiple modes exist. The smallest value is shown

Observatie: Analiza boltirii/aplatizării Boltirea(kurtosis, în engl.) exprimă înălţimea curbei („cocoaşei”) comparativ cu distribuţia normală teoretică. Întâlnim, astfel distribuţii leptocurtice, ascuţite (cu „cocoaşa” înaltă) şi distribuţii platicurtice, aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o măsură a împrăştierii fiecărei observaţii în jurul unei valori centrale şi se determină, pe eşantion, cu formula:

( )

( )322

1

4

−⋅

−=∑=

x

n

ii

sn

xxCBA , unde

( )

11

2

2

−=∑=

n

xxs

n

ii

x.

Definiţia este bazată pe momentul centrat de ordinul 4.

15

Interpretarea valorii coeficientului de aplatizare si boltire: • Dacă 0>CBA , avem distribuţie leptocurtică, valorile varibilei fiind concentrate în jurul

indicatorilor tendinţei centrale • Dacă 0<CBA , avem distribuţie platicurtica, valorile varibilei fiind dispersate în raport cu

indicatorii tendinţei centrale • Dacă 0=CBA , avem distribuţie mezocurtică, adică distribuţia normală.

In cazul acestei serii de date statistice, 0383,2 >=CAB , ceea ce indica o distributie leptocurtica

(cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor). Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:

a) Construiţi seria de distribuţie de frecvenţe şi analizaţi grafic tendinţa de normalitate a acesteia. b) Caracterizaţi omogenitatea şi asimetria distribuţiei contractelor în funcţie de valoarea primelor

anuale. c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime

anuale de valoare mai mica sau egala cu 90 Eur. Rezolvare: a) o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W. o Unitatea statistica este un contract de asigurare de locuinta. o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei

anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila numerica, continua.

o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:

Nr. crt.

Valoarea kx Eur

a unei prime anuale

Numarul de contracte, kn ,

(frecventa absoluta)

1 =1x 50 Eur =1n 2 contracte

2 =2x 60 Eur =2n 3

3 =3x 70 Eur =3n 6

4 =4x 90 Eur =4n 9

5 =5x 120 Eur =5n 16

6 =6x 130 Eur =6n 8

7 =7x 140 Eur =7n 6

∑=

==7

1

50k

k nn contracte

sau

=======

=======

6816963contracte2120130120907060Eur50

:7654321

7654321

nnnnnnn

xxxxxxxX ,

unde ∑=

==7

1

50k

k nn contracte.

16

o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.

Poligonul frecventelor absolute - distributia celor 50 de contracte incheiate de agentul de asigurari dupa valoarea primei anuale

0

2

4

6

8

10

12

14

16

18

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala de asigurare a unui contract, in Eur

Frecventa absoluta (num

arul de contracte)

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la

stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga. o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative

Nr. crt.

Valoarea kx Eur

a unei prime anuale

Numarul de contracte, kn ,

(frecventa absoluta) Frecventa relativa [ ]1,0* ∈=

nn

n kk

1 =1x 50 Eur =1n 2 contracte =*1n 0,04

2 =2x 60 Eur =2n 3 =*2n 0,06

3 =3x 70 Eur =3n 6 =*3n 0,12

4 =4x 90 Eur =4n 9 =*4n 0,18

5 =5x 120 Eur =5n 16 =*5n 0,32

6 =6x 130 Eur =6n 8 =*6n 0,16

7 =7x 140 Eur =7n 6 =*7n 0,12

∑=

==7

1

50k

k nn contracte ∑=

=7

1

* 1k

kn

17

Poligonul frecventelor relative

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala, in Eur, pentru un contract de asigurare

Frec

venta relativ

a

b) o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este

n

nx

nnnxnx

x

r

kkk

r

rr∑=

⋅=

++⋅++⋅

= 1

1

11

...

...,

unde { }rkxk ,1, = sunt variantele distincte observate ale variabilei, iar ∑=

=r

kk nn

1

volumul esantionului.

In cazul nostru, 2,10650

531050

7

1 ==⋅

=∑=k

kk nxx Eur este valoarea medie a unei prime anuala

corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari.

o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand urmatorii pasi:

• Cele r variante distincte sunt ordonate crescator rxxx <<< ...21 .

• Se determina locul medianei, adica 5,252

1=

+n.

• Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincte

kck nnF ++= ...1 , rk ,1= . • Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata

crescator este prima care depaseste locul medianei

5,2520

5,2511

5,255

5,252

4

3

2

1

<=

<=

<=

<=

c

c

c

c

F

F

F

F

si 5,25365 ≥=cF , deci a 5-a varianta sau valoare distincta, 5x , este mediana sau valoarea mediana: 1205 == xMe Eur, adica jumatate dintre contractele incheiat de agentul de vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur.

18

Nr. crt.

Valoarea distincta,

kx Eur

kn ,

(frecventa absoluta)

kk nx ⋅ kck nnF ++= ...1 ( ) kk nxx ⋅− 2

1 =1x 50 =1n 2 =⋅ 11 nx 100 == 11 nFc 2 ( ) =⋅− 12

2 nxx 6316,88

2 =2x 60 =2n 3 =⋅ 22 nx 180 =+= 212 nnFc 5 ( ) =⋅− 22

2 nxx 6403,32

3 =3x 70 =3n 6 420 =++= 3213 nnnFc 11 7862,64

4 =4x 90 =4n 9 810 =++= 414 ... nnFc 20 2361,96

5 =5x 120 =5n 16 1920 =++= 515 ... nnFc 36 3047,04

6 =6x 130 =6n 8 1040 =++= 616 ... nnFc 44 4531,52

7 =7x 140 =7n 6 840 ==++= nnnFc 717 ... 50 ( ) =⋅− 72

7 nxx 6854,64

∑=

==7

1

50k

k nn ∑=

=⋅7

1kkk nx 5310

( )∑

=

=⋅−7

1

2

kkk nxx 37378

=x 106,2 =2xs 762,8163265

== 2xx ss 27,61912972

=xv 26,01%

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:

• Frecventa absoluta cea mai mare este: { }rknn k ,1,max16 5 === .

• valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de interes, 1205 == xMo Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale pentru contractele incheiate de respectivul agent.

o Relatia in care se gasesc indicatorii tendintei centrale, MoMex =< , ca si reprezentatrea grafica pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea primelor anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor anuale, iar coada distributiei este alungita spre stanga.

o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este

( ) ( )( )

( )

11...... 1

2

1

21

212

⋅−=

−++⋅−++⋅−

=∑=

n

nxx

nnnxxnxx

s

r

kkk

r

rrx ,

unde { }rkxk ,1, = sunt variantele distincte observate ale variabilei, ∑=

=r

kk nn

1

volumul esantionului.

In cazul nostru,( )

8163,762150

37378150

7

1

2

2 =−

=−

⋅−=∑=k

kk

x

nxxs , iar abaterea standard sau abaterea medie

patratica este 6191,272 == xx ss Eur, care arata cu cat se abat, in medie, valorile observate fata de nivelul mediu in esantion al primelor anuale.

o Coeficientul de variatie in esantion este %30%01,261002,106

6191,27100 <=⋅=⋅=

xs

v xx , ceea ce arata ca

distributia este omogena si media este reprezentativa pentru colectivitate.

19

c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o prima anuala de valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime

anuale sunt de valoare mai mica sau egala cu 90 Eur este

− mmnY

10: ,

unde 1=Y pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion care verifica evenimentul favorabil,

204321 =+++= nnnnm contracte, iar 0=Y pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, mn − este

numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, 30=−mn de contracte cu prime anuale mai mari de 90 Eur.

Media variabilei alternative este 4,05020

===nm

y , adica 40% dintre contracte au valori ale

primelor anuale mai mici sau egale cu 90 Eur.

Dispersia variabilei alternative este 24,012 =

−⋅=nm

nm

s y , iar abaterea standard

48,01 ≅

−⋅=nm

nm

sy

Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie:

Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi 1 [7200; 12500] 30 2 (12500; 17800] 69 3 (17800; 23100] 302 4 (23100; 28400] 308 5 (28400; 33700] 263 6 (33700; 39000] 95 7 (39000; 44300] 20 8 (44300; 49600] 6 9 (49600; 54900] 5 10 (54900; 60200] 1 11 (60200; 65500] 1

Se cere: a) sa se reprezinte grafic aceasta serie de distributie; b) sa se determine si sa se interpreteze indicatorii tendintei centrale; c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se estimeze

proportia absolventilor care: i) au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor, ii) au obtinut un salariu mai mic decat media in primul an de dupa finalizarea studiilor, iii) au castigat in primul an intre 25000 $ si 40000 $, iv) au castigat mai mult de 52000 $;

d) sa se stabileasca daca media este reprezentativa pentru colectivitate; e) sa se analizeze asimetria acestei distributii.

Rezolvare: a) Ø Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si

1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului SPSS.

Ø Unitatea statistica este un absolvent.

20

Ø Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din primul an de dupa finalizarea studiilor, variabila numerica, continua.

Ø Pentru un esantion de volum 1100=n de absolventi s-au inregistrat valorile variabilei, iar setul de date s-a sistematizat intr-o serie de distributie de frecvente pe 11=r intervale de variatie de marime egala, data in enuntul problemei.

Ø Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza prin histograma si poligonul frecventelor absolute.

Nr. crt.

Intervalul k de variatie (Salariul anual al unui

absolvent, in $)

Frecventa absoluta

kn a intervalului k

(numarul de absolventi)

Limita inferioara

( )infkx

a intervalului k

Limita superioara

( )supkx

a intervalului k

Centrul kx

al intervalului k

1 [7200; 12500] 30 7200 12500 9850 2 (12500; 17800] 69 12500 17800 15150 3 (17800; 23100] 302 17800 23100 20450 4 (23100; 28400] 308 23100 28400 25750 5 (28400; 33700] 263 28400 33700 31050 6 (33700; 39000] 95 33700 39000 36350 7 (39000; 44300] 20 39000 44300 41650 8 (44300; 49600] 6 44300 49600 46950 9 (49600; 54900] 5 49600 54900 52250 10 (54900; 60200] 1 54900 60200 57550 11 (60200; 65500] 1 60200 65500 62850

∑=

==11

1kk nn 1100

Histograma

30

69

302 308

263

95

206 5 1 1

0

50

100

150

200

250

300

350

[7200; 12500]

(12500; 17800]

(17800; 23100]

(23100; 28400]

(28400; 33700]

(33700; 39000]

(39000; 44300]

(44300; 49600]

(49600; 54900]

(54900; 60200]

(60200; 65500]

Salariul, in $ (intervalele de variatie)

Frecventa absoluta (num

arul de absolventi)

Fig. ..... Histograma – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul

castigat in primul an de dupa finalizarea studiilor.

21

Poligonul frecventelor absolute

30

69

263

95

302308

206 5 1 1

0

50

100

150

200

250

300

350

0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (centrele intervalelor de variatie)

Frecven

ta abso

luta (n

umarul de

abso

lven

ti)

Fig. ..... Poligonul frecventelor absolute – Distributia celor 1100 de absolventi ai Universitatii din

Florida dupa salariul castigat in primul an de dupa finalizarea studiilor. b) Indicatorii tendintei centrale: media, mediana si modul.

Nr. crt.

Intervalul k (Salariul anual al

unui absolvent, in $)

Centrul

kx Frecventa absoluta kn

(numarul de absolventi) kk nx ⋅

Frecventa absoluta cumulata crescator a intervalului k,

kck nnF ++= ...1

1 [7200; 12500] 9850 30 295500 30 2 (12500; 17800] 15150 69 1045350 99 3 (17800; 23100] 20450 302 6175900 401 4 (23100; 28400] 25750 308 7931000 709 5 (28400; 33700] 31050 263 8166150 972 6 (33700; 39000] 36350 95 3453250 1067 7 (39000; 44300] 41650 20 833000 1087 8 (44300; 49600] 46950 6 281700 1093 9 (49600; 54900] 52250 5 261250 1098 10 (54900; 60200] 57550 1 57550 1099 11 (60200; 65500] 62850 1 62850 1100

∑=

==11

1kk nn 1100 ∑

=

=⋅11

1kkk nx 28563500

=x 25966,82

o Media pentru o serie de distributie de frecvente pe r intervale de variatie este

n

nx

nnnxnx

x

r

kkk

r

rr∑=

⋅=

++⋅++⋅

= 1

1

11

...

...,

unde { }rkxk ,1, = sunt centrele celor r intervale, iar ∑=

=r

kk nn

1

volumul esantionului.

22

82,259661100

285635001100

11

1 ==⋅

=⇒∑=k

kk nxx $ a castigat, in medie, un absolvent in primul an.

o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand urmatorii pasi:

• Se determina locul medianei, adica 5,5502

1=

+n.

• Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie

kck nnF ++= ...1 , rk ,1= . • Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata

crescator depaseste locul medianei

5,550401

5,55099

5,55030

3

2

1

<=

<=

<=

c

c

c

F

F

F

si 5,5507094 ≥=cF , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul median.

• =−

+

⋅+=−

Me

Mec

MeMe n

Fn

hxMe1

inf2

1

56,25672308

4015,550530023100 =

−⋅+= $, adica jumatate dintre absolventi au castigat

cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza astfel:

• Se determina intervalul cu frecventa absoluta cea mai mare: { }rknn k ,1,max308 4 === ,

deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.

• =∆+∆

∆⋅+=

21

1inf MoMo hxMo

( ) ( ) 52,23723263308302308

302308530023100 =

−+−−

⋅+= $, aceasta este valoarea cea mai

des intalnita a castigului salarial al unui absolvent intr-un an. c) Introducem functia +→RR:cF definita astfel

( )=xFc numarul de unitati statistice din esantion pentru care valoarea observata a caracteristicii de interes X este mai mica sau egala cu x sau frecventa cumulata a lui x.

Frecventa absoluta cumulata crescator a intervalului k de variatie, kck nnF ++= ...1 , rk ,1= ,

reprezinta numarul de unitati statistice din esantion pentru care valoarea observata a variabilei de interes X este mai mica sau egala decat limita superioara ( )supkx a intervalului k de variatie, adica

( )( )supkcck xFF = , rk ,1= .

23

Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator vom pune in evidenta limitele superioare ( )supkx ale intervalelor de variatie si frecventele lor absolute cumulate,

impreuna cu limita inferioara a primului interval de variatie ( ) inf1x , in cazul nostru 7200 $, a carui

frecventa absoluta cumulata este 0, ( )( ) ( ) 07200inf1 == cc FxF , deoarece pentru nicio unitate statistica din

esantion, nivelul variabilei nu este mai mic decat ( ) inf1x .

Limitele superioare ale intervalelor de variatie,

( )supkx

( )( ) kckkc nnFxF ++== ...1sup , adica numarul de absolventi din esantion

care au castigat un salariu mai mic sau egal cu ( )supkx $

( ) inf1x =7200 ( )( ) ( )7200inf1 cc FxF = =0

( )sup1x =12500 ( )( ) ( )12500sup1 cc FxF = =30

( )sup2x =17800 ( )( ) ( )17800sup2 cc FxF = =99

( )sup3x =23100 ( )( ) ( )23100sup3 cc FxF = =401

( )sup4x =28400 ( )( ) ( )28400sup4 cc FxF = =709

( )sup5x =33700 ( )( ) ( )33700sup5 cc FxF = =972

( )sup6x =39000 ( )( ) ( )39000sup6 cc FxF = =1067

( )sup7x =44300 ( )( ) ( )44300sup7 cc FxF = =1087

( )sup8x =49600 ( )( ) ( )49600sup8 cc FxF = =1093

( )sup9x =54900 ( )( ) ( )54900sup9 cc FxF = =1098

( )sup10x =60200 ( )( ) ( )60200sup10 cc FxF = =1099

( )sup11x =65500 ( )( ) ( )65500sup11 cc FxF = =1100

Poligonul freventelor absolute cumulate crescator

99

709

972

1100

1099

1098109310871067

401

300

0

200

400

600

800

1000

1200

0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (limitele superioare ale intervalelor de variatie)

Frecventele absolute cumulate

(num

arul cumulat de absolventi)

24

i) ( )21000cF este numarul de absolventi care au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor.

Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar ( )21000cF se determina prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se poate observa in figura de mai jos:

( ) ( )( ) ( )1780023100

178002100017800231001780021000

cc

cc

FFFF

−−

=−−

( )99401

992100053003200

−−

=⇒ cF

( ) 28133,28121000 ≅=⇒ cF absolventi, adica o proportie de %54,251001100281

=⋅ dintre cei 1100

de absolventi din esantionul considerat au avut un salariu anual mai mic de 21000 $.

Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute cumulate

crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $. ii) ( )82,25966cF este numarul de absolventi care au obtinut un salariu mai mic decat nivelul mediu =x 25966,82 $ al salariului in esantion.

Din relatia ( ) ( )( ) ( )2310028400

2310082,259662310028400

2310082,25966

cc

cc

FFFF

−−

=−−

,

25

obtinem ca ( ) 5688,56782,25966 ≅=cF absolventi,

adica o proportie de %63,511001100568

=⋅ dintre cei 1100 de absolventi din esantionul considerat au

avut un salariu anual mai mic de nivelul mediu. iii) ( ) ( ) 55935,5592500040000 ≅=− cc FF este numarul de absolventi care au castigat in primul an intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi. iv) ( ) ( ) 573,452000110052000 ≅=−=− cc FFn absolventi au castigat mai mult de 52000 $, adica o proportie de 0,45%. d) Media variabilei de interes in esantion este =x 25966,82 $.

Nr. crt.

Intervalul k (Salariul anual al

unui absolvent, in $)

Centrul

kx Frecventa absoluta kn

(numarul de absolventi) ( ) kk nxx ⋅− 2

1 [7200; 12500] 9850 30 ( ) =⋅− 12

1 nxx 7792556607

2 (12500; 17800] 15150 69 8073248049 3 (17800; 23100] 20450 302 9191461480 4 (23100; 28400] 25750 308 14479361,02 5 (28400; 33700] 31050 263 6795583074 6 (33700; 39000] 36350 95 10241990557 7 (39000; 44300] 41650 20 4919242698 8 (44300; 49600] 46950 6 2641763057 9 (49600; 54900] 52250 5 3454027755 10 (54900; 60200] 57550 1 997497258,9 11 (60200; 65500] 62850 1 1360368967

∑=

==11

1kk nn 1100 ( )∑

=

=⋅−11

1

2

kkk nxx 55482218864

=2xs 50484275,58

=xs 7105,2287

Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este

( ) ( )( )

( )

11...... 1

2

1

21

212

⋅−=

−++⋅−++⋅−

=∑=

n

nxx

nnnxxnxx

s

r

kkk

r

rrx ,

unde { }rkxk ,1, = sunt centrele celor r intervale, ∑=

=r

kk nn

1

volumul esantionului.

( )58,50484275

1110045548221886

11100

11

1

2

2 =−

=−

⋅−=⇒∑=k

kk

x

nxxs , iar abaterea standard este 2287,7105=xs $, care

arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.

Coeficientul de variatie in esantion este %30%36,2710082,25966

2287,7105100 <=⋅=⋅=

xs

v xx , ceea ce

arata ca media este reprezentativa pentru colectivitate.

26

e) Asimetria unei serii de distribuţie de frecvenţe se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor, si prin modalitatea în care sunt situaţi, unul faţă de celălalt, indicatorii tendinţei centrale.

Histograma

30

69

302 308

263

95

206 5 1 1

0

50

100

150

200

250

300

350

[7200; 12500]

(12500; 17800]

(17800; 23100]

(23100; 28400]

(28400; 33700]

(33700; 39000]

(39000; 44300]

(44300; 49600]

(49600; 54900]

(54900; 60200]

(60200; 65500]

Salariul, in $ (intervalele de variatie)

Frecventa absoluta (numarul de absolventi)

Poligonul frecventelor absolute

30

69

263

95

302308

206 5 1 1

0

50

100

150

200

250

300

350

0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (centrele intervalelor de variatie)

Frecven

ta abso

luta (n

umarul de

abso

lven

ti)

Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in

seria de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este asimetrica spre dreapta (cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica).

Indicatorii tendintei centrale se gasesc in urmatoarea relatie xMeMo << , ceea ce indica faptul ca distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici.

Gradul de asimetrie prezent în serie poate să fie şi măsurat printr-un indicator specific, numit coeficient de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe r intervale de variatie se calculeaza dupa

( )

( )31

3

x

r

kkk

xsn

nxxCAS

⋅−=∑= ,

unde { }rkxk ,1, = sunt centrele celor r intervale, ∑=

=r

kk nn

1

volumul esantionului.

Nr. crt.

Intervalul k (Salariul anual al unui

absolvent, in $)

Centrul

kx Frecventa absoluta kn

(numarul de absolventi) ( ) kk nxx ⋅− 3

1 [7200; 12500] 9850 30 -1,25591E+14 2 (12500; 17800] 15150 69 -8,73269E+13 3 (17800; 23100] 20450 302 -5,07076E+13 4 (23100; 28400] 25750 308 -3139415056 5 (28400; 33700] 31050 263 3,45432E+13 6 (33700; 39000] 36350 95 1,06344E+14 7 (39000; 44300] 41650 20 7,71494E+13 8 (44300; 49600] 46950 6 5,54326E+13 9 (49600; 54900] 52250 5 9,07828E+13 10 (54900; 60200] 57550 1 3,15041E+13 11 (60200; 65500] 62850 1 5,01747E+13

∑=

==11

1kk nn 1100 ( )∑

=

=⋅−11

1

3

kkk nxx 1,82302E+14

=CAS 0,462

Cum 10 <<CAS , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în serie predominând valorile mici (modul < mediana < media).

27

Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a rambursarii creditelor. Datele au fost sistematizate astfel:

Intervale de variatie a numarului de zile de intarziere a platii

Ponderea cumulata a debitorilor (%)

mai putin 25 de zile 25 25-35 de zile 75 35-45 de zile 85 45-55 de zile 93 55-65 de zile 98

peste 65 de zile 100 Se cere:

a) sa se scrie distributia de frecvente pe intervale de variatie; b) sa se reprezinte grafic distributia de frecvente absolute; c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata

medie de intarziere a platilor este reprezentativa; d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce

au intarziat mai mult de 45 de zile cu efectuarea platilor. Rezolvare: a) o Populatia statistica – mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor

credite. o Unitatea statistica – un debitor. o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a

efectuarii platii catre banca de catre un deitor; variabila numerica, discreta. o S-a realizat o selectie de volum 500=n de debitori restantieri pentru care s-a inregistrat numarul de

zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe 6=r intervale de variatie de marime egala.

Notam cu: • rknk ,1, = , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care

numarul de zile de intarziere apartine intervalului k de variatie), nnn r =++ ...1 ;

• [ ] rknn

n kk ,1,1;0* =∈= , frecventa relativa a intervalului k de variatie, 1... **

1 =++ rnn ;

• rknn

n kk ,1,100%* =⋅= , frecventa relativa exprimata procentual a intervalului k de variatie sau

ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa k, %100%...% **

1 =++ rnn ;

• rknnF kck ,1,...1 =++= , este frecventa absoluta cumulata crescator a intervalului k;

• rknnF kck ,1,... **1

* =++= , este frecventa relativa cumulata crescator a intervalului k;

• rknnF kck ,1%,...%% **1

* =++= , este frecventa relativa exprimata procentual cumulata crescator a intervalului k (ponderea cumulata a intervalului k).

28

Nr. crt.

Intervalul k de variatie a

numarului de zile de intarziere a

platii

Ponderea cumulata a debitorilor (%)

%...%% **1

*kck nnF ++=

Ponderea intervalului k,

%*kn

Frecventa relativa,

100%*

* kk

nn =

Frecventa absoluta,

*

*

500 k

kk

n

nnn

⋅=

=⋅=

1 15-25 de zile == %% *1

* nFck 25% =%*1n 25% =*

1n 0,25 =1n 125

2 25-35 de zile =+= %%% *2

*1

*2 nnFc 75% =%*

2n 50% =*2n 0,50 =2n 250

3 35-45 de zile =++= %...%% *3

*1

*3 nnFc 85% =%*

3n 10% =*3n 0,10 =3n 50

4 45-55 de zile =++= %...%% *4

*1

*4 nnFc 93% =%*

4n 8% =*4n 0,08 =4n 40

5 55-65 de zile =++= %...%% *5

*1

*5 nnFc 98% =%*

5n 5% =*5n 0,05 =5n 25

6 65-75 de zile =++= %...%% *6

*1

*6 nnFc 100% =%*

6n 2% =*6n 0,02 =6n 10

∑=

=6

1

* %k

kn 100% ∑=

=6

1

*

kkn 1 ∑

=

==6

1

500k

k nn

Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie de distributie de frecvente pe intervale:

Nr. crt.

Intervalul k de variatie a numarului de zile de intarziere a platii

Numarul de debitori (frecventa absoluta),

kn

Centrul kx al intervalului k

de variatie 1 15-25 de zile =1n 125 debitori =1x 20 2 25-35 de zile =2n 250 =2x 30

3 35-45 de zile =3n 50 =3x 40

4 45-55 de zile =4n 40 =4x 50

5 55-65 de zile =5n 25 =5x 60

6 65-75 de zile =6n 10 =6x 70

∑=

==6

1

500k

k nn debitori

b)

Histograma

125

250

5040

2510

0

50

100

150

200

250

300

15-25de zile

25-35de zile

35-45de zile

45-55de zile

55-65de zile

65-75de zile

Numarul de zile de intarziere

Numarul de deb

itori

Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de

intarziere a platii

Poligonul frecventelor absolute

0

50

100

150

200

250

300

0 10 20 30 40 50 60 70 80

Numarul zilelor de intarziere

Numarul d

e deb

itori

Fig. .... Poligonul frecventelor absolute pentru distributia celor

500 de debitori dupa numarul de zile de intarziere a platilor

29

c) Nr. crt. Intervalul k

Numarul de debitori, kn

Centrul

kx kk nx ⋅ ckF ( ) kk nxx ⋅− 2

1 15-25 de zile =1n 125 =1x 20 =⋅ 11 nx 2500 =1cF 125 ( ) =⋅− 12

1 nxx 19220

2 25-35 de zile =2n 250 =2x 30 7500 =2cF 375 1440

3 35-45 de zile =3n 50 =3x 40 2000 =3cF 425 2888

4 45-55 de zile =4n 40 =4x 50 2000 465 12390,4

5 55-65 de zile =5n 25 =5x 60 1500 490 19044

6 65-75 de zile =6n 10 =6x 70 =⋅ 66 nx 700 =6cF 500 ( ) =⋅− 62

6 nxx 14137,6

∑=

==6

1

500k

k nn

∑=

=⋅6

1kkk nx 16200

( )∑

=

=⋅−6

1

2

kkk nxx =69120

=x 32,4 =2xs 138,5170

== 2xx ss 11,7693

=xv 36,33%

o Media este 500

16200......

6

1

61

611 =⋅

=++

⋅++⋅=

∑=

n

nx

nnnxnx

x kkk

r , deci 4,32=x zile este numarul mediu de zile

de intarziere a platilor pentru un debitor restantier.

o Locul medianei este 5,2502

1=

+n; primul interval cu proprietatea ca

21+

≥n

Fck este intervalul 25-35

de zile, deoarece 5,2501251 <=cF , dar 5,2503752 ≥=cF , deci:

=−

+

⋅+=−

Me

Mec

MeMe n

Fn

hxMe1

inf2

1

02,30250

1255,2501025 =

−⋅+= zile, adica jumatate dintre debitorii restantieri au intarziat

cel putin 30 de zile cu efectuarea platilor.

o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare { }6,1,max250 2 === knn k , atunci

=∆+∆

∆⋅+=

21

1inf MoMo hxMo

( ) ( ) 84,2850250125250

1252501025 =

−+−−

⋅+= zile; numarul cel mai intalnit de zile de intarziere

a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.

o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este xMeMo << , ceea ce indica o asimetrie pozitiva.

30

o Dispersia in esantion este ( ) ( )

( )

( )

150069120

15001......

6

1

2

61

62

612

12

−=

⋅−=

−++⋅−++⋅−

=∑=k

kk

x

nxx

nnnxxnxx

s , deci

5170,1382 =xs , iar abaterea standard 7693,112 == xx ss zile, care arata cu cate zile se abat, in medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.

o Coeficientul de variatie in esantion este %35%33,361004,32

7693,11100 >=⋅=⋅=

xs

v xx , ceea ce arata ca

distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru colectivitate.

d) Definim “evenimentul favorabil” ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea

platilor este

− mmnY

10: ,

unde 1=Y pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion pentru care se verifica evenimentul favorabil,

75654 =++= nnnm debitori, iar 0=Y pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, mn − este

numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, 425=−mn debitori.

Media variabilei alternative este 15,050075

===nm

y , adica 15% dintre debitori au intarziat mai

mult de 45 de zile.

Dispersia variabilei alternative este 1275,012 =

−⋅=nm

nm

s y , iar abaterea standard

36,01 ≅

−⋅=nm

nm

sy .