cap5

43
Capitolul V ANALIZA STATISTICĂ A VARIABILITĂŢII FAŢĂ DE TENDINŢA CENTRALĂ 5.1. NECESITATEA MĂSURĂRII VARIABILITĂŢII (ÎMPRĂŞTIERII) VALORILOR INDIVIDUALE. CLASIFICAREA INDICATORILOR DE ÎMPRĂŞTIERE Formele individuale de manifestare ale fenomenelor de masă analizate într-o colectivitate prezintă o variabilitate (împrăştiere) mai mare sau mai mică în funcţie de numărul, natura, direcţia şi sensul acţiunii factorilor esenţiali şi întâmplători. La nivelul colectivităţii, sau al ansamblului, legea tendinţei comportamentului acestor fenomene este reflectată sintetic de indicatorii tendinţei centrale: media, mediana, etc. Cu cât fenomenele au un grad mai mare de complexitate (determinată de multitudinea de factori de influenţă) cu atât variaţia (împrăştierea) valorilor individuale este mai mare. Deci, utilizarea corectă a indicatorilor tendinţei centrale în fundamentarea deciziilor necesită verificarea stabilităţii şi reprezentativităţii valorilor înregistrate de aceştia. Astfel, valoarea determinată a mediei este reprezentativă numai în măsura în care ea este calculată din date omogene, apropiate între ele ca mărime sau din punctul de vedere al altor criterii. Aceasta înseamnă că determinarea valorii mediei trebuie să fie însoţită de verificarea omogenităţii valorilor individuale din care ea s-a calculat. Verificarea omogenităţii valorilor individuale necesită măsurarea şi analiza împrăştierii şi concentrării faţă de valorile tipice calculate. În statistică prin noţiunea generală de împrăştiere (variaţie sau dispersare) se au în vedere abaterile măsurabile ale valorilor individuale faţă de o valoare centrală (tipică). De exemplu, în două populaţii, aceeaşi variabilă înregistrează valorile: {x i } = {2;2;2;10;18;18;18} {x i }={9;9;9;9;10;11;11;11;11}. Cele două serii au aceeaşi medie şi mediană dar împrăştierea (dispersarea) este diferită. Acest fapt este evidenţiat de abaterile înregistrate faţă de media (10) sau mediana (10). Seria a doua este mai omogenă (înregistrează o mai mică împrăştiere sau dispersare a valorilor individuale),

description

Statistica

Transcript of cap5

Page 1: cap5

Capitolul V

ANALIZA STATISTICĂ A VARIABILITĂŢII FAŢĂ DE TENDINŢA CENTRALĂ

5.1. NECESITATEA MĂSURĂRII VARIABILITĂŢII (ÎMPRĂŞTIERII) VALORILOR INDIVIDUALE. CLASIFICAREA INDICATORILOR DE ÎMPRĂŞTIERE

Formele individuale de manifestare ale fenomenelor de masă analizate într-o colectivitate prezintă o variabilitate (împrăştiere) mai mare sau mai mică în funcţie de numărul, natura, direcţia şi sensul acţiunii factorilor esenţiali şi întâmplători. La nivelul colectivităţii, sau al ansamblului, legea tendinţei comportamentului acestor fenomene este reflectată sintetic de indicatorii tendinţei centrale: media, mediana, etc. Cu cât fenomenele au un grad mai mare de complexitate (determinată de multitudinea de factori de influenţă) cu atât variaţia (împrăştierea) valorilor individuale este mai mare. Deci, utilizarea corectă a indicatorilor tendinţei centrale în fundamentarea deciziilor necesită verificarea stabilităţii şi reprezentativităţii valorilor înregistrate de aceştia. Astfel, valoarea determinată a mediei este reprezentativă numai în măsura în care ea este calculată din date omogene, apropiate între ele ca mărime sau din punctul de vedere al altor criterii. Aceasta înseamnă că determinarea valorii mediei trebuie să fie însoţită de verificarea omogenităţii valorilor individuale din care ea s-a calculat. Verificarea omogenităţii valorilor individuale necesită măsurarea şi analiza împrăştierii şi concentrării faţă de valorile tipice calculate. În statistică prin noţiunea generală de împrăştiere (variaţie sau dispersare) se au în vedere abaterile măsurabile ale valorilor individuale faţă de o valoare centrală (tipică). De exemplu, în două populaţii, aceeaşi variabilă înregistrează valorile: {xi}={2;2;2;10;18;18;18} {xi}={9;9;9;9;10;11;11;11;11}. Cele două serii au aceeaşi medie şi mediană dar împrăştierea (dispersarea) este diferită. Acest fapt este evidenţiat de abaterile înregistrate faţă de media (10) sau mediana (10). Seria a doua este mai omogenă (înregistrează o mai mică împrăştiere sau dispersare a valorilor individuale),

Page 2: cap5

128 Statistică generală

iar valorile sale tipice sunt mai reprezentative. Prin urmare, noţiunea de dispersare, împrăştiere, completează informaţiile despre seriile statistice investigate. Calculul şi analiza indicatorilor variaţiei sau împrăştierii valorilor individuale faţă de tendinţa centrală oferă posibilitatea rezolvării unor probleme de cunoaştere statistică. Dintre acestea se disting: 1) analiza gradului de omogenitate a datelor din care s-au calculat indicatorii tendinţei centrale şi verificarea reprezentativităţii acestora; 2) compararea în timp şi (sau) spaţiu a mai multor serii de repartiţie după caracteristici independente sau (şi) interdependente; 3) selectarea obiectivă a factorilor semnificativi de influenţă după care se structurează unităţile unei colectivităţi statistice; 4) separarea acţiunilor factorilor esenţiali de acţiunea factorilor întâmplători, identificarea felului în care factorii esenţiali îşi modifică acţiunea de la o grupă (clasă) la alta; 5) concentrarea valorilor individuale ale caracteristicilor şi deplasarea acestora faţă de valorile tipice; 6) aplicarea diferitelor teste ale statisticii matematice. Indicatorii împrăştierii (variaţiei) utilizaţi în analizele statistice sunt clasificaţi după mai multe criterii:

după numărul variantelor luate în calcul (sau după gradul lor de sinteză) există indicatori simpli şi indicatori sintetici;

după modul de sistematizare a datelor primare există indicatori ai variaţiei calculaţi pentru serii de distribuţie unidimensionale şi indicatori ai variaţiei calculaţi pentru serii multidimensionale;

după modul de calcul şi exprimare există indicatori ai variaţiei calculaţi ca mărimi absolute şi ca mărimi relative.

Indiferent de natura lor, indicatorii de împrăştiere calculaţi oferă informaţii necesare nu numai pentru cunoaşterea variabilităţii din seriile statistice analizate, dar şi pentru aprecierea "calităţii" (sub aspectul reprezentativităţii şi al încărcăturii informaţionale) valorilor tipice utilizate în procesul decizional.

5.2. INDICATORII SIMPLI AI ÎMPRĂŞTIERII Aceşti indicatori prezintă următoarele caracteristici generale:

se determină dintr-un număr redus de valori individuale; se determină, de regulă, prin compararea sub formă de diferenţă şi,

în consecinţă, se exprimă în unitatea de măsură a variabilei observate;

Page 3: cap5

Capitolul V 129 informaţiile despre variabilitate oferite în urma determinării şi

analizării rezultatelor sunt extrem de reduse şi nu vizează omogenitatea ansamblului de date înregistrate etc.

a) Amplitudinea împrăştierii sau variaţiei (A) se defineşte prin diferenţa dintre cea mai mare şi cea mai mică valoare individuală înregistrată. A=xmax-xmin (5.1.) unde: xmax = max{x1, x2,..., xn}; xmin={x1, x2,..., xn}; {xi}= valori individuale înregistrate )n,1i( = Observaţii asupra conţinutului şi metodologiei de calcul: 1) Amplitudinea se exprimă în unitatea de măsură a caracteristicii urmărite, dacă se calculează după relaţia (5.1), sau în procente dacă se calculează sub formă relativă după relaţia următoare:

A% =

X m ax − X m in−X

% 100 (5.2)

2) Ca măsură a împrăştierii valorilor individuale amplitudinea prezintă dezavantajul că nu ţine seama de toate observaţiile şi este sensibilă la prezenţa valorilor aberante. De exemplu, următoarele trei serii vizualizate au aceeaşi amplitudine dar prezintă variaţii (dispersări) diferite:

xmin

xmin

xmin

xmin

xmax

xmax

xmax

xmax

Amplitudinea este un indicator de împrăştiere "destul de rezonabil" numai dacă valorile individuale ale seriei sunt repartizate în mod uniform, omogen (fără să existe valori aberante).

Page 4: cap5

130 Statistică generală

3) În cazul seriilor de distribuţie de frecvenţă pe intervale calculul ampliutudinii este lipsit de sens; 4) Amplitudinea se utilizează frecvent în prelucrarea statistică la alegerea numărului de intervale de grupare a datelor şi la stabilirea mărimii intervalelor. b) Abaterea intercuantilică se calculează, ca diferenţă între cuantila superioară şi cuantila inferioară ambele având acelaşi ordin. Astfel, pentru cuantilele definite în capitolul anterior observăm:

- pentru r = 4 Q3- Q1, conţine 50% din numărul observaţiilor; - pentru r = 10 D9-D1, conţine 80% din numărul observaţiilor. Într-o distibuţie normală abaterea intercuartilică se exemplifică în figura 5.1.

Figura 5.1. Abaterea Q3-Q1 în distribuţia normală

Observaţii: 1) Acest indicator se exprimă în unitatea de măsură a caracteristicii; 2) Calculul abaterii intercuartilice, spre deosebire de cel al amplitudinii, prezintă avantajul că evită valorile individuale extreme sau aberante. Prin calculul acestui indicator se pierd, însă, informaţii dar are câştig de cauză omogenitatea valorilor individuale. 3) Acest indicator oferă informaţii despre concentrarea valorilor individuale în cadrul seriei, pentru analiza asimetriei distribuţiilor; 4) Ca şi amplitudinea împrăştierii, abaterea intercuartilică nu poate fi utilizată în calcule algebrice etc. c) Abaterile individuale ca măsuri ale împrăştierii într-o serie exprimă cu câte unităţi de măsură sau de câte ori (sau cât la sută) valoarea

Abaterea intercuantilică Q 1 3Q( ) -

Q3

25% 25% 25%25%

Q2Q1

Page 5: cap5

Capitolul V 131 caracteristicii urmărită, la fiecare unitate a colectivităţii, se abate de la mărimea calculată a unui indicator al tendinţei centrale.

Prin urmare, tendinţa centrală se exprimă prin media aritmetică, abaterile individuale în mărimi absolute sau relative şi se calculează astfel:

di = Xi −−X sau di%= Xi −

−X

−X%100 (pentru orice i = 1,n) (5.3)

Observaţii: di% = −

X

XX i di = −

− XX i

1) În relaţia (5.3) valorile individuale se compară cu valoarea lor medie, dar la fel de bine poate fi utilizat pentru comparare oricare alt indicator al tendinţei centrale (de exemplu: mediana).

2) Media abaterilor individuale {−

d i} (cu i = 1,n) calculate în raport cu media variantelor caracteristicii este nulă, deoarece abaterile într-un sens sau altul, în sinteză, se compensează reciproc. 3) În cursul seriilor de distribuţie de frecvenţe pe intervale, pentru calculul abateriilor individuale se iau în considerare centrele de interval. 4) În analizele statistice se urmăreşte în mod deosebit abaterile maxime pozitive (dmax+) şi negative (dmax-) calculate în cifre absolute şi relative astfel:

dmax+=xmax-x sau dmax+%=d m ax +

−X

% 100 (5.4)

xxd −=− maxmax sau 10% maxmax ×= −

− xd

d 0 (5.5)

5) În cazul unui distribuţii simetrice d max + = dmax − , iar în interiorul seriei la abateri egale, (dar de semne contrare), le corespund frecvenţe egale de apariţie. Aceasta conduce la compensarea pe total (la nivelul întregului ansamblu) a abaterilor individuale. 6) În funcţie de scopul analizei statistice întreprinse se pot studia şi seriile {dj}, {dj,nj}, {dj,fj}. Se determină în acest sens toţi indicatorii prezentaţi în capitolul anterior, dar abaterile individuale se iau în modul (în valoare absolută). Analiza conţinutului şi metodologiei de calcul a indicatorilor simpli ai împrăştierii, sub aspect informaţional, prezintă dezavantajul că unii nu ţin seama decât de un număr redus de valori individuale, iar alţii - cu toate că au în vedere relaţia dintre fiecare valoare individuală şi media lor corespunzătoare - permit numai o caracterizare aproximativă a împrăştierii în cadrul seriei.

Page 6: cap5

132 Statistică generală

5.3. INDICATORII SINTETICI AI ÎMPRĂŞTIERII Indicatorii sintetici ai împrăştierii (variaţiei), spre deosebire de indicatorii simpli, sintetizează într-o singură expresie numerică variaţia valorilor individuale faţă de tentinţa centrală a caracteristicilor urmărite, într-o populaţie statistică. Principalii indicatori sintetici cu care se caractrerizează împrăştierea (variaţia) termenilor seriei faţă de tendinţa lor centrală sunt: abaterea medie adsolută; dispersia; abaterea medie pătratică (sau abaterea standard) şi coeficientul de variaţie. La baza determinării indicatorilor sintetici stau abaterile individuale, dar pentru a se evita compensarea, ele vor fi luate în modul (valoare absolută) sau se va opera cu pătratele acestora.

5.3.1. Abaterea medie absolută Abaterea medie absolută (d) reprezintă media aritmetică simplă sau ponderată a abaterilor "absolute" ale termenilor seriei de la tendinţa lor centrală, caracterizată cu ajutorul mediei sau al medianei. În cazul în care abaterea valorilor individuale sunt calculate şi analizate faţă de medie atunci abaterea medie absolută (dx) se determină astfel: - cazul seriei simple:

n

xxd

i

n

1ix

=−−Σ

=− (5.6.)

- cazul seriei de distribuţie de frecvenţe:

j

k

kj

jj

k

1jx

n

nxxd

=

=−

Σ

−Σ=− sau j

k

1jjx fxxd ∑

=−= (5.7.)

unde: k = numărul de variante distincte sau intervale de grupare; nj (cu j=1,k) = frecvenţe absolute; fj (cu j=1,k) = frecvenţe relative, exprimate sub formă de coeficienţi1. Este posibil ca în unele analize statistice să prezinte interes abaterea medie absolută a abaterilor valorilor individuale de mediană dMe . În asemenea situaţii aceasta se determină după următoarele relaţii:

1 În cazul în care frecvenţele relative sunt în % atunci numitorii relaţiilor (5.7) şi

(5.9), unde intervin acestea, vor fi egali cu 100.

Page 7: cap5

Capitolul V 133 - cazul seriei simple:

n

Mexd

i

n

1iMe

−Σ= =

− (5.8)

- cazul seriei de distribuţie de frecvenţe:

j

k

1j

jj

k

1jMe

n

nMexd

=

=−

Σ

−Σ= sau j

k

1jjx fMexd ∑

=−= (5.9)

Conţinutul şi metodologia de calcul a abaterii medii absolute conduc la unele observaţii cum ar fi: 1) ea se exprimă în unitatea de măsură a caracteristicii urmărite; 2) în cazul seriilor de distribuţie pe intervale de grupare pentru calculul ei se iau în considerare centrele acestora; 3) abaterea absolută medie calculată în funcţie de media valorilor individuale este mai mică sau egală cu aceea calculată în funcţie de media aritmetică:

−−−

≤ xdMed (5.10) 4) ea se calculează şi se analizează nu numai pentru seriile de distribuţie, dar şi pentru seriile cronologice sau teritoriale; 5) calculul şi analiza acestui indicator sintetic al împrăştierii este justificat numai în măsura în care prezintă interes, pentru caracterizarea variabilităţii, mărimea abaterilor şi nu şi semnul lor (pozitiv sau negativ). Aplicaţia 5.1. Se consideră seria simplă {1, 2, 4, 5, 7, 8, 9, 10, 11, 13}pentru care s-a calculat media x = 7 şi Me=7,5. Se construieşte tabelul următor care conţine abaterile absolute faţă de medie şi mediană (xi −X si xi −Me) precum şi sumele corespunzătoare:

Tabelul 5.1.

xi 1 2 4 5 7 8 9 10 11 13 Total 7−ix 6 5 3 2 0 1 2 3 4 6 32 5,7−ix 6,5 5,5 3,5 2,5 0,5 0,5 1,5 2,5 3,5 5,5 32

Potrivit relaţiilor (5.6) şi (5.8) se constată că dx = dMe = 3,2 . Rezultatul obţinut evidenţiază faptul că în cadrul seriei analizate în medie valorile individuale se abat de la media (7) sau de la media (7,5) lor

Page 8: cap5

134 Statistică generală

în mod identic cu (3,2). Această egalitate este înşelătoare, deoarece ea există pentru cazuri foarte rare. În general cei doi indicatori au valori distincte. Calculul abaterii medii absolute pentru cazul seriilor de distribuţie pe intervale de grupare este exemplificat în cadrul Aplicaţiei 5.2. Abaterea medie abolută, ca indicator sintetic al împrăştierii valorilor individuale faţă de tendinţa lor centrală, satisface destul de bine condiţiile lui Yulle, dar prezintă dezavantajul că nu poate fi utilizată în calcule algebrice. Din această cauză în analizele statistice în locul ei se preferă abaterea pătratică (abaterea standard sau abaterea tip).

5.3.2. Dispersia Valoarea absolută ale diferenţelor xi - x calculate în (5.6), (5.7) (sau 5.8) şi (5.9) elimină sensul (semnul) abaterilor faţă de tendinţa centrală. Acelaşi obiectiv poate fi atins dacă diferenţele respective se ridică la pătrat. Luându-se în considerare pătratele abaterilor valorilor individuale de la tendinţa lor centrală se obţine o valoare tipică a împrăştierii, numită dispersie ( x

2). Prin urmare, dispersia ca măsură sintetică a împrăştierii (variaţiei) reprezintă media aritmetică (simplă sau ponderată) a pătratelor abaterilor valorilor individuale de la tendinţa lor centrală. Aceasta înseamnă că în calculul dispersiei poate fi luată în considerare media sau alt indicator al tendinţei centrale (de exemplu, mediana). Deci, relaţiile de calcul ale dispersiei faţă de media aritmetică, sunt următoarele: - cazul seriei simple:

n

)xx( 2i

n

1i2

x

=−Σ

=σ − (5.10)

- cazul seriei de distribuţie de frecvenţe

k

1j

j2

j

k

1j2

x

n)xx(

=

=

Σ

−Σ=σ − sau j

2j

k

1j

2

xf)xx(

=−Σ=σ − (5.11)

Calculul dispersiei, pentru cazul seriei simple şi pentru cazul de distribuţie de frecvenţe pe intervale de grupare, este exemplificat în aplicaţia 5.2. Aplicaţia 5.2.

cazul seriei simple. Luând în considerare datele prezentate la Aplicaţia 5.1 obţinem seria pătratelor abaterilor valorilor individuale de la media lor (7):

Page 9: cap5

Capitolul V 135 Aceasta ne conduce la următoarea valoare a dispersiei calculată după relaţia (5.10): x

2 = 14. Dacă luăm în considerare Me = 7,5, atunci seria pătratelor abaterilor este {42,25; 30,25; 12,25; 6,25; 0,25; 0,25; 2,25; 6,25; 12,25; 30,25}, iar mărimea dispersiei calculată, în mod corespunzător, este

Me2 = 14,25. Observăm că în acest caz faptul că Me

2 > x . cazul seriei de distribuţie pe intervale de grupare. Se consideră

următoarea repartiţie a intrărilor în contul bancar al unei societăţi comerciale:

Tabelul 5.2

Grupa de intrări în cont după mărimea

lor (sute mii lei)

Număr de

intrări nj

Centre de

interval xj

a xjnj

b xj- x

c (xj- x )

2 d

(xj- x )2nj

E [xj- x ]nj

3 - 4 4 - 5 5 - 6 6 - 7 7 - 8

26 33 64 7

10

3,5 4,5 5,5 6,5 7,5

91 148,5 352 45,5 75

-1,58 -0,58 +0,41 +1,42 +2,41

2,496 0,336 0,168 2,016 5,808

64,896 11,088 10,752 14,112 58,08

41,08 19,14 26,24 9,94

24,10 TOTAL 140 - 712 - - 158,928 120,5

Pe baza datelor de mai sus se constată că intrarea medie zilnică este

de 5,086 sute mii lei, abaterea medie pătratică absolută este de 0,861 sute mii lei, iar dispersia este 1,14. Observaţii şi proprietăţi: 1) cu cât valorile individuale ale caracteristicilor urmărite sunt mai omogene, mai apropiate între ele cu atât mărimea dispersiei este mai mică. La limită, dacă toate valorile individuale sunt egale între ele (omogenitate perfectă) dispersia este nulă. 2) pentru a se evita volumul mare de calcule, determinarea dispersiei se poate realiza şi prin alte metode, fără a se afecta mărimea sa. Astfel:

Dacă se efectuează simple operaţii algebrice asupra relaţiilor (5.10) şi (5.11) atunci se va obţine:

- cazul seriei simple:

= −Σ

=σ −2

2i

n

1i2

xx

n

x (5.12)

- cazul seriei de distribuţie de frecvenţe

Page 10: cap5

136 Statistică generală

=

= −Σ

Σ=σ −

2

j

k

1j

j2j

k

1j2

xx

n

nx sau

2

j2j

k

1j

2

xxfx−

=−Σ=σ − (5.13)

Dispersia unei caracteristici invariante (staţionare) sau a unei constante este nulă.

Prin centrarea tuturor valorilor individuale ale unei variabile numerice într-o constantă „a” dispersia valorilor centrate nu diferă de dispersia valorilor iniţiale. Deoarece axax ii −=− , atunci avem:

2x

i

2i

i

2ii

2ax n

]axax[

n

)]ax()ax[(

iσ=

+−−=

−−−=σ

∑∑−

c.c.t.d.

Dacă fiecare valoare individuală a unei variabile numerice X se multiplică de acelaşi număr de ori „h” atunci dispersia valorilor transformate va fi mai mare decât dispersia valorilor iniţiale de h2 ori. Deoarece ii xhhx = , atunci avem:

2x

2i

2ii

2hx h

n

]xhhx[

iσ=

−=σ

∑ c.c.t.d.

Combinând ultimele două proprietăţi rezultă că dispersia valorilor individuale n,1ii }ahx{ =± comparativ cu dispersia valorilor iniţiale

n,1ii}x{ = este: 2x

22ahx h

iσ=σ ±

.

Proprietăţile constatate anterior sugerează exprimarea dispersie printr-o relaţie care simplifică operaţiile de calcul implicate în obţinerea rezultatului final, fără să afecteze rezultatul obţinut prin celelalte relaţii (5.10) – (5.14).

Relaţiile de calcul simplificat ale dispersiei sunt, deci, următoarele: cazul seriei simple:

x2 =

n

i=1

xi−ah

2

n % h2 − (x− a)2 (5.14)

cazul seriei de distribuţie de frecvenţe pe intervale de grupare:

x2 =

n

i=1

xj−ah

2nj

k

j=1nj

% h2 − (x− a)2

sau

x2 =

k

j=1

xj−ah

2fj /h2 − (x− a)2

(5.15)

Page 11: cap5

Capitolul V 137 În relaţiile (5.14) şi (5.15), numite şi relaţii de calcul simplificat ale dispersiei, valorile lui "a" şi "h" sunt valori convenabil stabilite. De exemplu, în cazul distribuţiei pe intervale egale de grupare se iau, deseori, astfel: a = centrul de interval care are cea mai mare frecvenţă; h = mărimea intervalului de grupare sau cel mai mare divizor comun al valorilor [xi-a]. Aplicaţia 5.3. Exemplificăm determinarea dispersiei după relaţia (4.15) utilizând datele din tabelul 5.3.

Tabelul 5.3. Determinarea dispersiei prin relaţia de calcul simplificat

Centre de interval

(sute mii lei) xj

Număr de intrări

nj xj - 5,5

xj−5,51

xj−5,51 nj

xj−5,51 nj

3,5 4,5 5,5 6,5 7,5

26 33 64 7

10

-2 -1 0 1 2

-2 -1 0 1 2

-52 -33 0 7

20

104 33 0 7

40 TOTAL 140 - - -58 184

Obţinem: x =−58

140 % 1 + 5, 5 = 5,086 sute mii lei şi x

2 = 184140 % 1 − (5,086− 15,5)2 = 1,14 egală cu valoarea dispersiei

calculată pe baza datelor iniţiale (netransformate) din aplicaţia 5.2. Dispersia se calculează nu numai pentru caracteristici numerice.

În cazul unei caracteristici alternative (distribuţia corespunzătoare este prezentată în capitolul anterior) dispersia se determină, în mod convenţional, astfel:

p2 = (1−p)2N+(0−p)2M

(N+M) = q2 NN+M + p2 M

N+M = q2p + p2q = qp(p + q) = =pq=p(1−p) (5.16) unde: p+q=1; q = N

N+M = 1 − q - reprezintă greutatea specifică a unităţilor care posedă caracteristici în formă directă (de tip DA); p = N

N+M = 1 − q - reprezintă greutatea specifică a unităţilor care nu posedă caracteristica în formă directă (de tip NU).

Gruparea variabilelor continue presupune divizarea domeniului de variaţie într-un anumit număr de intervale şi alegerea unei valori reprezentative din cadrul fiecărui interval; de obicei, se

Page 12: cap5

138 Statistică generală

aleg drept valori reprezentative mijloacele intervalelor în ipoteza că în fiecare interval frecvenţele (absolute sau relative) sunt normal repartizate. Această alegere – datorită faptului că ipoteza considerată nu se verifică, de regulă, în practică – implică un anumit grad de arbitrariu şi este susceptibilă de introducerea unor erori sistematice. Mărimea acestor erori este apreciabilă mai ales atunci când lungimea intervalelor este mare.

Efectul generat de presupusa concentrare (artificială) a valorilor individuale în centrele intervalelor, atunci când analiza se realizează prin intermediul grupării valorilor variabilelor continue, poate fi corectat cu ajutorul formulelor lui W. F. Sheppard. Utilizarea acestor formule este limitată, însă, la cazurile în care:

a. distribuţia de frecvenţe este continuă, unimodală şi relativ simetrică;

b. frecvenţele (absolute sau relative) tind către zero la ambele extremităţi ale domeniului de variaţie.

Relaţiile lui W. F. Sheppard pentru momentele centrate de ordinele 2, 3 şi 4 sunt următoarele:

240h7

2h

12h

12h

4

2

2

4c4

3c3

22

calculatx

2

22

corectatxc2

+µ−µ≈µ

µ=µ

−σ=−µ≈σ=µ

(5.17)

unde: h = lungimea intervalelor de grupare În cazul unui sondaj statistic efectuat într-o populaţie

normal distribuită, corecţia lui Sheppard se recomandă atunci când volumul eşantionului („n”) satisafce inegalitatea

40

h3n

σ< (5.18)

O altă proprietate interesantă a dispersiei este următoarea: dacă o colectivitate statistică cu efectiv "n" este structurată în două subcolective "a" şi "b", cu efectivele "na" şi "nb", atunci dispersia generală (a colectivităţii) este determinată în funcţie de media

dispersiilor corespunzătoare subcolectivităţilor ( xa2 si xb

2 ) şi de dispersia mediilor (xa si xb) parţiale de la media generală x. (acest caz particular va fi generalizat ulterior).

Page 13: cap5

Capitolul V 139 Prin urmare: se calculează mediile parţiale xa si xb, ale subcolectivităţilor şi

media generală:

x = xa*na+xb*nbna+nb ;

se calculează dispersiile parţiale xa2 si xb

2 ; dispersia generală a colectivităţii investigate în funcţie de

dispersiile parţiale:

x2 =

na xa2 +nb xb

2

na+nb + na(xa−x)2+nb(xb−x)2

na+nb (5.18) unde: x

2- sintetizează împrăştierea tuturor valorilor individuale din

colectivitatea generală cauzată atât de influenţa factorilor aleatori, cât şi de influenţa factorului sistematic în funcţie de care s-a structurat colectivitatea generală.

na xa2 +na xb

2

na+nb - reprezintă media dispersiilor parţiale ( x2) .

2δ - sintetizează variaţia (împrăştierea) din interiorul subcolectivităţilor. Aceasta se datorează factorilor specific, aleatori.

na xa−xb

2+nb xb−xb

2

na+nb - este dispersia mediilor parţiale de la media generală. Ea sintetizează influenţa factorului sistematic, de structurare a colectivităţii, asupra împrăştierii generale a valorilor individuale; sintetizează variaţia dintre subcolectivităţile în care s-a structurat colectivitatea generală. Relaţia (5.18) permite nu numai determinarea dispersiei într-o colectivitate structurată în mai multe părţi dar pune în evidenţă şi următoarele aspecte:

cât la sută din dispersia generală (variaţia generală) este explicată de factorul în funcţie de care s-a structurat colectivitatea generală:

R2 = x2

x2 $ 100 (5.19)

R2 - se numeşte grad de determinare. Gradul de determinare exprimă măsura în care variaţia caracteristicii urmărite depinde de factorul (cauza) sistematică după care s-a structurat colectivitatea.

cât la sută din dispersia generală este explicată (determinată) de factorii aleatori, care acţionează în fiecare subcolectivitate a colectivităţii generale:

Page 14: cap5

140 Statistică generală

K 2 = x2

x2 $ 100 = 1 − R2

(5.20) K2 - se numeşte grad de nedeterminare. Gradul de nedeterminare exprimă, deci, măsura în care variaţia caracteristicii urmărite este dependentă de variaţia factorilor (cauzelor) care acţionează în interiorul subcolectiviţălor. Utilizarea în analiza statistică a relaţiei (5.18), numită şi regula de adunare a dispersiilor, este exemplificată în următoarea aplicaţie. Aplicaţia 5.4. Să presupunem că societatea comercială "ANDMIR" S.A. îşi desfăşoară activitatea în cadrul a două filiale "AND" S.A. şi "NIR" S.A. Datele referitoare la numărul de persoane şi salarii brute, pe categorii de personal şi pe filiale, se prezintă în tabelul următor. Cum se explică dispersia generală a salariilor la "ANDMIR" S.A.?

Tabelul 5.4

Filiala "AND" S.A. Filiala " MIR" S.A. Societatea "ANDMIR" S.A.

Nr. de persoane

na

Salarii medii nete

săptămânale

(mii lei)

ax

Nr. de persoane

nb

Salarii medii nete

săptămânale(mii lei)

bx

Nr. de persoane

na+nb

Salarii medii nete

săptămânale(mii lei)

bax +

Muncitori 30 210 100 180 130 186,6 Personal operativ cu studii superioare

20 378 10 310 30 355,3

Cadre de conducere 10 600 5 510 15 570

TOTAL 60=na 331= ax 115=nb 205,7= bx 175 248,6= bax +

Dispersia generală Xa+b2

a salariilor din societatea comercială "ANDMIR" S.A. este:

Xa+b

2 = 1175[30$2102 +20$3782 +10$6002 +100$1802 +10$3102 +5$5102]−

−248,62 =14096,211 Dispersia dintre grupă:

Xa+b

2 = na(Xa−X)2+nb(Xb−X)2

na+nb +naXa

−2+nbXb−2

na+nb − Xa+b2

Page 15: cap5

Capitolul V 141

Xa+b

2 = 1175 [60 $ 3312 + 115 $ 205,72 ] − 248,62 = 3567,162

Media dispersiilor parţiale se calculează ca o medie aritmetică

ponderată a acestora Xa+b2

:

Xa,b

2 =na Xa

2 +nb Xb2

na+nb = 1175 [60 $ 20117 + 115 $ 5526,64] = 10529,049

Xa2 = 1

60 [30 $ 2102 + 20 $ 3782 + 10 $ 6002] − 3312 = 20117 Prin urmare:

Xa+b

2 = Xa,,b

2 + Xa,,b

2 e 14096,211 = 10529,049 + 3567,162

Rezultatele obţinute demonstrează că dispersia (variaţia) salariilor în societatea comercială "ANDMIR" S.A. se explică 74,7% printr-o împrăştiere a salariilor ca urmare a acţiunii factoriilor specifici care acţionează în cadrul fiecărei fialiale "AND" S.A. şi "MIR" A.S., iar în mică parte (25,3%) se explică prin împrăştierea salariilor medii ale filialelor faţă de salariu din societatea "ANDMIR" S.A.

O altă observaţie care se impune este următoare: dispersia ca şi media valorilor individuale este sensibilă la prezenţa valorilor extreme, aberante. Această se constată, în mod evident, şi din exemplul următor:

Tabelul 5.5.

Serii statistice X X

2

{1, 1, 2, 2, 2, 4, 4, 4} 2,5 1,5 {1, 1, 2, 2, 2, 4, 4, 4, 70} 10 451,3

Pentru măsurarea variabilităţii termenilor seriei faţă de tendinţa

centrală, dispersia poate fi calculată nu numai în funcţie de valoarea medie ci şi în funcţie de o altă valoare tipică, de exemplu mediana;

Dispersia, ca indicator sintetic al împrăştierii valorilor individuale în jurul tendinţei lor centrale nu are unitate de măsură cu conţinut economic.

În cazul în care se utilizează eşantioane de volum redus dispersia se determină prin relaţia următoare:

x2 =

n

i=1(X i−X )2

n−1 (5.21) Rezultatul obţinut prin această relaţie (5.21) este puţin diferit de cel obţinut prin relaţia (5.10) atunci când colectivitatea investigată este suficient

Page 16: cap5

142 Statistică generală

de mare. Relaţia (5.21) este justificată atunci când dispersia se calculează dintr-un număr redus de valori individuale. Relaţia (5.21) diferă de relaţia (5.10) prin faptul că numărul de unităţi este diminuat cu un grad de libertate. Pentru eliminarea neajunsurilor rezultate din calculul şi analiza dispersiei se utilizează, în analiza seriilor de repartiţie empirică (reală) sau teoretică, abaterea medie pătratică.

5.3.3. Abaterea medie pătratică Abaterea medie pătratică (numită şi abaterea standard sau abaterea tip) se defineşte ca medie pătratică, simplă sau ponderată, a abaterilor valorilor individuale de la tendinţa centrală sau ca rădăcină pătratică a dispersiei. Potrivit acestei definiţii relaţia de calcul a abaterii medii pătratice ( x ) este următoarea:

x = x2

(5.22) Aplicaţia 5.5

Să presupunem că cinci experţi acordă succesiv note (<6) asupra calităţii a două produse de acelaşi tip. Datele şi rezultatele sunt următoarele:

Tabelul 5.6.

Nota medie Abaterea medie absolută Dispersia Abaterea

medie pătraticăSeria notelor acordate yX yd

2x

σ xσ

Produsul A: {3, 5, 4, 4, 5, 3, 4, 5} 4 0,4 0,25 0,5

{2,5; 5,5; 3,5; 4,5; 4} 4 0,8 1,2499 1,118

Din tabelul 5.6 se constată: media acordată pentru calitatea celor două produse este identică; abaterea medie pătratică specifică produsului B este mai mare şi semnifică faptul că la acest produs notele sunt mai mult dispersate (împrăştiate) în jurul mediei (4) decât la produsul A; variabilitatea notelor acordate la produsul B este mai mare decât cea specifică produsului A.

Comparând abaterea medie absolută cu abaterea medie pătratică, calculate pentru aceeaşi serie, se constată că:

d x [ x sau d x l45 * x (5.23)

Cu toate că între valorile celor doi indicatori ai împrăştierii diferenţele sunt destul de mici în analizele statistice se preferă abaterea medie pătratică deoarece ea este un parametru al legii normale (majoritatea

Page 17: cap5

Capitolul V 143 metodelor de prelucrare statistică au la bază ipoteza normalităţii repartiţiilor) şi se pretează mai bine la calcule algebrice.

Abaterea medie pătratică prezintă interes nu numai pentru apreciere omogenităţii valorilor individuale ale unei serii (sau pentru a verifica reprezentativitatea mediei lor) dar şi pentru construirea unor intervale centrate în x care conţin un anumit procent din masa totală a observaţiilor. Astfel, dacă distribuţia unităţilor din colectivitatea investigată, după caracteristica urmărită, este sub formă de "clopot" sau este uşor asimetrică, atunci: intervalul x − x ; x + x conţine 68,26% din observaţii; intervalul x − 2 x ; x + 2 x conţine 95,44% iar 99,74% din observaţii sunt situate în intervalul x − 3 x ; x + 3 x .

În analizele financiar-bursiere abaterea medie pătratică (tip sau standard) poate fi utilizată şi ca o măsură a "riscului". De exemplu, riscul unui portofoliu de iniţiative de deplasare a capitalului este cu atât mai mic cu cât abaterea medie pătratică corespunzătoare portofoliului respectiv este mai mică şi invers. De asemenea, acest indicator poate fi calculat şi analizat în: studii de marketing şi ale calităţii produselor; pentru elaborarea variantelor de prognoză etc.

Conţinutul abaterii medii pătratice ca şi metodologia sa de calcul poate fi generalizat, pentru a măsura sintetic distanţele medii dintre valorile individuale luate succesiv două câte două.

Fie, X = (x i )∏si Y = (y i )

∏, cu i = 1, n, vectorii observaţiilor

dintr-o colectivitate efectuate asupra a două caracteristici prevăzute în program. Familia distanţelor dintre cei doi vectori se defineşte prin relaţia lui Minkovski (5.24).

p1

n

1j

pjj YX)Y,X(d

−= ∑

=

, cu p > 1 (5.24)

Observăm că: - dacă p=1 se obţine o distanţă absolută, numită "normă"; - dacă p=2 se obţine distanţa euclidiană; - în cazul în care există frecvenţe absolute sau relative, ataşate cuplurilor (xi,yi), atunci se calculează dispersia ponderată. Astfel, dacă există frecvenţe relative atunci (5.24) devine:

p1

pjj

n

1ji YXf)Y,X(d

−= ∑

=

, cu p > 1 (5.25)

Page 18: cap5

144 Statistică generală

Abaterea medie pătratică nu poate fi utilizată pentru compararea variabilităţii mai multor caracteristici de natură diferită urmărite în aceeaşi colectivitate statistică. Acest neajuns poate fi eliminat prin utilizarea coeficientului de variaţie sau de omogenitate.

Deseori în analiza statistică se apelează la valorile individuale standardizate. Valorile (datele) numerice standardizate sunt valori iniţiale (înregistrate) transformate cu ajutorul medie şi abaterii lor medii pătratice. Deci, prin operaţia de stndardizare fiecare valoare xi ( n,1i = ) se substituie prin s

ix ( n,1i = ); unde:

σ−

=xx

x isi ; ( n,1i = ) (5.26)

Avantajele principale ale utilizării valorilor standardizate se rezumă la următoarele:

o Elimină unitatea de măsură a variabilei studiate; o Media lor aritmetică este egală cu zero ( 0xs

i = ); o Dispersia lor este constantă şi egală cu unu

( 12xs

i=σ ).

5.3.4. Coeficientul de omogenitate Coeficientul de omogenitate (de variaţie) este o măsură a dispersiei relative care descrie abaterea medie pătratică ca procent din media aritmetică. Acest coeficient de variaţie permite compararea împrăştierii valorilor care nu sunt exprimate în aceeaşi unitate (de exemplu, compararea variabilităţii salariilor din două ţări şi în diferite monede, compararea variabilităţii compartimentului unor produse pe diferite pieţe etc.). Coeficientul de variaţie (CV) se defineşte ca raport între abaterea medie pătratică şi media aritmetică a ansamblului de observaţii. Astfel, CVx = x

X $ 100 (5.27) Aplicaţia 5.6 Studiind distribuţia salariilor brute ale filialelor "AND" S.A. şi "MIR" S.A. din Aplicaţia 5.4 constaăm că:

| la filiala "AND" S.A.: Xa = 331 mii lei/persoană xa = 114, 83 mii lei/persoană CVxa = 34, 69%

| la filiala "MIR" S.A.: Xb = 205, 7 mii lei/persoană xb = 74, 34 mii lei/persoană CVxb = 36, 14%

Page 19: cap5

Capitolul V 145 Se observă că abaterea medie pătratică reprezintă 34,69% din salariu mediu, de 331 mii lei/pers., la filiala "AND" S.A. şi 36,14% la filiala "MIR" S.A. Distribuţia angajaţilor după salariile obţinute este mai puţin omogenă la "MIR" S.A. decât la "AND" S.A., iar salariul mediu de 331 mii lei/pers. este mai reprezentativ decât acela de 205,7 mii lei/pers. Observaţii: 1) Coeficientul de variaţie este cel mai sintetic indicator al împrăştierii, nu numai pentru că permite comparaţia variabilităţii, dar şi pentru faptul că valorile sale sunt localizate în intervalul {0,100}. Cu cât valorile sale sunt mai apropiate de zero, cu atât seria este mai omogenă (media este mai reprezentativă); cu cât valorile sale sunt mai apropiate de 100 cu atât ansamblul valorilor individuale observate este mai eterogen (împrăştierea este mai mare, iar media calculată este mai puţin reprezentativă). Practica utilizării coeficientului de variaţie a stabilit pragul de trecere de la starea de omogenitate la cea de eterogenitate: dacă CV [ 30% − 35% colectivitatea este omogenă; dacă CV>35% colectivitatea este eterogenă. 2) Pentru determinarea coeficientului de variaţie de multe ori se utilizează abaterea medie absolută:

CVx∏ = d x

X $ 100 (5.28) Diferenţa dintre CV (5.27) şi CV' (5.28) poartă amprenta diferenţei dintre abaterea medie pătratică şi abaterea medie absolută. 3) Coeficientul de variaţie, indiferent după ce relaţie se calculează, în analizele financiar-bursiere este o măsură a riscului şi permite o interpretare mai nuanţată a dispersiei. Calculul şi analiza indicatorilor simpli şi sintetici ai împrăştierii valorilor individuale ale caracteristicilor în jurul tendinţei lor centrale oferă, după cum s-a constatat, informaţii utile pentru cunoaşterea manifestării fenomenelor de masă şi pentru fundamentarea deciziilor. Pentru profunzimea analizei întreprinse aceste informaţii trebuie completate cu altele referitoare la concentrarea valorilor individuale, la deplasarea acestora faţă de anumite valori tipice. Prin urmare, analiza împrăştierii (variaţia) valorilor individuale trebuie să fie urmată de analiza formelor în care se distribuie acestea. 5.3.5. Diferenţa medie C. Gini Un alt indicator sintetic utilizat în analiza variaţiei valorilor individuale înregistrată de o variabilă numerică în funcţie de scopul cercetării este diferenţa medie C. Gini.

Page 20: cap5

146 Statistică generală

Diferenţa medie C. Gini (DG) reprezintă o medie a diferenţelor absolute a valorilor individuale luate prin asociere combinată două câte două. Pentru exemplificarea determinării DG luăm în considerare seria simplă {210, 222, 226, 235, 244, 245, 250}. Comparând prin diferenţă “fiecare cu fiecare” datele din seria prezentată obţinem rezultatele prezentate în tabelul următor.

Tabelul 5.7

Valori individuale 210 222 226 235 244 245 250

Suma diferenţelor

pe linii 210 0 12 16 25 34 35 40 162 222 -12 0 4 13 22 23 28 90 226 -16 -4 0 9 18 19 24 70 235 -25 -13 -9 0 9 10 15 34 244 -34 -22 -18 -9 0 1 6 7 245 -35 -23 -19 -10 -1 0 5 5 250 -40 -28 -24 -15 -6 -5 0 0

368 Pe baza sumei sumei diferenţelor absolute considerate pe liniile tabelului (deasupra diagonalei principale) determinăm indicatorul DG=368/21 = 17,523. Din tabelul prezentat constatăm următoarele:

Numărul total al diferenţelor pozitive este 1 + 2 + ... + (n-1) = 2

)1n(n − .

În cazul nostru 21. Dacă s-ar lua în considerare toate diferenţele din tabel, în ambele

sensuri, atunci valoarea aceluiaşi indicator ar fi fost

02,1573682DG 2 =

×= .

Generalizând raţionamentul exemplificat anterior s-ar putea deduce cu uşurinţă următoarea relaţie a diferenţei medii Gini:

2

n

1i]Me[]x[i

n

nnMex4DG

i∑=

−×−= (5.29)

Page 21: cap5

Capitolul V 147 unde: xi = valori individuale înregistrate pentru variabila numerică

observată X; Me = mediana valorilor înregistrate; ]x[ i

n = rangul fiecărui termen xi; ]Me[n = rangul valorii mediane; n = numărul de valori înregistrate. Dacă, însă, dispunem de o serie de distribuţie de frecvenţe pe

intervale, raţionamentul prezentat conduce la următoarea relaţie generală de calcul a diferenţei medii Gini:

o dacă frecvenţele sunt absolute:

∑ ∑

=

= =

−= r

1ii

r

1i

r

1iiaiai

n

nFFr2DG (5.30)

o dacă frecvenţele sunt relative:

( )100

100FFr2DG

r

1iff ii∑

=−

= (5.31)

unde: Fai (ifF ) sunt frecvenţele absolute

(relative) cumulate crescător. Caracteristica esenţială a indicatorului DG o reprezintă faptul că

rezultatul este dependent de fiecare valoare individuală şi nu de o anumită valoare prestabilită cum ar fi cea care indică numeric tendinţa centrală. Din această cauză, indicatorul DG sintetizează variaţia fiecărei valori individuale faţă de fiecare altă valoare individuală luată în considerare.

5.4. CARACTERIZAREA STATISTICĂ A FORMELOR DE REPARTIZARE A FRECVENŢELOR

„Bateria” valorilor tipice ale tendinţei centrale şi împrăştierii faţă de aceasta trebuie completată cu informaţii referitoare la forma în care se repartizează unităţile colectivităţii după caracteristica urmărită. Analiza statistică a formelor de repartizare a frecvenţelor presupune caracterizarea asimetrică (deplasarea valorilor individuale faţă de anumite valori tipice ale tendinţei centrale) şi a aplatizării curbei frecvenţelor.

Page 22: cap5

148 Statistică generală

5.4.1. Asimetria distribuţiilor statistice O distribuţie este simetrică dacă observaţiile înregistrate sunt egal dispersate de o parte şi alta a valorii lor centrale. Într-o distribuţie simetrică cele trei valori cu care se exprimă tendinţa centrală, valoarea modală (Mo), mediană (Me) şi medie (X), se confundă, ca în fig. 5.2.

n

x

j

jM = M = xe o

Figura 5.2. Repartiţia simetrică a frecvenţelor

O repartiţie asimetrică (sau oblică) se caracterizează prin faptul că frecvenţele valorilor caracteristicii urmărite sunt deplasate mai mult sau mai puţin, într-o parte şi alta faţă de tendinţa centrală (exprimată prin: Me, Mo sau x). În fig. 5.3 şi 5.4 se prezintă distribuţii unimodale oblice la dreapta sau la stânga valorilor tendinţei centrale:

Mo Me x_

< <Mo Me x_

(sau etalarea frecven\elor spre st@nga) (sau etalarea frecven\elor spre dreapta)

xj

x_

Mo Me> >

nj

jx x_ Me Mo

nj

Fig.5.3 Repartiţia oblică Fig.5.4 Repartiţie oblică spre stânga spre dreapta

Amploarea asimetriei statistice unimodale se caracterizează sintetic cu ajutorul unor coeficienţi adimensionali.

Page 23: cap5

Capitolul V 149 1) Coeficientul lui Yule şi Kendall (Casyk)

Yule şi Kendall comparând modul de etalare a frecvenţelor la dreapta şi la stânga medianei şi ţinând cont de poziţia cuantilelor în raport cu mediana au recomandat pentru măsurarea asimetriei următorul coeficient:

Casy k = (Q 3−Me)−(Me−Q 1 )(Q 3−Me)+(Me−Q 1 ) (5.33)

Observăm următoarele: valoarea coeficientului lui Yule şi Kendall sunt în intervalul -1 şi

+1; dacă Casyk = 0 g simetrie (sau cuartilele sunt echidistante); dacă Casyk > 0 g asimetrie la stânga (sau etalarea frecvenţelor

spre dreapta); dacă Casyk < 0 g asimetrie la dreapta (sau etalarea frecvenţelor

spre stânga) dacă acest coeficient are valoarea sub ± 0,1 seria este considerată

moderat asimetrică; iar peste ± 0,3 seria este pronunţat asimetrică;

coeficientul lui Yule şi Kendall nu poate fi utilizat în compararea asimetriei mai multor repartiţii de frecvenţe.

2) Coeficienţii lui Karl Pearson Pentru măsurarea asimetriei K. Pearson analizează poziţia a două valori centrale (valoarea modală şi medie) relativizată prin dispersia seriei şi propune un coeficient, care ia valori cuprinse între zero şi unu;

Cas = X−Mox (5.34)

Cu cât valorile acestui coeficient sunt mai apropiate de zero, cu atât seria este mai simetrică (simetria există când valoarea sa este zero); cu cât valorile sale sunt mai apropiate de unu cu atât seria este mai asimetrică. Într-o repartiţie de frecvenţe moderat asimetrică (cum ar fi de exemplu distribuţia gama) între valorile centrale (Mo, Me, X ) se verifică, în mod aproximativ, relaţia: Mo − X l 3(Me − X). Substituind această expresie în relaţia (5.34) se obţine următoarea formulă alternativă:

Cas = 3(X−Me)x (5.34)

Pentru a completa analiza simetriei în seriile de distibuţie unidimensionale se poate apela şi la momentele centrate de diverse ordine. Astfel, dacă se iau în considerare momentele centrate de ordinele 2 şi 3 (în relaţia momentului centrat de ordin “K” (5.12) valorile lui K sunt 2 şi 3) se obţine:

Page 24: cap5

150 Statistică generală

3) Coeficientul de asimetrie β1 – introdus iniţial de Karl Pearson – care are următoarea relaţie:

( )( )3

2

23

1 µµ

β = (5.35)

4) Coeficientul γ1 – o transformare ulterioară a coeficientului β1 realizată de R.A. Fisher – calculat după relaţia:

( ) 2

3

2

311

µµ

βγ ==

Interpretarea coeficientului lui Fisher porneşte de la observaţia că momentele centrate de ordin impar ale seriilor de distribuţie perfect simetrice sunt egale cu zero. Deci, în particular µ3 = 0. Pentru seriile în care predomină termenii cu abateri negative faţă de medie (xi – x <0) vom avea µ3 < 0, iar în timp ce pentru cazurile în care predomină termenii cu abateri pozitive faţă de medie (xi – x <0) vom avea µ3 > 0. Deci, µ2 fiind întotdeauna pozitiv, coeficientul γ1 va fi <0 sau >0 după semnul lui µ3. Asimetria distribuţiilor unităţilor într-o colectivitate după caracteristica urmărită poate fi vizibilă pe reprezentările grafice (histograma, poligonul frecvenţelor efective) empirice comparate cu alura clopotului lui Gauss.

5.4.2. Aplatizarea/boltirea repartiţiilor de frecvenţe Graficele seriilor de distribuţie de frecvenţă sunt mai mult sau mai puţin aplatizate în comparaţie cu graficul legii normale (Gauss-Laplace). Prin urmare, o distribuţie este aplatizată dacă o mare variaţie a caracteristicii urmărite antrenează o uşoară variaţie a frecvenţelor şi invers. Acest raţionament este vizualizat în fig.5.5.

Page 25: cap5

Capitolul V 151

Figura 5.5. Distribuţii cunimodale cu grade diferite de aplatizare

Rădăcinile etimologice ale ale denumirilor utilizate sunt greceşti:

kurtos=cocoşat, platys = larg (lat) şi leptos = îngust (subţire). Prezentăm în continuare următorii indicatori (numiţi “de exces” sau kurtois):

1) Coeficientul β2 al lui Pearson, dat de relaţia:

22

42 µ

µ=β (5.36)

2) Coeficientul γ2 al lui Fisher, dat de relaţia:

33 22

422 −

µµ

=−β=γ (5.37)

Analizând cei doi coeficienţi constatăm că etalonul pentru aprecierea gradului de aplatizare al unei serii empirice îl reprezintă distribuţia normală. În cazul său β2 = 3 (deci, γ2 = 0). Astfel, dacă:

- β2 > 3 (sau γ2 > 0) – distribuţia se numeşte leptokurtică, având un “vârf” mai ascuţit şi „cozi” mai lungi decât la cea normală;

- β2 < 3 (sau γ2 < 0) – distribuţia se numeşte platikurtică, având un “vârf” mai aplatizat (“turtit”) şi „cozi” mai scurte decât la cea normală;

- β2 ≈ 3 (sau γ2 ≈ 0) - distribuţia se numeşte mezokurtică şi este echivalentă cu cea normală în privinţa gradului de aplatizare;

Calculul şi interpretarea coeficienţilor de aplatizare prezentaţi trebuie completat cu analiza graficului distribuţiei empirice comparativ cu cel al distribuţiei normale.

fi

xi

Leptokurtică Mezokurtică Platikurtică

Page 26: cap5

152 Statistică generală

Analiza asimetriei şi aplatizării are sens numai în cazul distribuţiilor empirice unidimensionale care prezintă o singură valoare modală.

5.5. Analiza statistică a concentrării/diversificării Probelematica concentrării-diversificării formulată pentru prima dată

de Corado Gini (1912) – o dată cu analiza distribuţiei veniturilor unei populaţii – este deosebit de importantă şi prezintă interes în diverse domenii. În acest sens este suficient să precizăm următoarele: caracterizarea structurii pieţelor; analiza inegalităţilor dintre repartiţiile de structură; analiza repartiţiilor regionale etc. Prin concentrare se înţelege, în general, aglomerarea unităţilor unei populaţii statistice sau a valorilor globale ale unei distribuţii în jurul unei valori tipice a variabilei analizate X. În mod complementar se defineşte noţiunea de diversificare. Din definiţia prezentată se constată, în mod evident, următoarele:

Noţiunea de concentrare se referă atât la aglomerarea unităţilor unei populaţii statistice pe variante (sau în intervale de variaţie), cât şi la aglomerarea valorilor globale(de tipul ii nx cu σ,1=i ) sau a valorilor unui indicator de nivel pe aceleaşi varianate(sau intervale de variaţie). Studiul concentrării, presupune deci, analiza comparată a structurii efectivului unei populaţii şi a structurii valorilor globale pe aceleaşi variante (sau intervale de variaţie) ale variabilei observate. În acest mod se pot evidenţia atât inegalităţile dintre distribuţiile de structură comparate cât şi compararea valorilor globale pe un număr limitat de unităţi ale populaţiei; cu cât sunt mai mari diferenţele dintre cele două distribuţii de structură cu atât mai mari sunt şi disparităţile dintre grupele de unităţi, ceea ce înseamnă că există o concentrare care tinde să crească, şi invers, cu cât diferenţele dintre distribuţiilede structură sunt mai mici, cu atât concentrarea este mai slabă (diversificarea este mai mare), tinzând spre o echipartiţie (distribuţie egalitară).

Studiul concentrării solicită respectarea a două cerinţe esenţiale: să fie posibilă şi să aibă sens aditivitatea valorilor individuale ale variabilei observate; să fie posibilă şi să aibă sens divizarea valorilor globale între unităţile populaţiei. Aceasta înseamnă că analiza concentrării se poate efectua asupra variabilelor continue cu valori pozitive şi doar în anumite cazuri variabilelor calitative

Page 27: cap5

Capitolul V 153 (în mod deosebit, pentru stabilirea gradului de concentrare pe tipologii calitative). Caracterizarea statistică a concentrării/diversificării se poate

realiza prin mijloace grafice şi prin procedee numerice (de calcul).

5.5.1 Curba de concentrare Curba de concentrare (elaborată de italianul C. Gini şi americanul Lorentz)/numită şi curba Lotentz-Gini - permite aprecierea şi, totodată, stă la baza determinării unei măsuri a concentrării (gradului de concentrare) numită indicele de concentrare Gini. Curba de concentrare se trasează pe baza punctelor de coordonate ( ii q,p ). Coordonatele acestor puncte sunt:

,n

Fp

ii

aii ∑

= cu r,1i = ; i1aiai nFF += − (5.38)

=

iii

ii nx

Lq (5.39)

unde: r,1i = ; i1aiai nFF += − - frecvenţa absolută cumulată până la nivelul “i”; ii1ii nxLL += − - valorile globale ( ii nx ) cumulate până la nivelul “i” al variabilei de grupare.

ip = reprezintă frecvenţele (efectivele) relative cumulate până la nivelul “i”;

iq = sunt valorile globale relative cumulate până la acelaşi nivel “i”. Exprimate în procente fiecare din coordonatele ip şi iq prezintă

valori în intervalul 0 şi 100%, iar curba de concentrare rezultă din unirea punctelor ( ii q,p ) şi se încadrează într-un pătrat de latură 100% ca în figura 5.6.

Page 28: cap5

154 Statistică generală

Figura 5.6 Curba de concentrare cu grade diferite de concentrare/diversificare

Analiza curbelor de concentrare vizualizate în fig. 5.6 evidenţiază

următoarele: Curba de concentrare se plasează sub prima bisectoare

(diagonala pătratului Gini) deoarece ii qp ⟩ sau se suprapune cu diagonala când ii qp = (în cazul echipartiţiei). Suprafaţa cuprinsă între diagonală şi curba ce uneşte punctele ( ii qp , ) se numeşte suprafaţă de concentrare.

Gradul de concentrare se interpretează în funcţie de mărimea suprafeşei de concentrare. Astfel, cu cât curba de concentrare se abate mai mult de la diagonala pătratului cu atât mai mare este suprafaţa de concentrare, respectiv diferenţierile dintre grupe sunt mai mari şi concentrarea este mai puternică (diversificarea este mai slabă) şi invers. Concentrarea este maximă (diversificarea este minimă) atunci când o singură unitate din populaţie deţine întreaga valoare globală a variabilei analizate – în acest caz curba de concentrare coincide cu două laturi ale pătratului.

Curba de de concentrare poate fi utilizată pentru analiza concentrării dar şi ca metodă de aproximare a valorilor centrale ale distribuţiei (mediana şi mediala), a indicelui de concentrare Gini; ca mijloc de comparare calitativă a gradului de concentrare etc.

pi 50% 100%

qi

50%

100%

(a) Concentrare slabă

(b) Lipsa concentrării (echirepartiţie)

pi 50% 100%

qi

50%

100%

(c) Concentrare puternică

pi 50% 100%

qi

50%

100%

Page 29: cap5

Capitolul V 155

5.5.2 Indicatori numerici a concentrării/diversificării

1. Diferenţa absolută dintre valoarea medială ( lM ) şi valoarea mediană ( eM )

Această diferenţă (notată) calculată după relaţia : el MMM −=∆ (5.40)

presupune efectuarea unor operaţii premergătoare de determinare a medianei ( eM ) şi a medialei ( lM ) – mediana valorilor globale iinx - după metodologia prezentată în capitolul patru. De regulă, pentru aceeaşi distribuţie mediala este mai mare decât mediana. Egalitatea acestor două valori centrale există în cazul distribuţiilor egalitare. Prin urmare, diferenţa dintre medială-mediană în studiul concentrării poate fi interpretată astfel:

cu cât M∆ este mai mare cu atât concentrarea este mai puternică, iar diversificarea este mai mică;

dacă M∆ =0 ( lM = eM ) nu există concentrare, distribuţia fiind egalitară.

cu cât M∆ este mai mare, diversificarea este mai mare şi concentrarea este mai mică.

Indicatorul prezentat are dezavantajul pentru interpretare şi anume valorile sale

nu se încadrează într-un interval. Din această cauză se determină deseori coeficientul de concentrare M∆ %. Acest coeficient de concentrare se determină comparând prin rapoarte diferenţa absolută medială-mediană cu amplitudinea absolută a variaţiei variabilei analizate. Deci,

100*xxMM

%Mminmax

el

−−

=∆ (5.41)

Observaţii: coeficientul de concentrare prezintă valori în intervalul

[0;100%]. Cu c\t valorile sale sunt mai apropiate de 0 cu atât concentrarea este mai slabă şi invers; cu cât valorile sunt mai apropiate de 100% cu atât sunt mai mari disparităţile între valorile globale pe intervale (pe clase) de variaţie.

M∆ % spre deosebire de diferenţa absolută medială-mediană prezintă şi un alt avantaj şi anume oferă posibilitatea comparării gradului de concentrare al diferitelor distribuţii statistice

Page 30: cap5

156 Statistică generală

indiferent de unitatea de măsură utilizată pentru exprimarea variabilelor observate;

prin relaţiile lor de calcul M∆ şi M∆ % pot fi uşor determinate dar au dezavantajul că nu se calculează în funcţie de toţi termenii ci doar în funcţie de cei care ocupă o poziţie centrală în serie.

2. Coeficientul abaterii medii Gini (CDG)

Coeficientul abaterii medii Gini (CDG) este un alt indicator cu ajutorul căruia se apreciază numeric concentrarea/diversificarea. El se determină ca raport între diferenţa medie Gini (vezi relaţia 5.30) şi dublul mediei aritmetice a variabilei observate. Deci,

x2

DGCDG = (5.42)

Acest coeficient prezintă valori în intervalul [0;1]; cu cât valorile sunt mai apropiate de zero, cu atât concentrarea este mai slabă şi, invers, cu cât valorile sunt mai aproape de 1 cu atât concentrarea este mai puternică. Se observă că acest coeficient ca interpretare se apropie de cea a indicatorului relativ al dispersiei (coeficientul de variaţie).

3. Indicele de concentrare Gini (IG) Ca indicator sintetic al concentrării unei distribuţii, prezentul indicele de concentrare a fost formulat de Corrado Gini (1912) cu ocazia analizei distribuţiei slariilor şi veniturilor populaţiei. Indicele de concentrare Gini (IG) se defineşte în funcţie de suprafaţa de concentrare (dintre curba de concentrare şi diagonala pătratului – vezi şi fig. 5.6) şi de aria pătratului (care este egală cu 1):

econcentrardeSuprafata2

2

patratuluiAria

econcentrardeSuprafataIG ⋅== (5.43)

Observaţii: valorile indicelui de concentrare Gini sunt cuprinse în intervalul

[0;1] sau[0;100%] – dacă se exprimă procentual. IG este adimensional şi respectă condiţia de tranzitivitate în timp şi spaţiu ceea ce permite utilizarea sa în efectuarea comparaţiilor. Acestea sunt elemente care determină ca IG să fie cel mai

Page 31: cap5

Capitolul V 157 frecvent în analiza concentrării, în paralel cu preocupările multiple de determinare a unor noi relaţii de calcul.

În aria preocupărilor de determinare a IG un loc aparte îl ocupă metoda grafică.

Aproximarea valorii IG pe cale grafică are ca punct de pornire curba de concentrare trasată pe baza datelor înregistrate (vezi şi fig. 5.6). Pe baza acestei curbe suprafaţa de concentrare se poate aproxima diminuând aria triunghiului ABC cu suma ariilor trapezelor de tipul celor evidenţiate în fig. 5.7.

Figura 5.7 Determinarea suprafeţei de concentrare Prin urmare, suprafaţa de concentrare este:

+−=−+− ∑∑ −−−i

ii1ii

1iii1i f)qq(121)pp)(qq(

21

21

iar indicele de concentrare Gini (IG) se va determina după relaţia următoare:

∑ +−= −i

ii1i f)qq(1IG (5.44)

5.5.3. Indicatori ai concentrării în seriile calitative

atributive Punctul de pornire în analiza concentrării în cazul seriilor calitattive

atibutive îl reprezinta calculul ponderilor (greutăţilor specifice), notate prin ”gi”.

1. Raportul de concentrare (RC), un indicator de concentrare utilizat frecvent în cercetările de marketing, exprimă ponderea deţinută de

qi

B h

qi

qi-1

0 A pi-1 pi 1 pi

C D 1

Page 32: cap5

158 Statistică generală

primele n cele mai mari unităţi dintr-o populaţie statistică observată după o variabilă (un criteriu) care defineşte mărimea (talia) lor. Numărul “n” este ales în mod arbitrar, din numărul total (N) al unităţilor populaţiei.

Acest indicator (RC) se determină după relaţia următoare:

∑=

=n

1iigRC ; (5.45)

unde: ∑=

= N

1ii

ii

q

qg

Raportul de concentrare calculat după (5.45) prezintă următoarele caracteristici:

se determină simplu şi rapid nu ţine seama în calculul său decât de datele referitoare la primele n (n>N) cele mai mari unităţi; restul unităţilor (N-n) nu sunt

luate în considerare. 2. Energia informaţională Onicescu (EO) Spre deosebire de indicatorul anterior, “Energia informaţională

Onicescu” prezintă avantajul că în determinarea sa se ia în considerare întreaga populaţie statistică (N) privită ca sistem, dar şi părţile componente (n_i) privite ca stări ale sistemului. Energia informaţională Onicescu (EO) se calculează ca sumă a pătratelor ponderilor tuturor componentelor unei populaţii ststistice, după relaţia următoare:

∑ ∑= =

==N

1i

N

1ii

2i 1gcu,gEO , (5.46)

Se observa urmatoarele: - valorile energiei informaţionale Onicescu sunt cuprinse în

intervalul

1,1

N. Valoarea maximă este atinsă atunci când concentrarea

este maximă (diversificarea este minimă) – monopol şi valoarea minimă este atinsă atunci când există echirepartiţie (diversificare maximă)

- prezintă inconvenientul variabilităţii valorii minime

N1 , în

funcţie de numărul categoriilor (grupelor sau claselor). Pentru ca acest indicator sa prezinte valori într-un interval invariant este transformat conform relaţiei următoare(fără să fie afectat conţinutul şi interpretarea):

Page 33: cap5

Capitolul V 159

[ ]1;0

N11

N1EO

EO| ∈−

−= (5.46.1)

3. Entropia C. Shannon (H) este un alt indicator cu care se apreciază concentrarea/diversificarea sau organizarea/dezorganizarea şi se determină după următoarea relaţie:

∑=

=N

1i ii g

1lngH (5.47)

Mulţimea valorilor acestui indicator este intervalul [0; ln N], iar interpretarea sa este similară cu cea a „energiei informaţionale Onicescu”. 4. Diferenţa Hirschman (DH) În literatura de specialitate „energia informaţională Onicescu” mai este cunoscută şi sub alte denumiri – indicele Hirschman – Herfindahl sau pătratul lungimii vectorului frecvenţelor.

Diferenţa Hirschman (DH) se determină ca diferenţă între EO (sau indicele Hirschman) şi valoarea aceluiaşi indicator pentru unităţile de talie

egală (EOE). În această situaţie EOE

1 reprezintă numărul unităţilor din

populaţia statistică, de volum N, care au talia egală. DH = EO – EOE (5.48) Diferenţa Hirschman într-o situaţie reală se datorează inegalităţilor de talie a unităţilor populaţiei. 5. Coeficientul de concentrare Corrado Gini (CG)

Aceta se determină după relaţia următoare:

∑=

=K

1i

2igCG (5.49)

Unde: K=numărul de categorii ale variabilei analizate

∈ 1,

K1CG ceea ce înseamnă că prezintă ca şi EO dezavantajul

variabilităţii limitei minime. Pentru a elimina neajunsul precizat în analiză (în comparaţii) se utilizează forma corectată a coeficientului de concentrare Corrado Gini cunoscută şi sub denumirea de coeficientul de concentrare Strück (CS). Relaţia de calcul a acestuia este:

Page 34: cap5

160 Statistică generală

1K

1gKCS

K

1i

2i

−=

∑= (5.50)

În această formă CS corespunde cu EO| şi prezintă valori în intervalul [0;1]. Valoarea minimă este independentă de numărul categoriilor considerate.

Page 35: cap5

Capitolul V 161

Întrebări de autoevaluare • Care sunt principalele caracteristici ale indicatorului abatere medie

absolută ? • Care este principalul dezavantaj al indicatorului amplitudinea

valorilor ? • Ce probleme de cunoaştere rezolvă sistemul indicatorilor împrăştieri

valorilor ? • Care sunt avantajele comparative ale diferitelor modalităţi de calcul

a dispersiei? • Acre sunt proprietăţile dispersiei şi utilizarea lor practică ? • În analizele financiar – bursiere abaterea medie pătratică se

utilizează ca măsură a riscului ? • Abaterea medie pătratică se poate utiliza pentru compararea

variabilităţii mai multor caracteristici de natură diferită ? 1. Da 2. Nu

• Care sunt principalii indicatori ai simetriei şi relaţiile lor de calcul ? • Coeficientul de variaţie arată:

a) de câte ori este mai mare abaterea standard (tip) faţă de media aritmetică;

b) cu câte procente este depăşită limita de omogenitate admisă; c) cu cât este mai mare abaterea standard faţă de media aritmetică; d) de câte ori se cuprinde abaterea standard în medie; e) câte procente din abaterea standard reprezintă media aritmetică.

• Dispersia este invers proporţională cu: a) volumul eşantionului; b) volumul caracteristicilor studiate; c) abaterea standard; d) coeficientul de asimetrie; e) este o mărime asimetrie.

• Pătratul abaterii tip măsoară: a) amplitudinea dispersiei unui set de date în jurul mediei lor; b) omogenitatea unui set de date; c) asimetria unei distribuţii; d) tendinţa centrală a unui set de date; e) gradul de concentrare a frecvenţelor.

• Coeficientul de asimetrie propus de Paarson se află în relaţie de inversă proporţionalitate cu:

Page 36: cap5

162 Statistică generală

a) abaterea standard; b) abaterea standard şi valoarea modală; c) dispersia şi valoarea modală; d) media aritmetică; e) valoarea modală.

• Dispersia, calculată prin metoda momentelor, este: a) momentul iniţial de ordin doi; b) momentul iniţial de ordin patru împărţit la momentul iniţial de

ordin doi la pătrat; c) momentul centrat de ordin doi la pătrat; d) momentul iniţial de ordin doi minus momentul iniţial de ordinul

întâi la pătrat; e) momentul centrat de ordin doi minus momentul iniţial de ordin

unu la pătrat. • Salariaţii unei întreprinderi au salariul mediu de 7.00 mil. lei, cu o

abatere medie pătratică a salariilor de 1.50 mil. lei. Patronul firmei hotărăşte să mărească fiecare salariu individual de 1,3 ori. Dispersia noilor salarii faţă de salariul mediu va fi:

a) 150; b) 22.500; c) 29.250; d) 253,5; e) 38.025.

• Care dintre următoarele afirmaţii referitoare la coeficientul de variaţie nu este adevărată:

a) este un indicator sintetic al împrăştierii; b) este expresia relativă a abaterii medii pătratice; c) valori mici ale coeficientului de variaţie semnifică un grad mare

de reprezentativitate a mediei caracteristicii studiate; d) valori mici ale coeficientului de variaţie reflectă o tendinţă

accentuată de simetrie a distribuţiei; e) valori mici ale coeficientului de variaţie reflectă omogenitatea

colectivităţii din punctul de vedere al caracteristicii studiate. • Într-o populaţie statistică s-au cules date despre două variabile

numerice distincte. Seriile formate în urma sistematizării sunt: {xi}i = 1.7 = {2;2;2;10;18;18;18} şi {yi}i=1.7 = {9;9;9;10;11;11;11}. Observând variantele celor două serii se constată că:

a) seria formată după Y este mai omogenă decât cea formată după X; b) seria formată după X este mai omogenă decât cea formată după Y;

Page 37: cap5

Capitolul V 163 c) cele două serii prezintă aceeaşi omogenitate, deoarece au aceeaşi

medie şi mediane egale cu 10; d) nu are sens comparabilitatea omogenităţii din cele două serii,

deoarece sunt formate după variabile distincte; e) seria formată după X este mai omogenă deoarece abaterile

individuale faţă de valoarea mediană sunt mai mari. • Fie colectivitatea statistică sistematizată în r grupe după valorile

caracteristicii de grupare X şi în m grupe după valorile variabilei analizate Y şi pentru care s-au calculat dispersiile:

=σ2 dispersia totală, =2iσ dispersiile de grupă

=−

2σ media dispersiilor de grupă. Contribuţia factorului de grupă X la variaţia generală a variabilei Y

să măsoară cu indicatorul:

a) R2 ;2

2

σσ

=

b) R2 ;2

2

σδ

=

c) R2 ;1 2

2

σδ

−=

d) R2 ;n

n)yy(:

n

n1

j

m

1j

j2

j

m

1j

i

r

1i

i2i

r

1i

=

=

=

=

Σ

−Σ

Σ

σΣ−=

e) R2 ;n

n)yy(:

n

n)yy(1

j

m

1j

j2

j

m

1j

ji

m

1j

r

1i

ji2

ij

m

1j

r

1i

=

=

==

==

Σ

−Σ

ΣΣ

−ΣΣ−=

• Pentru 200 de salariaţi ai unei societăţi comerciale fondul de salarizare a fost, într-o săptămână, de 150 milioane lei. Ştiind că cei mai mulţi dintre salariaţi au avut un salariu de 820 mii lei, iar coeficientul de asimetrie al repartiţiei după salariu a fost de -0,35, coeficientul de variaţie a fost:

a) 24,5%; b) 200%; c) -25,52%; d) 37,5%;

Page 38: cap5

164 Statistică generală

e) 26,67%. • Se cunosc următoarele date (convenţionale) asupra repartiţiei unei

caracteristici: Grupe Frecvenţe

11,0-13,0 12 13,0-15,0 18 15,0-17,0 8 17,0-19,0 2

Total n=40 Date fiind valoarea modală Mo (xmo) = 13,75; valoarea medie = 14,0 coeficientul de asimetrie (Pearson) are valoarea:

a) 0,377; b) 0,677; c) 1,377; d) 0,963; e) 0,09.

• Pentru seria de date reprezentând distribuţia familiilor după nivelul de venit: Venit Foarte

scăzut Scăzut Mediu Ridicat Foarte ridicat

Nr. familii 10 20 40 20 10 Coeficientul de asimetrie propus de Pearson este:

a) zero; b) unitar; c) egal cu -1; d) nu se poate calcula; e) egal cu coeficientul de variaţie.

• Dacă pentru o serie de distribuţie de frecvenţe coeficientul de variaţie indică un nivel ridicat de eterogenitate, atunci se recomandă împărţirea colectivităţii în grupe după un factor de grupare semnificativ, ceea ce duce la:

a) creşterea gradului de omogenitate în interiorul grupelor; b) creşterea gradului de eterogenitate în interiorul grupelor; c) scăderea gradului de omogenitate în interiorul grupelor; d) creşterea nivelului coeficientului de variaţie în interiorul

grupelor; e) nivelul de omogenitate în interiorul grupei va fi întotdeauna egal

cu cel calculat pentru distribuţia marginală. • Să se precizeze care dintre seriile de repartiţie, caracterizate prin

următoarele seturi de valori, prezintă o asimetrie pozitivă:

a) −

x = 40 u.m.; Me = 40 u.m.; Mo = 40 u.m.;

Page 39: cap5

Capitolul V 165

b) −

x = 2.500 u.m.; Me = 3.000 u.m.; Mo = 3.300;

c) −

x = 151,25 u.m.; Me = 138,75 u.m.; Mo = 112, 58 u.m.;

d) −

x = 180 u.m.; Me = 180 u.m.; Mo = 140 u.m. şi 220 u.m.

e) −

x = Me = Mo = 0. • Dacă între cuartilele calculate pentru o serie de repartiţie există relaţie

Q2 = (Q1+Q3)/2 atunci repartiţie este: a) asimetrică spre valorile mari; b) asimetrică spre valorile mici; c) normală; d) hiperbolică; e) bidimensională.

• O grupă de 25 de studenţi susţine la două discipline câte un test pentru verificarea cunoştinţelor. Testele au punctaje diferite, iar pe baza lor se cunoaşte:

- la testul A: 450900025

1

225

1=Σ=Σ

== AiiAiixx

- la testul B: 10042525

1

225

1=Σ=Σ

== BiiBiixx

Grupa de studenţi este mai omogenă din punctul de vedere al cunoştinţelor acumulare:

a) la disciplina A; b) la disciplina B; c) la ambele discipline există acelaşi grad de omogenitate; d) nu sunt suficiente date pentru a studia omogenitatea; e) nu se pot compara omogenităţile cunoştinţelor la cele două

discipline, deoarece punctajele testelor au fost diferite. • Se cunosc date convenţionale referitoare la valorile unei caracteristici:

Grupe Frecvenţe 9,0-9,5 3 9,5-10,0 1

10,0-10,5 42 10,5-11,0 23 11,0-11,5 9 11,5-12,0 1 12,0-12,5 1

Total n=80

Cunoscând că media aritmetică a caracteristicii −

x este = 10,51 unităţi, coeficientul de omogenitate (variaţie) este de:

Page 40: cap5

166 Statistică generală

a) 4,62%; b) 13,32%; c) 22,19%; d) 23,32%; e) 14,62%.

• Într-o colectivitate statistică, fenomenul de concentrare înseamnă: a) o variaţie scăzută a valorilor caracteristicii în jurul mediei; b) o distribuţie în formă de „J”; c) o asimetrie scăzută a distribuţiei; d) o distribuţie în formă de „U”; e) cumularea valorilor caracteristicii în cadrul unei grupe /clase a

colectivităţii. • Dacă între cuartilele pentru o serie de repartiţie există relaţia Q2 =

231 QQ +

atunci repartiţia este:

a) asimetrică la dreapta; b) asimetrică la stânga; c) normală; d) hiperbolică; e) bidimensională; f) bimodală.

• Fie seria statistică {x1,x2..........xn} obţinută prin observarea unei

variabile numerice X şi pentru care s-au calculat media −

x şi dispersia 2

x−σ . Controlându-se calitatea datelor culese, se constată că fiecare

dintre acestea a fost majorată la înregistrare cu 100 de unităţi. Seria corectă ar fi fost:

100,......

100,

10021 nxxx . Calculându-se din nou dispersia pentru valorile

corecte, se constată că aceasta este: a) egală cu dispersia iniţială;

b) mai mică decât 2

x−σ de 10.000 ori;

c) mai mică decât 2

x−σ cu

1001 ;

d) mai mare decât 2

x−σ cu

1001 ;

Page 41: cap5

Capitolul V 167

e) mai mare decât 2

x−σ de 100 de ori.

• Amplitudinea relativă a variaţiei se calculează ca:

a) ;100

xx minmax −

b) ;100x

xx

min

minmax ×−

c) ;100x

xx

max

minmax ×−

d) ;100x

xx minmax ×−−

e) ;100x

xx max ×−

• O variabilă aleatoare X, distribuită normal şi cu oblicitate moderată are 50% din valori situate în centrul distribuţiei, cuprinse între 35,2 şi 48,6; coeficientul de variaţie este 2,5%, iar valoarea modală, 38,2%. Asimetria este:

a) moderat pozitivă; b) moderat negativă; c) egală cu zero; d) nu se pot preciza felul şi mărimea asimetriei; e) egală cu amplitudinea semiinterquartilică.

• Abaterea medie interquartilică se calculează ca: a) Q3-Q1;

b) ;2

QQ 13 −

c) ;2

QQ 12 −

d) ;2

)MeQ()MeQ( 13 −+−

e) 2(Q2-Q1). • Pentru două serii de distribuţie de frecvenţe, indicatorul „amplitudinea

împrăştierii” este comparabil dacă: a) cele două serii se referă la aceeaşi caracteristică; b) cele două serii se referă la aceeaşi colectivitate; c) cele două serii se referă la caracteristici diferite, dar cu aceeaşi

unitate de măsură;

Page 42: cap5

168 Statistică generală

d) cele două serii au acelaşi grad de asimetrie; e) cele două serii se referă la colectivităţi de acelaşi volum.

• 120 de elevi din două oraşe participă la un concurs de cultură generală. Cei 50 de elevi din primul oraş obţin un punctaj mediu de 16 puncte, cu un coeficient de variaţie de 10%, iar cei din al doilea oraş obţin un punctaj mediu de 18 puncte cu o abatere medie pătratică de 1,9 puncte. Factorul de grupare (oraşul) contribuie la variaţia punctajelor obţinute de elevi în proporţie de:

a) 23,46%; b) 10,28%; c) 76,54%; d) 48,44%; e) 24,48%;

• Dispersia unei repartiţii binomiale cu p – probabilitatea succesului, q – probabilitatea insuccesului şi n – numărul de observaţii, este:

a) np; b) nq; c) ;npq d) npq(q-p); e) npq.

• Distribuţia unei variabile aleatoare X este perfect simetrică, de medie −

x = 20. Dacă se adaugă două unităţi statistice cu valorile variabilei studiate x1=18 şi x2=180, atunci noua distribuţie:

a) are simetrie pozitivă; b) este perfect simetrică; c) are simetrie negativă; d) are fie simetrie pozitivă, fie simetrie negativă; e) nu prezintă simetrie.

• Dispersia unei caracteristici de tip alternativ binar, este maximă când: a) numărul de răspunsuri alternative este egal cu numărul de

răspunsuri negative; b) toate unităţile colectivităţii înregistrează răspunsuri afirmative; c) toate unităţile colectivităţii înregistrează răspunsuri negative; d) toate unităţile colectivităţii înregistrează fie răspunsuri negative,

fie răspunsuri pozitive; e) nu se poate preciza în ce caz dispersia unei caracteristici

alternative este maximă. • Dispersia valorilor unei variabile aleatoare X, faţă de o constantă a,

este minimă când:

Page 43: cap5

Capitolul V 169 a) a = 0;

b) a = −

x ; c) pentru orice a; d) a = ;ixΣ e) a = xmax;

• Calculul amplitudinii variaţiei valorilor individuale are sens pentru: a) serii statistice numerice formate pe variante; b) serii statistice formate după o variabilă alternativă; c) serii statistice formate pe intervale egale de variaţie; d) serii statistice formate pe intervale neegale de variaţie; e) pe orice tip de serie.