Daniel RADU Iordana ASTEFANOAEI Notiuni Fundamentale Si Probleme de Mecanica Analitica(1)
Notiuni Fundamentale Ale Statisticii
-
Upload
adrian0921 -
Category
Documents
-
view
235 -
download
10
description
Transcript of Notiuni Fundamentale Ale Statisticii
-
1
NOIUNI FUNDAMENTALE ALE STATISTICII
Statistica cerceteaz aspectul cantitativ (numeric) al fenomenelor i proceselor strict
determinate n timp i spaiu. Statistica se ntlnete ca disciplin tiinific i ca domeniu de activitate.
Obiectul activitii de cercetare statistic presupune aciuni de proiectare i organizare, de culegere,
de prelucrare, de analiz i interpretare a datelor.
Din punct de vedere al scopului urmrit statistica se mparte n:
1. statistica descriptiv care sintetizeaz i structureaz datele de observaie i informaia
coninut n acestea, utiliznd tabele, grafice, indicatori numerici etc;
2. statistica inferenial prin intermediul creia datele obinute la nivelul unui eantion se
generalizeaz la populaia statistic total cu marje specifice de incertitudine.
O prim noiune de baz din statistic este colectivitatea statistic (sau populaia statistic)
care reprezint totalitatea elementelor de aceeai natur, bine determinate n timp i spaiu care au
trsturi eseniale comune i care sunt supuse unui studiu statistic.
Statistica opereaz cu colectiviti finite, colectiviti numrabile sau colectiviti infinite.
Fiecare element al populaiei statistice se numete unitate statistic. Dac populaia statistic studiat
este finit, atunci numrul unitilor care o compun se numete volumul (sau efectivul) populaiei
statistice. Cu ct o colectivitate statistic este mai numeroas cu att devine mai dificil cercetarea
tuturor elementelor ei. n aceast situaie se vor estima parametrii colectivitii totale pe baza
rezultatelor obinute din studiul unui eantion (un subset de elemente selectate dintr-o colectivitate
statistic), iar ceea ce a fost determinat ca fiind caracteristic n eantion se presupune c ar fi fost gsit
dac s-ar fi cercetat colectivitatea general.
Caracteristica statistic (sau variabil statistic) reprezint trstura, proprietatea, nsuirea
comun tuturor unitilor unei colectiviti i care variaz ca nivel, variant sau valoare, de la o unitate
a colectivitii la alta.
Varianta/valoarea reprezint nivelul concret pe care l poate lua o variabil la nivelul unei
uniti sau grup de uniti statistice. Cu ct valorile unei caracteristici au o variaie mai mare, cu att
respectiva populaie este mai eterogen i invers, cu ct valorile unei caracteristici au o variaie mai
mic, cu att respectiva populaie va fi mai omogen (din perspectiva respectivei caracteristici).
Datele statistice sunt mrimi concrete, rezultate din studiile efectuate prin numrare, msurare
sau calcul statistic. Ele pot fi primare, prelucrate, stocate n baze sau bnci de date, etc.
Indicatorul statistic reprezint expresia numeric a unor fenomene, procese, activiti sau
categorii economice i sociale, definite n timp, spaiu i structur organizatoric.
-
2
Procesul cunoaterii statistice presupune organizarea i parcurgerea unor etape distincte i
succesive care includ operaiile de observare sau culegere a datelor, de sistematizare i prelucrare, de
analiz i interpretare a rezultatelor.
Frecvena absolut de apariie este egal cu numrul de valori (nregistrri sau apariii) ale
unei variante ntr-o colectivitate.
Frecvena relativ de apariie reprezint ponderea (procentul) unei variante din totalul
elementelor unei colectiviti.
Cercetarea statistic cuprinde totalitatea operaiilor de culegere i observare, sistematizare i
prelucrare, stocare, analiz i interpretare a informaiilor necesare pentru cunoaterea i conducerea
proceselor sociale i economice.
Etapele cercetrii statistice sunt urmtoarele:
1. Observarea statistic ce cuprinde :
cunoaterea situaiei problematice;
colectarea de date.
2. Prelucrarea statistic ce cuprinde:
sistematizarea (clasificarea, gruparea) datelor ;
calculul indicatorilor statistici;
prezentarea datelor sub form de tabele, serii sau grafice statistice.
3. Analiza i interpretarea statistic cuprinde:
confruntarea i compararea datelor,
formularea de ipoteze;
verificarea ipotezelor i previziunea statistic;
formularea deciziei sau alegerea variantei optime prin analiza comparativ
asupra variantelor;
precizarea variantei de decizie;
controlul aplicrii deciziei i verificarea rezultatelor;
formularea concluziilor asupra cercetrii.
Observarea statistic: n procesul observrii statistice trebuie ca datele culese s reflecte
realitatea, s se refere numai la caracteristicile eseniale care rspund cel mai bine scopului cercetrii i
s se realizeze n condiii obiective.
Planul de observare statistic cuprinde:
1. scopul observrii pentru care s-a organizat cercetarea;
2. obiectul observrii format din colectivitatea cercetat;
3. unitatea de observare elementul component al colectivitii studiate;
-
3
4. programul observrii trebuie s conin :
i. stabilirea caracteristicilor care trebuie s fie nregistrate;
ii. modalitile concrete de culegere a datelor;
iii. ncadrarea n timp i n spaiu a activitii de obinere a informaiilor;
5. formulare i instruciuni de nregistrare se prezint sub forma de fie i liste.
Tipuri de nregistrri a datelor statistice:
Observri totale presupun nregistrarea caracteristicilor cuprinse n programul de cercetare la
toate unitile (fr excepie) colectivitii statistice (de exemplu rapoartele statistice i
recensmintele);
Observri pariale presupun nregistrarea dup criterii bine stabilite a unui numr mai redus
de uniti din colectivitatea general;
Stabilirea obiectului si scopului cercetrii
Analiza prealabil teoretico-
metodologic
Verificarea n bnci de date statistice a stocului de informaii cu privire la obiectul supus cercetrii
Prelucrarea datelor de la ali purttori de informaie
primar
Prelucrarea din publicaiile de date statistice naionale
i internaionale
Ela
bora
rea
prog
ram
ului
cer
cet
rii p
e ce
le tr
ei e
tape
Culegerea (nregistrarea) datelor individuale de mas
- Centralizarea datelor observrii; - Sistematizarea datelor observrii de mas (prelucrarea
primar); - Obinerea sistemului de indicatori statistici
(modelarea datelor statistice); - Prezentarea datelor sub form de serii, tabele, grafice
- Confruntarea i compararea informaiilor provenite din surse diferite; - Confruntarea i compararea rezultatelor prelucrrii
proprii; - Verificarea ipotezelor statistice i aplicarea testelor de
semnificaie n vederea elaborrii raportului de analiz;
- Fundamentarea statistic a prognozelor.
Analiza i interpretarea
statistic
Prelucrarea statistic
Observarea statistic
Beneficiarii de informaie statistic
Organisme guvernamentale i neguvernamentale
Organizaii i organisme
internaionale
Ageni economici publici i privai (prin contracte i
convenii)
Stocarea n bnci de date
statistice
Publicaii de date statistice
-
4
Observri curente constau n nregistrarea sistematic, permanent, pe msur ce se produc
caracteristicile fenomenelor analizate la nivelul unitilor colectivitii;
Observri periodice constau n nregistrarea datelor asupra unitilor la intervale de timp bine
stabilite;
Observri directe se realizeaz prin nregistrarea nemijlocit a datelor referitoare la unitile
colectivitii;
Observri indirecte se ntlnesc atunci cnd nregistrarea datelor se realizeaz pe baza unor
surse care au consemnat anterior fenomenul studiat (de exemplu, nregistrarea pe baz de
documente);
Principalele metode de culegere a datelor sunt:
Recensmntul prin care se culeg date de la toate unitile colectivitii;
Rapoartele statistice sunt observri totale, permanente prin intermediul crora se culeg datele
statistice referitoare la diferitele fenomene i procese economice;
Sondajele statistice apeleaz la observri pariale asupra unui eantion reprezentativ
Ancheta statistic este o form de observare care spre deosebire de sondaje nu presupune
reprezentativitatea eantionului i se realizeaz pe baza unui chestionar.
Culegerea datelor utiliznd sondajul statistic este o metod parial de observare statistic, din
ce n ce mai larg utilizat n cercetrile statistice moderne. Sondajul se folosete pentru a nlocui o
observare total, de mare amploare, mai dificil de realizat, care presupune angajarea unor cheltuieli
ridicate de resurse materiale, financiare i umane.
Exist dou categorii eseniale de sondaj: sondaj aleator (probabilist) i sondaj nealeator.
Pentru multe studii este posibil doar realizarea unei eantionri nealeatoare (cum ar fi ancheta
statistic - care ofer informaii orientative, eantionarea pe cote, observarea prii principale etc).
Un eantion n care unitile au fost alese pe baza unor probabiliti cunoscute se numete
eantion probabilist.
Tipurile de eantionri probabiliste utilizate sunt: eantionarea aleatoare simpl, eantionarea
stratificat i eantionarea n cuiburi (cluster).
n sondajul aleator simplu ansa de selecie n eantion a fiecrei uniti statistice din
colectivitatea general trebuie s fie egal. Un eantion simplu aleator este aadar selectat astfel nct:
fiecare unitate statistic are o probabilitate egal de a fi aleas n eantion i unitile sunt alese
independent, fr legtur una cu cealalt.
Un sondaj poate fi efectuat:
cu revenire, adic fiecare unitate statistic extras din colectivitatea general este reintrodus n
baza de sondaj, dup ce a fost citit i caracteristicile au fost nregistrate;
-
5
fr revenire, adic unitile sunt extrase din colectivitatea general, iar dup nregistrarea
caracteristicilor lor ele nu mai sunt reintroduse n colectivitatea de baz.
Prelucrarea statistic.
Dup ce datele statistice sunt colectate din observri totale sau pariale, acestea vor fi organizate
pentru a facilita prelucrarea lor statistic.
Prima etap a prelucrrii statistice const n sistematizarea (clasificarea, gruparea) datelor
culese. n etapa de observare statistic se culeg date privitoare la o singur sau la mai multe
caracteristici considerate. Sistematizarea datelor se realizeaz prin gruparea i clasificarea datelor
statistice, adic prin mprirea lor n clase omogene dup unul sau mai multe criterii de clasificare.
O clas este omogen dac unitile care compun populaia studiat aparin aceluiai tip
calitativ i ca valoare difer n mic msur una de alta.
Tehnica gruprii parcurge urmtoarele etape:
alegerea i folosirea caracteristicilor de grupare;
alegerea numrului de grupe i stabilirea mrimii intervalelor de grupare;
enumerarea problemelor de studiu care se rezolv prin metoda gruprilor.
Gruparea n funcie de o caracteristic numeric ncepe, de regul, cu observarea numrului
de valori (variante) distincte ale caracteristicii de grupare n cadrul colectivitii cercetate.
Dac valorile distincte ale caracteristicii studiate nu sunt prea numeroase, putem alege gruparea
pe variante, adic separarea unitilor colectivitii pe subcolectiviti, n funcie de varianta specific.
Dac numrul variantelor distincte este prea mare se trece la gruparea pe intervale omogene de
variaie. Gruprile pot fi clasificate astfel:
dup numrul caracteristicilor puse la baza gruprii se disting: grupri simple i grupri
combinate;
dup coninutul caracteristicilor gruprile pot fi: teritoriale, cronologice sau atributive.
Intervalele de variaie sunt determinate de un ir de valori ale variabilei studiate delimitate fa
de intervalele vecine prin limita inferioar i limita superioar.
Intervalele de grupare pot fi: intervale egale sau neegale; intervale deschise sau nchise;
intervale cu variaie continu sau intervale cu variaie discontinu (discret).
Pentru sistematizarea datelor pe intervale de variaie se recomand utilizarea intervalelor de
mrime egal, cu excepia cazurilor n care analiza datelor necesit folosirea unor intervale de mrime
neegal.
Pentru alegerea numrului de intervale de grupare (m) se poate utiliza i relaia lui Sturges (n
ipoteza repartiiei aproximativ normale a unitilor dup variabila studiat): 1 3.322 lnm N , unde N
este volumul populaiei studiate.
-
6
Pentru sistematizarea datelor pe intervale egale de grupare se stabilete mai nti amplitudinea
A a variaiei caracteristicii (egal cu diferena dintre valoarea maxim i valoarea minim a
caracteristicii) apoi se stabilete numrul de grupe m i se calculeaz mrimea intervalului de grupare h
dup relaia:
max minX XAhm m
Mrimea intervalului (h) se recomand a se rotunji la o valoare convenabil n calcule.
Punctul de plecare n alctuirea intervalelor de grupare se alege 0 sau un numr ntreg puin mai
mic dect valoarea minim din mulimea de date.
Limitele intervalelor de grupare trebuie stabilite respectnd precizia datelor (cu acelai numr
de zecimale) astfel nct fiecare unitate s poat fi ncadrat ntr-o singur clas. Pentru cele m grupe se
vor stabili frecvenele absolute prin numrarea unitilor care se ncadreaz n fiecare grup.
Dac exist grupe cu frecven nul, ori multe grupe cu o singur observaie, poate fi necesar
revizuirea mrimii intervalelor sau a numrului de intervale.
Prin caracteristica de grupare se nelege acea nsuire care st la baza mpririi colectivitii
n grupe omogene. Valorile caracteristicilor numerice pot fi ordonate i ierarhizate i asupra lor se
pot efectua operaii de prelucrare.
Dup coninutul variabilelor, caracteristicile pot fi:
caracteristici de timp (desemneaz apartenena la un moment sau interval de timp),
caracteristici de spaiu (exprim teritoriul creia i aparine)
caracteristici atributive care pot fi numerice (cantitative) sau calitative.
Dup cardinalul mulimii observaiilor caracteristicile numerice pot fi clasificate astfel:
alternative (binare): spaiul lor de observaii este compus din dou valori numerice (de
exemplu {0,1}) sau dou modaliti (de exemplu {adevrat , fals})
cu un numr finit de valori numerice - n aceast categorie se ncadreaz toate variabilele
calitative, pentru care spaiul observaiilor (mulimea valorilor individuale) este format dintr-un
numr finit de modaliti, precum i variabilele cantitative discrete (numrabile);
variabile cantitative continue (mulimea specific a valorilor individuale este un interval de
numere reale).
Dup modul de obinere i caracterizare a fenomenului caracteristicile pot fi:
caracteristici primare obinute, de regul, n etapa de culegere a datelor statistice;
caracteristici derivate obinute n procesul prelucrrii variabilelor primare.
Dup structura algebric cu care este nzestrat mulimea valorilor individuale i dup tipul
scalei de msurare, caracteristicile atributive pot fi clasificate astfel:
1. Variabilele calitative:
-
7
nominale - se caracterizeaz prin faptul c mulimea specific a valorilor individuale
nu este nzestrat cu structur algebric i se msoar pe o scal nominal (exemple:
starea civil, ramura de activitate);
ordinale - au mulimea finit a valorilor individuale exprimate prin coduri numerice i
cu o structur de ordine total ( ) care definete n mulimea valorilor o ierarhie.
2. Variabilele cantitative:
ordinale - se caracterizeaz prin faptul c au o mulime continu de valori
individuale nzestrat cu o structur de ordine i se msoar pe scala de interval. Pe
scala de interval are sens definirea distanei dintre valorile (numeric exprimate) ale unei
variabile. Punctul zero al acestei scale i unitatea de msur se pot alege n mod
arbitrar;
cardinale - au mulimea valorilor numerice nzestrat cu o structur de corp ordonat
iar scala de msurare corespunztoare este scala de raport. Spre deosebire de scala de
interval, scala de raport se caracterizeaz prin faptul c numai unitatea de msur se
poate alege arbitrar, punctul zero (de origine) este dat n mod natural, specific absena
fenomenului studiat. Dou valori msurate pe aceast scal, indiferent de unitatea de
msur folosit se afl n acelai raport.
n funcie de posibilitatea de a ordona valorile variabilei, de egalitatea intervalelor dintre
valorile variabilei (de existena unei uniti de msur), de existena unei "origini" a variabilei (a unui
"zero absolut") putem distinge ntre patru niveluri de msurare a variabilelor:
1. nivelul de msurare nominal - presupune clasificarea unor atribute, fenomene n categorii care
trebuie s fie distincte, mutual exclusive (de exemplu "masculin" sau "feminin"). La acest nivel nu sunt
permise nici ordonarea, nici adunarea sau scderea i nici nmulirea sau mprirea. Acest tip de
variabile (respectiv scalele folosite n msurare) indic numai faptul c exista o diferen calitativ ntre
categoriile studiate. Deoarece valorile acestui tip de variabile nu pot fi ordonate, problema "distanei"
sau a intervalelor dintre valori nici nu poate fi pus.
2. nivelul de masurare ordinal - implic clasificarea elementelor n categorii i posibilitatea ordonrii
acestora. La nivelul ordinal este permis numai ordonarea dar nu este oferit nici o informaie cu
privire la "distana" dintre valorile scalei de msur. Exemple: calificativele "insuficient", "suficient",
"bine" i "foarte bine".
3. msurarea la nivel de intervalor - ofer n plus faa de nivel anterior (cel ordinal) i informaia
referitoare la distana dintre valorile scalei i este caracterizat de existena unor intervale egale. La
acest nivel sunt permise, n plus, operaii de adunare sau scdere, dar nu exist un zero absolut, ci unul
convenional. Exemplu: temperatura msurat n grade Celsius (intervalele dintre valori sunt egale, dar
punctul 0 este convenional ales ca fiind temperatura la care apa nghea).
-
8
4. msurarea la nivel de raport - include toate caracteristicile nivelurilor anterioare (ordonare i
intervale egale), plus existena unei "origini" sau a unui zero absolut care permite formularea unor
afirmaii n termeni de proporii (raporturi) ntre valori. La acest nivel sunt permise toate operaiile.
Calitatea datelor nregistrate este un factor important care condiioneaz calitatea informaiilor.
Concordana acestora cu datele reale ale fenomenelor investigate constituie un obiectiv fundamental a
oricrei metode de nregistrare statistic.
n observarea statistic pot fi fcute erori care sunt determinate de factori ce conduc la
rspunsuri inexacte sau aproximative, de perceperea eronat a rspunsurilor sau transcrierea greit a
acestora, de neclaritatea definirii unitilor de observare, de imperfeciunea metodelor i mijloacelor de
observare, de factori subiectivi, etc. n general, prin eroare de nregistrare statistic se nelege
diferena dintre rezultatul obinut prin nregistrare i mrimea real a caracteristicilor (variabilelor)
observate. Principalele tipuri de erori statistice din etapa de observare sunt:
erori ntmplatoare care pot surveni din neatenie i provoac abateri n sensul mririi sau
micorrii nivelului real al fenomenului;
erori sistematice care produc abateri semnificative de regul ntr-un singur sens de la
realitatea observat.
Prevenirea erorilor se poate realiza prin testarea tehnicilor i formularelor de nregistrare,
selectarea optim i pregtirea profesional a persoanelor care efectueaz nregistrarea, pregtirea
psihologic a persoanelor care efectueaz anchetele de sondaj, etc.
INDICATORUL STATISTIC
Indicatorul statistic este expresia numeric a unei trsturi observate pe o colectivitate definit
n timp i spaiu. Indicatorii statistici au anumite funcii: de msurare, de comparare, de sintez, de
estimare, de verificare a ipotezelor, de testare a semnificaiei parametrilor statistici utilizai.
Comparaiile dintre date (comparabile) pot fi efectuate prin diferen sau prin raportare. n
funcie de metoda obinerii indicatorilor statistici i de rolul jucat n cercetare, acetia pot fi clasificai
n dou categorii:
indicatori absolui (primari) - sunt rezultatul observrii i sistematizrii datelor i reflect
dimensiunea, mrimea, amplitudinea fenomenului n uniti concrete, specifice de msur;
indicatori derivai (secundari) - se obin n procesul de calcul statistic i reflect ntr-o
manier, de regul abstract, aspecte calitative, evolutive ale colectivitii cercetate.
Dintre indicatorii derivai amintim: mrimile relative i mrimile medii ; indicatorii variaiei i
ai asimetriei; indicii statistici ; parametrii funciilor de regresie i ajustare, etc.
-
9
n urma comparrii prin diferen a datelor care se refer la uniti diferite din colectivitate, se
obine indicatorul derivat modificare absolut sau diferen absolut. Acest indicator semnific ori
creterea ori reducerea absolut.
Indicatorii statistici derivai care se obin n urma comparrii prin raportare se numesc mrimi
relative sau indicatori relativi. Prin definiie, o mrime relativ exprim numeric proporiile
indicatorului primar n raport cu indicatorul primar baz de raportare (baz de comparaie).
n funcie de scopul analizei, mrimile relative pot fi clasificate n:
mrimi relative de dinamic (sau indici de dinamic) care exprim de cte ori (sau ct la sut)
se modific valoarea variabilei X dintr-o perioad de timp t fa de cea dintr-o perioad de
referin, adic exprim variaia n timp a nivelului unei caracteristici pentru a caracteriza
variaia unui fenomen;
mrimi relative de structur (numite ponderi) exprim ponderea, cota parte, greutatea
specific unui element sau a unui grup de elemente n totalul colectivitii, fiind o mrime a
raportul prilor fa de ntreg care ofer informaii despre structurile calitativ distincte ale
populaiei statistice;
mrimi relative de coordonare compar dou elemente sau dou grupuri ale aceleiai
colectiviti sau dou colectiviti similare situate n spaii diferite, coexistente n timp de forma
a/b sau b/a;
mrimi relative de plan calculeaz raportul dintre nivelul propus de activitate i nivelul
realizrilor perioadei precedente sau calculeaz raportul dintre nivelul realizat i obiectivul
planificat;
mrimi relative de intensitate se calculeaz comparnd prin raportare valorile unei
caracteristici x cu valorile unei alte caracteristici y, cele dou variabile aflndu-se ntr-o legtur
logic de intercondiionare.
n vederea aplicrii metodelor de calcul i interpretare statistic, rezultatele sistematizarii
datelor se prezint sub form de serii statistice.
Seria statistic este format din totalitatea datelor referitoare la manifestrile unui fenomen
colectiv sub forma a dou iruri de date:
- primul ir este format din variabila (ordonat) i modul n care a fost
sistematizat;
- al doilea ir este format din frecvena de apariie (absolut sau relativ), adic
nivelul unei variabile n raport cu primul ir.
n funcie de natura caracteristicii de grupare putem grupa seriile statistice n trei tipuri
distincte:
serii cronologice (dinamice) n care caracterstica de grupare este o variabil de timp;
-
10
serii teritoriale (de spaiu) n care variabila de grupare este o caracteristic administrativ-
teritorial;
serii de repartiie (de distribuie) n care caracteristica de grupare este un atribut cantitativ
sau calitativ al colectivitii cercetate.
Seriile de distribuie ale frecvenelor pot fi: simple, cnd avem un ir de variante privind aceiai variabil
(x1, x2,,xi,,xn) unde, ni ,1 de frecvene, cnd fiecrei variante i se ataeaz cte o frecven
ki
ki
nnnnxxxx
......
......
21
21 unde k
-
11
Dac o anumit caracteristic se nregistreaz de mai multe ori ntr-o colectivitate de N
elemente atunci numrul de apariii ale valorii xi a caracteristicii se noteaz cu ni i se numete
frecven absolut a clasei de valori.
Suma tuturor frecventelor absolute ale tuturor valorilor caracteristicii unei populaii statistice
finite este egal cu volumul sau efectivul total al populaiei statistice:
1 21
...k
k ii
N n n n n
unde N este volumul sau efectivul total al populaiei statistice i k este egal cu numrul de valori
distincte ale caracteristicii studiate.
Pe lng frecvena absolut a unei clase de valori, n studiul statistic sunt utile urmtoarele
tipuri de frecvene:
1. frecvena absolut cumulat cresctor a unei clase de valori (notat cu nc) care este egal cu
suma frecvenelor absolute ale tuturor claselor de valori ncepnd de la caracteristica de
valoare minim pn la caracteristica la care am ajuns, inclusiv aceasta;
2. frecvena absolut cumulat descresctor a unei clase de valori (notat cu nd) care este egal
cu suma frecvenelor absolute ale tuturor claselor de valori ncepnd de la caracteristica de
valoare maxim pn la caracteristica la care am ajuns, inclusiv aceasta;
2. frecvena relativ a unei clase de valori (notat cu fi) este raportul dintre frecvena sa absolut
ni corespunztoare caracteristicii studiate i efectivul (volumul) total N al poplaiei statistice
studiate;
3. frecvena relativ cumulat cresctor a unei clase de valori (notat cu fc) este suma
frecvenelor relative ale claselor de valori ncepnd de la caracteristica de valoare minim pn
la clasa la care am ajuns, inclusiv aceasta;
4. frecvena relativ cumulat descresctor a unei clase de valori (notat cu fd) este suma
frecventelor relative ale claselor de valori ncepnd de la caracteristica de valoare maxim pn
la clasa la care am ajuns, inclusiv aceasta.
Dac 1,..., kx x sunt valorile caracteristicii studiate i 1,..., kf f sunt frecvenele relative
corespunztoare fiecrei valori a caracteristicii, atunci
k
kn ff
xxX
...
...
1
1 se numete distribuia statistic
corespunztoare caracteristicii studiate, iar mulimea format din perechile ( , )i ix f formeaz seria
statistic. Distribuia statistic (sau variabila aleatoare X) se noteaz i astfel: 1,
ik
i i k
xX
f
S considerm o populaie statistic cu efectivul total N i fie X caracteristica populaiei
statistice care ia valorile x1, x2, x3....xp . Notm cu ni numrul de uniti statistice pentru care variabila X
ia valoarea xi, 1 i p mulimea tuturor perechilor (xi, ni) , 1 i p formeaz o serie statistic cu o
-
12
singur variabil. n cazul n care variabila de grupare este discret i gruparea se efectueaz pe
variante, seria de distribuie de frecvene este discret (pe variante):
Distribuie de frecvene pentru o variabil finit sau discret
Variantele caracteristicii (variabilei)
Numrul de uniti statistice (frecvena absolut)
x1 n1 x2 n2 .... .... xk nk
TOTAL 1 21
...k
k ii
N n n n n
Pentru o variabil numeric continu pentru care se obine o serie de distribuie (repartiie) de
frecvene pe intervale, sub forma:
Distribuie de frecvene pe intervale de variaie
Intervale de variaie ale caracteristicii (variabilei)
Valoarile centrale ale intervalelor
Numrul de uniti statistice (frecvena absolut)
a1 a2 * 1 21 2
a ax n1
a2 a3 * 2 32 2
a ax n2
........ . .................
ak ak+1 * 12
k kk
a ax nk
TOTAL 1 21
...k
k ii
N n n n n
Pentru o caracteristic de tip continuu, datele mai pot fi sistematizate ntr-un tabel de forma:
Intervale de variaie ale caracteristicii
(variabilei) x1=[a1,a2) x2=[a2,a3) ........................ xk=[ak,ak+1)
Frecvena absolut n1 n2 ........................ nk
Valoarile centrale ale intervalelor
* 1 21 2
a ax * 2 32 2a ax ........................ * 1
2k k
ka ax
Mrimea intervalului de grupare se calculeaz cu formula 1i i ih a a ( {1, 2,..., }i k ) unde
k este numrul de intervale de grupare, ni este frecvena absolut care indic numrul total de uniti
statistice care au valoarea variabilei situat ntr-un interval 1[ , )i ia a sau 1( , ]i ia a (dup cum sunt
considerate intervalele de variaie ale variabilei).
-
13
Dac intervalele sunt neegale, pentru asigurarea comparabilitii datelor se pot calcula
frecvene reduse la un interval etalon (standard). Frecvena redus (corectat) a unui interval, notat cu corectatain se calculeaz prin raportarea frecvenei absolute la un factor de corecie
i
etalon
hHh
ce reprezint numrul maxim al intervalelor etalon care se ncadreaz (ncap) ntr-un interval de
grupare:
corectata ii
nnH
unde ih este egal cu mrimea intervalului i, iar etalonh reprezint mrimea intervalului etalon (egal cu
mrimea celui mai mic interval de grupare).
PREZENTAREA DATELOR STATISTICE
Tabelul statistic constituie o modalitate de prezentare a datelor statistice. Pe lng funcia de
prezentare a rezultatelor prelucrrii primare i secundare a datelor statistice, tabelele statistice au i
funcia sistematizare a datelor n vederea prelucrrii lor. Tabelele statistice conin una sau mai multe
serii statistice. n funcie de rolul lor n analiza i prelucrarea datelor statistice, tabelele statistice pot fi:
simple (descriptive), de prelucrare, pe grupe (obinute n urma sistematizrii datelor), combinate, de
asociere, etc.
Reprezentarea grafic este o metod de descriere a datelor prin intermediul figurilor
geometrice. Graficul este o imagine care prin diferite mijloace de prezentare scoate n eviden ceea ce
este esenial n evoluia fenomenelor, n ceea ce privete proporiile i corelaiile cu alte fenomene de
aceeai natur sau calitativ diferite. Graficele statistice sunt reprezentate cel mai adesea ntr-un sistem
de axe de coordonate rectangulare (ortogonale).
Elementele unui grafic statistic sunt:
reeaua graficului, alctuit dintr-un sistem de linii verticale i orizontale sau de cercuri
concentrice care ajut la construirea graficului;
scara de reprezentare stabilete corespondena dintre o unitate de msur aleas pe grafic i
unitatea relativ la X (sau Y);
legenda graficului are rolul de a facilita nelegerea reprezentrii construite;
titlul, sursa datelor, numerotarea, note explicative sunt elemente comune i tabelelor
statistice.
-
14
Pentru o serie de distribuie de frecvene dup o variabil numeric discret (pe variante)
reprezentrile grafice care ne permit s vizualizm distribuia de frecvene sunt diagramele statistice.
Dintre acestea se pot utiliza:
diagramele prin benzi (formate din dreptunghiuri cu baze congruente i nlimile
proporionale cu fregvenele relative sau absolute),
diagramele-bar
diagrame circulare (n care sectoarele circulare ale unui disc au unghiurile la centru
proporionale cu frecvenele relative).
Diagrama prin coloane i diagrama prin benzi
EXEMPLU:
Reprezentarea grafic este prin diagrama prin coloane este:
Diagrama prin coloane
4%
20%
12%
16%
24%
16%
8%
0%
5%
10%
15%
20%
25%
30%
Firma A Firma B Firma C Firma D Firma E Firma F Firma G
caracteristica
frec
ven
a re
lativ
Diagram a prin benzi
4%
20%
12%
16%
24%
16%
8%
0% 10% 20% 30%
Firma A
Firma B
Firma C
Firma D
Firma E
Firma F
Firma G
cara
cter
istic
a
frecvena re lativ
Series1
O alt modalitate de a prezenta grafic datele pe care le avem la dispoziie cu privire la o serie de
distribuie de frecvene este diagrama de structur:
-
15
n cazul unei serii statistice cu valori discrete, 1,
i
i i k
xn
se prefer reprezentarea ntr-un sistem
ortogonal de axe de coordonate a punctelor de coordonate (xi , ni) n cazul frecvenelor absolute, sau a
punctelor de coordinate (xi ,fi) n cazul frecvenelor relative.
Linia poligonal care unete punctele Mi (xi , ni) (unde ni rerezint efectivul sau volumul
corespunztor caracteristicii xi ) se numete poligonul frecvenelor absolute.
Linia poligonal care unete punctele Ni (xi , fi) (unde fi rerezint frecvena relativ
corespunztoare caracteristicii xi) se numete poligonul frecvenelor relative.
Poligonul frecvenelor
4%
20%
12%16%
24%
16%
8%
0%
5%
10%
15%
20%
25%
30%
Firma A Firma B Firma C Firma D Firma E Firma F Firma G
Com pania
Fre
cven
ele
rel
ativ
e (%
)
Pentru o serie de distribuie de frecvene dup o variabil numeric continu (pe intervale),
reprezentrile grafice care ne permit s vizualizm distribuia de frecvene sunt histograma i
poligonul frecvenelor.
Metoda histogramei:
Fie o distribuie statistic ce are valori continue, de tipul
-
16
1[ , ) , 1, .i ini
a aX i k
f
Fie Ai punctele de coordonate (ai,0) (cu {1,..., }i k ). Pe segmentele A1A2, A2A3, .... , AkAk+1 ,
construim dreptunghiurile alturate cu una dintre laturi (Ai-1Ai) situat pe axa absciselor (Ox) de
lungime egal cu amplitudinea clasei de valori (ai+1 ai) (adic lungimea intervalului [ai, ai+1) ).
Ariile acestor dreptunghiuri trebuie s fie proporionale cu frecvenele lor (relative sau absolute)
ale claselor respective. O astfel de reprezentare ine seama nu numai de frecvena relativ fi a clasei de
valori [ai, ai+1) ci i de lungimea intervalului n care se situeaz datele din clas. Astfel, nlimile
dreptunghiurilor din histogram se calculeaz din:
3 2 2 12 1 1
1 2
( ) ( )( ) ... k k kk
a a h a a ha a hf f f
Observaii:
1. Histograma se recomandat n cazul variabilelor cantitative tocmai pentru faptul c acest tip de
variabile fie sunt fie continue, fie avem un numr foarte mare de valori chiar dac sunt discrete. n
stabilirea mrimii intervalelor trebuie s inem cont de faptul c, intervale prea mari pot duce la
pierderea de informaie, n timp ce intervale prea mici poate ascunde informaii asupra distribuiei
variabilei.
2. n cazul histogramei fiecare bar reprezint un interval de valori de aceea limea barei variaz
odat cu mrimea intervalului, aceasta din urm fiind stabilit de ctre cercettor.
3. n cazul diagramei-bar fiecare bar corespunde unei singure valori (categorii) a variabilei. n plus,
pentru a evidenia faptul c datele nu sunt continue, barele nu sunt lipite ntre ele (cum se ntmpl n
cazul histogramei).
4. Cnd intervalele devin suficient de mici, iar numrul de cazuri rmne finit pe fiecare interval, poligonul
frecvenelor apare ca o curb neted
-
17
EXEMPLU: Reprezentarea grafic a distribuiei elevilor dintr-o clas dup nota obinut la o lucrare
de control se prezint n graficul urmtor:
Histograma i poligonul frecvenelor ofer o prim imagine asupra tendinei de normalitate sau
asupra asimetriei unei serii de distribuie de frecvene.
O distribuie normal, perfect simetric (n forma clopotului lui Gauss-Laplace) este o
distribuie teoretic la care se face adeseori apel n analiza statistic, dei este foarte rar ntlnit n
practic. n cele mai multe cazuri, distribuiile de frecvene empirice au tendin de normalitate, dar un
anumit grad de asimetrie:
O alt modalitate de descriere a datelor cantitative continue poate fi realizat pe baza
frecvenelor cumulative, utiliznd curba frecvenelor cumulative. Suprapus peste curba frecvenelor
cumulate cresctor sau ntr-un grafic separat se poate reprezenta curba frecvenelor cumulate
descresctor. De asemenea, curba frecvenelor cumulative se poate reprezenta i pe baza
frecvenelor relative cumulate.
-
18
Diagrama de mprtiere (corelograma)
n cazul datelor bivariate, sistematizate ntr-o serie de distribuie de frecvene bidimensional, reprezentarea
grafic uzual n sistemul de coordonate rectangulare este diagrama de mprtiere:
Cronograma
O serie cronologic se reprezint grafic prin intermediul cronogramei sau historiogramei. n
sistemul de coordonate rectangulare, pe axa absciselor se marcheaz unitile de timp (t) momente
sau intervale iar pe axa ordonatelor valorile variabilei (yt).
Diagrama polar
n cazul n care seria cronologic prezint variaii sezoniere, pentru reprezentarea grafic a evoluiei
unui fenomen putem folosi diagrama polar (radial), construit n sistemul de coordonate polare:
Cronogram trasat prin a) linii; b) coloane
-
19
Diagram polar
Diagrama prin suprafee
O serie teritorial se poate reprezenta grafic prin diagrame prin coloane, benzi ori diagram
prin suprafee. n diagrama prin suprafee se construiesc ptrate sau cercuri, cu suprafeele
proporionale cu valorile reprezentate.
n cazul fenomenelor complexe, care se descompun n produsul a trei factori se poate folosi
diagrama de volum trasat prin paralelipipedul dreptunghic. Cei trei factori se vor reprezenta pe
lungimea, limea i nlimea paralelipipedului, iar nivelul fenomenului complex prin volumul
acestuia.
Exemplu: Populaia globului pe continente (in anul 2008):
Reprezentarea grafic este:
Diagram de suprafa
Alte tipuri de reprezentri grafice: Dac aceste diagrame pot fi construite i pentru alte serii statistice
(de exemplu: serii de distribuii de frecvene homograde), o modalitate specific de reprezentare grafic
a seriilor teritoriale este cartograma sau cartodiagrama, n care pe o hart se construiesc diagrame (n
-
20
cazul cartodiagramei), se haureaz sau se coloreaz diferit unitile teritoriale (n cazul cartogramei),
n funcie de nivelul nregistrat al variabilei.
TENDINA CENTRAL, VARIAIA I FORMA DISTRIBUIEI
Avnd la dispoziie un set de date numerice analizate din punct de vedere statistic, putem
determina valorile maxime i minime, distribuia frecvenelor, histograma i poligonul frecvenelor.
Aceste instrumente permit identificarea formei aproximative a distribuiei i indic n jurul crei valori
sunt concentrate nivelurile individuale ale variabilei.
n continuare vom calcula indicatorii numerici descriptivi care permit o analiz mai atent a
datelor n comparaie cu impresia general pe care o ofer prezentarea datelor sub form de serii, tabele
i grafice. Cele trei proprieti majore ale seriilor de date numerice sunt cele privitoare la tendina
central, la variabilitatea i la forma distribuiilor.
Indicatorii care caracterizeaz tendina central din forma de manifestare a fenomenelor au ca
principal funcie aceea de a sintetiza valorile individuale nregistrate ale caracteristicilor urmrite
astfel nct s fie posibil substituirea acestora fr s modifice esena i relaia obiectiv dintre date.
Indicatorii utilizai n studiul statistic se pot grupa astfel:
Indicatorii de frecvene: absolute, relative i cumulate;
Indicatorii tendinei centrale: media, mediana, modul;
Indicatori medii de poziie denumii i medii de structur sau medii de frecvene:
mediana, cuartilele, decilele, centilele;
Indicatori ai variaiei totale: amplitudinea variaiei, abaterile individuale,
abaterea medie liniar, abaterea medie ptratic (abaterea tip sau abaterea
standard), dispersia i coeficientul de variaie;
Indicatorii de variaie intercuantilic;
Indicatorii de asimetrie;
Indicatorii ai concentrrii/diversificrii.
I. Indicatorii tendinei centrale
Mrimile medii
Mrimile medii sunt valori abstracte care caracterizeaz ntrega colectivitate utilizate pentru
caracterizarea tendinei centrale.
-
21
Media trebuie nteleas ca un nivel capabil s exprime esena comun a majoritii
manifestrilor individuale ce alctuiesc colectivitatea cercetat. n funcie de modul de determinare,
indicatorii tendinei centrale se clasific n:
indicatori (mrimi) medii de calcul: media aritmetic, armonic, ptratic, geometric etc.;
indicatori medii de poziie: modul (moda sau valoarea modal) i mediana.
Mediile calculate se determin pe baza tuturor valorilor caracteristicilor nregistrate ntr-o
colectivitate.
Calculul mediei trebuie s fie precedat de verificarea omogenitii colectivitii relativ la
caracteristica urmrit. n cazul n care mulimea valorilor individuale nregistrate este eterogen, dup
eliminarea datelor aberante, colectivitatea se structureaz pe grupe omogene, iar apoi se calculeaz
adecvat medii pariale (pe grupe). n aceste condiii media unei caracteristici pe ntregul ansamblu
apare ca o sintez adecvat a mediilor pariale.
Indicatori medii de calcul:
Media se calculeaz n funcie de natura obiectiv dintre date dar i n funcie de forma de
repartizare a frecvenelor, ca medie simpl sau ponderat.
Mediile simple se calculeaz atunci cnd se utilizeaz toate variantele nregistrate. n cazul n
care dup sistematizarea/gruparea datelor, valorile individuale prezint frecvene diferite de apariie,
nivelul mediu se calculeaz ca medie ponderat.
Media aritmetic este cea mai popular msur a tendinei centrale a unei distribuii. n sens
statistic, media aritmetic (sau momentul iniial de ordinal unu) a valorilor individuale x1,x2,...xN ale
caracteristicii numerice X reprezint acea valoare x care s-ar fi nregistrat dac toi factorii de influen
ar fi acionat constant, cu aceeai intensitate, la nivelul fiecrei uniti de nregistrare. Ea se calculeaz
ca sum a tuturor valorilor observate (innd cont de ponderea fiecrei valori distincte care este egal
cu frecvena absolut corespunztoare fiecrei variante) ale seriei de date mprit la numrul total de
observaii:
1 1 2 2 1...
k
i ik k i
n xn x n x n xx
N N
unde: x este media, k este numrul de categorii (valori distincte) ale variabilei, ni reprezint frecvena
absolut (ponderea) de apariie a categoriei i, xi este valoarea caracteristicii i (valoarea categoriei i) i N
este numrul total de observaii.
Pentru cazurile seriilor statistice continue (datele sunt grupate pe intervale) se consider ca
"valori ale variabilei" centrele de interval. Aceast convenie este indus de ipoteza c frecvenele sunt
uniform distribuite n interiorul tuturor intervalelor de grupare. Dac se ntmpl ca valoarea minim i
-
22
respectiv valoarea maxim a seriei de date s nu fie cunoscute, rmne la latitudinea cercettorului s
decid care valori urmeaz s atribuie respectivelor centre de interval.
Dac xi* reprezint valoarea central a clasei de grupare Ci dat de
],[,2
,
11
*
iiiii
iii
iaaCdacaa
xCdacx
x
unde {1,2,..., }i k , k este numrul de valori distincte (variante) ale variabilei studiate,
ni reprezint frecvena absolut de apariie a categoriei i,
N este numrul total de observaii, atunci tipurile de medii utilizate ntr-un studiu statistic sunt:
Media aritmetic * * *
1 1 2 2 ........... k kx n x n x nxN
Media geometric
1* *1 .... kn n
Ng kx x x
Media armonic se defineste ca valoarea inversa a mediei aritmetice a inverselor
valorilor individuale nregistrate:
1* *1
.....h
k
k
Nx nnx x
Media patratic
* 2 * 21 1( ) ..... ( )k k
pn x n xx
N
Observaii:
n cazul n care caracteristica urmrit este alternativ, calculul nivelului su mediu se face, n mod
convenional, astfel:
unitile colectivitii se mpart n dou grupe: una format din unitile la care se
nregistreaz forma direct de manifestare a caracteristicii i o alta format din acele uniti la
care s-a nregistrat opusul formei directe de manifestare;
n mod convenional, aceast caracteristic alternativ se exprim numeric dup cum urmeaz:
se acord valoarea 1 pentru variantele cu rspuns afirmativ (forma direct) i valoarea
zero variantelor cu rspuns negativ (forma opus)
-
23
se calculeaz media aritmetic 0 10 1
0 1n nxn n
,
unde 0n este egal cu numrul variantelor cu rspuns negativ (cu valoarea 0) i
1n este egal cu numrul variantelor cu rspuns pozitiv (cu valoarea 1).
Observaii:
1. Definiia dat mediei aritmetice este adevrat numai dac valorile individuale nregistrate sunt
numerice. Pentru o serie cu valori nenumerice sau cu valori msurabile pe o scal nominal sau
ordinal nu se poate calcula media aritmetic;
2. Mrimea calculat a mediei aritmetice este unic i se ncadreaz ntre valoarea minim i maxim a
irului de date;
3. Mrimea mediei aritmetice poate s coincid sau nu cu o valoare individual nregistrat;
4. Suma diferenelor dintre toate valorile individuale nregistrate i media lor aritmetic este egal cu
zero, deci abaterile pozitive i negative fa de tendina central, la nivelul ansamblului, se
compenseaz reciproc;
5. Dac valorile individuale ale unei variabile sunt mrite (sau micorate) cu constanta a, atunci
media aritmetic se modific i ea, n acelai sens, cu aceeai constant a;
6. Dac valorile individuale ale unei variabile sunt modificate de k ori atunci media aritmetic se
modific i ea de k ori;
7. Vom utiliza media armonic ca msur a tendinei centrale ntr-un ansamblu de observaii cantitative
numai dac este obiectiv nsumarea inverselor valorilor individuale, deoarece media armonic se
definete ca valoare invers a mediei aritmetice a inverselor valorilor individuale nregistrate.
8. Vom utiliza media geometric ca indicator al tendinei centrale n cazul n care fenomenul studiat
nregistreaz modificari aproximativ n progresie geometric, prezentnd diferene mari ntre variantele
caracteristicii la nceputul seriei i din ce n ce mai mici spre finalul acesteia.
9. Vom utiliza media ptratic pentru caracterizarea tendinei centrale n cazul n care fenomenele
studiate prezint creteri exponeniale, creterea fiind lent la nceput i din ce n ce mai pronunat
spre sfritul seriei.
10. Dac o serie statistic este alctuit din mai multe serii componente, pentru care s-au calculat medii
pariale atunci media ntregii serii poate fi calculat ca o medie aritmetic ponderat din mediile
pariale.
Media aritmetic a unei distribuii statistice , 1,ini
xX i k
f
este egal cu
1 1 2 21
...k
k k j jj
x f x f x f x f x
-
24
unde , ( ) 1,jjn
f j kN
reprezint frecvenele relative ale caracetristicii studiate.
Indicatori de poziie:
Mediile poziionale se identific, de regul, n rndul variantelor reale ale colectivitii fr a
face calcule deosebite. Aceste mrimi in seama de poziia lor n colectivitate. Exist dou tipuri de
medii poziionale: valoarea median (sau mediana) i valoarea modal (modul sau moda).
Mediana reprezint acea valoare a caracteristicii care ocup poziia central ntr-o colectivitate
ordonat crescator sau descresctor. Cu alte cuvinte, mediana este acea valoare a unei variabilei care
mparte seria ordonat de date n dou pri egale, astfel nct 50% din observaii sunt situate deasupra
valorii mediane iar 50% sub ea.
Dac datele au fost sistematizate ntr-o serie de distribuie de frecvene pe variante (discrete),
pentru determinarea medianei vom calcula, mai nti, locul medianei se calculeaz cu relaia:
N+1LocMe=2
unde N este numrul total al unitilor populaiei studiate.
Dac avem un numr impar de observaii, mediana este egal cu valoare caracteristicii aflate pe
locul medianei n irul ordonat (cresctor sau descresctor) de date.
n cazul n care avem un numr par de observaii nu va mai exista o singur valoare la mijlocul
seriei de date, ci vom avea dou valori. n aceast situaie, mediana se afl la mijlocul "distanei" dintre
aceste valori, cu alte cuvinte mediana este egal cu media aritmetic a valorilor caracteristicii aflate pe
locul 2N i pe local 1
2N n irul cresctor (sau descresctor) de date.
n cazul distribuiei de frecvene pe intervale valoarea median se determin printr-un procedeu
de interpolare liniar, bazat pe ipoteza repartizrii uniforme a frecvenelor n intervalul median.
Procedeul de determinare a valorii mediane a caracteristicii n cazul distribuiilor pe intervale se
desfoar n urmtoarele etape:
1. se determin intervalul median Cs (numit i clasa median) dat prin:
1 1 2 1
1
11 1
[ , ) 50%,
[ , ) 50% , 1 .s sme
s s s i ii i
C a a dac fC
C a a dac f f cu s k
2. n cadrul intervalului median, valoarea medianei se determin prin interpolare cu ajutorul relaiei
urmtoare:
11
50%( )
s
ii
s s ss
fMe a a a
f
-
25
unde:
Me este valoarea medianei,
as este limita inferioar a intervalului care conine mediana,
N este numrul total de observaii,
1
s
ii
f este frecvena relativ cumulat cresctor a tuturor categoriilor care preced intervalul care
conine mediana,
sf este frecvena relativ a intervalului care conine mediana
Pentru determinarea grafic a medianei avem urmtoarele posibiliti:
1. Se folosete curba frecvenelor cumulate (cresctor sau descresctor): se duce o paralela la axa
Ox prin punctul de pe axa Oy care are ordonata egal cu 12
k
jj
f
. Din punctul de intersecie al
acesteia cu curba frecvenelor cumulate se coboar o perpendiculara pe axa Ox. Abscisa
piciorului perpendicularei este egal cu valoarea medianei.
2. Se reprezint curbele frecvenelor cumulate cresctor i descresctor n acelai sistem de axe de
coordonate. Din punctul de interseciei al acestor dou curbe se coboar o perpendiculara pe
Ox. Abscisa piciorului perpendicularei corespunde cu valoarea medianei.
3. Mediana poate fi determinat folosind histograma. Pentru aceasta se calculeaz suma ariilor
dreptunghiurilor din histogram i se traseaz o dreapt paralel cu axa Oy care s mpart aria
total a histogramei n dou pri egale. Punctul de intersecie dintre aceast dreapt i axa Ox
are abscisa egal cu valoarea medianei.
Observaii:
1. Mediana unei distribuii continue se poate obine ca soluie a ecuaiei F(x)=1/2, unde F este
funcia de frecven cumulat.
2. Suma frecvenelor relative ale valorilor inferioare medianei Me este egal cu suma frecvenelor
relative ale valorilor superioare medianei.
3. Mediana este influenat de numrul variabilelor pentru fiecare clas (frecvena absolut), fiind
egal cu caracteristica ce mparte efectivul total (volumul populaiei statistice studiate) n dou
pri de aceeai frecven.
Mediana este un caz special de msur a localizrii. Msurile localizrii sunt de obicei
cunoscute sub numele de percentile sau quantile.
Cuantilele sunt indicatori care descriu anumite poziii localizate n mod particular n cadrul
seriilor de distribuie. Conceptul de cuantil indic o divizare a distribuiei observaiilor ntr-un numr
oarecare de pri. Prin urmare, cuantilele de ordin r sunt valori ale caracteristicii care mpart distribuia
-
26
ordonat a observaiilor n r pri egale. Quantilele de ordin r sunt n numr de r-1: 1 2 1, ,..., rQ Q Q
deoarece pentru a mpri o serie de date n r pri egale avem nevoie de r-1 valori. Fiecare subinterval
determinat de dou quantile succesive (sau de un capt la intervalului i de quantila cea mai apropiat)
are acelai efectiv, adic 1/r din numrul total al unitilor.
Cel mai adesea se utilizeaz urmtoarele cuantile:
- mediana sau cuantila de ordin 2 (pentru r=2);
- cuartilele sau cuantilele de ordinul 4 (pentru r=4);
- decilele sau cuantilele de ordinul 10 (pentru r=10);
- centilele sau cuantilele de ordinul 100 (pentru r=100).
Quartilele sunt acele valori ale seriei de date care mpart intervalul total al datelor n patru pri
egale. Exist 3 quartile: Q1, Q2 i Q3:
Sub quartila Q1 se afl 25% din cazuri, iar deasupra ei 75%;
Sub quartila Q2 se afla 50% din cazuri, de unde reiese ca aceast quartil este chiar mediana;
Sub quartila 3 se afl 75% din cazuri, iar deasupra ei se afl 25% din cazuri (observaii).
Cuartilele ntr-o serie de repartiie
Cuantilele de ordin superior (r > 4) se calculeaz n cazul distribuiilor cu numr mare de grupe
sau clase de valori individuale.
Decilele (n numr de 9) sunt acele valori ale caracteristicii care mpart aria de variabilitate n
zece pri (intervale) egale, coninnd fiecare 10% din numrul observaiilor. n cadrul unei serii
simple, conform definiiei, cele 9 decile (D1, D2, D3, D4, D5 = Me, D6, ..., D9) se determin dup
procedura prezentat n cazul medianei.
Centilele: Dac avem la dispoziie o colectivitate statistic cu un numr mare de uniti i cu o
variaie foarte mare, pentru analiza statistic este util calculul cuantilelor de ordin mai mare ca 10, de
exemplu, cuantilele de ordinul 100. Centilele (n numr de 99) sunt valorile caracteristicii care mpart
seria n 100 de pri egale (fiecare parte coninnd 100 din numrul observaiilor efectuate). Procedeul
de determinare a centilelor este asemntor cu cel al determinrii medianei, cuartilelor i decilelor
(cuantilelor de ordin mai mic ca 10). Centilele de rang 25 i 75 se identific cu quartielele Q1 i Q3,
-
27
centila de rang 50 se identific cu mediana, iar centilele de ranguri 10, 20, 30, 40, se identific cu
decilele D1, D2, ..., D9.
Concluzie: Pe baza indicatorilor de poziie se poate alctui un rezumat al celor cinci indicatori, care
ofer informaii privind tendina central i forma distribuiei studiate. Aceste cinci valori sunt:
valoarea, minim xmin (denumit, uneori, percentila 0);
cuartila inferioar Q1 (delimiteaz cele mai mici 25% din valori);
mediana Me (care delimiteaz 50% din valori);
cuartila superioar Q3 (care delimiteaz cele mai mari 25% din valori);
valoarea maxim xmax (denumit, uneori, a 100-a percentil).
Cele cinci valori se reprezint grafic prin intermediul diagramei Box-Plot:
Diagrama Box-Plot
Valoarea modal
Un alt indicator de poziie este valoarea modal (numit i modul, mod sau valoare
dominant). Pentru o repartiie discret valoarea modal este uor de determinat pe calea simplei
examinri a irului de frecvene, absolute sau relative. Grafic, valoarea modal este egal cu valoarea
variabilei creia i corespunde "un vrf" al distribuiei.
Dei simplu de obinut, valoarea modal nu este ntotdeauna cea mai bun msur a tendinei
centrale, deoarece de multe ori depinde de gruparea arbitrar a datelor. De asemenea, se ntlnesc
distribuii bimodale, n care exist dou valori diferite ale variabilei care apar cu o aceeai "cea mai
mare" frecven. Grafic, o distribuie bimodal este o distribuie cu dou "vrfuri".
n cazul seriilor de repartiie pe intervale egale, valoarea modal se determin n urmtoarele
etape:
se identific intervalul modal (sau clasa modal) care este intervalul cu frecvena (absolut sau
relativ) cea mai mare. n interiorul intervalului modal se estimeaz valoarea modal.
se calculeaz valoarea modal
Clasa modal a unei clase de grupare este un interval Cr care verific inegalitile:
1 1r r rf f f
-
28
unde {1, 2,..., }r k i k este numrul de clase (intervale) i if este frecvena relativ
corespunztoare caracteristicii i.
Observaii:
1. O distribuie statistic poate avea mai multe clase (intervale) modale.
2. Pentru determinarea grafic a valorii modale se poate folosi histograma. Se unesc vrfurile
coloanei maximale cu punctele de incidenta ale coloanelor adiacente. Abscisa punctului de
intersecie a acestor dou segmente este egal cu valoarea modal;
Folosind clasa modal, putem exprima valoarea modal ca fiind un numr real notat cu Mo
definit prin:
11 1
1 1
, ,
( ) [ , )2
r r r
r rr r r r r r
r r r
x dac C xMo f fa a a dac C a a
f f f
Observaii:
1. n cazul distribuiilor statistice discrete valoarea modal este caracteristica pentru care
frecvena corespunztoare este maxim;
2. n cazul distribuiilor statistice continue, o clas modal coincide cu intervalul din care face
parte valoarea modal (moda);
3. n mod asemntor se definete i se poate determina valoarea antimodal, caracteristica
cea mai puin probabil (pentru care frecvena corespunztoare este mai mic dect
frecvenele alturate 1 1a a af f f );
Concluzii: Localizarea n cadrul seriei a valorii mediei aritmetice, a valorii modale i mediane conduce
la informaii despre forma de distribuire a unitilor colectivitii dup caracteristica urmrit.
Astfel:
- dac exist egalitatea x = Mo = Me atunci distribuia frecvenelor este simetric;
-
29
- n cazul unei distribuii unimodale uor asimetrice, frecvenele sunt uor deplasate ntr-o parte sau
alta.
-
30
II. Indicatori ai variaiei distribuiei statistice
Dup calculul indicatorilor tendinei centrale o atenie deosebit trebuie acordat analizei
gradului de mprtiere (variaie) a valorilor individuale. Indicatorii de mprtiere ofer informaii
necesare att pentru cunoaterea variabilitii din seriile statistice analizate ct i pentru aprecierea
reprezentativitii i al ncrcturii informaionale al valorilor utilizate n procesul decizional.
Analiza statistic a unei repartiii poate fi aprofundat prin calculul indicatorilor de variaie.
Acesti indicatori trebuie s serveasc la :
- verificarea reprezentativitii mediei ca valoare tipic a unei populaii statisatice;
- verificarea gradului de omogenitate a seriei;
- caracterizarea statistic a formei i gradului de variaie a unui indicator;
cunoasterea gradului de influen a factorilor dup care s-a facut gruparea unitilor observate.
Verificarea stabilitii i a reprezentativitii valorilor nregistrate de indicatorii tendinei
centrale este necesar n fundamentarea deciziilor. Pentru a cunoate i a estima corect principalele
tendine ale unei caracteristici este absolut necesar determinarea domeniului de variaie a acesteia. Cu
ct fenomenele au un grad mai mare de complexitate, cu att variaia (mprtierea) valorilor
individuale este mai mare.
n analiza unei serii statistice de date cantitative ne intereseaz, pe lng indicatorii tendinei centrale i indicatorii variabilitii, ai mprtierii valorilor. Astfel, dou (sau mai multe) serii statistice
pot s difere prin tendina central, prin mprtierea datelor sau prin amndou:
a) Distribuii cu tendin central diferit;
b) Distribuii cu variabilitate diferit; c) Distribuii cu tendin central i variabilitate diferite
Calculul i analiza indicatorilor variaiei sau mprtierii valorilor individuale fa de tendina
central ofer posibilitatea de a determina:
gradul de omogenitate a datelor din care s-au determinat indicatorii tendinei centrale i
verificarea reprezentativitii acesteia;
modul de dispersare a valorilor individuale n interiorul cmpului de variatie;
compararea n timp i spaiu a mai multor serii de distribuie, dup caracteristici independente
sau interdependente.
-
31
Indicatorii variaiei utilizai n analizele statistice sunt clasificai dup mai multe criterii:
dup numrul variantelor luate n calcul (sau dup gradul lor de sintez) exist indicatori simpli
i indicatori sintetici;
dup modul de sistematizare a datelor primare exist indicatori ai variaiei calculai pentru serii
de distribuie unidimensionale i indicatori ai variaiei calculai pentru serii multidimensionale;
dup modul de calcul exist indicatori ai variaiei calculai ca mrimi absolute i ca mrimi
relative.
n cele ce urmeaz vom descrie aceti indicatori:
A. Indicatori simpli ai variaiei
Aceti indicatori prezint urmtoarele caracteristici generale:
se determin dintr-un numr redus de valori individuale;
se determin prin compararea sub form de diferen i se exprim n unitatea de msur a
variabilei observate;
informaiile despre variabilitate oferite n urma determinrii i analizrii rezultatelor sunt extrem
de reduse i nu vizeaz omogenitatea ansamblului de date nregistrate.
1. Amplitudinea variaiei ofer posibilitatea cunoaterii cmpului de variaie a unui fenomen. Ea
se utilizeaz frecvent n prelucrarea statistic la alegerea numrului de intervale de grupare a datelor i
la stabilirea mrimii intervalelor.
Amplitudinea variaiei se clasific n:
a). Amplitudinea absolut - se calculeaz ca diferena dintre variaia maxim i variaia
minim a caracteristicii: A=xmax - xmin
unde xmax i xmin reprezint cea mai mare, respectiv cea mai mic valoare a caracteristicii
obinut n selecia efectuat;
b). Amplitudinea relativ - se determin raportnd amplitudinea absolut la media
caracteristicii analizate, exprimndu-se n procente :
100minmax%
x
xxA
Amplitudinea relativ permite compararea gradului de variaie a dou sau mai multe variabile,
exprimate n uniti de msur diferite, obinnd urmtoarele rezultate:
- amplitudinea relativ a variaiei care se situeaz sub 100 este specific colectivitilor
omogene;
- pe msur ce amplitudinea relativ este mai mare dect 100 colectivitatea este din ce n ce mai
eterogen iar media aritmetic a seriei statistice este mai puin semnificativ.
-
32
2. Abaterea interquantil se obine mprind intervalul dintre cea mai mic i cea mai mare
valoare a datelor seleciei n subintervale, astfel nct fiecare subinterval s conin aproximativ acelai
numr de date ale seleciei.
Abaterea interquantil ofer informaii despre concentrarea valorilor individuale n cadrul
seriei statistice, avnd acelai avantaj pe care l are mediana prin faptul c nu este influenat de
existena cazurilor extreme. Pentru acest parametru, sub form absolut, avem:
221111 qqqMMqq neen
iar sub form relativ denumit i coeficient de variaie interquantilic este:
1002
100 11
e
n
er M
qqMqq
Cu ct abaterea interquantilic (relativ sau absolut) este mai mic, cu att valoarea median este mai reprezentativ.
Abaterea interquartil (obinut pentru r=4) msoar lungimea intervalului care conine 50%
din observaii aflate la mijlocul distribuiei. Acest indicator se exprim n unitatea de msur a
caracteristicii. Calculul abaterii intercuartilice prezint avantajul c evit valorile individuale extreme
sau aberante. Abaterea interquartil, prin definiie, este media aritmetic simpl a segmentelor Me Q1
i Q3 Me, respectiv:
1 3 3 1
2 2e e
dM Q Q M Q QQ
i arat cu ct se abat n medie, n plus sau n minus, de la median, cele 50% din valorile variabilei
cuprinse ntre Q1 i Q3. Forma relativ a acestui indicator, numit i coeficient de variaie
intercuartilic este:
MeQQ
Me
QQ
MeQV dq 2
2 1313
se numete coeficient de variaie interquartilic i arat cu ct se abat n medie de la median (considerat egal cu 100), valorile variabilei nregistrate pentru cele 50% din unitile populaiei cuprinse ntre Q1 i Q3. Pentru decile se pot calcula abaterea interdecilic:
22)()( 1991 DDMeDDMeDd
i coeficientul de variaie interdecilic:
MeDD
Me
DD
MeDV dd 2
2 1919
3. Abaterea individual de la medie este o msur a variaiei unei variabile care include toate
observaiile, nu numai dou dintre ele ca n cazul amplitudinii i abaterii interquantile, oferind
informaii asupra variaiei valorilor caracteristicii n raport cu o msur a tendinei centrale (media sau
valoarea median).
-
33
Abaterea individual absolut de la medie a unei observaii se calculeaz ca diferena dintre
valoarea pe care o ia respectiva observaie (valoarea caracteristicii) i media variabilei:
i id x x .
Abaterile individuale relative de la medie ( %id ) se calculeaz ca raport ntre abaterea
individial absolut i media aritmetic, exprimndu-se n procente:
% 100iix xd
x
Una dintre proprietile mediei aritmetice este aceea c suma tuturor abaterilor individuale de la
medie este egal cu 0. n consecin, pentru a obine o msur a variaiei la nivelul ntregului eantion
sau a ntregii populaii trebuie utilizat fie suma modulelor (a valorilor absolute) abaterilor individuale
de la medie, fie suma ptratelor acestor abateri.
B. Indicatorii sintetici ai variaiei sintetizeaz, ntr-o singur expresie numeric, variaia
valorilor individuale fa de tendina central a caracteristicilor dintr-o populaie statistic. Principalii
indicatori sintetici cu care se caracterizeaz variaia termenilor seriei statistice fa de tendina lor
central sunt:
abaterea medie absolut (sau abaterea medie liniar);
dispersia (sau variana);
abaterea standard (sau abaterea medie ptratic);
coeficientul de variaie (sau viteza de variaie);
valorile individuale standardizate.
La baza determinrii indicatorilor sintetici stau abaterile individuale dar, pentru a se evita
compensarea, ele vor fi luate n modul (valoare absolut) sau se va opera cu ptratele acestora.
1. Abaterea medie absolut (sau abaterea medie liniar) este un indicator al variabilitii
tuturor datelor seleciei care se calculeaz ca media aritmetic a modulelor abaterilor absolute ale
variantelor caracteristicii de la media lor folosind una dintre relaiile :
- n cazul unei caracteristici discrete:
1 1
1
..... kk ki i
i
n x x n x xd f x x
N
, cu 1 2 ... kn n n N i ii
nfN
- n cazul unei caracteristici continue:
*
*1
1
k
i i ki
i ii
n x xd f x x
N
cu * 12i i
ia ax .
Abaterea medie absolut (sau liniar) de la median (notat cu Me ) se determin dup
urmtoarele relaii:
-
34
- n cazul unei caracteristici discrete:
1 1
1
..... kk kMe i i
i
n x Me n x Mef x Me
N
cu 1 ........ kN n n i ii
nfN
- n cazul unei caracteristici continue: * *
1 1 *
1
..... kk kMe i i
i
n x Me n x Mef x Me
N
cu * 12
i ii
a ax
2. Dispersia statistic (sau variana), notat cu notat cu 2 sau D2, este o msur sintetic a
mprtierii egal cu media aritmetic a ptratelor abaterilor valorilor individuale de la tendina lor
central. n calculul dispersiei poate fi luat n considerare media aritmetic sau mediana.
Relaiile de calcul ale dispersiei fa de media aritmetic sunt urmtoarele:
- n cazul unei caracteristici discrete:
22 2
2 21 1 1
1
( ) ...... ( ) ( )
k
i ik k i
k
ii
x nx x n x x n x
N n
sau 2 21
( )k
i ii
f x x
cu iinfN
- n cazul unei caracteristici continue:
2* 2 *2 * 2 21 1
1
1
( )( ) ( )
k k
i i i iki i
i i ki
ii
n x x x nx x f x
N n
cu * 12
i ii
a ax
Pentru msurarea variabilitii termenilor seriei fa de tendina central dispersia mai poate fi
calculat i n funcie de valoarea medianei. n aceast situaie, valoarea mediei aritmetice x din
formulele de mai sus utiliyate pentru calculul dispersiei va fi nlocuit cu valoarea medianei Me.
3. Abaterea standard (numit i abaterea medie ptratic sau abaterea tip) se definete ca
fiind media ptratic a abaterilor valorilor individuale de la tendina central. Observm c abaterea
standard este egal cu rdcina ptrat a dispersiei, fiind calculat cu relaia:
2
Abaterea medie ptratic prezint interes att pentru apreciere omogenitii valorilor individuale
ale unei serii (sau pentru a verifica reprezentativitatea mediei lor) ct i pentru construirea unor
intervale centrate n x care conin un anumit procent din masa total a observaiilor. Abaterea medie
ptratic mai poate fi utilizat ca o msur a "riscului" n studiul calitii produselor, pentru elaborarea
variantelor de prognoz, n studii de marketing, etc. Abaterea medie ptratic este un indicator de baz,
care se folosete la estimarea erorilor de selecie n calculul de corelaie.
-
35
Din practic s-a observat c, dac distribuia unitilor din colectivitatea investigat dup
caracteristica urmrit este sub form de "clopot al lui Gauss" sau este uor asimetric atunci:
valorile caracteristicilor cuprinse ntre x i x reprezint aproximativ 68% din efectivul total,
valorile caracteristicilor cuprinse ntre 2x i 2x reprezint aproximativ 95% din efectivul
total,
valorile caracteristicilor cuprinse ntre 3x i 3x reprezint aproximativ 99% din efectivul
total.
n aceast situaie spunem c distribuia statistic este normal. Poligonul frecvenelor (relative
sau absolute) al unei distribuii statistice care are o repartiie normal prezint un aspect de clopot
simetric fa de dreapta paralel cu axa Oy care intersecteaz axa absciselor n punctul de absis egal
cu media aritmetic x .
Relaia dintre amplitudine i abaterea medie ptratic
n literatura de specialitate se apreciaz c pentru o serie de distribuie normal abaterea medie
liniar este egal cu 4/5 din valoarea abaterii medii ptratice.
La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de masur a
variabilei a carei variaie o caracterizeaz. Prin urmare cei doi indicatori nu se pot folosi pentru
compararea gradului de variaie i n aceasta situaie se recurge la un alt indicator de variaie :
coeficientul de variaie.
4. Coeficientul statistic de variaie (sau de omogenitate) - notat cu Cv sau v - este o msur a
dispersiei relative care descrie abaterea medie ptratic ca procent din media aritmetic. Coeficientul
de variaie este utilizat pentru a compara dou distribuii statistice din punct de vedere al variabilitii
datelor i este egal cu raportul dintre abaterea medie liniar (sau abaterea medie ptratic) i media
variabilei studiate, adic :
100Cvx
Uneori coeficientul de variaie se calculeaz relativ la abaterea medie liniar: 100dCvx
unde d este abaterea medie absolut i este abaterea medie ptratic (standard)
-
36
Coeficientul de variaie are avantajul de a fi o msur adimensional (fr unitate de msur)
fiind foarte util n compararea variaiei a dou caracteristici msurate pe aceai populaie/eantion.
Dac se studiaz dou distribuii statistice, vom considera c are o mprtiere mai mare cea
care are coeficientul de variaie statistic mai mare. Putem avea urmtoarele situaii:
(1) dac Cv% este sub 10% atunci populaia poate fi considerat omogen;
(2) dac Cv% este ntre 10%-20% atunci populaia poate fi considerat relativ omogen;
(3) dac Cv% este ntre 20%-30% atunci populaia poate fi considerat relativ eterogen;
(4) dac Cv% este peste 30% atunci populaia poate fi considerat eterogen.
De asemenea, coeficientul de variaie poate fi utilizat ca test de verificare a reprezentativitii
mediei, distingndu-se cazurile:
(1) dac 0 < Cv% 17% atunci media este strict reprezentativ ;
(2) dac 17% < Cv% 35% atunci media este moderat semnificativ;
(3) dac 35% < Cv% 50% atunci media este relativ reprezentativ;
(4) dac Cv% > 50% atunci media nu este reprezentativ.
Observaii:
Indicatorii statistici ai variaiei (abaterea liniar, dispersia, abaterea medie ptratic i
coeficientul de variaie) unei caracteristici invariante (sau a unei constante) sunt egali cu 0;
Abaterea medie ptratic i abaterea medie liniar se exprim n unitatea de msur a variabilei
pentru care se calculeaz, fcnd imposibil compararea variaiilor a dou caracteristici exprimate
n uniti de msur diferite.
5. Valorile individuale standardizate.
Valorile individuale standardizate sunt date iniiale (nregistrate) transformate cu ajutorul
mediei i abaterii standard. Prin operaia de standardizare, fiecare valoare xi a caracteristicii se
nlocuiete cu valoarea standardizat , ( ) 1,s iix xx i N
, unde N este volumul populaiei studiate
Valorile individuale standardizate six pot oferi informaii asupra distanei la care se gsete o
observaie fa de media seriei de date, distan msurat n abateri standard ale variabilei originale X.
Rezultatul acestei transformri determin o nou variabil aleatoare Z (numit variabil aleatoare
normal) care are ntotdeauna media egal cu 0 i abaterea standard egal cu 1. Aceast transformare a
variabilei nu modific forma distribuiei valorilor variabilei i are avantajul c se elimin unitatea de
msur a variabilei studiate, fcnd posibil compararea a dou serii statistice care se refer la
caracteristici cu uniti de msur diferite.
-
37
III. Indicatori ai formei distribuiei
Abaterea medie ptratic i dispersia sunt indicatori care dau o msur a mprtierii valorilor
ntr-o distribuie statistic, oferind o msur a limii distribuiei, fr a da ns nici o informaie
asupra formei distribuiei de frecven.
O distribuie statistic este considerat simetric dac
cele trei valori cu care se exprim tendina central, i anume:
valoarea modal (Mo), valoarea median (Me) i media
aritmetic ( x ) sunt egale. ntr-o distribuie simetric observaiile
nregistrate sunt egal dispersate de o parte i de alta a valorii lor
centrale, dup cum sunt reprezentate n figura 1.
O distribuie statistic este considerat distorsionat sau
asimetric (skewed) dac frecvenele valorilor caracteristicii
urmrite sunt deplasate fa de tendina central (exprimat prin:
Me, Mo sau x ), aa cum sunt reprezentate n figura 2.
Prin asimetrie nelegem abaterea de la simetrie a seriilor
de distribuie, abatere care poate fi:
- moderat (genernd distributii moderat asimetrice) sau:
- pronunat (ntlnit n cazul distribuiilor extrem asimetrice).
Pe de alt parte ne intereseaz volumul de valori din distribuia concentrat de o parte i de alta
a mediei. Astfel, putem avea urmtoarele situaii:
- dac acest volum de valori este mai mic dect media, spunem c distribuia este pozitiv
distorsionat;
- dac exist mai multe valori mai mari dect media, spunem c distribuia este negativ
distorsionat.
Asimetria distribuiilor unitilor ntr-o colectivitate dup caracteristica urmrit poate fi vizibil
pe reprezentrile grafice (histograma, poligonul frecvenelor efective) empirice comparate cu alura
clopotului lui Gauss. Reprezentrile grafice ale seriilor de frecvene sunt mai mult sau mai puin
aplatizate comparativ cu graficul distribuiei normale Gauss-Laplace. Acestea au bolta mai larg sau
mai ascuit, n functie de gradul de concentrare a frecvenelor n jurul valorilor de medie, median,
valoarea modal. Analiza asimetriei i aplatizrii are sens numai n cazul distribuiilor empirice
unidimensionale care prezint o singur valoare modal.
n analiza statistic a formelor de repartizare a frecvenelor, caracterizarea asimetriei i
aplatizrii sau boltirii curbei frecvenelor presupune determinarea formei distribuiei de frecvene care
Fig. 2 Distribuie asimetric
Fig. 1 Distribuie simetric
-
38
se analizeaz, comparativ cu distribuia normal (considerat ideal), prin: indicatori ai asimetriei
(skewness) i indicatori ai boltirii sau aplatizrii (Kurtosis).
n calculul indicatorilor statistici utilizai pentru analiza asimetriei i aplatizrii (sau boltirii)
sunt momentele statistice, care se calculeaz ca medii aritmetice ponderate ale abaterilor variantelor
caracteristicii de la o anumita valoare, folosit ca baz de comparatie, abaterile respective considerate
la anumite puteri (n funcie de ordinul momentului).
Momentele statistice pot fi clasificate n:
a). Momente ordinare de ordin m ( *m N ):
* 1( )
km
i ii
m
n x a
N
unde constanta a este egal cu valoarea caracteristicii cu frecvena cea mai mare.
b). Momente centrate de ordin m ( *m N ):
1( )
km
i ii
m
n x x
N
Amploarea asimetriei statistice se caracterizeaz sintetic cu ajutorul unor coeficieni
adimensionali dintre care menionm: coeficientul lui Yule i Kendall i coeficienii lui Karl Pearson.
a). Coeficientul lui Yule i Kendall (Cyk), utilizat pentru msurarea asimetriei unei distribuiii
statistice, are rolul de a determina modul de etalare al frecvenelor, la dreapta i la stnga medianei,
innd cont de poziia cuartilelor Q3 i Q1 n raport cu mediana au urmtorul coeficient:
3 1
3 1
( ) ( )( ) ( )
e eyk
e e
Q M M QCQ M M Q
Observaii:
valoarea coeficientului lui Yule i Kendall este cuprins ntre -1 i +1;
dac Cyk = 0 atunci cuartilele distribuiei sunt echidistante, deci distribuia statistic este
simetric ;
dac Cyk > 0 sau Cyk < 0 atunci distribuia statistic este asimetric;
dac |Cyk | < 0,1 atunci distribuia statistic este considerat moderat asimetric;
dac |Cyk | > 0,3 atunci distribuia statistic este pronunat asimetric.
Coeficientul propus de Bowley este:
)()()()(
19
19
DMeMeDDMeMeDCasB
unde 1,1asBC
-
39
b). Coeficientul Karl Pearson (Cas) pentru msurarea asimetriei analizeaz poziia a dou
valori centrale (valoarea modal i media aritmetic) relativizat prin dispersia seriei i propune un
coeficient, care ia valori cuprinse ntre zero i unu, calculat cu formula:
asx MoC
unde x este media aritmetic, oM este valoarea modal i este abaterea medie ptratic.
ntr-o repartiie de frecvene moderat asimetric, ntre valorile centrale (Mo, Me, x ) se
verific, n mod aproximativ, relaia: 3( )Mo x Me x . Substituind aceast expresie n relaia
anterioar se obine 3( )
asx MeC
.
Observaii:
- cu ct valorile coeficientului Karl Pearson sunt mai apropiate de zero (sau chiar egale cu 0), cu att
seria este mai simetric;
- cu ct valorile coeficientului Karl Pearson sunt mai apropiate de 1, cu att seria este mai asimetric.
Astfel obinem urmtoarele concluzii:
Dac asC =0 atunci seria este simetric i avem e ox M M i 3 0 ;
Dac 0asC atunci seria este cu simetrie mic;
Dac 1asC atunci seria este cu asimetrie pronunat;
Dac 0asC atunci seria este cu asimetrie la stnga (sau negativ) i avem e ox M M i 3 0 ;
Dac 0asC atunci seria este cu asimetrie la dreapta (sau pozitiv) i avem e ox M M i
momentul centrat de ordin 3 3 0 .
Un alt coeficient introdus iniial de Karl Pearson este coeficientul de asimetrie 1 dat de relaia: 2
31 3
2
( )( )
Coeficientul lui Fisher (notat cu 1 sau cu S) este o transformare a coeficientului 1 realizat de
R.A.Fisher, calculat cu relaia:
3
3 11 1 3 2 3
2
( )
( )
k
i ii
n x x
N
unde ni este frecvena absolut (ponderea) corespunztoare valorii xi a caracteristicii, x este media
aritmetic, N este volumul populaiei studiate i este abaterea medie ptratic.
-
40
Interpretarea coeficientului lui Fisher pornete de la observaia c momentele centrate de ordin
impar ale seriilor de distribuie perfect simetrice sunt egale cu zero deci, n particular, momentul centrat
de ordin 3 este 3 = 0. Astfel, pentru o distribuie statistic putem avea urmtoarele situaii:
- pentru seriile n care predomin termenii cu abateri negative fa de medie (adic 0ix x ) vom
avea 3 < 0,
- pentru cazurile n care predomin termenii cu abateri pozitive fa de medie (adic 0ix x )
vom avea 3 > 0.
Deoarece 2 este ntotdeauna pozitiv vom obine, n funcie de semnul lui 3, 1 0).
O distribuie perfect simetric nu are distorsiune (skewness=0). Gradul de concentrare al frecvenelor n jurul valorilor tipice este cunoscut sub numele de exces
sau kurtosis. Boltirea sau aplatizarea distribuiei statistice (Kurtosis-ul) este o msura a extinderii spre
valorile care sunt concentrate ntr-o parte a distribuiei de frecven. Astfel, dac o clas ntr-o
distribuie de frecven conine o foarte mare parte din valorile din distribuie, atunci distribuia
prezint un mare grad de kurtosis, iar forma poligonului frecvenelor este mai ascuit. ntr-o distribuie
cu un grad mic de kurtosis (distribuie plat) fiecare clas conine o proporie similar din toate valorile.
Coeficientul de boltire al lui Pearson (notat cu 2 ) se calculeaz ca raport ntre momentul
centrat de ordinul 4 i ptratul momentului centrat de ordinul 2:
4
14 42 2 2 2 4
2
( )
( )
k
i ii
n x x
N
Kurtosis-ul sau excesul (notat cu 2 ) se determin cu ajutorul relaiei:
2 2 3
unde 3 este valoarea coeficientului de boltire corespunzator repartiiei normale.
Observaii:
dac 2 20 3 atunci distribuia are vrf ascuit (i se numete leptokurtic);
dac 2 20 3 atunci distribuia este normal;
dac 2 20 3 atunci distribuia are vrf plat (i se numete platikurtic);
dac 2 20 3 atunci distribuia este echivalent cu cea normal n privina gradului
de aplatizare i se numete mezokurtic.
Rdcinile etimologice ale conceptelor utilizate mai sus sunt cuvintele greceti kurtos=cocoat,
platos = larg i lptos = ngust.