Notiuni Fundamentale Ale Statisticii

download Notiuni Fundamentale Ale Statisticii

of 40

description

Notiuni Fundamentale ale Statisticii

Transcript of Notiuni Fundamentale Ale Statisticii

  • 1

    NOIUNI FUNDAMENTALE ALE STATISTICII

    Statistica cerceteaz aspectul cantitativ (numeric) al fenomenelor i proceselor strict

    determinate n timp i spaiu. Statistica se ntlnete ca disciplin tiinific i ca domeniu de activitate.

    Obiectul activitii de cercetare statistic presupune aciuni de proiectare i organizare, de culegere,

    de prelucrare, de analiz i interpretare a datelor.

    Din punct de vedere al scopului urmrit statistica se mparte n:

    1. statistica descriptiv care sintetizeaz i structureaz datele de observaie i informaia

    coninut n acestea, utiliznd tabele, grafice, indicatori numerici etc;

    2. statistica inferenial prin intermediul creia datele obinute la nivelul unui eantion se

    generalizeaz la populaia statistic total cu marje specifice de incertitudine.

    O prim noiune de baz din statistic este colectivitatea statistic (sau populaia statistic)

    care reprezint totalitatea elementelor de aceeai natur, bine determinate n timp i spaiu care au

    trsturi eseniale comune i care sunt supuse unui studiu statistic.

    Statistica opereaz cu colectiviti finite, colectiviti numrabile sau colectiviti infinite.

    Fiecare element al populaiei statistice se numete unitate statistic. Dac populaia statistic studiat

    este finit, atunci numrul unitilor care o compun se numete volumul (sau efectivul) populaiei

    statistice. Cu ct o colectivitate statistic este mai numeroas cu att devine mai dificil cercetarea

    tuturor elementelor ei. n aceast situaie se vor estima parametrii colectivitii totale pe baza

    rezultatelor obinute din studiul unui eantion (un subset de elemente selectate dintr-o colectivitate

    statistic), iar ceea ce a fost determinat ca fiind caracteristic n eantion se presupune c ar fi fost gsit

    dac s-ar fi cercetat colectivitatea general.

    Caracteristica statistic (sau variabil statistic) reprezint trstura, proprietatea, nsuirea

    comun tuturor unitilor unei colectiviti i care variaz ca nivel, variant sau valoare, de la o unitate

    a colectivitii la alta.

    Varianta/valoarea reprezint nivelul concret pe care l poate lua o variabil la nivelul unei

    uniti sau grup de uniti statistice. Cu ct valorile unei caracteristici au o variaie mai mare, cu att

    respectiva populaie este mai eterogen i invers, cu ct valorile unei caracteristici au o variaie mai

    mic, cu att respectiva populaie va fi mai omogen (din perspectiva respectivei caracteristici).

    Datele statistice sunt mrimi concrete, rezultate din studiile efectuate prin numrare, msurare

    sau calcul statistic. Ele pot fi primare, prelucrate, stocate n baze sau bnci de date, etc.

    Indicatorul statistic reprezint expresia numeric a unor fenomene, procese, activiti sau

    categorii economice i sociale, definite n timp, spaiu i structur organizatoric.

  • 2

    Procesul cunoaterii statistice presupune organizarea i parcurgerea unor etape distincte i

    succesive care includ operaiile de observare sau culegere a datelor, de sistematizare i prelucrare, de

    analiz i interpretare a rezultatelor.

    Frecvena absolut de apariie este egal cu numrul de valori (nregistrri sau apariii) ale

    unei variante ntr-o colectivitate.

    Frecvena relativ de apariie reprezint ponderea (procentul) unei variante din totalul

    elementelor unei colectiviti.

    Cercetarea statistic cuprinde totalitatea operaiilor de culegere i observare, sistematizare i

    prelucrare, stocare, analiz i interpretare a informaiilor necesare pentru cunoaterea i conducerea

    proceselor sociale i economice.

    Etapele cercetrii statistice sunt urmtoarele:

    1. Observarea statistic ce cuprinde :

    cunoaterea situaiei problematice;

    colectarea de date.

    2. Prelucrarea statistic ce cuprinde:

    sistematizarea (clasificarea, gruparea) datelor ;

    calculul indicatorilor statistici;

    prezentarea datelor sub form de tabele, serii sau grafice statistice.

    3. Analiza i interpretarea statistic cuprinde:

    confruntarea i compararea datelor,

    formularea de ipoteze;

    verificarea ipotezelor i previziunea statistic;

    formularea deciziei sau alegerea variantei optime prin analiza comparativ

    asupra variantelor;

    precizarea variantei de decizie;

    controlul aplicrii deciziei i verificarea rezultatelor;

    formularea concluziilor asupra cercetrii.

    Observarea statistic: n procesul observrii statistice trebuie ca datele culese s reflecte

    realitatea, s se refere numai la caracteristicile eseniale care rspund cel mai bine scopului cercetrii i

    s se realizeze n condiii obiective.

    Planul de observare statistic cuprinde:

    1. scopul observrii pentru care s-a organizat cercetarea;

    2. obiectul observrii format din colectivitatea cercetat;

    3. unitatea de observare elementul component al colectivitii studiate;

  • 3

    4. programul observrii trebuie s conin :

    i. stabilirea caracteristicilor care trebuie s fie nregistrate;

    ii. modalitile concrete de culegere a datelor;

    iii. ncadrarea n timp i n spaiu a activitii de obinere a informaiilor;

    5. formulare i instruciuni de nregistrare se prezint sub forma de fie i liste.

    Tipuri de nregistrri a datelor statistice:

    Observri totale presupun nregistrarea caracteristicilor cuprinse n programul de cercetare la

    toate unitile (fr excepie) colectivitii statistice (de exemplu rapoartele statistice i

    recensmintele);

    Observri pariale presupun nregistrarea dup criterii bine stabilite a unui numr mai redus

    de uniti din colectivitatea general;

    Stabilirea obiectului si scopului cercetrii

    Analiza prealabil teoretico-

    metodologic

    Verificarea n bnci de date statistice a stocului de informaii cu privire la obiectul supus cercetrii

    Prelucrarea datelor de la ali purttori de informaie

    primar

    Prelucrarea din publicaiile de date statistice naionale

    i internaionale

    Ela

    bora

    rea

    prog

    ram

    ului

    cer

    cet

    rii p

    e ce

    le tr

    ei e

    tape

    Culegerea (nregistrarea) datelor individuale de mas

    - Centralizarea datelor observrii; - Sistematizarea datelor observrii de mas (prelucrarea

    primar); - Obinerea sistemului de indicatori statistici

    (modelarea datelor statistice); - Prezentarea datelor sub form de serii, tabele, grafice

    - Confruntarea i compararea informaiilor provenite din surse diferite; - Confruntarea i compararea rezultatelor prelucrrii

    proprii; - Verificarea ipotezelor statistice i aplicarea testelor de

    semnificaie n vederea elaborrii raportului de analiz;

    - Fundamentarea statistic a prognozelor.

    Analiza i interpretarea

    statistic

    Prelucrarea statistic

    Observarea statistic

    Beneficiarii de informaie statistic

    Organisme guvernamentale i neguvernamentale

    Organizaii i organisme

    internaionale

    Ageni economici publici i privai (prin contracte i

    convenii)

    Stocarea n bnci de date

    statistice

    Publicaii de date statistice

  • 4

    Observri curente constau n nregistrarea sistematic, permanent, pe msur ce se produc

    caracteristicile fenomenelor analizate la nivelul unitilor colectivitii;

    Observri periodice constau n nregistrarea datelor asupra unitilor la intervale de timp bine

    stabilite;

    Observri directe se realizeaz prin nregistrarea nemijlocit a datelor referitoare la unitile

    colectivitii;

    Observri indirecte se ntlnesc atunci cnd nregistrarea datelor se realizeaz pe baza unor

    surse care au consemnat anterior fenomenul studiat (de exemplu, nregistrarea pe baz de

    documente);

    Principalele metode de culegere a datelor sunt:

    Recensmntul prin care se culeg date de la toate unitile colectivitii;

    Rapoartele statistice sunt observri totale, permanente prin intermediul crora se culeg datele

    statistice referitoare la diferitele fenomene i procese economice;

    Sondajele statistice apeleaz la observri pariale asupra unui eantion reprezentativ

    Ancheta statistic este o form de observare care spre deosebire de sondaje nu presupune

    reprezentativitatea eantionului i se realizeaz pe baza unui chestionar.

    Culegerea datelor utiliznd sondajul statistic este o metod parial de observare statistic, din

    ce n ce mai larg utilizat n cercetrile statistice moderne. Sondajul se folosete pentru a nlocui o

    observare total, de mare amploare, mai dificil de realizat, care presupune angajarea unor cheltuieli

    ridicate de resurse materiale, financiare i umane.

    Exist dou categorii eseniale de sondaj: sondaj aleator (probabilist) i sondaj nealeator.

    Pentru multe studii este posibil doar realizarea unei eantionri nealeatoare (cum ar fi ancheta

    statistic - care ofer informaii orientative, eantionarea pe cote, observarea prii principale etc).

    Un eantion n care unitile au fost alese pe baza unor probabiliti cunoscute se numete

    eantion probabilist.

    Tipurile de eantionri probabiliste utilizate sunt: eantionarea aleatoare simpl, eantionarea

    stratificat i eantionarea n cuiburi (cluster).

    n sondajul aleator simplu ansa de selecie n eantion a fiecrei uniti statistice din

    colectivitatea general trebuie s fie egal. Un eantion simplu aleator este aadar selectat astfel nct:

    fiecare unitate statistic are o probabilitate egal de a fi aleas n eantion i unitile sunt alese

    independent, fr legtur una cu cealalt.

    Un sondaj poate fi efectuat:

    cu revenire, adic fiecare unitate statistic extras din colectivitatea general este reintrodus n

    baza de sondaj, dup ce a fost citit i caracteristicile au fost nregistrate;

  • 5

    fr revenire, adic unitile sunt extrase din colectivitatea general, iar dup nregistrarea

    caracteristicilor lor ele nu mai sunt reintroduse n colectivitatea de baz.

    Prelucrarea statistic.

    Dup ce datele statistice sunt colectate din observri totale sau pariale, acestea vor fi organizate

    pentru a facilita prelucrarea lor statistic.

    Prima etap a prelucrrii statistice const n sistematizarea (clasificarea, gruparea) datelor

    culese. n etapa de observare statistic se culeg date privitoare la o singur sau la mai multe

    caracteristici considerate. Sistematizarea datelor se realizeaz prin gruparea i clasificarea datelor

    statistice, adic prin mprirea lor n clase omogene dup unul sau mai multe criterii de clasificare.

    O clas este omogen dac unitile care compun populaia studiat aparin aceluiai tip

    calitativ i ca valoare difer n mic msur una de alta.

    Tehnica gruprii parcurge urmtoarele etape:

    alegerea i folosirea caracteristicilor de grupare;

    alegerea numrului de grupe i stabilirea mrimii intervalelor de grupare;

    enumerarea problemelor de studiu care se rezolv prin metoda gruprilor.

    Gruparea n funcie de o caracteristic numeric ncepe, de regul, cu observarea numrului

    de valori (variante) distincte ale caracteristicii de grupare n cadrul colectivitii cercetate.

    Dac valorile distincte ale caracteristicii studiate nu sunt prea numeroase, putem alege gruparea

    pe variante, adic separarea unitilor colectivitii pe subcolectiviti, n funcie de varianta specific.

    Dac numrul variantelor distincte este prea mare se trece la gruparea pe intervale omogene de

    variaie. Gruprile pot fi clasificate astfel:

    dup numrul caracteristicilor puse la baza gruprii se disting: grupri simple i grupri

    combinate;

    dup coninutul caracteristicilor gruprile pot fi: teritoriale, cronologice sau atributive.

    Intervalele de variaie sunt determinate de un ir de valori ale variabilei studiate delimitate fa

    de intervalele vecine prin limita inferioar i limita superioar.

    Intervalele de grupare pot fi: intervale egale sau neegale; intervale deschise sau nchise;

    intervale cu variaie continu sau intervale cu variaie discontinu (discret).

    Pentru sistematizarea datelor pe intervale de variaie se recomand utilizarea intervalelor de

    mrime egal, cu excepia cazurilor n care analiza datelor necesit folosirea unor intervale de mrime

    neegal.

    Pentru alegerea numrului de intervale de grupare (m) se poate utiliza i relaia lui Sturges (n

    ipoteza repartiiei aproximativ normale a unitilor dup variabila studiat): 1 3.322 lnm N , unde N

    este volumul populaiei studiate.

  • 6

    Pentru sistematizarea datelor pe intervale egale de grupare se stabilete mai nti amplitudinea

    A a variaiei caracteristicii (egal cu diferena dintre valoarea maxim i valoarea minim a

    caracteristicii) apoi se stabilete numrul de grupe m i se calculeaz mrimea intervalului de grupare h

    dup relaia:

    max minX XAhm m

    Mrimea intervalului (h) se recomand a se rotunji la o valoare convenabil n calcule.

    Punctul de plecare n alctuirea intervalelor de grupare se alege 0 sau un numr ntreg puin mai

    mic dect valoarea minim din mulimea de date.

    Limitele intervalelor de grupare trebuie stabilite respectnd precizia datelor (cu acelai numr

    de zecimale) astfel nct fiecare unitate s poat fi ncadrat ntr-o singur clas. Pentru cele m grupe se

    vor stabili frecvenele absolute prin numrarea unitilor care se ncadreaz n fiecare grup.

    Dac exist grupe cu frecven nul, ori multe grupe cu o singur observaie, poate fi necesar

    revizuirea mrimii intervalelor sau a numrului de intervale.

    Prin caracteristica de grupare se nelege acea nsuire care st la baza mpririi colectivitii

    n grupe omogene. Valorile caracteristicilor numerice pot fi ordonate i ierarhizate i asupra lor se

    pot efectua operaii de prelucrare.

    Dup coninutul variabilelor, caracteristicile pot fi:

    caracteristici de timp (desemneaz apartenena la un moment sau interval de timp),

    caracteristici de spaiu (exprim teritoriul creia i aparine)

    caracteristici atributive care pot fi numerice (cantitative) sau calitative.

    Dup cardinalul mulimii observaiilor caracteristicile numerice pot fi clasificate astfel:

    alternative (binare): spaiul lor de observaii este compus din dou valori numerice (de

    exemplu {0,1}) sau dou modaliti (de exemplu {adevrat , fals})

    cu un numr finit de valori numerice - n aceast categorie se ncadreaz toate variabilele

    calitative, pentru care spaiul observaiilor (mulimea valorilor individuale) este format dintr-un

    numr finit de modaliti, precum i variabilele cantitative discrete (numrabile);

    variabile cantitative continue (mulimea specific a valorilor individuale este un interval de

    numere reale).

    Dup modul de obinere i caracterizare a fenomenului caracteristicile pot fi:

    caracteristici primare obinute, de regul, n etapa de culegere a datelor statistice;

    caracteristici derivate obinute n procesul prelucrrii variabilelor primare.

    Dup structura algebric cu care este nzestrat mulimea valorilor individuale i dup tipul

    scalei de msurare, caracteristicile atributive pot fi clasificate astfel:

    1. Variabilele calitative:

  • 7

    nominale - se caracterizeaz prin faptul c mulimea specific a valorilor individuale

    nu este nzestrat cu structur algebric i se msoar pe o scal nominal (exemple:

    starea civil, ramura de activitate);

    ordinale - au mulimea finit a valorilor individuale exprimate prin coduri numerice i

    cu o structur de ordine total ( ) care definete n mulimea valorilor o ierarhie.

    2. Variabilele cantitative:

    ordinale - se caracterizeaz prin faptul c au o mulime continu de valori

    individuale nzestrat cu o structur de ordine i se msoar pe scala de interval. Pe

    scala de interval are sens definirea distanei dintre valorile (numeric exprimate) ale unei

    variabile. Punctul zero al acestei scale i unitatea de msur se pot alege n mod

    arbitrar;

    cardinale - au mulimea valorilor numerice nzestrat cu o structur de corp ordonat

    iar scala de msurare corespunztoare este scala de raport. Spre deosebire de scala de

    interval, scala de raport se caracterizeaz prin faptul c numai unitatea de msur se

    poate alege arbitrar, punctul zero (de origine) este dat n mod natural, specific absena

    fenomenului studiat. Dou valori msurate pe aceast scal, indiferent de unitatea de

    msur folosit se afl n acelai raport.

    n funcie de posibilitatea de a ordona valorile variabilei, de egalitatea intervalelor dintre

    valorile variabilei (de existena unei uniti de msur), de existena unei "origini" a variabilei (a unui

    "zero absolut") putem distinge ntre patru niveluri de msurare a variabilelor:

    1. nivelul de msurare nominal - presupune clasificarea unor atribute, fenomene n categorii care

    trebuie s fie distincte, mutual exclusive (de exemplu "masculin" sau "feminin"). La acest nivel nu sunt

    permise nici ordonarea, nici adunarea sau scderea i nici nmulirea sau mprirea. Acest tip de

    variabile (respectiv scalele folosite n msurare) indic numai faptul c exista o diferen calitativ ntre

    categoriile studiate. Deoarece valorile acestui tip de variabile nu pot fi ordonate, problema "distanei"

    sau a intervalelor dintre valori nici nu poate fi pus.

    2. nivelul de masurare ordinal - implic clasificarea elementelor n categorii i posibilitatea ordonrii

    acestora. La nivelul ordinal este permis numai ordonarea dar nu este oferit nici o informaie cu

    privire la "distana" dintre valorile scalei de msur. Exemple: calificativele "insuficient", "suficient",

    "bine" i "foarte bine".

    3. msurarea la nivel de intervalor - ofer n plus faa de nivel anterior (cel ordinal) i informaia

    referitoare la distana dintre valorile scalei i este caracterizat de existena unor intervale egale. La

    acest nivel sunt permise, n plus, operaii de adunare sau scdere, dar nu exist un zero absolut, ci unul

    convenional. Exemplu: temperatura msurat n grade Celsius (intervalele dintre valori sunt egale, dar

    punctul 0 este convenional ales ca fiind temperatura la care apa nghea).

  • 8

    4. msurarea la nivel de raport - include toate caracteristicile nivelurilor anterioare (ordonare i

    intervale egale), plus existena unei "origini" sau a unui zero absolut care permite formularea unor

    afirmaii n termeni de proporii (raporturi) ntre valori. La acest nivel sunt permise toate operaiile.

    Calitatea datelor nregistrate este un factor important care condiioneaz calitatea informaiilor.

    Concordana acestora cu datele reale ale fenomenelor investigate constituie un obiectiv fundamental a

    oricrei metode de nregistrare statistic.

    n observarea statistic pot fi fcute erori care sunt determinate de factori ce conduc la

    rspunsuri inexacte sau aproximative, de perceperea eronat a rspunsurilor sau transcrierea greit a

    acestora, de neclaritatea definirii unitilor de observare, de imperfeciunea metodelor i mijloacelor de

    observare, de factori subiectivi, etc. n general, prin eroare de nregistrare statistic se nelege

    diferena dintre rezultatul obinut prin nregistrare i mrimea real a caracteristicilor (variabilelor)

    observate. Principalele tipuri de erori statistice din etapa de observare sunt:

    erori ntmplatoare care pot surveni din neatenie i provoac abateri n sensul mririi sau

    micorrii nivelului real al fenomenului;

    erori sistematice care produc abateri semnificative de regul ntr-un singur sens de la

    realitatea observat.

    Prevenirea erorilor se poate realiza prin testarea tehnicilor i formularelor de nregistrare,

    selectarea optim i pregtirea profesional a persoanelor care efectueaz nregistrarea, pregtirea

    psihologic a persoanelor care efectueaz anchetele de sondaj, etc.

    INDICATORUL STATISTIC

    Indicatorul statistic este expresia numeric a unei trsturi observate pe o colectivitate definit

    n timp i spaiu. Indicatorii statistici au anumite funcii: de msurare, de comparare, de sintez, de

    estimare, de verificare a ipotezelor, de testare a semnificaiei parametrilor statistici utilizai.

    Comparaiile dintre date (comparabile) pot fi efectuate prin diferen sau prin raportare. n

    funcie de metoda obinerii indicatorilor statistici i de rolul jucat n cercetare, acetia pot fi clasificai

    n dou categorii:

    indicatori absolui (primari) - sunt rezultatul observrii i sistematizrii datelor i reflect

    dimensiunea, mrimea, amplitudinea fenomenului n uniti concrete, specifice de msur;

    indicatori derivai (secundari) - se obin n procesul de calcul statistic i reflect ntr-o

    manier, de regul abstract, aspecte calitative, evolutive ale colectivitii cercetate.

    Dintre indicatorii derivai amintim: mrimile relative i mrimile medii ; indicatorii variaiei i

    ai asimetriei; indicii statistici ; parametrii funciilor de regresie i ajustare, etc.

  • 9

    n urma comparrii prin diferen a datelor care se refer la uniti diferite din colectivitate, se

    obine indicatorul derivat modificare absolut sau diferen absolut. Acest indicator semnific ori

    creterea ori reducerea absolut.

    Indicatorii statistici derivai care se obin n urma comparrii prin raportare se numesc mrimi

    relative sau indicatori relativi. Prin definiie, o mrime relativ exprim numeric proporiile

    indicatorului primar n raport cu indicatorul primar baz de raportare (baz de comparaie).

    n funcie de scopul analizei, mrimile relative pot fi clasificate n:

    mrimi relative de dinamic (sau indici de dinamic) care exprim de cte ori (sau ct la sut)

    se modific valoarea variabilei X dintr-o perioad de timp t fa de cea dintr-o perioad de

    referin, adic exprim variaia n timp a nivelului unei caracteristici pentru a caracteriza

    variaia unui fenomen;

    mrimi relative de structur (numite ponderi) exprim ponderea, cota parte, greutatea

    specific unui element sau a unui grup de elemente n totalul colectivitii, fiind o mrime a

    raportul prilor fa de ntreg care ofer informaii despre structurile calitativ distincte ale

    populaiei statistice;

    mrimi relative de coordonare compar dou elemente sau dou grupuri ale aceleiai

    colectiviti sau dou colectiviti similare situate n spaii diferite, coexistente n timp de forma

    a/b sau b/a;

    mrimi relative de plan calculeaz raportul dintre nivelul propus de activitate i nivelul

    realizrilor perioadei precedente sau calculeaz raportul dintre nivelul realizat i obiectivul

    planificat;

    mrimi relative de intensitate se calculeaz comparnd prin raportare valorile unei

    caracteristici x cu valorile unei alte caracteristici y, cele dou variabile aflndu-se ntr-o legtur

    logic de intercondiionare.

    n vederea aplicrii metodelor de calcul i interpretare statistic, rezultatele sistematizarii

    datelor se prezint sub form de serii statistice.

    Seria statistic este format din totalitatea datelor referitoare la manifestrile unui fenomen

    colectiv sub forma a dou iruri de date:

    - primul ir este format din variabila (ordonat) i modul n care a fost

    sistematizat;

    - al doilea ir este format din frecvena de apariie (absolut sau relativ), adic

    nivelul unei variabile n raport cu primul ir.

    n funcie de natura caracteristicii de grupare putem grupa seriile statistice n trei tipuri

    distincte:

    serii cronologice (dinamice) n care caracterstica de grupare este o variabil de timp;

  • 10

    serii teritoriale (de spaiu) n care variabila de grupare este o caracteristic administrativ-

    teritorial;

    serii de repartiie (de distribuie) n care caracteristica de grupare este un atribut cantitativ

    sau calitativ al colectivitii cercetate.

    Seriile de distribuie ale frecvenelor pot fi: simple, cnd avem un ir de variante privind aceiai variabil

    (x1, x2,,xi,,xn) unde, ni ,1 de frecvene, cnd fiecrei variante i se ataeaz cte o frecven

    ki

    ki

    nnnnxxxx

    ......

    ......

    21

    21 unde k

  • 11

    Dac o anumit caracteristic se nregistreaz de mai multe ori ntr-o colectivitate de N

    elemente atunci numrul de apariii ale valorii xi a caracteristicii se noteaz cu ni i se numete

    frecven absolut a clasei de valori.

    Suma tuturor frecventelor absolute ale tuturor valorilor caracteristicii unei populaii statistice

    finite este egal cu volumul sau efectivul total al populaiei statistice:

    1 21

    ...k

    k ii

    N n n n n

    unde N este volumul sau efectivul total al populaiei statistice i k este egal cu numrul de valori

    distincte ale caracteristicii studiate.

    Pe lng frecvena absolut a unei clase de valori, n studiul statistic sunt utile urmtoarele

    tipuri de frecvene:

    1. frecvena absolut cumulat cresctor a unei clase de valori (notat cu nc) care este egal cu

    suma frecvenelor absolute ale tuturor claselor de valori ncepnd de la caracteristica de

    valoare minim pn la caracteristica la care am ajuns, inclusiv aceasta;

    2. frecvena absolut cumulat descresctor a unei clase de valori (notat cu nd) care este egal

    cu suma frecvenelor absolute ale tuturor claselor de valori ncepnd de la caracteristica de

    valoare maxim pn la caracteristica la care am ajuns, inclusiv aceasta;

    2. frecvena relativ a unei clase de valori (notat cu fi) este raportul dintre frecvena sa absolut

    ni corespunztoare caracteristicii studiate i efectivul (volumul) total N al poplaiei statistice

    studiate;

    3. frecvena relativ cumulat cresctor a unei clase de valori (notat cu fc) este suma

    frecvenelor relative ale claselor de valori ncepnd de la caracteristica de valoare minim pn

    la clasa la care am ajuns, inclusiv aceasta;

    4. frecvena relativ cumulat descresctor a unei clase de valori (notat cu fd) este suma

    frecventelor relative ale claselor de valori ncepnd de la caracteristica de valoare maxim pn

    la clasa la care am ajuns, inclusiv aceasta.

    Dac 1,..., kx x sunt valorile caracteristicii studiate i 1,..., kf f sunt frecvenele relative

    corespunztoare fiecrei valori a caracteristicii, atunci

    k

    kn ff

    xxX

    ...

    ...

    1

    1 se numete distribuia statistic

    corespunztoare caracteristicii studiate, iar mulimea format din perechile ( , )i ix f formeaz seria

    statistic. Distribuia statistic (sau variabila aleatoare X) se noteaz i astfel: 1,

    ik

    i i k

    xX

    f

    S considerm o populaie statistic cu efectivul total N i fie X caracteristica populaiei

    statistice care ia valorile x1, x2, x3....xp . Notm cu ni numrul de uniti statistice pentru care variabila X

    ia valoarea xi, 1 i p mulimea tuturor perechilor (xi, ni) , 1 i p formeaz o serie statistic cu o

  • 12

    singur variabil. n cazul n care variabila de grupare este discret i gruparea se efectueaz pe

    variante, seria de distribuie de frecvene este discret (pe variante):

    Distribuie de frecvene pentru o variabil finit sau discret

    Variantele caracteristicii (variabilei)

    Numrul de uniti statistice (frecvena absolut)

    x1 n1 x2 n2 .... .... xk nk

    TOTAL 1 21

    ...k

    k ii

    N n n n n

    Pentru o variabil numeric continu pentru care se obine o serie de distribuie (repartiie) de

    frecvene pe intervale, sub forma:

    Distribuie de frecvene pe intervale de variaie

    Intervale de variaie ale caracteristicii (variabilei)

    Valoarile centrale ale intervalelor

    Numrul de uniti statistice (frecvena absolut)

    a1 a2 * 1 21 2

    a ax n1

    a2 a3 * 2 32 2

    a ax n2

    ........ . .................

    ak ak+1 * 12

    k kk

    a ax nk

    TOTAL 1 21

    ...k

    k ii

    N n n n n

    Pentru o caracteristic de tip continuu, datele mai pot fi sistematizate ntr-un tabel de forma:

    Intervale de variaie ale caracteristicii

    (variabilei) x1=[a1,a2) x2=[a2,a3) ........................ xk=[ak,ak+1)

    Frecvena absolut n1 n2 ........................ nk

    Valoarile centrale ale intervalelor

    * 1 21 2

    a ax * 2 32 2a ax ........................ * 1

    2k k

    ka ax

    Mrimea intervalului de grupare se calculeaz cu formula 1i i ih a a ( {1, 2,..., }i k ) unde

    k este numrul de intervale de grupare, ni este frecvena absolut care indic numrul total de uniti

    statistice care au valoarea variabilei situat ntr-un interval 1[ , )i ia a sau 1( , ]i ia a (dup cum sunt

    considerate intervalele de variaie ale variabilei).

  • 13

    Dac intervalele sunt neegale, pentru asigurarea comparabilitii datelor se pot calcula

    frecvene reduse la un interval etalon (standard). Frecvena redus (corectat) a unui interval, notat cu corectatain se calculeaz prin raportarea frecvenei absolute la un factor de corecie

    i

    etalon

    hHh

    ce reprezint numrul maxim al intervalelor etalon care se ncadreaz (ncap) ntr-un interval de

    grupare:

    corectata ii

    nnH

    unde ih este egal cu mrimea intervalului i, iar etalonh reprezint mrimea intervalului etalon (egal cu

    mrimea celui mai mic interval de grupare).

    PREZENTAREA DATELOR STATISTICE

    Tabelul statistic constituie o modalitate de prezentare a datelor statistice. Pe lng funcia de

    prezentare a rezultatelor prelucrrii primare i secundare a datelor statistice, tabelele statistice au i

    funcia sistematizare a datelor n vederea prelucrrii lor. Tabelele statistice conin una sau mai multe

    serii statistice. n funcie de rolul lor n analiza i prelucrarea datelor statistice, tabelele statistice pot fi:

    simple (descriptive), de prelucrare, pe grupe (obinute n urma sistematizrii datelor), combinate, de

    asociere, etc.

    Reprezentarea grafic este o metod de descriere a datelor prin intermediul figurilor

    geometrice. Graficul este o imagine care prin diferite mijloace de prezentare scoate n eviden ceea ce

    este esenial n evoluia fenomenelor, n ceea ce privete proporiile i corelaiile cu alte fenomene de

    aceeai natur sau calitativ diferite. Graficele statistice sunt reprezentate cel mai adesea ntr-un sistem

    de axe de coordonate rectangulare (ortogonale).

    Elementele unui grafic statistic sunt:

    reeaua graficului, alctuit dintr-un sistem de linii verticale i orizontale sau de cercuri

    concentrice care ajut la construirea graficului;

    scara de reprezentare stabilete corespondena dintre o unitate de msur aleas pe grafic i

    unitatea relativ la X (sau Y);

    legenda graficului are rolul de a facilita nelegerea reprezentrii construite;

    titlul, sursa datelor, numerotarea, note explicative sunt elemente comune i tabelelor

    statistice.

  • 14

    Pentru o serie de distribuie de frecvene dup o variabil numeric discret (pe variante)

    reprezentrile grafice care ne permit s vizualizm distribuia de frecvene sunt diagramele statistice.

    Dintre acestea se pot utiliza:

    diagramele prin benzi (formate din dreptunghiuri cu baze congruente i nlimile

    proporionale cu fregvenele relative sau absolute),

    diagramele-bar

    diagrame circulare (n care sectoarele circulare ale unui disc au unghiurile la centru

    proporionale cu frecvenele relative).

    Diagrama prin coloane i diagrama prin benzi

    EXEMPLU:

    Reprezentarea grafic este prin diagrama prin coloane este:

    Diagrama prin coloane

    4%

    20%

    12%

    16%

    24%

    16%

    8%

    0%

    5%

    10%

    15%

    20%

    25%

    30%

    Firma A Firma B Firma C Firma D Firma E Firma F Firma G

    caracteristica

    frec

    ven

    a re

    lativ

    Diagram a prin benzi

    4%

    20%

    12%

    16%

    24%

    16%

    8%

    0% 10% 20% 30%

    Firma A

    Firma B

    Firma C

    Firma D

    Firma E

    Firma F

    Firma G

    cara

    cter

    istic

    a

    frecvena re lativ

    Series1

    O alt modalitate de a prezenta grafic datele pe care le avem la dispoziie cu privire la o serie de

    distribuie de frecvene este diagrama de structur:

  • 15

    n cazul unei serii statistice cu valori discrete, 1,

    i

    i i k

    xn

    se prefer reprezentarea ntr-un sistem

    ortogonal de axe de coordonate a punctelor de coordonate (xi , ni) n cazul frecvenelor absolute, sau a

    punctelor de coordinate (xi ,fi) n cazul frecvenelor relative.

    Linia poligonal care unete punctele Mi (xi , ni) (unde ni rerezint efectivul sau volumul

    corespunztor caracteristicii xi ) se numete poligonul frecvenelor absolute.

    Linia poligonal care unete punctele Ni (xi , fi) (unde fi rerezint frecvena relativ

    corespunztoare caracteristicii xi) se numete poligonul frecvenelor relative.

    Poligonul frecvenelor

    4%

    20%

    12%16%

    24%

    16%

    8%

    0%

    5%

    10%

    15%

    20%

    25%

    30%

    Firma A Firma B Firma C Firma D Firma E Firma F Firma G

    Com pania

    Fre

    cven

    ele

    rel

    ativ

    e (%

    )

    Pentru o serie de distribuie de frecvene dup o variabil numeric continu (pe intervale),

    reprezentrile grafice care ne permit s vizualizm distribuia de frecvene sunt histograma i

    poligonul frecvenelor.

    Metoda histogramei:

    Fie o distribuie statistic ce are valori continue, de tipul

  • 16

    1[ , ) , 1, .i ini

    a aX i k

    f

    Fie Ai punctele de coordonate (ai,0) (cu {1,..., }i k ). Pe segmentele A1A2, A2A3, .... , AkAk+1 ,

    construim dreptunghiurile alturate cu una dintre laturi (Ai-1Ai) situat pe axa absciselor (Ox) de

    lungime egal cu amplitudinea clasei de valori (ai+1 ai) (adic lungimea intervalului [ai, ai+1) ).

    Ariile acestor dreptunghiuri trebuie s fie proporionale cu frecvenele lor (relative sau absolute)

    ale claselor respective. O astfel de reprezentare ine seama nu numai de frecvena relativ fi a clasei de

    valori [ai, ai+1) ci i de lungimea intervalului n care se situeaz datele din clas. Astfel, nlimile

    dreptunghiurilor din histogram se calculeaz din:

    3 2 2 12 1 1

    1 2

    ( ) ( )( ) ... k k kk

    a a h a a ha a hf f f

    Observaii:

    1. Histograma se recomandat n cazul variabilelor cantitative tocmai pentru faptul c acest tip de

    variabile fie sunt fie continue, fie avem un numr foarte mare de valori chiar dac sunt discrete. n

    stabilirea mrimii intervalelor trebuie s inem cont de faptul c, intervale prea mari pot duce la

    pierderea de informaie, n timp ce intervale prea mici poate ascunde informaii asupra distribuiei

    variabilei.

    2. n cazul histogramei fiecare bar reprezint un interval de valori de aceea limea barei variaz

    odat cu mrimea intervalului, aceasta din urm fiind stabilit de ctre cercettor.

    3. n cazul diagramei-bar fiecare bar corespunde unei singure valori (categorii) a variabilei. n plus,

    pentru a evidenia faptul c datele nu sunt continue, barele nu sunt lipite ntre ele (cum se ntmpl n

    cazul histogramei).

    4. Cnd intervalele devin suficient de mici, iar numrul de cazuri rmne finit pe fiecare interval, poligonul

    frecvenelor apare ca o curb neted

  • 17

    EXEMPLU: Reprezentarea grafic a distribuiei elevilor dintr-o clas dup nota obinut la o lucrare

    de control se prezint n graficul urmtor:

    Histograma i poligonul frecvenelor ofer o prim imagine asupra tendinei de normalitate sau

    asupra asimetriei unei serii de distribuie de frecvene.

    O distribuie normal, perfect simetric (n forma clopotului lui Gauss-Laplace) este o

    distribuie teoretic la care se face adeseori apel n analiza statistic, dei este foarte rar ntlnit n

    practic. n cele mai multe cazuri, distribuiile de frecvene empirice au tendin de normalitate, dar un

    anumit grad de asimetrie:

    O alt modalitate de descriere a datelor cantitative continue poate fi realizat pe baza

    frecvenelor cumulative, utiliznd curba frecvenelor cumulative. Suprapus peste curba frecvenelor

    cumulate cresctor sau ntr-un grafic separat se poate reprezenta curba frecvenelor cumulate

    descresctor. De asemenea, curba frecvenelor cumulative se poate reprezenta i pe baza

    frecvenelor relative cumulate.

  • 18

    Diagrama de mprtiere (corelograma)

    n cazul datelor bivariate, sistematizate ntr-o serie de distribuie de frecvene bidimensional, reprezentarea

    grafic uzual n sistemul de coordonate rectangulare este diagrama de mprtiere:

    Cronograma

    O serie cronologic se reprezint grafic prin intermediul cronogramei sau historiogramei. n

    sistemul de coordonate rectangulare, pe axa absciselor se marcheaz unitile de timp (t) momente

    sau intervale iar pe axa ordonatelor valorile variabilei (yt).

    Diagrama polar

    n cazul n care seria cronologic prezint variaii sezoniere, pentru reprezentarea grafic a evoluiei

    unui fenomen putem folosi diagrama polar (radial), construit n sistemul de coordonate polare:

    Cronogram trasat prin a) linii; b) coloane

  • 19

    Diagram polar

    Diagrama prin suprafee

    O serie teritorial se poate reprezenta grafic prin diagrame prin coloane, benzi ori diagram

    prin suprafee. n diagrama prin suprafee se construiesc ptrate sau cercuri, cu suprafeele

    proporionale cu valorile reprezentate.

    n cazul fenomenelor complexe, care se descompun n produsul a trei factori se poate folosi

    diagrama de volum trasat prin paralelipipedul dreptunghic. Cei trei factori se vor reprezenta pe

    lungimea, limea i nlimea paralelipipedului, iar nivelul fenomenului complex prin volumul

    acestuia.

    Exemplu: Populaia globului pe continente (in anul 2008):

    Reprezentarea grafic este:

    Diagram de suprafa

    Alte tipuri de reprezentri grafice: Dac aceste diagrame pot fi construite i pentru alte serii statistice

    (de exemplu: serii de distribuii de frecvene homograde), o modalitate specific de reprezentare grafic

    a seriilor teritoriale este cartograma sau cartodiagrama, n care pe o hart se construiesc diagrame (n

  • 20

    cazul cartodiagramei), se haureaz sau se coloreaz diferit unitile teritoriale (n cazul cartogramei),

    n funcie de nivelul nregistrat al variabilei.

    TENDINA CENTRAL, VARIAIA I FORMA DISTRIBUIEI

    Avnd la dispoziie un set de date numerice analizate din punct de vedere statistic, putem

    determina valorile maxime i minime, distribuia frecvenelor, histograma i poligonul frecvenelor.

    Aceste instrumente permit identificarea formei aproximative a distribuiei i indic n jurul crei valori

    sunt concentrate nivelurile individuale ale variabilei.

    n continuare vom calcula indicatorii numerici descriptivi care permit o analiz mai atent a

    datelor n comparaie cu impresia general pe care o ofer prezentarea datelor sub form de serii, tabele

    i grafice. Cele trei proprieti majore ale seriilor de date numerice sunt cele privitoare la tendina

    central, la variabilitatea i la forma distribuiilor.

    Indicatorii care caracterizeaz tendina central din forma de manifestare a fenomenelor au ca

    principal funcie aceea de a sintetiza valorile individuale nregistrate ale caracteristicilor urmrite

    astfel nct s fie posibil substituirea acestora fr s modifice esena i relaia obiectiv dintre date.

    Indicatorii utilizai n studiul statistic se pot grupa astfel:

    Indicatorii de frecvene: absolute, relative i cumulate;

    Indicatorii tendinei centrale: media, mediana, modul;

    Indicatori medii de poziie denumii i medii de structur sau medii de frecvene:

    mediana, cuartilele, decilele, centilele;

    Indicatori ai variaiei totale: amplitudinea variaiei, abaterile individuale,

    abaterea medie liniar, abaterea medie ptratic (abaterea tip sau abaterea

    standard), dispersia i coeficientul de variaie;

    Indicatorii de variaie intercuantilic;

    Indicatorii de asimetrie;

    Indicatorii ai concentrrii/diversificrii.

    I. Indicatorii tendinei centrale

    Mrimile medii

    Mrimile medii sunt valori abstracte care caracterizeaz ntrega colectivitate utilizate pentru

    caracterizarea tendinei centrale.

  • 21

    Media trebuie nteleas ca un nivel capabil s exprime esena comun a majoritii

    manifestrilor individuale ce alctuiesc colectivitatea cercetat. n funcie de modul de determinare,

    indicatorii tendinei centrale se clasific n:

    indicatori (mrimi) medii de calcul: media aritmetic, armonic, ptratic, geometric etc.;

    indicatori medii de poziie: modul (moda sau valoarea modal) i mediana.

    Mediile calculate se determin pe baza tuturor valorilor caracteristicilor nregistrate ntr-o

    colectivitate.

    Calculul mediei trebuie s fie precedat de verificarea omogenitii colectivitii relativ la

    caracteristica urmrit. n cazul n care mulimea valorilor individuale nregistrate este eterogen, dup

    eliminarea datelor aberante, colectivitatea se structureaz pe grupe omogene, iar apoi se calculeaz

    adecvat medii pariale (pe grupe). n aceste condiii media unei caracteristici pe ntregul ansamblu

    apare ca o sintez adecvat a mediilor pariale.

    Indicatori medii de calcul:

    Media se calculeaz n funcie de natura obiectiv dintre date dar i n funcie de forma de

    repartizare a frecvenelor, ca medie simpl sau ponderat.

    Mediile simple se calculeaz atunci cnd se utilizeaz toate variantele nregistrate. n cazul n

    care dup sistematizarea/gruparea datelor, valorile individuale prezint frecvene diferite de apariie,

    nivelul mediu se calculeaz ca medie ponderat.

    Media aritmetic este cea mai popular msur a tendinei centrale a unei distribuii. n sens

    statistic, media aritmetic (sau momentul iniial de ordinal unu) a valorilor individuale x1,x2,...xN ale

    caracteristicii numerice X reprezint acea valoare x care s-ar fi nregistrat dac toi factorii de influen

    ar fi acionat constant, cu aceeai intensitate, la nivelul fiecrei uniti de nregistrare. Ea se calculeaz

    ca sum a tuturor valorilor observate (innd cont de ponderea fiecrei valori distincte care este egal

    cu frecvena absolut corespunztoare fiecrei variante) ale seriei de date mprit la numrul total de

    observaii:

    1 1 2 2 1...

    k

    i ik k i

    n xn x n x n xx

    N N

    unde: x este media, k este numrul de categorii (valori distincte) ale variabilei, ni reprezint frecvena

    absolut (ponderea) de apariie a categoriei i, xi este valoarea caracteristicii i (valoarea categoriei i) i N

    este numrul total de observaii.

    Pentru cazurile seriilor statistice continue (datele sunt grupate pe intervale) se consider ca

    "valori ale variabilei" centrele de interval. Aceast convenie este indus de ipoteza c frecvenele sunt

    uniform distribuite n interiorul tuturor intervalelor de grupare. Dac se ntmpl ca valoarea minim i

  • 22

    respectiv valoarea maxim a seriei de date s nu fie cunoscute, rmne la latitudinea cercettorului s

    decid care valori urmeaz s atribuie respectivelor centre de interval.

    Dac xi* reprezint valoarea central a clasei de grupare Ci dat de

    ],[,2

    ,

    11

    *

    iiiii

    iii

    iaaCdacaa

    xCdacx

    x

    unde {1,2,..., }i k , k este numrul de valori distincte (variante) ale variabilei studiate,

    ni reprezint frecvena absolut de apariie a categoriei i,

    N este numrul total de observaii, atunci tipurile de medii utilizate ntr-un studiu statistic sunt:

    Media aritmetic * * *

    1 1 2 2 ........... k kx n x n x nxN

    Media geometric

    1* *1 .... kn n

    Ng kx x x

    Media armonic se defineste ca valoarea inversa a mediei aritmetice a inverselor

    valorilor individuale nregistrate:

    1* *1

    .....h

    k

    k

    Nx nnx x

    Media patratic

    * 2 * 21 1( ) ..... ( )k k

    pn x n xx

    N

    Observaii:

    n cazul n care caracteristica urmrit este alternativ, calculul nivelului su mediu se face, n mod

    convenional, astfel:

    unitile colectivitii se mpart n dou grupe: una format din unitile la care se

    nregistreaz forma direct de manifestare a caracteristicii i o alta format din acele uniti la

    care s-a nregistrat opusul formei directe de manifestare;

    n mod convenional, aceast caracteristic alternativ se exprim numeric dup cum urmeaz:

    se acord valoarea 1 pentru variantele cu rspuns afirmativ (forma direct) i valoarea

    zero variantelor cu rspuns negativ (forma opus)

  • 23

    se calculeaz media aritmetic 0 10 1

    0 1n nxn n

    ,

    unde 0n este egal cu numrul variantelor cu rspuns negativ (cu valoarea 0) i

    1n este egal cu numrul variantelor cu rspuns pozitiv (cu valoarea 1).

    Observaii:

    1. Definiia dat mediei aritmetice este adevrat numai dac valorile individuale nregistrate sunt

    numerice. Pentru o serie cu valori nenumerice sau cu valori msurabile pe o scal nominal sau

    ordinal nu se poate calcula media aritmetic;

    2. Mrimea calculat a mediei aritmetice este unic i se ncadreaz ntre valoarea minim i maxim a

    irului de date;

    3. Mrimea mediei aritmetice poate s coincid sau nu cu o valoare individual nregistrat;

    4. Suma diferenelor dintre toate valorile individuale nregistrate i media lor aritmetic este egal cu

    zero, deci abaterile pozitive i negative fa de tendina central, la nivelul ansamblului, se

    compenseaz reciproc;

    5. Dac valorile individuale ale unei variabile sunt mrite (sau micorate) cu constanta a, atunci

    media aritmetic se modific i ea, n acelai sens, cu aceeai constant a;

    6. Dac valorile individuale ale unei variabile sunt modificate de k ori atunci media aritmetic se

    modific i ea de k ori;

    7. Vom utiliza media armonic ca msur a tendinei centrale ntr-un ansamblu de observaii cantitative

    numai dac este obiectiv nsumarea inverselor valorilor individuale, deoarece media armonic se

    definete ca valoare invers a mediei aritmetice a inverselor valorilor individuale nregistrate.

    8. Vom utiliza media geometric ca indicator al tendinei centrale n cazul n care fenomenul studiat

    nregistreaz modificari aproximativ n progresie geometric, prezentnd diferene mari ntre variantele

    caracteristicii la nceputul seriei i din ce n ce mai mici spre finalul acesteia.

    9. Vom utiliza media ptratic pentru caracterizarea tendinei centrale n cazul n care fenomenele

    studiate prezint creteri exponeniale, creterea fiind lent la nceput i din ce n ce mai pronunat

    spre sfritul seriei.

    10. Dac o serie statistic este alctuit din mai multe serii componente, pentru care s-au calculat medii

    pariale atunci media ntregii serii poate fi calculat ca o medie aritmetic ponderat din mediile

    pariale.

    Media aritmetic a unei distribuii statistice , 1,ini

    xX i k

    f

    este egal cu

    1 1 2 21

    ...k

    k k j jj

    x f x f x f x f x

  • 24

    unde , ( ) 1,jjn

    f j kN

    reprezint frecvenele relative ale caracetristicii studiate.

    Indicatori de poziie:

    Mediile poziionale se identific, de regul, n rndul variantelor reale ale colectivitii fr a

    face calcule deosebite. Aceste mrimi in seama de poziia lor n colectivitate. Exist dou tipuri de

    medii poziionale: valoarea median (sau mediana) i valoarea modal (modul sau moda).

    Mediana reprezint acea valoare a caracteristicii care ocup poziia central ntr-o colectivitate

    ordonat crescator sau descresctor. Cu alte cuvinte, mediana este acea valoare a unei variabilei care

    mparte seria ordonat de date n dou pri egale, astfel nct 50% din observaii sunt situate deasupra

    valorii mediane iar 50% sub ea.

    Dac datele au fost sistematizate ntr-o serie de distribuie de frecvene pe variante (discrete),

    pentru determinarea medianei vom calcula, mai nti, locul medianei se calculeaz cu relaia:

    N+1LocMe=2

    unde N este numrul total al unitilor populaiei studiate.

    Dac avem un numr impar de observaii, mediana este egal cu valoare caracteristicii aflate pe

    locul medianei n irul ordonat (cresctor sau descresctor) de date.

    n cazul n care avem un numr par de observaii nu va mai exista o singur valoare la mijlocul

    seriei de date, ci vom avea dou valori. n aceast situaie, mediana se afl la mijlocul "distanei" dintre

    aceste valori, cu alte cuvinte mediana este egal cu media aritmetic a valorilor caracteristicii aflate pe

    locul 2N i pe local 1

    2N n irul cresctor (sau descresctor) de date.

    n cazul distribuiei de frecvene pe intervale valoarea median se determin printr-un procedeu

    de interpolare liniar, bazat pe ipoteza repartizrii uniforme a frecvenelor n intervalul median.

    Procedeul de determinare a valorii mediane a caracteristicii n cazul distribuiilor pe intervale se

    desfoar n urmtoarele etape:

    1. se determin intervalul median Cs (numit i clasa median) dat prin:

    1 1 2 1

    1

    11 1

    [ , ) 50%,

    [ , ) 50% , 1 .s sme

    s s s i ii i

    C a a dac fC

    C a a dac f f cu s k

    2. n cadrul intervalului median, valoarea medianei se determin prin interpolare cu ajutorul relaiei

    urmtoare:

    11

    50%( )

    s

    ii

    s s ss

    fMe a a a

    f

  • 25

    unde:

    Me este valoarea medianei,

    as este limita inferioar a intervalului care conine mediana,

    N este numrul total de observaii,

    1

    s

    ii

    f este frecvena relativ cumulat cresctor a tuturor categoriilor care preced intervalul care

    conine mediana,

    sf este frecvena relativ a intervalului care conine mediana

    Pentru determinarea grafic a medianei avem urmtoarele posibiliti:

    1. Se folosete curba frecvenelor cumulate (cresctor sau descresctor): se duce o paralela la axa

    Ox prin punctul de pe axa Oy care are ordonata egal cu 12

    k

    jj

    f

    . Din punctul de intersecie al

    acesteia cu curba frecvenelor cumulate se coboar o perpendiculara pe axa Ox. Abscisa

    piciorului perpendicularei este egal cu valoarea medianei.

    2. Se reprezint curbele frecvenelor cumulate cresctor i descresctor n acelai sistem de axe de

    coordonate. Din punctul de interseciei al acestor dou curbe se coboar o perpendiculara pe

    Ox. Abscisa piciorului perpendicularei corespunde cu valoarea medianei.

    3. Mediana poate fi determinat folosind histograma. Pentru aceasta se calculeaz suma ariilor

    dreptunghiurilor din histogram i se traseaz o dreapt paralel cu axa Oy care s mpart aria

    total a histogramei n dou pri egale. Punctul de intersecie dintre aceast dreapt i axa Ox

    are abscisa egal cu valoarea medianei.

    Observaii:

    1. Mediana unei distribuii continue se poate obine ca soluie a ecuaiei F(x)=1/2, unde F este

    funcia de frecven cumulat.

    2. Suma frecvenelor relative ale valorilor inferioare medianei Me este egal cu suma frecvenelor

    relative ale valorilor superioare medianei.

    3. Mediana este influenat de numrul variabilelor pentru fiecare clas (frecvena absolut), fiind

    egal cu caracteristica ce mparte efectivul total (volumul populaiei statistice studiate) n dou

    pri de aceeai frecven.

    Mediana este un caz special de msur a localizrii. Msurile localizrii sunt de obicei

    cunoscute sub numele de percentile sau quantile.

    Cuantilele sunt indicatori care descriu anumite poziii localizate n mod particular n cadrul

    seriilor de distribuie. Conceptul de cuantil indic o divizare a distribuiei observaiilor ntr-un numr

    oarecare de pri. Prin urmare, cuantilele de ordin r sunt valori ale caracteristicii care mpart distribuia

  • 26

    ordonat a observaiilor n r pri egale. Quantilele de ordin r sunt n numr de r-1: 1 2 1, ,..., rQ Q Q

    deoarece pentru a mpri o serie de date n r pri egale avem nevoie de r-1 valori. Fiecare subinterval

    determinat de dou quantile succesive (sau de un capt la intervalului i de quantila cea mai apropiat)

    are acelai efectiv, adic 1/r din numrul total al unitilor.

    Cel mai adesea se utilizeaz urmtoarele cuantile:

    - mediana sau cuantila de ordin 2 (pentru r=2);

    - cuartilele sau cuantilele de ordinul 4 (pentru r=4);

    - decilele sau cuantilele de ordinul 10 (pentru r=10);

    - centilele sau cuantilele de ordinul 100 (pentru r=100).

    Quartilele sunt acele valori ale seriei de date care mpart intervalul total al datelor n patru pri

    egale. Exist 3 quartile: Q1, Q2 i Q3:

    Sub quartila Q1 se afl 25% din cazuri, iar deasupra ei 75%;

    Sub quartila Q2 se afla 50% din cazuri, de unde reiese ca aceast quartil este chiar mediana;

    Sub quartila 3 se afl 75% din cazuri, iar deasupra ei se afl 25% din cazuri (observaii).

    Cuartilele ntr-o serie de repartiie

    Cuantilele de ordin superior (r > 4) se calculeaz n cazul distribuiilor cu numr mare de grupe

    sau clase de valori individuale.

    Decilele (n numr de 9) sunt acele valori ale caracteristicii care mpart aria de variabilitate n

    zece pri (intervale) egale, coninnd fiecare 10% din numrul observaiilor. n cadrul unei serii

    simple, conform definiiei, cele 9 decile (D1, D2, D3, D4, D5 = Me, D6, ..., D9) se determin dup

    procedura prezentat n cazul medianei.

    Centilele: Dac avem la dispoziie o colectivitate statistic cu un numr mare de uniti i cu o

    variaie foarte mare, pentru analiza statistic este util calculul cuantilelor de ordin mai mare ca 10, de

    exemplu, cuantilele de ordinul 100. Centilele (n numr de 99) sunt valorile caracteristicii care mpart

    seria n 100 de pri egale (fiecare parte coninnd 100 din numrul observaiilor efectuate). Procedeul

    de determinare a centilelor este asemntor cu cel al determinrii medianei, cuartilelor i decilelor

    (cuantilelor de ordin mai mic ca 10). Centilele de rang 25 i 75 se identific cu quartielele Q1 i Q3,

  • 27

    centila de rang 50 se identific cu mediana, iar centilele de ranguri 10, 20, 30, 40, se identific cu

    decilele D1, D2, ..., D9.

    Concluzie: Pe baza indicatorilor de poziie se poate alctui un rezumat al celor cinci indicatori, care

    ofer informaii privind tendina central i forma distribuiei studiate. Aceste cinci valori sunt:

    valoarea, minim xmin (denumit, uneori, percentila 0);

    cuartila inferioar Q1 (delimiteaz cele mai mici 25% din valori);

    mediana Me (care delimiteaz 50% din valori);

    cuartila superioar Q3 (care delimiteaz cele mai mari 25% din valori);

    valoarea maxim xmax (denumit, uneori, a 100-a percentil).

    Cele cinci valori se reprezint grafic prin intermediul diagramei Box-Plot:

    Diagrama Box-Plot

    Valoarea modal

    Un alt indicator de poziie este valoarea modal (numit i modul, mod sau valoare

    dominant). Pentru o repartiie discret valoarea modal este uor de determinat pe calea simplei

    examinri a irului de frecvene, absolute sau relative. Grafic, valoarea modal este egal cu valoarea

    variabilei creia i corespunde "un vrf" al distribuiei.

    Dei simplu de obinut, valoarea modal nu este ntotdeauna cea mai bun msur a tendinei

    centrale, deoarece de multe ori depinde de gruparea arbitrar a datelor. De asemenea, se ntlnesc

    distribuii bimodale, n care exist dou valori diferite ale variabilei care apar cu o aceeai "cea mai

    mare" frecven. Grafic, o distribuie bimodal este o distribuie cu dou "vrfuri".

    n cazul seriilor de repartiie pe intervale egale, valoarea modal se determin n urmtoarele

    etape:

    se identific intervalul modal (sau clasa modal) care este intervalul cu frecvena (absolut sau

    relativ) cea mai mare. n interiorul intervalului modal se estimeaz valoarea modal.

    se calculeaz valoarea modal

    Clasa modal a unei clase de grupare este un interval Cr care verific inegalitile:

    1 1r r rf f f

  • 28

    unde {1, 2,..., }r k i k este numrul de clase (intervale) i if este frecvena relativ

    corespunztoare caracteristicii i.

    Observaii:

    1. O distribuie statistic poate avea mai multe clase (intervale) modale.

    2. Pentru determinarea grafic a valorii modale se poate folosi histograma. Se unesc vrfurile

    coloanei maximale cu punctele de incidenta ale coloanelor adiacente. Abscisa punctului de

    intersecie a acestor dou segmente este egal cu valoarea modal;

    Folosind clasa modal, putem exprima valoarea modal ca fiind un numr real notat cu Mo

    definit prin:

    11 1

    1 1

    , ,

    ( ) [ , )2

    r r r

    r rr r r r r r

    r r r

    x dac C xMo f fa a a dac C a a

    f f f

    Observaii:

    1. n cazul distribuiilor statistice discrete valoarea modal este caracteristica pentru care

    frecvena corespunztoare este maxim;

    2. n cazul distribuiilor statistice continue, o clas modal coincide cu intervalul din care face

    parte valoarea modal (moda);

    3. n mod asemntor se definete i se poate determina valoarea antimodal, caracteristica

    cea mai puin probabil (pentru care frecvena corespunztoare este mai mic dect

    frecvenele alturate 1 1a a af f f );

    Concluzii: Localizarea n cadrul seriei a valorii mediei aritmetice, a valorii modale i mediane conduce

    la informaii despre forma de distribuire a unitilor colectivitii dup caracteristica urmrit.

    Astfel:

    - dac exist egalitatea x = Mo = Me atunci distribuia frecvenelor este simetric;

  • 29

    - n cazul unei distribuii unimodale uor asimetrice, frecvenele sunt uor deplasate ntr-o parte sau

    alta.

  • 30

    II. Indicatori ai variaiei distribuiei statistice

    Dup calculul indicatorilor tendinei centrale o atenie deosebit trebuie acordat analizei

    gradului de mprtiere (variaie) a valorilor individuale. Indicatorii de mprtiere ofer informaii

    necesare att pentru cunoaterea variabilitii din seriile statistice analizate ct i pentru aprecierea

    reprezentativitii i al ncrcturii informaionale al valorilor utilizate n procesul decizional.

    Analiza statistic a unei repartiii poate fi aprofundat prin calculul indicatorilor de variaie.

    Acesti indicatori trebuie s serveasc la :

    - verificarea reprezentativitii mediei ca valoare tipic a unei populaii statisatice;

    - verificarea gradului de omogenitate a seriei;

    - caracterizarea statistic a formei i gradului de variaie a unui indicator;

    cunoasterea gradului de influen a factorilor dup care s-a facut gruparea unitilor observate.

    Verificarea stabilitii i a reprezentativitii valorilor nregistrate de indicatorii tendinei

    centrale este necesar n fundamentarea deciziilor. Pentru a cunoate i a estima corect principalele

    tendine ale unei caracteristici este absolut necesar determinarea domeniului de variaie a acesteia. Cu

    ct fenomenele au un grad mai mare de complexitate, cu att variaia (mprtierea) valorilor

    individuale este mai mare.

    n analiza unei serii statistice de date cantitative ne intereseaz, pe lng indicatorii tendinei centrale i indicatorii variabilitii, ai mprtierii valorilor. Astfel, dou (sau mai multe) serii statistice

    pot s difere prin tendina central, prin mprtierea datelor sau prin amndou:

    a) Distribuii cu tendin central diferit;

    b) Distribuii cu variabilitate diferit; c) Distribuii cu tendin central i variabilitate diferite

    Calculul i analiza indicatorilor variaiei sau mprtierii valorilor individuale fa de tendina

    central ofer posibilitatea de a determina:

    gradul de omogenitate a datelor din care s-au determinat indicatorii tendinei centrale i

    verificarea reprezentativitii acesteia;

    modul de dispersare a valorilor individuale n interiorul cmpului de variatie;

    compararea n timp i spaiu a mai multor serii de distribuie, dup caracteristici independente

    sau interdependente.

  • 31

    Indicatorii variaiei utilizai n analizele statistice sunt clasificai dup mai multe criterii:

    dup numrul variantelor luate n calcul (sau dup gradul lor de sintez) exist indicatori simpli

    i indicatori sintetici;

    dup modul de sistematizare a datelor primare exist indicatori ai variaiei calculai pentru serii

    de distribuie unidimensionale i indicatori ai variaiei calculai pentru serii multidimensionale;

    dup modul de calcul exist indicatori ai variaiei calculai ca mrimi absolute i ca mrimi

    relative.

    n cele ce urmeaz vom descrie aceti indicatori:

    A. Indicatori simpli ai variaiei

    Aceti indicatori prezint urmtoarele caracteristici generale:

    se determin dintr-un numr redus de valori individuale;

    se determin prin compararea sub form de diferen i se exprim n unitatea de msur a

    variabilei observate;

    informaiile despre variabilitate oferite n urma determinrii i analizrii rezultatelor sunt extrem

    de reduse i nu vizeaz omogenitatea ansamblului de date nregistrate.

    1. Amplitudinea variaiei ofer posibilitatea cunoaterii cmpului de variaie a unui fenomen. Ea

    se utilizeaz frecvent n prelucrarea statistic la alegerea numrului de intervale de grupare a datelor i

    la stabilirea mrimii intervalelor.

    Amplitudinea variaiei se clasific n:

    a). Amplitudinea absolut - se calculeaz ca diferena dintre variaia maxim i variaia

    minim a caracteristicii: A=xmax - xmin

    unde xmax i xmin reprezint cea mai mare, respectiv cea mai mic valoare a caracteristicii

    obinut n selecia efectuat;

    b). Amplitudinea relativ - se determin raportnd amplitudinea absolut la media

    caracteristicii analizate, exprimndu-se n procente :

    100minmax%

    x

    xxA

    Amplitudinea relativ permite compararea gradului de variaie a dou sau mai multe variabile,

    exprimate n uniti de msur diferite, obinnd urmtoarele rezultate:

    - amplitudinea relativ a variaiei care se situeaz sub 100 este specific colectivitilor

    omogene;

    - pe msur ce amplitudinea relativ este mai mare dect 100 colectivitatea este din ce n ce mai

    eterogen iar media aritmetic a seriei statistice este mai puin semnificativ.

  • 32

    2. Abaterea interquantil se obine mprind intervalul dintre cea mai mic i cea mai mare

    valoare a datelor seleciei n subintervale, astfel nct fiecare subinterval s conin aproximativ acelai

    numr de date ale seleciei.

    Abaterea interquantil ofer informaii despre concentrarea valorilor individuale n cadrul

    seriei statistice, avnd acelai avantaj pe care l are mediana prin faptul c nu este influenat de

    existena cazurilor extreme. Pentru acest parametru, sub form absolut, avem:

    221111 qqqMMqq neen

    iar sub form relativ denumit i coeficient de variaie interquantilic este:

    1002

    100 11

    e

    n

    er M

    qqMqq

    Cu ct abaterea interquantilic (relativ sau absolut) este mai mic, cu att valoarea median este mai reprezentativ.

    Abaterea interquartil (obinut pentru r=4) msoar lungimea intervalului care conine 50%

    din observaii aflate la mijlocul distribuiei. Acest indicator se exprim n unitatea de msur a

    caracteristicii. Calculul abaterii intercuartilice prezint avantajul c evit valorile individuale extreme

    sau aberante. Abaterea interquartil, prin definiie, este media aritmetic simpl a segmentelor Me Q1

    i Q3 Me, respectiv:

    1 3 3 1

    2 2e e

    dM Q Q M Q QQ

    i arat cu ct se abat n medie, n plus sau n minus, de la median, cele 50% din valorile variabilei

    cuprinse ntre Q1 i Q3. Forma relativ a acestui indicator, numit i coeficient de variaie

    intercuartilic este:

    MeQQ

    Me

    QQ

    MeQV dq 2

    2 1313

    se numete coeficient de variaie interquartilic i arat cu ct se abat n medie de la median (considerat egal cu 100), valorile variabilei nregistrate pentru cele 50% din unitile populaiei cuprinse ntre Q1 i Q3. Pentru decile se pot calcula abaterea interdecilic:

    22)()( 1991 DDMeDDMeDd

    i coeficientul de variaie interdecilic:

    MeDD

    Me

    DD

    MeDV dd 2

    2 1919

    3. Abaterea individual de la medie este o msur a variaiei unei variabile care include toate

    observaiile, nu numai dou dintre ele ca n cazul amplitudinii i abaterii interquantile, oferind

    informaii asupra variaiei valorilor caracteristicii n raport cu o msur a tendinei centrale (media sau

    valoarea median).

  • 33

    Abaterea individual absolut de la medie a unei observaii se calculeaz ca diferena dintre

    valoarea pe care o ia respectiva observaie (valoarea caracteristicii) i media variabilei:

    i id x x .

    Abaterile individuale relative de la medie ( %id ) se calculeaz ca raport ntre abaterea

    individial absolut i media aritmetic, exprimndu-se n procente:

    % 100iix xd

    x

    Una dintre proprietile mediei aritmetice este aceea c suma tuturor abaterilor individuale de la

    medie este egal cu 0. n consecin, pentru a obine o msur a variaiei la nivelul ntregului eantion

    sau a ntregii populaii trebuie utilizat fie suma modulelor (a valorilor absolute) abaterilor individuale

    de la medie, fie suma ptratelor acestor abateri.

    B. Indicatorii sintetici ai variaiei sintetizeaz, ntr-o singur expresie numeric, variaia

    valorilor individuale fa de tendina central a caracteristicilor dintr-o populaie statistic. Principalii

    indicatori sintetici cu care se caracterizeaz variaia termenilor seriei statistice fa de tendina lor

    central sunt:

    abaterea medie absolut (sau abaterea medie liniar);

    dispersia (sau variana);

    abaterea standard (sau abaterea medie ptratic);

    coeficientul de variaie (sau viteza de variaie);

    valorile individuale standardizate.

    La baza determinrii indicatorilor sintetici stau abaterile individuale dar, pentru a se evita

    compensarea, ele vor fi luate n modul (valoare absolut) sau se va opera cu ptratele acestora.

    1. Abaterea medie absolut (sau abaterea medie liniar) este un indicator al variabilitii

    tuturor datelor seleciei care se calculeaz ca media aritmetic a modulelor abaterilor absolute ale

    variantelor caracteristicii de la media lor folosind una dintre relaiile :

    - n cazul unei caracteristici discrete:

    1 1

    1

    ..... kk ki i

    i

    n x x n x xd f x x

    N

    , cu 1 2 ... kn n n N i ii

    nfN

    - n cazul unei caracteristici continue:

    *

    *1

    1

    k

    i i ki

    i ii

    n x xd f x x

    N

    cu * 12i i

    ia ax .

    Abaterea medie absolut (sau liniar) de la median (notat cu Me ) se determin dup

    urmtoarele relaii:

  • 34

    - n cazul unei caracteristici discrete:

    1 1

    1

    ..... kk kMe i i

    i

    n x Me n x Mef x Me

    N

    cu 1 ........ kN n n i ii

    nfN

    - n cazul unei caracteristici continue: * *

    1 1 *

    1

    ..... kk kMe i i

    i

    n x Me n x Mef x Me

    N

    cu * 12

    i ii

    a ax

    2. Dispersia statistic (sau variana), notat cu notat cu 2 sau D2, este o msur sintetic a

    mprtierii egal cu media aritmetic a ptratelor abaterilor valorilor individuale de la tendina lor

    central. n calculul dispersiei poate fi luat n considerare media aritmetic sau mediana.

    Relaiile de calcul ale dispersiei fa de media aritmetic sunt urmtoarele:

    - n cazul unei caracteristici discrete:

    22 2

    2 21 1 1

    1

    ( ) ...... ( ) ( )

    k

    i ik k i

    k

    ii

    x nx x n x x n x

    N n

    sau 2 21

    ( )k

    i ii

    f x x

    cu iinfN

    - n cazul unei caracteristici continue:

    2* 2 *2 * 2 21 1

    1

    1

    ( )( ) ( )

    k k

    i i i iki i

    i i ki

    ii

    n x x x nx x f x

    N n

    cu * 12

    i ii

    a ax

    Pentru msurarea variabilitii termenilor seriei fa de tendina central dispersia mai poate fi

    calculat i n funcie de valoarea medianei. n aceast situaie, valoarea mediei aritmetice x din

    formulele de mai sus utiliyate pentru calculul dispersiei va fi nlocuit cu valoarea medianei Me.

    3. Abaterea standard (numit i abaterea medie ptratic sau abaterea tip) se definete ca

    fiind media ptratic a abaterilor valorilor individuale de la tendina central. Observm c abaterea

    standard este egal cu rdcina ptrat a dispersiei, fiind calculat cu relaia:

    2

    Abaterea medie ptratic prezint interes att pentru apreciere omogenitii valorilor individuale

    ale unei serii (sau pentru a verifica reprezentativitatea mediei lor) ct i pentru construirea unor

    intervale centrate n x care conin un anumit procent din masa total a observaiilor. Abaterea medie

    ptratic mai poate fi utilizat ca o msur a "riscului" n studiul calitii produselor, pentru elaborarea

    variantelor de prognoz, n studii de marketing, etc. Abaterea medie ptratic este un indicator de baz,

    care se folosete la estimarea erorilor de selecie n calculul de corelaie.

  • 35

    Din practic s-a observat c, dac distribuia unitilor din colectivitatea investigat dup

    caracteristica urmrit este sub form de "clopot al lui Gauss" sau este uor asimetric atunci:

    valorile caracteristicilor cuprinse ntre x i x reprezint aproximativ 68% din efectivul total,

    valorile caracteristicilor cuprinse ntre 2x i 2x reprezint aproximativ 95% din efectivul

    total,

    valorile caracteristicilor cuprinse ntre 3x i 3x reprezint aproximativ 99% din efectivul

    total.

    n aceast situaie spunem c distribuia statistic este normal. Poligonul frecvenelor (relative

    sau absolute) al unei distribuii statistice care are o repartiie normal prezint un aspect de clopot

    simetric fa de dreapta paralel cu axa Oy care intersecteaz axa absciselor n punctul de absis egal

    cu media aritmetic x .

    Relaia dintre amplitudine i abaterea medie ptratic

    n literatura de specialitate se apreciaz c pentru o serie de distribuie normal abaterea medie

    liniar este egal cu 4/5 din valoarea abaterii medii ptratice.

    La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de masur a

    variabilei a carei variaie o caracterizeaz. Prin urmare cei doi indicatori nu se pot folosi pentru

    compararea gradului de variaie i n aceasta situaie se recurge la un alt indicator de variaie :

    coeficientul de variaie.

    4. Coeficientul statistic de variaie (sau de omogenitate) - notat cu Cv sau v - este o msur a

    dispersiei relative care descrie abaterea medie ptratic ca procent din media aritmetic. Coeficientul

    de variaie este utilizat pentru a compara dou distribuii statistice din punct de vedere al variabilitii

    datelor i este egal cu raportul dintre abaterea medie liniar (sau abaterea medie ptratic) i media

    variabilei studiate, adic :

    100Cvx

    Uneori coeficientul de variaie se calculeaz relativ la abaterea medie liniar: 100dCvx

    unde d este abaterea medie absolut i este abaterea medie ptratic (standard)

  • 36

    Coeficientul de variaie are avantajul de a fi o msur adimensional (fr unitate de msur)

    fiind foarte util n compararea variaiei a dou caracteristici msurate pe aceai populaie/eantion.

    Dac se studiaz dou distribuii statistice, vom considera c are o mprtiere mai mare cea

    care are coeficientul de variaie statistic mai mare. Putem avea urmtoarele situaii:

    (1) dac Cv% este sub 10% atunci populaia poate fi considerat omogen;

    (2) dac Cv% este ntre 10%-20% atunci populaia poate fi considerat relativ omogen;

    (3) dac Cv% este ntre 20%-30% atunci populaia poate fi considerat relativ eterogen;

    (4) dac Cv% este peste 30% atunci populaia poate fi considerat eterogen.

    De asemenea, coeficientul de variaie poate fi utilizat ca test de verificare a reprezentativitii

    mediei, distingndu-se cazurile:

    (1) dac 0 < Cv% 17% atunci media este strict reprezentativ ;

    (2) dac 17% < Cv% 35% atunci media este moderat semnificativ;

    (3) dac 35% < Cv% 50% atunci media este relativ reprezentativ;

    (4) dac Cv% > 50% atunci media nu este reprezentativ.

    Observaii:

    Indicatorii statistici ai variaiei (abaterea liniar, dispersia, abaterea medie ptratic i

    coeficientul de variaie) unei caracteristici invariante (sau a unei constante) sunt egali cu 0;

    Abaterea medie ptratic i abaterea medie liniar se exprim n unitatea de msur a variabilei

    pentru care se calculeaz, fcnd imposibil compararea variaiilor a dou caracteristici exprimate

    n uniti de msur diferite.

    5. Valorile individuale standardizate.

    Valorile individuale standardizate sunt date iniiale (nregistrate) transformate cu ajutorul

    mediei i abaterii standard. Prin operaia de standardizare, fiecare valoare xi a caracteristicii se

    nlocuiete cu valoarea standardizat , ( ) 1,s iix xx i N

    , unde N este volumul populaiei studiate

    Valorile individuale standardizate six pot oferi informaii asupra distanei la care se gsete o

    observaie fa de media seriei de date, distan msurat n abateri standard ale variabilei originale X.

    Rezultatul acestei transformri determin o nou variabil aleatoare Z (numit variabil aleatoare

    normal) care are ntotdeauna media egal cu 0 i abaterea standard egal cu 1. Aceast transformare a

    variabilei nu modific forma distribuiei valorilor variabilei i are avantajul c se elimin unitatea de

    msur a variabilei studiate, fcnd posibil compararea a dou serii statistice care se refer la

    caracteristici cu uniti de msur diferite.

  • 37

    III. Indicatori ai formei distribuiei

    Abaterea medie ptratic i dispersia sunt indicatori care dau o msur a mprtierii valorilor

    ntr-o distribuie statistic, oferind o msur a limii distribuiei, fr a da ns nici o informaie

    asupra formei distribuiei de frecven.

    O distribuie statistic este considerat simetric dac

    cele trei valori cu care se exprim tendina central, i anume:

    valoarea modal (Mo), valoarea median (Me) i media

    aritmetic ( x ) sunt egale. ntr-o distribuie simetric observaiile

    nregistrate sunt egal dispersate de o parte i de alta a valorii lor

    centrale, dup cum sunt reprezentate n figura 1.

    O distribuie statistic este considerat distorsionat sau

    asimetric (skewed) dac frecvenele valorilor caracteristicii

    urmrite sunt deplasate fa de tendina central (exprimat prin:

    Me, Mo sau x ), aa cum sunt reprezentate n figura 2.

    Prin asimetrie nelegem abaterea de la simetrie a seriilor

    de distribuie, abatere care poate fi:

    - moderat (genernd distributii moderat asimetrice) sau:

    - pronunat (ntlnit n cazul distribuiilor extrem asimetrice).

    Pe de alt parte ne intereseaz volumul de valori din distribuia concentrat de o parte i de alta

    a mediei. Astfel, putem avea urmtoarele situaii:

    - dac acest volum de valori este mai mic dect media, spunem c distribuia este pozitiv

    distorsionat;

    - dac exist mai multe valori mai mari dect media, spunem c distribuia este negativ

    distorsionat.

    Asimetria distribuiilor unitilor ntr-o colectivitate dup caracteristica urmrit poate fi vizibil

    pe reprezentrile grafice (histograma, poligonul frecvenelor efective) empirice comparate cu alura

    clopotului lui Gauss. Reprezentrile grafice ale seriilor de frecvene sunt mai mult sau mai puin

    aplatizate comparativ cu graficul distribuiei normale Gauss-Laplace. Acestea au bolta mai larg sau

    mai ascuit, n functie de gradul de concentrare a frecvenelor n jurul valorilor de medie, median,

    valoarea modal. Analiza asimetriei i aplatizrii are sens numai n cazul distribuiilor empirice

    unidimensionale care prezint o singur valoare modal.

    n analiza statistic a formelor de repartizare a frecvenelor, caracterizarea asimetriei i

    aplatizrii sau boltirii curbei frecvenelor presupune determinarea formei distribuiei de frecvene care

    Fig. 2 Distribuie asimetric

    Fig. 1 Distribuie simetric

  • 38

    se analizeaz, comparativ cu distribuia normal (considerat ideal), prin: indicatori ai asimetriei

    (skewness) i indicatori ai boltirii sau aplatizrii (Kurtosis).

    n calculul indicatorilor statistici utilizai pentru analiza asimetriei i aplatizrii (sau boltirii)

    sunt momentele statistice, care se calculeaz ca medii aritmetice ponderate ale abaterilor variantelor

    caracteristicii de la o anumita valoare, folosit ca baz de comparatie, abaterile respective considerate

    la anumite puteri (n funcie de ordinul momentului).

    Momentele statistice pot fi clasificate n:

    a). Momente ordinare de ordin m ( *m N ):

    * 1( )

    km

    i ii

    m

    n x a

    N

    unde constanta a este egal cu valoarea caracteristicii cu frecvena cea mai mare.

    b). Momente centrate de ordin m ( *m N ):

    1( )

    km

    i ii

    m

    n x x

    N

    Amploarea asimetriei statistice se caracterizeaz sintetic cu ajutorul unor coeficieni

    adimensionali dintre care menionm: coeficientul lui Yule i Kendall i coeficienii lui Karl Pearson.

    a). Coeficientul lui Yule i Kendall (Cyk), utilizat pentru msurarea asimetriei unei distribuiii

    statistice, are rolul de a determina modul de etalare al frecvenelor, la dreapta i la stnga medianei,

    innd cont de poziia cuartilelor Q3 i Q1 n raport cu mediana au urmtorul coeficient:

    3 1

    3 1

    ( ) ( )( ) ( )

    e eyk

    e e

    Q M M QCQ M M Q

    Observaii:

    valoarea coeficientului lui Yule i Kendall este cuprins ntre -1 i +1;

    dac Cyk = 0 atunci cuartilele distribuiei sunt echidistante, deci distribuia statistic este

    simetric ;

    dac Cyk > 0 sau Cyk < 0 atunci distribuia statistic este asimetric;

    dac |Cyk | < 0,1 atunci distribuia statistic este considerat moderat asimetric;

    dac |Cyk | > 0,3 atunci distribuia statistic este pronunat asimetric.

    Coeficientul propus de Bowley este:

    )()()()(

    19

    19

    DMeMeDDMeMeDCasB

    unde 1,1asBC

  • 39

    b). Coeficientul Karl Pearson (Cas) pentru msurarea asimetriei analizeaz poziia a dou

    valori centrale (valoarea modal i media aritmetic) relativizat prin dispersia seriei i propune un

    coeficient, care ia valori cuprinse ntre zero i unu, calculat cu formula:

    asx MoC

    unde x este media aritmetic, oM este valoarea modal i este abaterea medie ptratic.

    ntr-o repartiie de frecvene moderat asimetric, ntre valorile centrale (Mo, Me, x ) se

    verific, n mod aproximativ, relaia: 3( )Mo x Me x . Substituind aceast expresie n relaia

    anterioar se obine 3( )

    asx MeC

    .

    Observaii:

    - cu ct valorile coeficientului Karl Pearson sunt mai apropiate de zero (sau chiar egale cu 0), cu att

    seria este mai simetric;

    - cu ct valorile coeficientului Karl Pearson sunt mai apropiate de 1, cu att seria este mai asimetric.

    Astfel obinem urmtoarele concluzii:

    Dac asC =0 atunci seria este simetric i avem e ox M M i 3 0 ;

    Dac 0asC atunci seria este cu simetrie mic;

    Dac 1asC atunci seria este cu asimetrie pronunat;

    Dac 0asC atunci seria este cu asimetrie la stnga (sau negativ) i avem e ox M M i 3 0 ;

    Dac 0asC atunci seria este cu asimetrie la dreapta (sau pozitiv) i avem e ox M M i

    momentul centrat de ordin 3 3 0 .

    Un alt coeficient introdus iniial de Karl Pearson este coeficientul de asimetrie 1 dat de relaia: 2

    31 3

    2

    ( )( )

    Coeficientul lui Fisher (notat cu 1 sau cu S) este o transformare a coeficientului 1 realizat de

    R.A.Fisher, calculat cu relaia:

    3

    3 11 1 3 2 3

    2

    ( )

    ( )

    k

    i ii

    n x x

    N

    unde ni este frecvena absolut (ponderea) corespunztoare valorii xi a caracteristicii, x este media

    aritmetic, N este volumul populaiei studiate i este abaterea medie ptratic.

  • 40

    Interpretarea coeficientului lui Fisher pornete de la observaia c momentele centrate de ordin

    impar ale seriilor de distribuie perfect simetrice sunt egale cu zero deci, n particular, momentul centrat

    de ordin 3 este 3 = 0. Astfel, pentru o distribuie statistic putem avea urmtoarele situaii:

    - pentru seriile n care predomin termenii cu abateri negative fa de medie (adic 0ix x ) vom

    avea 3 < 0,

    - pentru cazurile n care predomin termenii cu abateri pozitive fa de medie (adic 0ix x )

    vom avea 3 > 0.

    Deoarece 2 este ntotdeauna pozitiv vom obine, n funcie de semnul lui 3, 1 0).

    O distribuie perfect simetric nu are distorsiune (skewness=0). Gradul de concentrare al frecvenelor n jurul valorilor tipice este cunoscut sub numele de exces

    sau kurtosis. Boltirea sau aplatizarea distribuiei statistice (Kurtosis-ul) este o msura a extinderii spre

    valorile care sunt concentrate ntr-o parte a distribuiei de frecven. Astfel, dac o clas ntr-o

    distribuie de frecven conine o foarte mare parte din valorile din distribuie, atunci distribuia

    prezint un mare grad de kurtosis, iar forma poligonului frecvenelor este mai ascuit. ntr-o distribuie

    cu un grad mic de kurtosis (distribuie plat) fiecare clas conine o proporie similar din toate valorile.

    Coeficientul de boltire al lui Pearson (notat cu 2 ) se calculeaz ca raport ntre momentul

    centrat de ordinul 4 i ptratul momentului centrat de ordinul 2:

    4

    14 42 2 2 2 4

    2

    ( )

    ( )

    k

    i ii

    n x x

    N

    Kurtosis-ul sau excesul (notat cu 2 ) se determin cu ajutorul relaiei:

    2 2 3

    unde 3 este valoarea coeficientului de boltire corespunzator repartiiei normale.

    Observaii:

    dac 2 20 3 atunci distribuia are vrf ascuit (i se numete leptokurtic);

    dac 2 20 3 atunci distribuia este normal;

    dac 2 20 3 atunci distribuia are vrf plat (i se numete platikurtic);

    dac 2 20 3 atunci distribuia este echivalent cu cea normal n privina gradului

    de aplatizare i se numete mezokurtic.

    Rdcinile etimologice ale conceptelor utilizate mai sus sunt cuvintele greceti kurtos=cocoat,

    platos = larg i lptos = ngust.