4. Serii statistice

download 4. Serii statistice

of 23

Transcript of 4. Serii statistice

  • 8/2/2019 4. Serii statistice

    1/23

    1

    IV. SERII STATISTICE

    Introducere. n acest capitol vom prezenta cteva idei legate de culegerea, prezentarea

    i caracterizarea datelor statistice (domeniu numit Statistic descriptiv). Facultativ,

    cei care doresc s nvee mai mult dect se cere la examen, pot consulta bibliografia de

    la sfritul acestui capitol. O populaie statistic (sau colectivitate statistic) este o

    mulime de elemente avnd (cel puin) o proprietate (sau caracteristic) comun.

    Elementele acestea se numesc uniti statistice (sau indivizi). Caracteristica respectiv

    se exprim (este modelat matematic) printr-o variabil aleatoare X, discret sau

    continu. Pentru a obine informaii i a deduce concluzii (sau pentru a face prognoze)

    despre caracteristica respectiv la nivelul ntregii populaii, se studiaz submulimi ale

    populaiei. Aceste submulimi, numite eantioane, se selecteaz prin diferite metode,

    vezi facultativ bibliografia de la sfritul capitolului. Metodele de selecie (sondaj) sunt

    specifice fiecrui domeniu de activitate economic, social sau tiinifico-tehnic n care

    se ncadreaz populaia respectiv. Numrul de uniti statistice dintr-un eantion se

    numete volumul eantionului ( n ). O valoare numeric a caracteristicii studiate, pentru

    o anumit unitate statistic din eantion, se numete valoare observat sau observaie,

    pe scurt. Datele numerice furnizate de eantioane sunt prelucrate prin diferite metode

    matematice i apoi se formuleaz concluzii referitoare la ntreaga populaie studiat.

    Statistica inferenial se ocup cu interpretarea datelor oferite de statistica descriptiv

    i cu utilizarea acestora pentru a formula concluzii referitoare la ntreaga populaie,

    pentru a face prognoze, pentru a lua decizii. O decizie, o estimare, o predicie sau o

    generalizare privitoare la o colectivitate general, bazat pe informaiile obinute din

  • 8/2/2019 4. Serii statistice

    2/23

    2

    analizarea eantioanelor, se numete o inferen statistic. Raportul descriptiv-

    inferenial n cercetarea statistic este evideniat n figura de mai jos.

    Prelucrarea primar a datelor statistice. S presupunem c a fost selectat un eantion

    de volum 20n dintr-o populaie statistic. Notm cu X variabila aleatoare care

    descrie o anumit caracteristic a unitilor din populaia respectiv. O parte din

  • 8/2/2019 4. Serii statistice

    3/23

    3

    valorile lui X, corespunztoare unitilor din eantionul selectat, formeaz seria

    statistic de mai jos:

    X: 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17.

    Aceste date se pot scrie ordonat ntr-o distribuie de frecvene cu valori individuale,

    ca n tabelul de mai jos. Pe prima coloan se trec valorile distincte ale variabilei

    aleatoare X, notate cu ( ix ), n ordine cresctoare. Pe a doua coloan scriem

    frecvenele absolute ( in ) asociate acestor valori. Tabelul se mai poate completa cu a

    treia coloan, cea a frecvenelor relative ( if ), ii nfn

    . Avem, ntotdeauna, ii

    n n i

    1ii

    f . A patra coloan, eventual, poate fi cea a frecvenelor absolute cumulate,

    (i

    N ). Primul numr de pe coloana a patra este 1 1N n , al doilea este 2 1 2N N n , apoi

    3 2 3N N n , etc. Ultimul este ntotdeauna egal cu n . Ultima coloan este coloana

    frecvenelor relative cumulate, ( iF). Numerele de acolo se calculeaz asemntor cu

    cele din coloana a patra, ultimul numr fiind ntotdeauna egal cu 1.

  • 8/2/2019 4. Serii statistice

    4/23

    4

    (i

    x ) (i

    n ) (i

    f ) (i

    N ) (i

    F)

    11 2 0,1 2 0,1

    12 2 0,1 4 0,2

    14 2 0,1 6 0,3

    15 3 0,15 9 0,45

    17 3 0,15 12 0,60

    18 1 0,05 13 0,65

    19 2 0,1 15 0,75

    21 4 0,2 19 0,95

    24 1 0,05 20 1

    Total 20n 1 - -

    Pentru eantioane de volum mare, dac X este privit ca o variabil aleatoare continu,

    datele se pot grupa pe intervale, ca mai jos. S presupunem c avem o serie statistic

    simpl cu 50n de valori ale lui X scrise n tabelul:

  • 8/2/2019 4. Serii statistice

    5/23

    5

    Vom considera intervalele de forma ( , ]a b iar ultimul interval de forma [ , ]a b . Primul

    interval trebuie s conin cea mai mic valoare din serie, adic pe min 138x iar ultimul

    interval trebuie s conin cea mai mare valoare din serie, adic pe max 201x . Fiecare

    interval ( , ]a b are o limit inferioar, adic pe " a " i o limit superioar, adic pe

    "b". Limita inferioar a primului interval se alege convenabil. Poate fi zero, sau poate fi

    o valoare apropiat de minx , mai mic dect minx . Lungimea fiecrui interval, h , o

    calculm cu formula lui Sturges, adic max min

    1 3,322 lg

    x xh

    n

    , unde " lg n " nseamn

    logaritm n baza 10 din n . Putem rotunji pe h la o valoare convenabil. n exemplul

    dat avem201 138 63

    9,491 3,322 lg50 6,64

    h

    . Deci vom alege 10h i limita inferioar

    a primului interval o alegem 135a . Se obine distribuia de frecvene cu valorile

    grupate pe intervale de mai jos. Pe prima coloan avem grupele de valori. Primul

    interval, cu conveniile fcute mai sus, este (135,145] . Am adunat 10h la 135.

    Urmtorul interval subnelegem c este (145, 155] , etc. Ultimul, care include pe

    max 201x , este [195, 205] . Pe coloana a doua avem frecvenele absolute. Prima este

    egal cu 4. Aceasta nseamn c exact 4 din cele 50 de valori de mai sus se afl n

    intervalul (135,145] . Ele sunt: 140; 138; 142; 142. (142 apare de dou ori !!). Sau, n

    intervalul (155, 165] apar 13 observaii (valori observate). Atenie, 155 nu aparine

    acestui interval!! Celelalte coloane, care se pot aduga dac este necesar, se construiesc

    la fel mai sus. Formulele, notaiile i denumirile sunt la fel ca n tabelul anterior celui cu

    50 de valori.

  • 8/2/2019 4. Serii statistice

    6/23

    6

    (i

    x ) (i

    n ) (i

    f ) (i

    N ) (i

    F)

    135 - 145 4 0,08 4 0,08

    145 - 155 5 0,1 9 0,18

    155 - 165 13 0,26 22 0,44

    165 - 175 11 0,22 33 0,66

    175 - 185 8 0,16 41 0,82

    185 - 195 6 0,12 47 0,94

    195 - 205 3 0,06 50 1

    Total 50n 1 - -

    Unei distribuii de frecvene ca cea din ultimul tabel i se poate asocia o histogram.

    Histograma este o reprezentare grafic sub form de dreptunghiuri. Pe axa Ox , bazele

    dreptunghiurilor sunt formate din intervalele de grupare sau clase de valori (vezi prima

    coloan a tabelului). Pe axa Oy , nlimile dreptunghiurilor sunt egale sau proporionale

    cu frecvenele absolute ( in ) sau cu frecvenele relative ( if ). Unitile de msur se aleg

    convenabil pe fiecare ax (nu trebuie s fie aceeai unitate de msur pe ambele axe).

    Avem deci o histogram a frecvenelor absolute i respectiv o histogram a

    frecvenelor relative (pentru cazul n care intervalele au lungimi egale).

  • 8/2/2019 4. Serii statistice

    7/23

    7

    n figura de mai sus avei o histogram a frecvenelor relative, pentru distribuia din

    tabelul anterior. Am folosit softul utilitar gratuit de la adresa

    http://www.zweigmedia.com/RealWorld/stats/histogram.html .

    Unind mijloacele bazelor superioare ale dreptunghiurilor se obine poligonul

    frecvenelor relative, de culoare roie. Dac pe axa Oy reprezentm frecvenele

    absolute ( )in , atunci se obin respectiv histograma frecvenelor absolute i poligonul

    frecvenelor absolute. Tem !!

    Dac pe axa Oy reprezentm frecvenele absolute cumulate ( )iN sau frecvenele

    relative cumulate ( )iF

    , obinem respectiv poligonul frecvenelor absolute cumulate

    sau poligonul frecvenelor relative cumulate (se mai cheam ogive). Unitatea de

    msur se alege convenabil pe fiecare ax. n figura de mai jos avei histograma

    frecvenelor relative cumulate i, cu rou, ogiva frecvenelor relative (sau poligonul

    frecvenelor relative cumulate). Ogivele sunt poligoane cresctoare, continue.

  • 8/2/2019 4. Serii statistice

    8/23

    8

    Pentru (multe !!) alte metode de reprezentare grafic a datelor i de prelucrare primar,

    facultativ, putei consulta bibliografia de la sfritul acestui capitol.

    Problema fundamental a Statisticii. S ne imaginm c dintr-o populaie de volum

    foarte mare selectm eantioane de volum n din ce n ce mai mare. Pentru fiecare

    eantion se poate construi o histogram i respectiv un poligon de frecvene. Dac

    micorm lungimile bazelor dreptunghiurilor pe msur ce n crete, aceste histograme

    devin din ce n ce mai "fine", adic numrul de dreptunghiuri din care sunt formate este

    tot mai mare i bazele dreptunghiurilor sunt de lungime ( h ) din ce n ce mai mic.

    Corespunztor acestor histograme, se obine un ir de poligoane de frecvene care ncep

  • 8/2/2019 4. Serii statistice

    9/23

    9

    s semene din ce n ce mai mult ca form cu o anumit curb. Dac histogramele

    acestea sunt histograme de frecvene relative (adic pe axa Oy reprezentm frecvenele

    relative ( if )) atunci se obine un ir de poligoane de frecvene relative care "tinde" ctre

    o anumit curb. Dac notm cu X variabila aleatoare (continu) care modeleaz

    matematic caracteristica comun unitilor statistice din populaia studiat, atunci curba

    respectiv este de fapt graficul densitii de repartiie ( )f x a variabilei aleatoare X.

    Aceast curb se numete curb de repartiie sau curba (de distribuie a)

    frecvenelor i are ecuaia ( )y f x . n practic, problema fundamental este gsirea

    acestei funcii ( )f x al crei grafic trebuie s aproximeze ct mai "bine" poligonul

    frecvenelor relative pentru volume n foarte mari. n mod analog ne putem imagina un

    ir de poligoane de frecvene relative cumulate (ogive - ( )iF pe axa Oy ) construite

    pentru distribuii de frecvene de volum n din ce n ce mai mare i cu lungimea

    intervalelor (n care sunt grupate valorile) din ce n ce mai mic. Acest ir de ogive

    tinde, ca form, ctre graficul funciei de repartiie ( )F x a variabilei aleatoare X.

    Determinarea ct mai exact a acestor funcii, ( )f x i ( )F x reprezint problema

    principal a Statisticii i aceast problem va fi abordat n cursurile viitoare de

    Statistic i Econometrie.

    Mai jos, avei cteva figuri care ilustreaz (intuitiv) aceste idei. Histogramele i

    poligoanele de frecvene au fost construite pentru eantioane de volume de la 1000 la

    10.000 de valori. (Nu trebuie, evident, memorate aceste figuri).

  • 8/2/2019 4. Serii statistice

    10/23

    10

  • 8/2/2019 4. Serii statistice

    11/23

    11

    Indicatori (parametri) importani asociai unui eantion. Acetia sunt indicatori de

    poziie (indicatori ai tendinei centrale), de variaie i de caracterizare a formei

    curbei frecvenelor. Indicatori de poziie importani: media aritmetic, media ptratic,

    media armonic, media geometric, momentele iniiale (necentrate) de ordinul r

    ( r ), moda (sau modul), cuantilele de ordinul ( - numr raional din intervalul

    (0,1) ), mediana (cuantila de ordinul 0,5 ). Indicatori de variaie importani:

    amplitudinea, abaterea individual, abaterea medie, momentele centrate de ordinul r,

    variana i abaterea standard, variana modificat i abaterea standard

    modificat, coeficientul de variaie. Indicatori de caracterizare a formei curbei

    frecvenelor sunt: coeficientul de asimetrie i coeficientul de boltire. n continuare ne

    vom ocupa de indicatorii n bold de mai sus. Ceilali vor fi studiai la seminar. Pentru

    fiecare parametru vom prezenta modalitatea de calcul n trei situaii.

  • 8/2/2019 4. Serii statistice

    12/23

    12

    Media aritmetic. S considerm seria statistic de volum 20n (ir de numere) de

    mai sus (la nceputul capitolului):

    X: 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17.

    Media aritmetic se noteaz cu x i se calculeaz cu formula1

    i

    i

    x xn

    . Deci, n

    acest caz gsim

    1(12+15+17+12+14+21+21+17+19+24+15+11+11+14+19+21+21+15+18+17)

    20x =

    16,7.

    Dac aceast serie se scrie ca o distribuie de frecvene cu valori individuale, adic

    (i

    x ) (i

    n )

    11 2

    12 2

    14 2

    15 3

    17 3

    18 1

    19 2

    21 4

    24 1

    Total 20n

    atunci formula de calcul este1

    ( )i ii

    x n xn

    . Deci, obinem:

  • 8/2/2019 4. Serii statistice

    13/23

    13

    1(2 11 2 12 2 14 2 14 3 15 3 17 1 18 2 19 4 21 1 24)

    20x = 16,7.

    n sfrit, dac avem o distribuie de frecvene cu valorile grupate pe intervale (vezi mai

    sus), ca de exemplu

    (i

    x ) (i

    n )

    135 - 145 4

    145 - 155 5

    155 - 165 13

    165 - 175 11

    175 - 185 8

    185 - 195 6

    195 - 205 3

    Total 50n

    atunci trebuie mai nti s calculm mijloacele intervalelor ( ix ). Mijlocul unui interval

    ( , ]a b este numrul2

    a b. Adugm la tabel coloana cu mijloacele intervalelor,

  • 8/2/2019 4. Serii statistice

    14/23

    14

    (i

    x ) (i

    n ) (i

    x )

    135 - 145 4 140

    145 - 155 5 150

    155 - 165 13 160

    165 - 175 11 170

    175 - 185 8 180

    185 - 195 6 190

    195 - 205 3 200

    Total 50n -

    i folosim formula

    1

    ( )i iix n xn

    . Deci obinem:

    1(4 140 5 150 13 160 11 170 8 180 6 190 3 200)

    50x = 168,80.

    Momente iniiale (necentrate) de ordin r . Corespunztor celor trei situaii de mai

    sus, formulele de calcul sunt :

    1 rr i

    i

    x xn

    ,1 r

    r i i

    i

    x n xn

    i respectiv1

    ( )rr i i

    i

    x n xn

    .

    Exemplu. Vom calcula momentul iniial de ordinul doi pentru seria statistic

    X: 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17.

    Avem:

  • 8/2/2019 4. Serii statistice

    15/23

    15

    2 2 2 2 2 2 2 2 2 2 2

    2

    1(12 15 17 12 14 21 21 17 19 24 15

    20x

    2 2 2 2 2 2 2 2 211 11 14 19 21 21 15 18 17 ) = 292,50.

    Pentru distribuia de frecvene

    (i

    x ) (i

    n )

    11 2

    12 2

    14 2

    15 3

    17 3

    18 1

    19 2

    21 4

    24 1

    Total 20n

    calculele pot fi aranjate astfel:

  • 8/2/2019 4. Serii statistice

    16/23

    16

    (i

    x ) (i

    n ) ( 2i

    x ) ( 2i i

    n x )

    11 2 121 242

    12 2 144 288

    14 2 196 392

    15 3 225 675

    17 3 289 867

    18 1 324 324

    19 2 361 722

    21 4 441 1764

    24 1 576 576

    Total 20n - 5850

    Deci 25850

    292,5020

    x .

    n sfrit, dac se d o distribuie de frecvene cu valorile grupate pe intervale, ca de

    exemplu

  • 8/2/2019 4. Serii statistice

    17/23

    17

    ( ix ) ( in )

    135 - 145 4

    145 - 155 5

    155 - 165 13

    165 - 175 11

    175 - 185 8185 - 195 6

    195 - 205 3

    Total 50n

    atunci calculele se pot aranja astfel:

    (i

    x ) (i

    n ) (i

    x ) ( 2( )i

    x ) ( 2( )i i

    n x )

    135 - 145 4 140 19600 78400

    145 - 155 5 150 22500 112500

    155 - 165 13 160 25600 332800

    165 - 175 11 170 28900 317900

    175 - 185 8 180 32400 259200

    185 - 195 6 190 36100 216600

    195 - 205 3 200 40000 120000

    Total 50n - - 1437400

  • 8/2/2019 4. Serii statistice

    18/23

    18

    Deci2

    143740028748

    50x .

    Dispersia (sau variana). O vom nota cu 2 de aceast dat. Corespunztor celor trei

    situaii de mai sus, se calculeaz cu (una din) formulele:

    2 2 2

    2

    1( ) ( )

    i

    i

    x x x xn

    ,2 2 2

    2

    1( ) ( )

    i i

    i

    n x x x xn

    i respectiv

    2 2 22

    1( ) ( )i i

    i

    n x x x xn

    . Diferenele " ix x " se numesc abateri individuale

    (de la medie) i adesea este necesar calcularea lor n practic.

    Exemplu. Dac se d o serie statistic sub forma

    X: 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17,

    atunci (vezi mai sus) 16,70x i avem:

    2 2 2 2 2 2 21 [(12-16,7) +(15-16,7) +(17-16,7) +(12-16,7) +(14-16,7) +(21-16,7) +20

    2 2 2 2 2 2+(21-16,7) +(17-16,7) +(19-16,7) +(24-16,7) +(15-16,7) +(11-16,7) +

    2 2 2 2 2+(11-16,7) +(14-16,7) +(19-16,7) +(21-16,7) +(21-16,7) +

    + 2 2 2(15-16,7) +(18-16,7) +(17-16,7) ] = 13,61.

    Acelai rezultat se putea obine i cu cealalt formul de mai sus:

    2

    2292,50 (16,7) 292,50 278,89 13,61x .

    Dac se d o distribuie de frecvene de forma

  • 8/2/2019 4. Serii statistice

    19/23

    19

    ( ix ) ( in )

    11 2

    12 2

    14 2

    15 3

    17 318 1

    19 2

    21 4

    24 1

    Total 20n

    pentru care 16,7x (a fost calculat mai sus), atunci calculele se pot aranja astfel:

  • 8/2/2019 4. Serii statistice

    20/23

    20

    (i

    x ) (i

    n ) (i

    x x ) 2( )i

    x x 2( )i in x x

    11 2 -5,7 32,49 64,98

    12 2 -4,7 22,09 44,18

    14 2 -2,7 7,29 14,58

    15 3 -1,7 2,89 8,67

    17 3 0,3 0,09 0,27

    18 1 1,3 1,69 1,69

    19 2 2,3 5,29 10,58

    21 4 4,3 18,49 73,96

    24 1 7,3 53,29 53,29

    Total 20n - - 272,20

    Deci 2272,20

    13,6120

    . Rezultat pe care-l puteam obine i cu cealalt formul:

    2 2292, 50 (16, 7) 13, 61 .

    n final, dac valorile sunt grupate pe intervale ca n exemplul

  • 8/2/2019 4. Serii statistice

    21/23

    21

    (i

    x ) (i

    n )

    135 - 145 4

    145 - 155 5

    155 - 165 13

    165 - 175 11175 - 185 8

    185 - 195 6

    195 - 205 3

    Total 50n

    pentru care s-a calculat 168.80x , calculele se pot aranja astfel:

    (i

    x ) (i

    n ) (i

    x ) (i

    x x ) 2( )ix x

    2( )

    i in x x

    135 - 145 4 140 -28,80 829,44 3317,76

    145 - 155 5 150 -18,80 353,44 1767,20

    155 - 165 13 160 -8,80 77,44 1006,72

    165 - 175 11 170 1,20 1,44 15,84

    175 - 185 8 180 11,20 125,44 1003,52

    185 - 195 6 190 21,20 449,44 2696,64

    195 - 205 3 200 31,20 973,44 2920,32

    Total 50n - - - 12728

  • 8/2/2019 4. Serii statistice

    22/23

    22

    Deci 212728

    254,5650

    . Cu a doua formul, care pune n eviden momentul iniial

    de ordinul doi, obinem 2 228748 (168,80) 254,56 .

    Abaterea standard (sau abaterea medie ptratic). Se definete (n toate cele trei

    cazuri de care am vorbit mai sus) prin 2 .

    Deci, corespunztor celor trei forme de mai sus de prezentare a datelor, avem respectiv:

    13,61 3,68 , idem i 254,56 15,95 .

    Variana (dispersia) modificat (sau de selecie). Se definete, n toate trei situaiile

    de mai sus, prin 2 21

    ns

    n

    .

    Deci, pentru primele dou situaii de mai sus, 220

    13,61 14,3220 1

    s

    . Iar pentru a

    treia situaie, 250

    254,56 259,7550 1

    s

    .

    Abaterea standard (sau abaterea medie ptratic) modificat (sau de selecie).

    Indiferent de forma de prezentare a datelor, acest indicator se definete prin 2s s .

    Deci, pentru primele dou situaii de mai sus, 14,32 3,78s i respectiv

    259,75 16,11s .

    Atenie: despre proprietile acestor indicatori prezentai aici ct i despre ceilali

    indicatori importani VEZI seminar !! Chiar dac acest capitol pare uor, dac nu

    ncercai s rezolvai singuri problemele de la seminar i exemplele de la curs (ducnd

  • 8/2/2019 4. Serii statistice

    23/23

    23

    calculele pn la sfrit, cu un calculator de buzunar), nu vei face fa examenului de

    Statistic !!

    Bibliografie (pentru acest capitol)

    1. Laura Simon, Scott Roths, STAT 414 - 415, Lecture Notes, Dept. of Statistics,

    PennState University, (2012)

    2. ipo Ciprian, Preda Ciprian, Statistic Economic, Editura Mirton, Timioara, 2004

    3. http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=116&idb=21

    (Curs online gratuit, Academia de Studii Economice Bucureti; clickpe fiecare capitol

    din cuprins)