Statistica Matematica - Note 1 RO

32
1 STATISTICA MATEMATICA Constructii an II - Note de curs - Statistica nu are ca obiect studiul fiecărui element al mulţimii, ci descrierea globală a fenomenului. Statistica matematica se ocupa de gruparea, analiza si interpretarea datelor referitoare la un anumit fenomen precum si cu unele previziuni privind producerea lui viitoare. Statistica este descriptivă sau formală, când se ocupă cu culegerea şi înregistrarea datelor şi matematică, când analizează, interpretează sau efectuează previziuni. Etapele analizei statistice Observarea statistică. Elemente de teoria eşantionării Statistica lucrează cu două noţiuni fundamentale: populaţie = mulţimea entităţilor (persoane, obiecte, fapte, fenomene, etc.) supuse studiului statistic (Entităţile se numesc indivizi, membri, elemente sau unităţi statistice) şi

description

statistica

Transcript of Statistica Matematica - Note 1 RO

  • 1

    STATISTICA MATEMATICA

    Constructii an II

    - Note de curs -

    Statistica nu are ca obiect studiul fiecrui element al mulimii, ci descrierea global a

    fenomenului.

    Statistica matematica se ocupa de gruparea, analiza si interpretarea datelor referitoare la

    un anumit fenomen precum si cu unele previziuni privind producerea lui viitoare.

    Statistica este descriptiv sau formal, cnd se ocup cu culegerea i nregistrarea datelor i

    matematic, cnd analizeaz, interpreteaz sau efectueaz previziuni.

    Etapele analizei statistice

    Observarea statistic. Elemente de teoria eantionrii

    Statistica lucreaz cu dou noiuni fundamentale:

    populaie = mulimea entitilor (persoane, obiecte, fapte, fenomene, etc.) supuse studiului

    statistic (Entitile se numesc indivizi, membri, elemente sau uniti statistice)

    i

  • 2

    eantion (eantion statistic) = o submulime finit de elemente din populaie asupra creia

    se fac msurtorile.

    Exist diferene ntre caracteristicile (proprietile) unui eantion i cele ale ntregii

    populaii. Fiecare caracteristic se consider, matematic, o variabil, prin urmare, o entitate,

    desemnat printr-un nume simbolic, care primete valori.

    Metodele statistice pot fi mprite n 2 categorii: statistica descriptiv i statistica

    inferenial.

    Statistic descriptiv const n ceea ce spune numele: metode de descriere.

    Necesitatea descrierii unei variabile este impus de variaia valorilor variabilei

    Descrierea este, de regul, sub form numeric

    Pentru a constritui informaie utilizabil, descrierea trebuie s fie succint. De aici apariia

    rezumatelor statistice cum ar fi: media, dispersia etc.

    Orice descriere necesit cheltuieli i din acest motiv, ca i din altele, datele prelucrate sunt

    valoroase i trebuie tratate ca atare

    Orice descriere este afectat de erori

    Statistica inferenial const n tehnicile prin care se pot deduce (infera) caracteristicile unei

    populaii din observaiile efectuate asupra unui eantion din acea populaie.

    Tehnicile statisticii infereniale sunt impuse de faptul c n marea majoritate a cazurilor, este

    de interes descrierea populaiei i nu a eantionului observat.

    Generalizarea la nivelul populaiei a unui rezultat propriu unui eantion este, de multe ori,

    implicit.

    Distribuia unei variabile este determinat de mulimea valorilor nregistrate. Se urmresc

    un set de parametri, ca: median i medie aritmetic sau dispersie, abaterea medie ptratic,

    quantil, momente centrate i coeficient de variaie.

    Variabilele statistice pot fi mprite n trei categorii:

    - dup natura valorii atribuite:

    1. Cantitative - val. msurate de tip numeric: naturale, ntregi, reale, etc.

    2. Calitative val. obinute snt calificative: mic/mare, bun/ru, succes/insucces, etc.;

    - dup tipul scalei de msur utilizat:

    1. Discrete. val. snt msurate pe scale nominale sau ordinale,

    2. Continue. val. snt msurate pe scale de interval sau de reper;

    - dup scopul folosirii lor:

  • 3

    1. Independente. Ele snt manipulate de ctre cercettor n procesul studiat,

    2. Dependente. Ele snt supuse observaiei, urmrindu-se gradul lor de corelare cu una sau

    mai multe variabile

    Rezultatul msurtorilor pe un eantion se numete estimaie (sau statistic, rezumat

    statistic), iar prin metode statistice din eantion se obin, pentru ntreaga populaie, valori fixe ale

    parametrilor urmrii.

    Exist posibilitatea ca dou eantioane bine alese cu estimaii diferite, dar apropiate, s

    furnizeze aceleai valori pentru parametrii populaiei.

    Strategie inferenial (A)

    Strategia inferenial se desfoar conform cu etapele urmtoare:

    - se fixeaz populaia ai crei parametri se doresc a fi aflai, pe baza unui anumit criteriu;

    - se selecteaz aleator (la ntmplare) un eantion din populaia respectiv;

    - se strng informaii despre eantionul respectiv;

    - se calculeaz valoarea unei statistici, cel mai adesea o medie aritmetic sau o proporie (adic, se

    calculeaz statisticile care reflect parametrii corespunztori);

    - se infer pe baza distribuiei de eantionare a acelor statistici i pe baza legilor de probabilitate

    asupra parametrilor populaiei.

    Populaia statistic este orice mulime care formeaz obiectul unei analize statistice.

    Elementele unei populaii statistice se numesc uniti statistice sau indivizi. Numarul de elemente

    care constituie populatia se numeste volumul populatiei (efectivul total).

  • 4

    Trstura (proprietatea) comun a tuturor unitilor unei populaii statistice se numete

    caracteristic sau (variabil).

    Caracteristicile cantitative pot fi discrete (sau discontinue) daca variabila statistica ia valor finite

    sau continue daca variabila poate lua orice valoare dintr-un interval finit sau infinit.

    Serie statistic

    Fie o populaie statistic X care ia valori x1, x2, ..., xp i ni, 1 i p, numrul de indivizi pentru

    caracteristica X ia valoarea xi. Mulimea perechilor (xi, ni), 1 i n, este o serie statistic.

    Numerele ni le vom numi efective, frecvenele absolute sau frecvene.

    O serie statistic este, de obicei, prezentat sub forma unui tabel de tipul urmtor:

    Valoarea

    caracteristicii x1 x2 ... xi ... xp

    Frecvene n1 n2 ... ni ... np

    n

    n

    i

    i

    p

    x

    n

    x

    pp

    xx

    ...

    ...

    ...

    ...

    21

    21

    Intervale (clase) xo - x1 x1 x2 ... xp-1 - xp

    Frecvene ni n2 ... np

    * un interval (clas) (xi, xi+1) se citete de la xi la xi+1 sau ntre xi i xi+1.

    Se numete frecven absolut a unei valori x a caracteristicii, numrul de uniti ale populaiei

    corespunzatoare acestei valori.

    Se numete frecvena relativ a unei valori xi a caracteristicii raportul dintre frecventa absoluta ni a

    valorii xi si efectivul total al populatiei. N

    nif i)(

    Notaii standard:

    X - caracteristica studiat, eventual cu indici, dac este cazul;

    xi - elementele eantionului studiat;

    ni - valori brute obinute din msurtori pe eantionul dat;

    n - volumul eantionului;

    N - volumul populaiei din care s-a extras eantionul.

    f(x) frecvena relativ a valorii x

  • 5

    Fie (xi, ni) o serie statistic.

    i

    kki nN

    1

    se numete frecvena absolut cumulat cresctoare a

    valorii xi.

    Fie (xi, ni) o serie statistic.

    p

    ikki nN se numete frecvena absolut cumulat descresctoare a

    valorii xi

    Fie (xi, ni) o serie statistic cu efectivul total N. Numrul N

    nf ii se numete frecvena relativ a

    valorii xi.

    Frecvena absolut cumulat cresctoare a unei clase este suma frecvenelor absolute ale tuturor

    claselor care apar pn la clasa considerat inclusiv.

    Frecvena absolut cumulat descresctoare a unei clase este suma frecvenelor absolute ale

    tuturor claselor care apar de la clasa considerat inclusiv.

    O serie (xi, ni) unde xi reprezint un timp sau un interval de timp, iar ni valoarea corespunztoare

    unei mrimi (care evolueaz n timp) se numete serie cronologic.

    Reprezentarea grafic a seriilor statistice

    Reprezentarea grafic a unei serii statistice este uneori foarte sugestiv, contribuind la prima

    interpretare intuitiv, pe cale vizual a datelor (faciliteaz nelegerea semnificaiei datelor

    numerice). Reprezentrile grafice sunt forme intuitive de prezentare a distribuiilor de frecvene (o

    imagine face mai mult dect o mie de cuvinte).

    Un grafic eficient este o combinaie reuit ntre form i coninutul statistic pe care l

    reflect. Realizarea acestei combinaii depinde de respectarea ctorva principii eseniale:

    - Focalizarea pe coninutul i nu pe forma graficului

    - Este recomandabil s fie utilizate grafice care favorizeaz comparaii ntre variabile i nu doar

    reprezentri individuale, statice, ale acestora

    - Fiecare grafic trebuie s serveasc un singur scop, exprimat clar i evident

    - Orice grafic va fi nsoit de informaii statistice i descrierile necesare pentru a fi uor i corect

    neles

    - Un grafic trebuie s scoat n eviden datele i nu abilitile tehnice de editare ale celui care

    l-a creat.

  • 6

    Formele de expresie grafic a datelor statistice sunt foarte numeroase. Cele mai utilizate

    metode n grafic: diagrama, histograma, poligonul frecvenelor, curba frecvenelor cumulate,

    graficul circular i graficul de tip stem and leaf (tulpin i frunze).

    Graficul unei serii statistice se numete diagram. Reprezint cel mai simplu mod de

    reprezentare grafic a datelor. Se utilizez atunci cnd dorim s reprezentm o variabil discret

    (care prezint valori ntregi, de exemplu, numrul de rspunsuri corecte la un test n funcie de

    nivelul de instruire al subiecilor).

    n mod obinuit, un grafic se prezint ca o imagine inclus ntr-un sistem de axe perpendiculare:

    Axa orizontal (Ox) pe care sunt valorile distribuiei

    Axa vertical (Oy) pe care sunt reprezentate frecvenele fiecrei valori, sub forma unei bare

    rectangulare

    A. Reprezentarea seriilor cu caracteristic cantitativ

    1. Diagrame n batoane pe axa absciselor unui sistem de axe ortogonal xOy se consider

    valorile caracteristicii xi; pe axa ordonatelor se consider efectivele (frecvenele absolute) ni.

    2. Diagrama prin coloane - coloanele sunt dreptunghiuri cu bazele egale i nlimile

    proporionale cu efectivele(frecvenele absolute) ale unei serii statistice.

    Diagrama prin coloane poate fi graficul unei serii cu valori mari ale efectivelor, spre

    deosebire de diagrama prin batoane, ceea ce face ca acest tip de diagram s fie cel mai

    utilizat n statistic. Dreptunghiurile din diagrama prin coloane pot fi aezate orizontal i

    atunci reprezentarea grafic se numete diagram prin benzi.

    3. Histograme - pe axa Ox a unui sistem de axe ortogonale xOy se construiete o succesiune

    de segmente proporionale cu clasele caracteristicii; fiecare segment de pe axa Ox este baza

    unui dreptunghi cu nlimea proporional cu frecvenele absolute (efectivele) claselor. La

    prima vedere, histograma este asemntoare cu graficul de tip bar. Ea este adecvat pentru

    situaiile cnd variabila de care dorim s o reprezentm este de tip continuu (adic poate

    lua orice valoare pe o scal numeric).

  • 7

    Iat, de exemplu, histograma distribuiei de frecvene. Se observ o grupare de frecvene,

    afind pe axa Ox limita minim a intervalului ca etichet a acestuia.

    4. Poligonul frecvenelor: pe axa Ox se reprezint intervalele de timp (xi, xi+1) 1 i p; pe

    axa Oy se reprezint frecvenele absolute ni, 1 i q; se unesc succesiv punctele de

    coordonate (mi, ni) unde mi sunt coordonatele mijloacelor segmentelor (xi, xi+1). Este o

    reprezentare alternativ la histogram. Punctele centrale ale suprafeelor rectangulare care

    reprezint frecvena sunt unite cu o linie care delimiteaz suprafaa poligonului.

    Poligonul frecvenelor cumulate (cresctoare) se obine unind succesiv, printr-o linie

    poligonal, punctele de coordonate (xi+1, nj+1) unde xi+1 este extremitatea dreapt a

    intervalului (xi, xi+1), iar ni+1 frecvena cumulat a clasei (xi, xi+1) sa corespunztoare valorii

    xi+1. Pe acest grafic se vede cu uurin cte valori se afl pn la o anumit valoare din

    distribuie.

  • 8

    B. Reprezentarea seriilor cronologice

    5. Cronograme: se reprezint grafic, de regul, prin poligoane de frecven sau cronograme;

    pe axa Ox se reprezint momentele xi sau intervalele de timp (xi, xi+1); pe axa Oy se

    reprezint efectivele ni; unind succesiv punctele de coordonate (xi, xi), 1 i p sau (mi, ni),

    1 i p unde mi sunt mijloacele segmentelor (xi, xi+1) se obine cronograma sau histograma

    respectiv.

    C. Alte modaliti de reprezentare a seriilor statistice

    6. Diagrame circulare cercul reprezint suma total, N, a valorilor ni, 1 i p, iar fiecare ni

    este reprezentat printr-un sector de cerc cu aria proporional cu valoarea ni. Acest tip de

    diagrame se utilizeaz n cazurile n care datele se preteaz la prezentare n indici

    procentuali.

    7. Diagrame prin ptrate. Diagrame prin cercuri laturile sau razele figurilor reprezint

    proporional, valorile ni ale caracteristicii (unidimensionale).

    Elemente Caracteristice ale unei Serii Statistice

    1. Modul

    Se numete modul sau dominanta unei serii statistice (xi, ni) 1 i p, valoarea xk a caracteristicii

    pentru care nk = max ni, 1 i p.

    n cazul caracteristicii date prin clase (intervale) (xk, xk+1), modulul este valoarea central a clasei,

    adic 12

    1 iik xxx pentru care nk = max ni, 1 i p.

    Observaii: modulul este valoarea caracteristicii cu frecven maxim

    Evident, pot fi mai multe dominante ntr-o serie.

  • 9

    2. Mediana

    Mediana seriei (xi, ni) 1 i p este valoarea ni care mparte populaia statistic studiat, ordonat

    cresctor sau descresctor dup valorile caracteristicii, n dou pri cu acelai efectiv.

    n cazul unei serii pe intervale (clase) mediana este dat de media aritmetic a frecvenelor de la

    mijloc.

    Valori medii ale unei serii statistice

    Dup nregistrate datele statistice ne intereseaz ceea ce au ele comun i general, pentru a afla

    trsturile eseniale ale acestora. Vom prezenta n continuare principalele valori medii utilizate n

    practica statistic (media aritmetic, media geometric, media armonic i media ptratic) i modul

    cum se aplic i interpreteaz ele.

    1. Media aritmetic

    Fiind date numerele reale x1, x2, ...., xn, numrul:

    n

    nn

    annn

    xnxnxm n

    ...

    .....

    21

    2211

    este media aritmetic a numerelor x1, x2, ...., xn.

    Observaie: Dac x1 = x2 = .... = xn = x, atunci se deduce imediat c ma = x.

    Media aritmetic a numerelor x1, x2, ...., xn are urmtoarele proprieti:

    a) ini

    aini

    xmx

    11maxmin

    b) aorinde

    aaan mnmmmxxx ......21

    c) 01

    n

    iai mx

    d) vmnvx an

    ii

    1

    , oricare ar fi numrul v

    e)

    n

    iai

    n

    ii mxvx

    1

    2

    1

    2 , oricare ar fi numrul v

    Observaii:

    1. proprietatea c) arat c suma algebric a abaterilor valorilor xi fa de media aritmetic

    este egal cu zero.

    2. Proprietatea d) arat c suma algebric a abaterilor valorilor xi de la o valoare oarecare v

    este de n ori mai mare dect diferena dintre valoarea v i media aritmetic.

  • 10

    3. Proprietatea e) arat c suma ptratelor abaterilor fa de ma este mai mic dect suma

    ptratelor abaterilor fa de oricare alt valoare v.

    Propoziie: Fiind date valorile x1, x2, .... xn i v o valoare oarecare

    n

    iia vx

    nvm

    1

    1

    Propoziie: Dac valorile x1, x2, .... xn apar de p1, p2, ...., respectiv pn ori atunci:

    n

    ii

    n

    iii

    a

    p

    xp

    m

    1

    1 .

    Fiind date valorile x1, x2, .... xn care apar de p1, p2, .... pn ori n

    nna

    ppp

    xpxpxpm

    ...

    ...

    21

    2211 i se numete

    media aritmetic ponderat a valorilor x1, x2, .... xn de ponderi p1, p2, .... , respectiv, pn.

    Observaie: Dac p1 = p2 = ... = pn atunci media aritmetic ponderat coincide cu media aritmetic a

    valorilor x1, x2, .... xn.

    Fiind dat seria statistic (xi, ni), 1 i p, numrul

    n

    iiin

    ii

    p

    iii

    nxN

    n

    nx

    x1

    1

    1 1 ,

    n

    iinN

    1

    , se numete

    valoarea medie a variabilei x.

    Dac seria este dat cu intervalele (xi, xi+1) se consider valoarea central a intervalului pentru

    calculul lui x .

    Observaii:

    a) x reprezint, deci, media ponderat a valorilor x1, x2, .... xn de ponderi n1, n2, .... np.

    b)

    n

    iii

    n

    i

    ii

    n

    iii fx

    N

    nxnx

    Nx

    111

    1, unde f este frecvena relativ a valorii xi.

    Teorem:

    Dac x este valoarea medie a seriei (xi, ni), 1 i p, atunci oricare ar fi perechea de numere reale

    nenule (a, b), valoarea medie a seriei (axi + b, ni) este bxa .

    Observaie: Aceast teorem permite calculul mai rapid al valorii medii a unei serii statistice.

  • 11

    2. Media geometric

    Fiind date numerele reale pozitive nenule x1, x2, .... xn, numrul n ng xxxm ...21 este media

    geometric a numerelor x1, x2, .... xn.

    Observaie: Dac x1 = x2 = .... = xn = n, atunci se deduce imediat c mg = x.

    Dac x1, x2, .... xn, apar de p1, p2, ...., respectiv, pn ori atunci p p

    npp

    gnxxxm ....21 21 , unde

    n

    iipp

    1

    i

    se numete media geometric ponderat.

    Observaie: Dac p1 = p2 = .... = pn, atunci n ng xxxm ....21 .

    Propoziie: Media geometric, mg, a numerelor strict pozitive x1, x2, .... xn are urmtoarele proprieti:

    a) ini

    aini

    xmx

    11maxmin

    b) orinde

    gggn mmmxxx ......21

    c) n

    g

    k

    g

    k

    g

    g

    k

    gg x

    m

    x

    m

    x

    m

    m

    x

    m

    x

    m

    x

    .......21

    21 unde xi < mg, pentru ki ,1 i mg < xk+j, knj ,1

    Observaie: Utilitatea mediei geometrice n interpretarea unei serii statistice: media geometric se

    utilizez n determinarea indicelui mediu (descretere), adic a mediei geometrice a indicatorilor

    relativi cu baz mobil.

    Exemplu: n cazul seriei (xi, ni), un indicator relativ cu baz mobil este 1k

    k

    n

    n, iar indicele mediu

    este 112

    3

    1

    2 ...

    pp

    p

    n

    n

    n

    n

    n

    n. Indicele mediu, deci media geometric, msoar sugestiv, de exemplu,

    evoluia volumului valoric al unor produse ntr-o perioad de timp sau raportul mediu al preurilor.

    3. Media armonic

    Fiid date numerele x1, x2, ...., xn reale, nenule, numrul

    n

    h

    xxx

    nm

    1....

    11

    21

    este media

    armonic a numerelor x1, x2, ...., xn.

  • 12

    Observaie: Dac x1 = x2 = .... = xn = x, atunci se deduce c mh = x.

    Dac numerele x1, x2, ...., xn apar de p1, p2, ...., respectiv, pn ori, atunci:

    n

    n

    nh

    x

    p

    x

    p

    x

    p

    pppm

    ...

    ....

    2

    2

    1

    1

    21 i se numete media armonic ponderat a numerelor x1, x2, ...., xn cu

    ponderile p1, p2, ...., pn.

    n cazul seriei statistice (xi, ni), 1 i p, este media armonic ponderat a valorilor x1, x2, ...., xn ale

    caracteristicii de ponderi, frecvenele n1, n2, ...., respectiv, nn.

    p

    i i

    i

    h

    x

    n

    Nm

    1

    , unde

    p

    iinN

    1

    Observaie: n cazul n care ponderile ni sunt ni xi (cum se ntmpla adesea n practic), atunci:

    n

    iaiip

    iii

    i

    p

    iii

    h mxnN

    xnx

    xn

    m1

    1

    1 1

    1

    Observaie: Utilizarea mediei armonice n interpretarea datelor unei serii statistice

    Media armonic se folosete pentru calculul valorii medii a unei serii statistice a cror valori ale

    caracteristicii sunt, la rndul lor, medii.

    4. Media ptratic

    Fiind date numerele reale x1, x2, ...., xn, numrul n

    xxxm

    np

    222

    21 ... este media ptratic a

    numerelor x1, x2, ...., xn.

    Observaie: Dac x1 = x2 = .... = xn = x, atunci mp = x.

    Dac numerele x1, x2, ...., xn apar de p1, p2, ...., respectiv, pn ori, atunci:

    n

    nnp

    ppp

    xpxpxpm

    ...

    ....

    21

    2222

    211

    se numete media ptratic ponderat a numerelor x1, x2, ...., xn de ponderi p1, p2, ...., pn.

  • 13

    Observaie: Dac p1 = p2 = ... = pn, atunci n

    xxxm

    np

    222

    21 ...

    n cazul unei serii statistice (xi, ni), 1 i p p

    pp

    pnnn

    xnxnxnm

    ...

    ...

    21

    2222

    211

    .

    Observaie: utilizarea mediei ponderat n interpretarea datelor unei serii statistice.

    Media ponderat se aplic la calculul abaterii medii ptratice, adic a abaterii valorilor

    caracteristicii fa de media lor aritmetic, sup formula:

    n

    xx

    m

    p

    ii

    p

    1

    2

    sau

    p

    ii

    p

    iii

    p

    n

    xxn

    m

    1

    1 n cazul seriei (xi, ni), 1 i p.

    Teorem: Fiind date numerele reale, pozitive, nenule x1, x2, ...., xn, ntre numerele: mh, mg, ma i mp

    exist relaia:

    niipagh

    nii xmmmmx

    ,1,1

    maxmin

    Indicatori ai variaiei

    Valorile medii nu sunt suficiente pentru caracterizarea valorilor unei serii statistice.

    n continuare, vom introduce civa indicatori cu ajutorul crora vom stabili n ce msur o medie

    caracterizez valorile unei serii statistice, dac acestea sunt mai apropiate sau mai ndeprtate de

    medie.

    1. Amplitudinea

    Diferena dintre cea mai mare i cea mai mic valoare a caracteristicii se nhumete amplitudine.

    Observaie:

    a) Amplitudinea se poate schimba foarte repede, odat cu o abatere brusc a unei valori a

    caracteristicii.

    b) Amplitudinea se folosete frecvent la alegerea numrului grupelor unei serii statistice i a

    mrimii intervalelor acestora.

  • 14

    2. Abaterea absolut

    Diferena dintre fiecare valoare i valoarea medie a unei serii statistice se numete abatere absolut.

    Observaie: Abaterile absolute nu pot oferi o imagine de ansamblu, sintetic asupra variaiei unei

    caracteristici, de aceea folosesc i ali indicatori.

    xxi

    3. Abaterea medie liniar

    Media aritmetic a abaterilor tuturor valorilor caracteristicii de la valoarea medie, luate n valoare

    absolut,se numete abaterea medie liniar.

    Formal, n cazul seriei (xi, ni), 1 i p,

    p

    ii

    p

    ii

    n

    xx

    d

    1

    1 , unde d este abaterea medie liniar.

    Observaie: Abaterea medie ptratic are i limitri, acordnd aceeai importan tuturor abaterilor.

    Abaterile mai mari influeneaz n mai mare msur variaia medie.

    4. Dispersia

    Fiind dat seria statistic (xi, ni), 1 i p, numrul

    p

    ii

    p

    iii

    n

    nxx

    1

    1

    2

    2 se numete dispersia

    valorilor x1, x2, ...., xn.

    Dispersia este media aritmetic (ponderat) a ptratelor abaterilor absolute.

    Propoziie: Fiind dat seria (xi, ni), 1 i p, 222 )(xx .

    5. Abaterea medie ptratic

    Fiind dat seria (xi, ni), 1 i p, numrul 2 se numete abaterea medie ptratic a valorilor

    x1, x2, ...., xn.

    Observaii:

  • 15

    a) Formula de calcul pentru abaterea medie a valoriloe seriei (xi, ni), ] i p, este

    p

    i

    p

    iii

    n

    nxx

    11

    1

    2

    b) Se observ c reprezint media ptratic (ponderat) a abaterilor absolute xxi .

    c) Abaterea medie ptratic, fiind media ptratic, este mai mare dect abaterea medie

    liniar care este o medie aritmetic.

    6. Coeficientul de variaie

    Pentru compararea variaiei valorilor unor caracteristici, exprimate n uniti de msur diferite,

    se introduc ali indicatori care se exprim procentual (i fac abstracie de unitile de msur).

    Raportul dintre abaterea medie liniar sau abaterea medie ptratic i media seriei se numete

    coeficient de variaie.

    Aadar dac se noteaz cu V coeficientul de variaie, atunci x

    dV sau

    xV

    .

    Observaie: evident, dac coeficientul de variaie este mai mic, atunci valorile caracteristicii

    formeaz un ansamblu omogen, iar media lor este mai reprezentativ.

    Coeficieni de corelaie

    n practic, de multe ori, se studiaz o populaie statistic n funcie de dou sau mai multe

    caracteristici.

    Notm cu nij numrul de uniti din populaie care au valoarea i a unei caracteristici i

    valoarea j a altei caracteristici.

    Numrul

    n

    yyxxnp

    i

    q

    j

    m

    i

    l

    iij

    ml

    1 1

    , se numete moment centrat de ordinul lm.

    Se numete covarian numrul:

    ll

    p

    i

    q

    jiiij

    ijn

    yyxxn

    C ,1 1

    .

  • 16

    Coeficientul de corelaie al caracteristicilor de variabile X i Y este numrul:

    q

    j

    p

    ijij

    q

    j

    p

    iiij

    q

    j

    p

    iiiij

    ij

    yynxxn

    xxxxnC

    YX

    1 1

    2

    1 1

    2

    1 1

    2,00,2),(

    Coeficientul de corelaie liniar (Pearson)

    n practica cercetrii pot exista situaii n care avem dou msurri efectuate cu instrumente

    diferite. n aceste cazuri avem 2 variabile dependente cu valori perechi i nici o variabil

    independent. Pentru astfel de situaii problema care se pune este existena unei relaii de variaie

    reciproc a acelor dou variabile. Procedeul statistic utilizat este coeficientul de corelaie.

    Corelaia exprim o legtur cantitativ sistematic ntre valorile ntre valorile a dou

    variabile perechi, msurate pe subieci aparinnd aceluiai eantion de cercetare.

    Intensitatea legturii dintre cele dou variabile se exprim prin coeficientul de corelaie

    liniar, notat cu simbolul r. Introduc de K. Pearson, sau al moment-produsului, dup expresia

    uneia din formulele de calcul.

    Reprezentarea grafic a corelaiei

    Plasarea valorilor celor dou variabile pe un grafic produce o imagine intuitiv a relaiei

    dintre valori.

    n cazul unei corelaii pozitive, reprezentrile pot arta astfel:

    Tendina este aceea ca valorilor mari de pe axa orizontal s le corespund valori mari pe

    axa vertical. n cazul unei corelaii pozitive perfecte (r=+1), punctele de intersecie ale perechilor

    de valori se plaseaz pe o linie. Cu ct corelaia este mai mic, cu ct norul de puncte este mai larg

    dar forma elipsei indic relaia pozitiv dintre cele dou variabile.

  • 17

    Tendina corelaiei indirecte este aceea c valorilor mari de pe axa orizontal s le

    corespund valori mici pe axa vertical. Ca urmare, att linia corelaiei negative perfecte (r=-1) ct

    i diagonala mare a elipsei norului de puncte al corelaiei imperfecte se orienteaz din stnga sus

    spre dreapta jos a sistemului de coordonate.

    Atunci cnd corelaia dintre cele dou variabile este inexistent, norul punctelor de

    intersecie are o form circular, care nu contureaz nici o tendin (r=0).

    Interpretarea coeficientului de corelaie

    De-a lungul timpului au fost propuse diverse astfel de scale de valorizare, prin atrobuirea

    unor calificative coeficienilor de corelaie, n funcie de mrimea lor.

    Hopkins sugereaz interpretarea valorilor coeficienilor de corelaie dup cum urmeaz:

    0.0 0.1 Foarte mic, neglijabil

    0.1 0.3 Mic, minor

    0.3 0.5 Moderat, mediu

    0.5 0.7 Mare, ridicar, major

    0.7 0.9 Foarte mare, foarte ridicat

    0.9 - Aproape perfect

  • 18

    Indicatori ai formei distributiei

    Expresia grafic a distribuiilor poate fi descris de simetrie i boltire.

    1. Indicatorii de simetrie (skewness) indica in ce masura valorile centrale se abate spre

    dreapta/stanga fata de curba normala (teoretica, in cazul careia Media = Me = Mo).

    Oblicitatea = (Media - Mo) /

    sau

    Oblicitatea = 3(Media - Me) /

    O distribuie este simetric atunci cnd valorile acesteia se mpart n mod egal de o parte i

    de alta a valoriloe tendinei centrale. Se numesc asimetrice (skewed) distribuiile ale cror valori se

    concentreaz fie n zona valorilor mici (spre stnga) fie n zona valorilor mari (spre stnga).

    n cazul distibuiilor (perfect) simetrice, Mo, Me i Media se plaseaz pe aceai valoare.

    n cazul distribuiilor asimetrice cei trei indicatori au poziii diferite. Mediana se plaseaz

    ntotdeauna ntre mod i medie. Din acest motiv, mediana este cea mai reprezentativ valoare

    pentru distribuii aasimetrice. Media este afectat de valorile extreme, cu att mai mult cu acestea

    sunt mai puternic deviate. Ca urmare, n cazul distribuiilor puternic asimetrice, media nu este un

    indicator adecvat al tendinei centrale.

    Pentru o curb absolut simetric, indicele de oblicitate (skewness) are valoarea 0. Curbele

    asimetric pozitive au indicele de oblicitate cu valori pozitive iar cele asimetrci negative sunt

    semnalate de indici cu valori negative. Ca reper general de apreciere, recomandat de cei mai muli

    autori, un indice de oblicitate a crui valoare depete +1/-1 semnaleaz o asimetrie pronunat a

    distribuiei.

  • 19

    Comparaie ntre medie, median i modul a 2 distribuii normale log cu skewness diferit

    2. Indicatorii de Boltire (kurtosis) indica gradul de extindere pe vertical a curbelor de

    distribuiei. n termeni generali, sub aspectul boltirii, curbele pot fi de 3 categorii:

    1. leptokurtice (valori pozitive), cu majoritatea valorilor distribuite n zona mediei (au o form

    nalt i subire)

    2. mezokurtice, cu o prezen moderat a valorilor n zona mediei

    3. platikurtice (valori negative), cu valori medii relativ puine i o form aplatizat

    Indicatorul numeric al boltirii (kurtosis) are o plaj de variaie n jurul valorii 0 (care

    nseamn boltire medie, normal, mezocurtuc). Indicele de boltire pozitiv indic o curb

    nalt (leptocurtic), iar indicele de boltire negativ, o curb aplatizat (platicurtic).

    La fel ca i n cazul indicelui de oblicitate (skewness), cu ct acesta este mai ndeprtat de

    valorile +1/-1, avem de a face cu distribuii cu abatere accentuat de la boltirea normal.

    O distribuie cu kurtosis mare are un vrf ascuit i mai lung, cozi mai lungi, n timp ce o

    distribuie cu kurtosis sczut are mai un vrf mai rotunjit i mai scurt, cozi mai scurte.

  • 20

    Curba (clopotul) lui Gauss. 34,1% dintre cazuri sunt cuprinse intre medie si deviatia

    standard. Distributia normala modeleaza variabilele continue aleatoare (acestea iau valori cuprinse

    intre )

    Probability mass function funcie de mas a

    probabilitii (pmf) este o funcie care ne d

    probabilitatea dac o variabil aleatoare discret

    este egal cu o anumit valoare.

    Funcia de distribuie cumulat

    Repartiii statistice

    Seriile statistice se clasifica:

    1. In raport cu numarul variabilelor

    Serii statistice unidimensionale, au la baza o singura variabila;

    Serii statistice multidimensionale, care au la baza doua sau mai multe variabile.

    2. Dupa natura variabilelor deosebim:

    Serii atributive, care au la baza variabile atributive;

    Serii cronologice (de timp sau istorice), care au la baza variabile de timp;

    Serii de spatiu sau teritoriale, care au la baza o variabila de spatiu.

    3. Dupa modul de exprimare a starilor variabilei deosebim:

  • 21

    Serii calitative, care au la baza variabile calitative;

    Serii cantitative, care au la baza variabile cantitative si care dupa modul de variatie a

    variabilei pot fi: discrete (cand variabila este discrete) si continue (cand variabila este continua).

    4. In raport cu natura indicatomlui din care este alcatuita seria, avem:

    Serii de frecventa sau serii de distributie (repartitie);

    Serii de variatie.

    Forme ale distribuiilor de frecvene

    Repartiii statistice

    Seria frecvenelor relative, puse fa n fa cu valorile corespunztoare ale caracteristicii studiate

    formeaz aa-numita repartiie statistic a caracteristicii considerate, n cadrul colectivitii date.

    Noi nu cercetm dect pri din colectivitatea general. Pentru fiecare din aceste pri obinem

    diverse repartiii statistice.

    Rezultatele unei nregistrri statistice se prezint ntotdeauna sub forma unei repartiii statistice.

    Funcii de repartiie

    repartiia binomial,

    repartiia hipergeometric,

  • 22

    repartiia Poisson,

    repartiia normal,

    repartiia 2,

    repartiia Student,

    repartiia Fischer

    Repartiii discrete

    Repartiia binomial

    Repartiia hipergeometric.

    Repartiia Poisson

    Repartiii continue

    Repartiia uniform

    Repartiia exponenial

    Repartiia normal

    Repartiia 2

    Repartiia Student

    Repartiia Fischer

    Notaii: pmf = funcia de mas a probabilitii pdf = funcia de distribuie a probabilitii cdf = funcie a distribuiilor cumulate

    Repartiii discrete

    Repartiia Bernoulli - Jacob Bernoulli, care ia valoarea 1 cu o probabilitate p de succes i

    valoarea 0 cu o probabilitate de eec q = 1 p. Dac avem X variabil aleatoare cu aceast

    distribuie avem: pqXX 1)0Pr(1)1Pr(

    funcia de mas a probabilitii f a acestei distribuii este:

    cazurialte

    kdacap

    kdacap

    pkf

    ,0

    0,1

    1,

    );(

    parametri 0< p < 1, p valori k = {0, 1}

    pmf

    1.

    0.),1(

    kptp

    kptpq

    variaia )1( qp

  • 23

    cdf

    1.,1

    10.,

    0.,0

    kpt

    kptq

    kpt

    skewness

    pq

    pq

    media P kurtosis

    pq

    pq61

    mediana nedef. entropia )ln()ln( ppqq

    mod

    pqdaca

    pqdaca

    pqdaca

    1

    1,0

    ,0

    Repartiia binomial distribuie de valori discrete a numrului de succese ntr-o secven de n

    experimente independente yes/no, fiecare avnd un randamen cu probabilitatea p.

    Ca i un experiment succes/eec este denumit i experiment / ncercarea Bernoulli; cnd n = 1,

    distribuia binomial devine o distribuie Bernoulli. Distribuia binomial este baza pentru testul

    binomial sau semnificaie statistic.

    Binomial PDF and normal approximation for n = 6 and p = 0.5

    Repartiia hipergeometric este o distribuie probabilistic discret care descrie probabilitatea ca

    k succese n n trageri (ncercri) dintr-o populaie finit fr nlocuiri. (cf. distribuia binomial, care

    descrie probabilitatea a k succese n n trageri cu nlocuitor)

    La o variabil aleatoare X cu o distribuie hipergeometric funcia de mas probabilistic este dat

    de :

    n

    N

    kn

    mN

    k

    m

    kXP )(

  • 24

    unde,

    N dimensiunea populaiei

    N

    m - probabilitatea de succes iniial

    n numrul de trageri

    k numrul de succese

    b

    asunt coeficeni binomiali

    Este pozitiv cnd ),min(),0max( nmkNmn

    parametri N{1, 2, ...}

    m {0, 1, 2, ...., N}

    n {1, 2, ...., N}

    valori k = {max(0, n+m-M}, , min(m,n)}

    pmf

    n

    N

    kn

    mN

    k

    m

    variaia

    1

    )(

    N

    nN

    N

    mN

    N

    mn

    cdf

    k

    i

    n

    N

    in

    mN

    i

    m

    0

    skewness

    )2())((

    )2()1)(2(

    2

    1

    2

    1

    NnNmNnm

    nNNmN

    media

    N

    mn

    kurtosis

    )]65)()((6))(6

    )(6)1(()1[(

    )3)(2|)()((

    1

    2

    NnNnNnmnNn

    nNmNNNN

    NNnNmNnm

    mod

    2

    )1)(1(

    N

    mn

    Repartiia Poisson

    Este o distribuie discret care exprim probabilitatea unui numr dat de evenimente privind un

    interval fix de timp i/spaiu dac aceste evenimente se ntmpl cu o medie cunoscut i

    independent de timp de la ultimul eveniment. (Distribuia Poisson poate fi de asemenea utilizat

    pentru numrul de evenimente n alte intervale specificate cum ar fi: distana, aria sau volumul.)

  • 25

    Probability mass function Cumulative distribution function

    The horizontal axis is the index k, the number

    of occurrences. The function is only defined at

    integer values of k. The connecting lines are

    only guides for the eye.

    The horizontal axis is the index k, the number of

    occurrences. The CDF is discontinuous at the

    integers of k and flat everywhere else because a

    variable that is Poisson distributed only takes on

    integer values.

    notatie Pois()

    parametri )(0 real valori k {0, 1, 2, 3, }

    pmf e

    k

    k

    !

    variaia

    skewness -1/2

    cdf

    k

    i

    i

    ie

    saukptk

    k

    0 !

    0,]![

    )],1([

    Unde (x,y) este functia

    gamma incompleta si

    [k] este functia floor

    kurtosis -1

    entropia

    0 !

    )!log()]log(1[

    k

    k

    k

    ke

    (pt. mari)

    43

    2

    1

    360

    19

    24

    1

    12

    1)2log(

    2

    1

    O

    e

    media

    mediana [ + 1/3 0.02/]

    mod [] - 1

  • 26

    Repartiii continue

    Repartiia uniform continu sau distribuie rectangular este o familie de distribuii obinut

    pentru fiecare membru al familiei, toate intervalele de aceleai lungime a distribuiei suport sunt

    egal probabile. Suportul este definit de 2 parametri, a i b, care sunt valorile minime i maxime.

    Notat de obicei, U(a,b). Este distribuia cu maxim entropie pentru o variaie aleatoare X fr

    constrngeri altele dect cele coninute n distribuia suport.

    Repartiia uniform

    Probability density function Cumulative distribution function

    Using maximum convention

    notatie ),( baU

    parametri - < a < b < valori x [a, b]

    pmf

    cazurialte

    baxptab

    ,0

    ],[,1

    variaia 2)(12

    1ab

    skewness 0

    cdf

    bxpt

    baxptab

    ax

    axpt

    .,1

    ],[.,

    .,0

    kurtosis

    5

    6

    entropia ln(b-a)

    media )(

    2

    1ba

    mediana )(

    2

    1ba

    mod orice valoare in [a,b]

  • 27

    Repartiia exponenial (distribuia exponenial negativ) descrie timpul ntre evenimente n

    procesul Poisson, un proces n care evenimentele se petrec continuu i independent la o rat medie

    constant

    Probability density function Cumulative distribution function

    parametri > 0 rate sau scala inversa valori x [0,)

    pdf e-x variaia -2

    skewness 2

    cdf 1-e-x kurtosis 6

    entropia 1 ln()

    media -1

    mediana -1 ln2

    mod 0

    Repartiia normal (sau Gaussian) este o distribuie continu utilizat deseori ca prim

    aproximare de descriere a unor valori reale alese aleator care tind s se concentreze n jurul unei

    singure valori medii. Graficul asociat este sub form de clopot, cunoscut ca i funcie Gaussian

    sau curba clopot: 2

    2

    2

    )(

    22

    1)(

    x

    exf

    unde parametrul este media (localiia

    vrfului) i 2 estevariania (msura

    limii distribuiei). Distribuia cu = 0 i

    2 = 1 este denumit normal standard.

  • 28

    Repartiia normal

    Probability density function Cumulative distribution function

    The red line is the standard normal distribution

    notaie N(, 2)

    parametri - media (locaia)

    2 > 0 variaia

    valori x

    pmf 2

    2

    2

    )(

    22

    1

    x

    e variaia 2

    skewness 0

    cdf

    221

    2

    1

    xerf

    kurtosis 0

    entropia )2ln(

    2

    1 2e

    media

    mediana

    mod

    Repartiia 2 (sau chi-square sau -distribution) distribuia chi-ptrat cu k grade de libertate

    este distribuia sumei ptratelor a k variabile aleatorii normale standard independente. Este unul din

    cele mai des ntlnite distribuii n statistica inferenial, n verificarea ipotezelor sau n definirea

    intervalelor de ncredere.

  • 29

    Probability density function Cumulative distribution function

    notatie )(2 k sau 2k

    parametri k N1 grade de

    libertate

    valori x [0, +)

    pdf 2/12/2/ )2/(2

    1 xkk

    exk

    variaia 2k

    cdf )2/,2/(

    )2/(

    1xk

    k

    skewness k/8

    media k kurtosis 12/k

    mediana 3

    9

    21

    kk

    entropia )2/()2/1())2/(2ln(

    2kkk

    k

    mod max(k-2,0)

    Repartiia Student (distribuia t) este o distribuie continu care estimeaz media populaiei

    normal diostribuit n situaii n care eantionul este mic i deviaia standard a populaiei este

    necunoscut.

    Utilizat pentru evaluarea semnificaiei statistice ntre mediile a 2 eantioane diferite, aflarea

    intervalele de ncredere pentru diferena ntre mediile a 2 populaii i analiza regresiei

    liniare.

    Face analiz Bayesian a datelor pentru o familie normal de date.

    Distributia t este simetric i sub form de clopot, ca i distribuia normal, dar are cozi mai

    lungi, nsemnnd c este mai abrupt la apflarea valorilor deprtate de medie. Este util

    pentru nelegerea comportamentului statistic a tipurilor sigure de pri ale cantitilor

  • 30

    aleatorii, n care variaia de la numrtor este amplificat i poate produce valori periferice

    cnd numrtorul fraciei tinde spre 0..

    Este un caz special al distribuiei generalizate hiperbolice

    Probability density function Cumulative distribution function

    parametri > 0 grade de libertate valori x (-, +)

    pdf

    2

    12

    1

    2

    2

    1

    x

    variaia

    2

    pt.>2, pt. 1 <

    2, n alte cazuri

    nedefinit

    cdf

    2

    ;2

    1,

    2

    1

    2

    1

    2

    1

    2

    12

    xF

    x

    unde 2F1 este funcia

    hipergeometric

    skewness 0 pt. > 3

    media 0 pt > 1, alte cazuri

    nedefinit

    kurtosis

    4

    6

    mediana 0

    mod 0

  • 31

    1 degree of freedom 2 degrees of freedom 3 degrees of freedom

    5 degrees of freedom 10 degrees of freedom 30 degrees of freedom

    Repartiia Fischer

    Cunoscut sub denumirea de distribuia F sau Fisher-Snedecor.

    Funcia de repartiie F (FisherSnedecor) are ca densitate de probabilitate curba F. Funciile acestei

    clase de repartiii teoretice sunt difereniate de doi parametri, d1 i d2, numii grade de libertate. Din

    aceast cauz se utilizeaz notaia F(d1,d2).

    Repartiia F este utilizat pentru testarea ipotezelor n care se compar dou dispersii.

    Ca rezultat important menionm:

    Dac X1 i X2 sunt dou v.a. repartizate 2 cu d1 i, respectiv, d2 grade de libertate, atunci v.a. X

    definit prin 21

    12

    22

    11

    /

    /

    Yd

    Yd

    dY

    dYX este repartizat F(d1,d2).

    Teorema arat c raportul a dou dispersii de sondaj dintr-o populaie normal are o repartiie F i de aici provine denumirile uzuale: d1 gradele de libertate ale numrtorului i, respectiv, d2 gradele de libertate ale numitorului.

    Alt rezultat important este:

  • 32

    Dac v.a. T este repartizat Student cu d grade de libertate, atunci X = T2 este repartizat F(1;d).

    Probability density function Cumulative distribution function

    parametri d1 > 0, d2 > 0 grade de

    libertate

    valori x [0, +)

    pdf

    2,

    2

    )(

    )(

    21

    21

    21

    21

    21

    ddxB

    dxd

    dxddd

    dd

    variaia

    )4()2(

    )2(2

    22

    21

    2132

    ddd

    ddd

    pentru d2>4

    cdf )2/,2/( 2121

    1ddI

    dxd

    xd

    skewness

    )2()6(

    )4(8)22(

    2112

    221

    dddd

    ddd

    pentru d2 > 6

    media

    22

    2

    d

    d, pentru d2 > 2

    kurtosis

    mod

    2

    2

    2

    2

    1

    1

    d

    d

    d

    d

    pentru d1 > 2