Download - Petrehus Si Popescu Lectii Prob Stat II

Transcript
  • UNIVERSITATEA TEHNICA DE CONSTRUCTII BUCURESTI

    CATEDRA DE MATEMATICA

    Viorel PETREHU Sever-Angel POPESCU

    PROBABILITI

    I STATISTIC

    (teorie, exemple, probleme)

    BUCURETI 1997

  • Cuprins

    Cuvnt nainte v

    I Probabilitati 1

    1 Denitia probabilitatii 21.1 Denitia clasica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Denitia axiomatica a probabilitatii . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Probabilitati conditionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.5 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2 Variabile aleatoare simple 142.1 Denitie si proprietati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Spatiul de probabilitate produs . . . . . . . . . . . . . . . . . . . . . . . . . . 192.3 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3 Cmpuri de probabilitate 24

    3.1 Variabile aleatoare pe cmpuri de probabilitate . . . . . . . . . . . . . . . . 253.2 Media unei variabile aleatoare oarecare . . . . . . . . . . . . . . . . . . . . . . 273.3 Functia de repartitie

    densitatea de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4 Integrala Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.5 Media si functia de repartitie . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.6 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.7 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    i

  • CUPRINS ii

    4 Legi clasice 43

    4.1 Repartitia binomiala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2 Repartitia Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3 Repartitia uniforma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4 Repartitia Normala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.5 Repartitia exponentiala negativa . . . . . . . . . . . . . . . . . . . . . . . . . 514.6 Repartitia Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.7 Repartitia X2(hi patrat) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.8 Repartitia Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.9 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.10 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    5 Legi limita 605.1 Legea numerelor mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615.2 Teoreme limita centrala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.3 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.4 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    6 Dependenta ntre variabilele aleatoare 72

    6.1 Coecientul de corelatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.2 Variabile aleatoare bidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 746.3 Functia de repartitie conditionata . . . . . . . . . . . . . . . . . . . . . . . . . 796.4 Distributia sumei si ctului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    6.4.1 Distributia sumei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 816.4.2 Distributia ctului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    6.5 Distributia Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826.6 Distributia Snedecor-Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846.7 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    7 Procese aleatoare 897.1 Procese Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 907.2 Procese Markov discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 927.3 Procese de nastere si moarte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    7.3.1 Model de asteptare cu o singura statie de deservire si un numar marede unitati ce au nevoie de serviciile statiei. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

    7.3.2 Model de asteptare cu o singura statieiar numarul de unitati care au nevoie de serviciile statiei este limitat lao valoare data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

  • CUPRINS iii

    7.3.3 Model de asteptare cu n statii de deservire si cu N unitati ce trebuiedeservite (1

  • CUPRINS iv

    12 Testul neparametric 2 17412.1 Principiul testului 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

    12.1.1 Teste asupra formei unei distributii . . . . . . . . . . . . . . . . . . . . 17912.1.2 Teste de independenta . . . . . . . . . . . . . . . . . . . . . . . . . . . 17912.1.3 Teste de omogenitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

    12.2 Rezumat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18412.3 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18512.4 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

    13 Alte teste neparametrice 19013.1 Testul de concordanta Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . 19013.2 Testul lungimilor (secventelor) . . . . . . . . . . . . . . . . . . . . . . . . . . 19213.3 Testul lui Wilcoxon I (cazul observatiilor necuplate) . . . . . . . . . . . . . . 19413.4 Testul semnelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19513.5 Testul lui Wilcoxon II (cazul observatiilor cuplate) . . . . . . . . . . . . . . . . 19613.6 Exercitii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

    14 Analiza dispersiei si analiza regresiei 20014.1 Analiza dispersiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20014.2 Analiza regresiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

    14.2.1 Metoda celor mai mici patrate (C. F. Gauss) . . . . . . . . . . . . . . 20414.2.2 Conditiile GaussMarkov pentru metoda celor mai mici patrate . . . . 20514.2.3 Masura deviatiei la metoda celor mai mici patrate . . . . . . . . . . . 20714.2.4 Intervale de ncredere si teste pentru 0 si 1 . . . . . . . . . . . . . . 210

  • Cuvnt nainte

    Cursul de fata a fost scris n perioada 1996-1997 de catre Viorel Petrehus (partea I, probabil-itati) si Angel Popescu (partea a II-a, statistica) pentru studentii anului II din UniversitateaTehnica de Constructii Bucuresti si a aparut n 1997 multiplicat n atelierele universitatii. Ela fost gndit n 14 lectii, cte una pe saptamna, pe parcursul unui semestru. Fiecare lectiese ncheie cu exercitii.Autorii sunt recunoscatori tuturor celor care au contribuit cu observatiile lor la buna

    organizare a materialului prezentat.

    Autorii

    v

  • Partea II

    Statistica

    106

  • Lectia 8

    Statistica descriptiva

    In cele ce urmeaza vom ncerca sa explicam ce este statistica, cum difera ea de teoria probabil-itatilor, ce o leaga de aceasta, care sunt partile ei componente si cum ncepe demersul practicntr-o problema de statistica (adica vom spune cteva cuvinte despre statistica descriptiva).Atunci cnd omul nu a mai putut intui a nceput sa masoare. Masuratorile si obser-

    vatiile au devenit prima treapta spre ntelegerea legilor naturii. Dar, n acest fel, omul numai poate sa cunoasca direct realitatea, el poate numai sa o aproximeze succesiv prin modelezice si apoi prin modele matematice. Dar aceste modele nu descriu exact Realitatea. Ele oaproximeaza si apar asa numitele erori. Unele erori sunt previzibile, altele nsa sunt ntm-platoare (aleatoare). Aceste ultime erori (aleatoare) au si ele legile lor de manifestare. Apardeci fenomenele aleatoare descrise prin variabilele aleatoare. Teoria probabilitatilor pleaca dela ipoteza ca se cunosc exact aceste variabile aleatoare (prin functiile de probabilitate, prinfunctiile de repartitie, prin functiile caracteristice, etc.). Statistica pleaca de la masurato-rile brute si cauta sa regaseasca modelul probabilistic teoretic exact care se aa n spateleacestor masuratori. Partea empiricaa statisticii care se ocupa de prelucrarea datelor obt-inute prin masuratori sau observatii se numeste statistica descriptiva. Aparatul matematic alteoriei probabilitatilor, pus n functiune pentru a studia si interpreta aceste date, n dorintade a recupera modelul probabilistic real, care guverneaza fenomenul masurat sau observat,formeaza inferenta statistica. Dupa ce cercetatorul capata informatii sucient de clare desprefenomenul probabilistic studiat, el va trebui sa actioneze optim potrivit acestor informatii.Apare deci teoria deciziei statistice, care este o ramura importanta a statisticii.

    8.1 Statistica unei variabile

    Multimea de obiecte studiata se numeste populatie. Un obiect separat dintr-o populatiedata se numeste individ sau membru al populatiei. Trasatura comuna a tuturor membrilorpopulatiei care ne intereseaza n studiul nostru se numeste caracteristica. Caracteristicilepot cantitative (naltime, greutate, nota la examen, abscisa unui punct n plan, etc...) sau

    107

  • LECTIA 8. STATISTICA DESCRIPTIVA 108

    calitative (culoarea ochilor, sex, loc de nastere, etc...). Oricum statistica lucreaza cu numere,caracteristicilor calitative li se atasaza coduri numerice.

    Exemplul 8.1 Ne intereseaza statistica ploilor n Bucuresti pe anul 1995, zilnic. Aici popu-latia este multimea zilelor din anul 1995, un individ al populatiei este o zi anume din acest an,de exemplu 3 ianuarie, iar caracteristica calitativa este faptul ca a plouat sau nu n acea zi.Daca a plouat punem 1 si daca nu, putem 0. Numerele 1 si 0 reprezinta coduri n statisticarespectiva.

    Presupunem n continuare ca avem numai caracteristici cantitative ale unor populatii, maiexact avem multimi brute de numere reale, sau tabele de numere reale. Privim aceste numereatasate unei populatii ca ind valori ale unei variabile aleatoare X. Vom spune pe scur: epopulatia X.

    Exemplul 8.2 O masina produce piese cilindrice ne, cu diametru standard xat = 3 cm.Fiecare piesa are o abatere de la acest diametru, masurata n microni. Aceste abateri formeazao populatie n sensul de mai sus, mai bine zis valorile unei variabile aleatoare X. Noi nuputem sa precizam de la nceput ce abatere va avea o piesa luata la ntmplare, dar putemface o selectie de n piese si putem masura abaterile lor: x1; x2; :::; xn. Fiecare xi reprezintao valoare a v.a. X care, teoretic vorbind, are o densitate de probabilitate (x) si o functie derepartitie F (x).

    Denitia 8.3 O multime de n observatii independente asupra unei caracteristici numerice Xa unei populatii P, care ne da n valori x1; x2; :::xn , se numeste selectie de volum n. Sirul devalori (xi)1in l vom numi serie statistica discreta.

    In exemplul de mai sus facem o selectie de volum n din multimea pieselor si construim asanumita functie de repartitie empirica F n(x).

    Denitia 8.4 Se numeste functie de repartitie empirica asociata unei variabile aleatoare Xsi unei selectii fx1; x2; :::; xng;functia F n : R! R

    F n (x) =nr. de valori xj < x

    n=kxn

    Teorema de mai jos pune n evidenta ca functiile de repartitie empirice aproximeaza orictde bine functia reala de repartitie.

    Teorema 8.5 Fie P o populatie statistica si X variabila aleatoare atasata ei cu functia derepartitie F (x). Pentru o selectie de volum n: {x1; x2; :::; xng construim ca mai sus functiade repartitie empirica F n(x). Atunci

    Pr ob fj F (x) F n(x) j g ! 0cnd n!1; pentru orice > 0, xat. Altfel spus F n(x)! F (x) n probabilitate.

  • LECTIA 8. STATISTICA DESCRIPTIVA 109

    Demonstratie Sa notam cu p =ProbfX < xg = F (x), si cu F n(x) = kxn (vezi denitia demai sus). Notam cu 1; :::; n v.a. construite astfel: j are valoarea 1 daca xj < x si 0 n cazcontrar. Variabilele 1; :::n sunt independente (ca valori ale unor observatii independente) siau distributia

    1 0p 1-p

    Avem M(i) = p; D (i) = p(1 p). Este clar ca v.a. Yn = 1++nn are media p si dispersia

    D(Yn) =1

    n2(D (1) + :::+D (n)) =

    p(1 p)n

    (a se vedea proprietatile mediei si dispersiei, Lectia 2). Aplicam acum inegalitatea lui Cebsevlui Yn si gasim ca

    Prob (j F n(x) F (x) j )= Prob (jYn pj ) D (Yn)

    2=p2(1 p)2n2

    Cum partea dreapta tinde la 0 cnd n ! 1 rezulta ca F n(x) ! F (x) n probabilitate,cnd n!1.QED.In urma oricarei selectii de volum n dintr-o populatie de numere se obtine un sir nit de

    n numere numit serie statistica (de volum n). Cum construim o densitate de probabilitateempirica? Pentru a raspunde la aceasta ntrebare grupam termenii unei serii statistice nintervale disjuncte: I1,I2,...,Ik, dupa criterii mai mult sau mai putin subiective. Asociemecarui interval Ij mijlocul lui, Mj. Punctului Mj i asociem frecventa relativa a v.a. empiricepe intervalul Ij, adica ctul dintre numarul nj al acelor xi care se aa n Ij si n (volumul

    ntregii selectii): nj=n. Este clar ca n felul acesta obtinem o v.a. eXn exjnj=nj = 1; 2; :::; k,

    unde exj este abscisa punctului Mj. Gracul functiei de probabilitate al v.a. eXn se numestehistograma asociata selectiei x1; :::; xn si mpartirii n intervale I1,...,Ik. Daca unim printr-o linie poligonala punctele de coordonate (exj; nj=n) obtinem un poligon al frecventelor ceaproximeaza de fapt gracul functiei densitate de probabilitate al v.a. X pe un interval nit(I1[I2 [ [Ik) care contine numerele x1,...,xn.Pentru o selectie data fx1; :::; xng se introduc diferiti indicatori empirici care dau anumite

    informatii despre ntreaga populatie.

    Denitia 8.6 Fie fx1; x2; ::xng o selectie de volum n.i) m = x1+x2+::xn

    nse numeste media empirica.

    ii) mr =xk1+x

    k2+::+x

    kn

    nse numeste momentul empiric de ordinul r.

    iii) k =(x1m)k+(x2m)k+:::+(xnm)k

    nse numeste momentul empiric centrat de ordin k.

  • LECTIA 8. STATISTICA DESCRIPTIVA 110

    iv) S2=D = 2 = (x1m)2+(x2m)2+:::+(xnm)2

    nse numeste dispersia empirica sau vari-

    anta empirica. se numeste deviatia standard.v) S 02 = (x1m

    )2+(x2m)2+:::+(xnm)2n1 se numeste dispersia empirica modicata.

    vi) Valoarea 2 R astfel ca numarul de valori xi este egal cu numarul de valorixi , se numeste mediana. Daca exista mai multe asemenea valori pentru , atunci eleformeaza un interval si mediana este prin denitie mijlocul acestui interval.vii) Valoarea xi cu frecventa maxima de aparitie se numeste modul selectiei. (este posibil

    sa nu e unic)viii) Se numeste prima cvartila a selectiei, cel mai mic x astfel ca numarul de valori xj x

    sa e 14n . A treia cvartila este cea mai mica valoare xi astfel ca numarul de valori xj xisa e 34n. Analog se deneste a p-a cuantila de ordin q ca cea mai mica valoare xi astfelca numarul de valori xj xi sa e pqn.

    Observatia 8.7 In cazul cnd datele sunt grupate pe intervale, denitiile de mai sus serefera la mijloacele intervalelor, ecare mijloc ind considerat de attea ori cte valori se aan el.In general daca o valoare xi se repeta atunci vom nota cu ni numarul de aparitii, si

    cu fi = nin frecventa relativa. Formulele de mai sus pot scrise m =

    Pnixin

    =Pfixi,

    2 =Pfi (xi m)2, etc. Insumarea se face acum numai dupa valorile xi distincte. Seria

    statistica o vom nota n acest caz (xi; ni)1ip, punnd n evidenta de cte ori apare ecarevaloare. Media si mediana descriu centrul valorilor de selectie iar dispersia este o masura a

    mprastierii acestor valori n jurul centrului. Modul indica n ce zona sunt cele mai probabilevalori. Cuantilele indica n ce zone se aa un anumit procent de valori.

    Propozitia 8.8 Urmatoarele formule au loc:

    S2 =nPx2i (

    Pxi)

    2

    n2(8.1)

    S0 2 =nPx2i (

    Pxi)

    2

    n(n 1) (8.2)

    S0 2 =Px2i

    n 1

    n

    n 1m2 (8.3)

    Demonstratie. Sunt calcule simple lasate ca exercitiu.

    Observatia 8.9 In general n calcule nu utilizam notatiile m; D; etc. ci m, D, ... Am intro-dus aici notatiile m; D; :: pentru a le distinge de m=media teoretica, D=dispersia teoretica,etc., care se vor introduce n lectia urmatoare.

  • LECTIA 8. STATISTICA DESCRIPTIVA 111

    Exemplul 8.10 O rma este interesata de timpul mediu al convorbirilor telefonice si dedistributia acestor timpi fata de timpul mediu (dispersia) pe durata a 40 convorbiri telefoniceconsecutive. Timpii s-au rotunjit n minute si rezultatul sondajului a dat urmatorii timpi: 4,6, 4, 4, 7, 2, 3, 1, 2, 1, 1, 4, 9, 8, 11, 12, 3, 2, 1, 1, 3, 9, 4, 5, 7, 7, 9, 10, 10, 1, 2, 2, 3, 11,12, 10, 1, 1, 3, 4. Sa se faca si o histograma a frecventelor relative si un grac al functiei derepartitie pentru acest sondaj.

    Solutie Facem mai nti urmatorul tabel :

    timpi de numarul frecv. relativa frecv. cumulataconvorbire ti convorbirilor ni fi = ni=n F(ti)1 min 8 8=40 8=402 min 5 5=40 8

    40+ 5

    40= 13

    40

    3 min 5 5=40 840+ 5

    40+ 5

    40= 18

    40

    4 min 6 6=40 24=405 min 1 1=40 25=406 min 1 1=40 26=407 min 3 3=40 29=408 min 1 1=40 30=409 min 3 3=40 33=4010 min 3 3=40 36=4011 min 2 2=40 38=4012 min 2 2=40 40=40 = 1

    media convorbirilor este

    m =X

    ti ni=n = 1n

    Xti fi

    =1

    40(1 8 + 2 5 + 3 5 + 4 6 + 5 1 + +6 1

    +7 3 + 8 1 + 9 3 + 10 3 + 11 2 + 12 2)= 5

    dispersia empirica esteX(ti m)2 ni=n

    =

    1

    40(1m)2 8 + (2m)2 5 + (3m)2 5 + + (12m)2 2

    = 13; 179

    mediana este 4, prima cvartila este 2, a treia cvartila este 8,25, modul este 1. histograma frecventelor este

  • LECTIA 8. STATISTICA DESCRIPTIVA 112

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    1 2 3 4 5 6 7 8 9 10 11 12

    histograma frecventelor cumulate este:

    0

    0,2

    0,4

    0,6

    0,8

    1

    1 2 3 4 5 6 7 8 9 10 11 12

    Exemplul 8.11 Se da o selectie de 150 de numere fx1; x2; :::; x150g cu media de selectiem=102, 42. Aceste numere se grupeaza n 8 intervale [81; 5; 87; 5); [87; 5; 93; 5); :::; [123; 5; 129; 5),de lungime 6 unitati. Ele se repartizeaza n aceste intervale dupa cum urmeaza: n primulinterval avem 2 numere (n1=2), n al doilea 23 de numere (n2=23), f3=22, n4=65, n5=20,n6=10, n7=0, n8=8.a) Sa se calculeze media selectiei. b) Sa se calculeze dispersia selectiei.

    Solutie a) este lasat ca exercitiu; se gaseste m = 102; 42:b) Se face urmatorul tabel de calcule:

  • LECTIA 8. STATISTICA DESCRIPTIVA 113

    xj(mijlocul int:)

    nj xj m (xj m)2 (xj m)2 nj84; 5 2 17; 92 321; 1264 642; 252890; 5 23 11; 92 142; 0864 3267; 987296; 5 22 5; 92 35; 0464 771; 0208102; 5 65 0; 08 0; 0064 0; 4160108; 5 20 6; 08 36; 9664 739; 3280114; 5 10 12; 08 145; 9264 1459; 2640120; 5 0 18; 08 326; 8864 0; 0006126; 5 8 24; 08 579; 8464 4638; 7712

    __________11519; 0400

    Gasim S2 =P(xjm)2nj

    n= 11519;04

    150= 76; 79. Pentru vericare putem folosi formula S2 =P

    x2jnj

    nm2 care este mai comoda, dar cere o coloana separata cu calculul lui x2j .

    8.2 Statistica a doua variabile

    Sa presupunem ca avem doua caracteristici numerice care se urmaresc, de exemplu naltimeasi greutatea. Prin testare se gaseste urmatoarea situatie: xi sunt greutatile, yj sunt naltimileobservate (grupate pe intervale), iar la ntretaierea coloanei i cu linia j se aa numarul decazuri observate, ni;j.

    xi!yj# 43 48 53 58 n:;j152 20 8 2 0 30157 2 18 1 4 25162 0 1 10 4 15167 0 1 4 15 20ni;: 22 28 16 23 N=80

    Notam o asemenea serie de observatii prin (xi; yj; ni;j)1ip1jq

    . Avem de exemplu la x2=48

    si y1=152 un numar de n2;1 =8 cazuri nregistrate.Se denesc urmatoarele marimi:i) ni;: =

    Pj ni;j, n:;j =

    Pi ni;j, N=

    Pi;j ni;j. Seria (xi; ni;:) se numeste seria marginala n

    x, iar seria (yj; n:;j) se numeste seria marginala n y. fi;: =ni;:Nsi f:;j =

    n:;jNse numesc frecvente

    marginale, iar fi;j =ni;jNse numeste frecventa dubla.

    ii) mx =Pi;j ni;jxi

    N=

    Pi ni;:xiN

    si my =Pi;j ni;jyj

    N=

    Pj n:;j yj

    Nse numesc medii marginale.

    ii)

    2x =

    Pi;j ni;j(xi mx)2

    N=

    Pi ni;: (xi mx)2

    N=

    Pi ni;:x

    2i

    Nm2x

  • LECTIA 8. STATISTICA DESCRIPTIVA 114

    si

    2y =

    Pi;j ni;j(yj my)2

    N=

    Pj n:;j

    yj my

    2N

    =

    Pj n:;jy

    2j

    Nm2y

    se numesc dispersii (variante) marginale.iv) Covarianta seriei este numarul

    cov(x; y) =

    Pi;j ni;j (xi mx)

    yj my

    N

    =

    Pi;j ni;jxiyj

    Nmxmy:

    v) Coecienrtul de corelatie liniara al seriei este x;y =cov(x;y)xy

    .In cazul de mai sus gasim

    mx =22 43 + 28 48 + 16 53 + 23 58

    80= 49; 438;

    my =30 152 + 25 157 + 15 162 + 20 167

    80= 157; 313;

    2x =

    22 (43 49; 438)2 + 28 (48 49; 438)2++16 (53 49; 438)2 + 23 (58 49; 438)2

    80= 28; 246;

    2y

    30 (152 157; 313)2 + 25 (157 157; 313)2++15 (162 157; 313)2 + 20 (167 157; 313)2

    80= 26; 465;

    cov(x; y) =

    20 (43 49; 438) (152 157; 313)++8 (48 49; 38) (152 157; 313)+:::+ 15 (58 49; 438) (167 157; 313)

    80= 18; 926;

    x;y =18; 926p

    28; 246 26; 465 = 0; 692:

    Reprezentarea graca a datelor se face prin discuri pline: n punctul (xi; yj) se pune undisc cu aria proportionala cu numarul de observatii care au dat greutatea xi si naltimea yj.Se obtine histograma:

  • LECTIA 8. STATISTICA DESCRIPTIVA 115

    42.5 45 47.5 50 52.5 55 57.5

    152.5

    155

    157.5

    160

    162.5

    165

    167.5

    ( dreapta nu face parte din histograma; vezi n continuare)Doua selectii de acelasi volum n din doua populatii diferite, fx1; :::; xng si fy1; :::; yng se

    zic corelate prin functia y = f(x) daca yk = f(xk), pentru k = 1; 2; :::; n.Daca f(x) = ax + b, corelatia se zice liniara. Am vazut n lectia 6 ca x;y = 1 este

    echivalent cu faptul ca punctele (xi; yj) sunt de-a lungul unei drepte. Dacax;y este apropiat

    de 1 atunci datele (xi; yj) sunt aproximativ pe o dreapta y = ax+ b. Reluam aici, n variantafolosita n aplicatii acest lucru.

    Teorema 8.12 Fie (xi; yj; ni;j)1ip1jq

    o selectie dubla. Atunci:

    a) 1 x;y 1 si semnul egal apare daca si numai daca punctele (xi; yj), pentru ni;j 6= 0;sunt coliniare.b) Ecuatia dreptei y = ax+b, unde coecientii a; b sunt determinati de conditia ca expresia

    (a; b) =X

    (xi;yj)=observat

    (yj axi b)2 =Xi;j

    ni;j (yj axi b)2

    sa e minima, este:

    y =cov(x; y)

    2x(xmx) +my (8.4)

    Aceasta dreapta se numeste dreapta de regresie a lui y n x.

    Demonstratie.a) Deoarece ni;j 0, atunci expresia E =

    Pi;j ni;j

    t(yj my) + (xi mx)

    2este pozitiva

    pentru orice t 2 R. Ridicnd la patrat, gasim: t22y +2cov (x; y) t+2x 0 pentru orice t 2 R.Prin urmare = 4cov2 (x; y) 42y 2x 0. Prin mpartire cu 2x 2y gasim 2x;y 1, adica1 x;y 1: Daca = 1 atunci = 0 deci exista t0 astfel ca E = 0, deci ecare paranteza

  • LECTIA 8. STATISTICA DESCRIPTIVA 116

    este egala cu 0, deci pentru orice i; j, pentru care ni;j 6= 0 avem t0yj my

    + xi mx = 0,

    deci punctele (xi; yj) cu ni;j 6= 0 sunt coliniare.b) @(a;b)

    @a= 0; @(a;b)

    @b= 0 formeaza un sistem liniar n a si b cu solutiile a = cov(x;y)2x ,

    b = my amx.QED.Analog se determina dreapta de regresie a lui x n y. Cele doua drepte sunt distincte. Ele

    coincid doar daca datele (xi; yj) sunt coliniare. In cazul de mai sus gasim y = 0; 67x+124; 188,dreapta care este reprezentata pe histograma datelor.Daca f(x) = ax2+bx+c, corelatia se zice parabolica. Coecientii se determina din conditia

    ca (a; b; c) =P

    i;j ni;j (yj ax2i bxi c)2 sa e minima.Daca f(x) = aebx, corelatia se zice exponentiala si se reduce prin logaritmare tot la o

    corelatie liniara: ln (f (x)) = ln (a) + bx. Coecientii = ln (a) si b se determina din conditiaca (; b) =

    Pi;j ni;j (ln (yj) bxi)2 sa e minima.

    Daca f(x) = axb, atunci avem prin logaritmare ln(f(x)) = ln(a)+ b ln (x), si, la fel ca maisus se deduc coecientii = ln (a) si b din conditia (; b) =

    Pi;j ni;j (ln(yj) b ln(xi))2

    sa e minima.In multe situatii pentru ecare xi avem doar o valoare y pe care o notam yi, deci valorile

    (xi; yi) sunt pe gracul unei functii. Determinarea unei functii care ajusteaza datele respectiveprin metoda celor mai mici patrate consta n propunerea unui model de functie, f(x; a; b; ::);si determinarea parametrilor a; b; :: din conditia (a; b; ::) =

    Pi (yi f (xi; a; b; ::))2 sa e

    minima.

    8.3 Exercitii

    1. S-a facut un sondaj preelectoral pe un esantion de 100 persoane. Am notat cu A, B, C,D, E candidatii, cu F raspunsul nedecissi cu G raspunsul nu intentionez sa votez. Sa seconstruiasca o histograma cu functia de distributie si alta histograma cu functia de repartitie(frecventa cumulata) pentru acest sondaj daca raspunsurile sunt date n urmatorul tabel: C,A, A, B, E, F, F, C, C, C, A, B, A, A, A, E, F, A, B, G, D, B, B, C, F, G, G, D, D, D,B, A, B, B, B, F, G, B, C, A, E, C, C, D, G, A, A, E, E, E, C, D, D, E, G, G, A, B, B,A, F, F, G, G, G, G, A, A, A, B, B, C, C, A, A, D, D, E, F, G, A, B, C, C, D, A, E, F,A, B, F, G, A, B, C, D, A, A, B, E.

    Solutie Aici trebuie mai nti sa codicam numeric literele (optiunile electoratului) A, B,C, D, F, G. De exremplu, propunem urmatoarea codicare:G !0F !1A !4B !5C !6

  • LECTIA 8. STATISTICA DESCRIPTIVA 117

    D !72. Doua grupe de 10 studenti A si B au obtinut urmatoarele note la examenul de statistica:

    A : 8, 5, 6, 6, 7, 9, 4, 3, 5, 6B : 9, 6, 7, 8, 6, 10, 5, 4, 6 ,7.

    Sa se gaseasca cea mai buna corelatie liniara ntre cele doua selectii. Sa se gaseasca val-oarea deviatiei patratice. Sa se faca acelasi lucru pentru o corelatie de tip parabolic si sa secompare deviatiile patratice.

    3. Fie selectia {0, 1, -1, -1, -2, 1, 1, -1, 2, 3, 1, 4, 3, -1, 0, 0, 3, -1, -2, -2} dintr-opopulatie anume. Fie X v.a. care guverneaza populatia. Sa se aproximeze cu ajutorul selec-tiei numarul P (0 X 2). Se cere gracul functiei de repartitie pentru aceasta selectie si ohistograma a frecventelor.

    4. S-a facut un sondaj asupra pretului (n centi) galonului de benzina premium asupra a30 statii luate la ntmplare. De aici a rezultat selectia: 65, 58, 64, 68 , 52, 48, 59, 59, 56, 63,61, 66, 52, 57, 60, 62, 55, 55, 64, 71, 61, 63, 46, 53, 60, 57, 58, 57, 54, 58. Se cere graculpoligonului de frecventa (relativa) daca: a) grupam datele n intervale de lungime 3, cu 60centrul unui asemenea interval; b) grupam datele n intervale de lungime 5, cu 60 ca centru alunui asemenea interval. Calculati pentru aceste grupari media si dispersia de selectie. Gasitigracul functiilor de repartitie empirice.

    5. La un concurs 12 studenti au obtinut urmatorele punctaje: 18, 15, 19, 27, 13, 30, 24,11, 5, 16, 17, 20. Calculati media, mediana, deviatia standard si deviatia absoluta medie.Construiti functia empirica de frecventa cumulata (f. de repartitie) si interpretati rezultateleobtinute.

  • Lectia 9

    Statistici. Estimarea parametrilor

    Amintim ca o populatie P este o multime de obiecte din care se fac selectii nite (de volumn < 1). Populatia se poate identica cu multimea tuturor observatiilor potentiale pe carele putem face asupra obiectelor ei. Pentru ecare obiect al selectiei se testeaza valoarea uneicaracteristici numerice, X. Admitem ca pe P exista o probabilitate si ca X este o variabilaaleatoare. Distributia (functia de repartitie) a v.a. X se numeste distributia populatiei dupacaracteristica X.

    Exemplul 9.1 Intr-o magazie grul este amestecat cu neghina. Populatia P este aici totali-tatea boabelor din magazie ( cteva sute de milioane). Fie X : P ! R,

    X(bob) =

    1 daca e grau0 daca e neghina

    Probabilitatea p ca un bob sa e de tip A este denita prin:

    p(A) =nr. de boabe de tipul Anr. de boabe din magazie

    ; A P

    Aici p nu se poate determina experimental exact din cauza numarului mare de boabe, darteoretic p exista. Valoarea medie a lui X nmultita cu 100 este procentul de boabe de gru dinmagazie, lucru important.

    Exemplul 9.2 Sa presupunem ca mai multe persoane, sau aceeasi persoana n mai multernduri, masoara independent o lungime, de aproximativ 1 km folosind o ruleta de 2 m.Evident ca se vor obtine rezultate diferite datorita unei game largi de cauze incontrolabile.Putem n acest caz considera P ca multimea tuturor complexelor de cauze necontrolabile careinuenteaza rezultatul masuratorii sau putem considera P ca multimea tuturor masuratorilorposibile. Oricum P nu este o multime pe care o putem explicita ca n cazul precedent. Admitemnsa ca pe P exista o probabilitate iar o masuratoare nseamna o manifestare a unui complex! de cauze necontrolabile care conduc la un rezultat X(!) , n cazul nostru X ind o lungime.

    118

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 119

    Prin urmare caracteristica lungime apare ca o functie X : P ! R: Admitem ca X este ovariabila aleatoare, adica (vezi lectiile 2, 3) f! 2 P jX(!) < rg P este o multime pe careeste denita probabilitatea p.

    Statistica Matematica se ocupa, printre altele, cu problema determinarii repartitiei uneivariabile aleatoare X ca n exemplele de mai sus, prin experimente. In general n experimenteconduc la n valori numerice x1; :::xn. Ce operatii trebuie facute cu valorile x1; :::xn pentru agasi caracteristici ale lui X si ce ncredere putem avea n rezultatele obtinute?In continuare prezentam felul n care putem considera rezultatele x1; x2; :: xn ale lui X n

    n experiente independente ca valori a n variabile aleatoare independente X1; X2; ::: Xn. La oprima lectura se poate sari peste aceasta parte, remarcndu-se doar concluziile.Fie P ca mai nainte spatiul probabilizat al cauzelor incontrolabile, e P (P ) algebra

    submultimilor lui P pentru care e denita probabilitatea p. Notam P1 sirurile de elementedin P . Deci ! 2 P1 daca si numai daca ! = (!k)k2N si pentru orice k, !k 2 P . Urmatoarelesubmultimi ale lui P1 :

    A = A1 A2 ::: An P P ::: (9.1)= f(!k)k2N j!k 2 Ak pentru 1 k n g

    unde Ak 2 pentru orice k, se numesc paralelipipede. Aici n nu este xat ci poate oricenumar natural. Fie 1 submultimile lui P1 care sunt reuniuni nite de paralelipipede.Se arata ca aceaste multimi formeaza o algebra. Pe aceasta algebra putem deni o unicaprobabilitate p0 astfel ca pentru paralelipipede sa avem:

    p0 (A) = p (A1) p (A2) :::p (An) (9.2)unde p este probabilitatea pe P. Denitia seamana cu denitia volumului unui paralelipipedn functie de lungimile laturilor sale. Asemenea probabilitati nu sunt suciente pentru nevoilede calcul. E nevoie de o proprietate de continuitate de genul: B1 B2 :::Bk ::: cuB = [k=1;1Bk implica p (B) = lim

    n!1p (Bk). Constructia unei astfel de probabilitati peP1 se

    realizeaza astfel:a) Se extinde 1 la cea mai mica algebra (deci algebra de multimi nchisa si la reuniuni

    numarabile) notata (1)

    b) Probabilitatea p0 denita pe 1 ese extinde unic la o probabilitate pe (1) notatap(1)

    Probabilitatea p(1) se numeste probabilitate produs. Detaliile de constructie nu fac obiec-tul acestui curs. Putem remarca asemanarea constructiei probabilitatii produs cu a volumuluicorpurilor plecnd de la lungime. Asa cum n afara de reuniuni nite de paralelipipede existasi alte corpuri cu volum, tot asa apar n (1) si alte multimi care au probabilitate, n afarade reuniunile nite de tipul (9.1).

    Denitia 9.3 Multimea P1 mpreuna cu (1) P (P1) si cu probabilitatea p(1) : (1) !R se numeste produsul innit al cmpului de probabilitate (P;; p).

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 120

    Observatia 9.4 In lectia 2 am introdus produsul nit al unor cmpuri de probabilitate. Fatade cazul considerat acolo, aici avem doua lucruri n plus:a) pentru a avea o probabilitate pe produs trebuie extinsa algebra de multimi formata dinreuniuni nite de multimi paralelipipedice la o algebrab) Am luat n consideratie o innitate de factori n produs .

    Observatia 9.5 In principiu nu e nevoie de o cunoastere detaliata a produsului de cmpuride probabilitate. Este sucient sa stim ca el exista si ca probabilitatea unei multimi paralelip-ipedice este produsul probabilitatilor factorilor (formula 9.2).

    Fie acum X o v.a. pe P , X : P ! R. In aceste conditii pe P1 avem un sir de v.a. deniteprin:

    Xi : P1 ! R; Xi (!) = Xi

    (!k)k2N

    = X (!i)

    pentru orice i 2 N . Prin urmare Xi aplicata unui sir este valoarea lui X pe componenta a i asirului ! = (!k)k2N 2 P1. Aceste v.a. sunt independente si la fel distribuite (adica au aceeasifunctie de repartitie, deci aceleasi caracteristici numerice). Pe produsul nit P n = PP:::Pavem n mod analog variabilele aleatoare Xi denite prin formula de mai sus dar cu ! 2 P n.Ele sunt independente si la fel distribuite.In concluzie, mai multe masuratori ale unei marimi apar n statistica astfel:a) Urmarim o componenta numerica a unui fenomen, sa zicem notata cu X.b) Acea caracteristica depinde de o seama de factori dintr-o multime P, n general neex-

    plicita.c) Admitem ca pe P exista o probabilitate p, iar X:P! R este o variabila aleatoare.d) Prin n experiente independente gasim pentru X valorile x1; x2; :::xn.e) x1; x2; :::xn apar ca valorile a n variabile aleatoare X1; X2; :::Xn denite pe spatiul

    produs P n sau pe P1. Aceste v.a. sunt independente si la fel distribuite ca X. Vom numiX1; X2; :::Xn variabile aleatoare de selectie asociate lui X. X i reprezinta rezultatul experienteii. In cele ce urmeaza vom considera toate variabilele X i denite pe aceeasi multime P1.Ne ocupam n continuare de operatiile pe care le facem cu rezultatele x1; x2; :::xn pentru a

    obtine caracteristici ale variabilei aleatoare X. Vom folosi doar acele operatii n care multimeaP, care nu este explicita, nu intervine efectiv. Probabilitatea pe P1 o vom nota uneori cuProb alteori cu p.

    Denitia 9.6 Se numeste statistica un sir (Gn)n2N de variabile aleatoare Gn : P1 ! R.

    Toate statisticile utilizate de noi vor de forma urmatoare:i) se da un sir de functii gn : Rn ! Rii) avem o v.a. X : P ! RFie X1, X2,...Xn,... variabilele aleatoare asociate. Denim statistica:

    gn (X1; X2; :::Xn) : P1 ! R

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 121

    , astfelgn (X1; X2; ::Xn) (!) = gn (X1 (!) ; X2 (!) ; :::Xn (!)) pentru ! 2 P1

    Uneori vom folosi termenul de statistica pentru sirul de variabile aleatoare construite mai suspe P1.Exemple de statistici frecvent folositeFie X o v.a. cu functia de repartitie F : R ! R, si X1; X2; :::Xn variabilele de selectie

    asociate. Vom folosi urmatoarele notatii:a1) m=

    R11 xdF (x) = media lui X (Lectia 3)

    b1) M(X1; X2; :::Xn) = X(n) = X1+X2+:::+Xnn : P1 ! R; o v.a. numita media de selectie.

    Uneori o vom nota cu X(n) pentru a pune n evidenta dependenta de n, alteori o vom notasimplu X. Astfel,c1) m = m(x1; x2; :::xn) = x1+x2+:::+xnn este valoarea mediei de selectie pentru rezultatele

    x1; x2; :::xn obtinute n cele n experiente, numita si media empirica (Lectia 8).ak) mk =

    R11 x

    kdF (x) =momentul de ordin k al lui X (Lectia 3)

    bk) Mk (X1; X2; :::Xn) =Xk1+X

    k2+:::+X

    kn

    n; o v.a. numita momentul de selectie de ordin k.

    ck) mk = mk(x1; x2; :::xn) =

    xk1+xk2+:::+x

    kn

    n=momentul empiric de ordin k (Lectia 8)

    ak0) k =R11 (xm)k dF (x) = momentul centrat de ordin k al lui X (Lectia 3)

    bk0) M0k (X1; X2; :::Xn) =(X1 X)k+(X2 X)k+:::+(Xn X)k

    n: P1 ! R; o v.a. numita mo-

    mentul centrat de ordin k.ck0) k =

    k(x1; x2:::xn) =

    (x1m)k+(x2m)k+:::+(xnm)kn

    =momentul centrat de ordin k,empiric (Lectia 8).a20) D=2 =

    R11 (xm)2 dF (x) = dispersia lui X (Lectia 3).

    b20) D(X1; :::Xn) = S2 (X1; :::Xn) =(X1 X)2+(X2 X)2+:::+(Xn X)2

    n:P1 ! R; o v.a. nu-

    mita dispersia de selectie.

    S 02 (X1; X2; :::Xn) =

    X1 X

    2+X2 X

    2+ :::+

    Xn X

    2n 1 : P

    1 ! R

    se numeste dispersia de selectie modicata.c20) s2=D = D (x1; x2; :::xn) =

    (x1m)2+(x2m)2+:::+(xnm)2n

    = dispersia empirica de

    selectie (Lectia 8), iar s02 = (x1m)2+(x2m)2+:::+(xnm)2

    n1 se numeste dispersia empirica mod-icata.E de asteptat ca v.a. de selectie de mai sus sa aproximeze ntr-un fel sau altul marimile

    corespunzatoare ale variabilei X.

    Propozitia 9.7 Avem relatia

    S2 (X1; X2; :::; Xn) =M2 (X1; X2; :::; Xn)X2 (9.3)

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 122

    Demonstratie

    S2 (X1; X2; :::; Xn) =1

    n

    XXi X

    2=1

    n

    XX2i 2XXi +X

    2

    =1

    n

    XX2i

    2

    nX

    XXi +

    1

    n nX2

    =1

    n

    XX2i 2 X X +X

    2

    = M2 (X1; X2; :::; Xn)X2

    QED.Fie X o v.a. si X1; X2; :::; Xn::: variabilele de selectie asociate. Fie de asemenea A2 R.

    Denitia 9.8 Se numeste estimator sau functie de estimatie pentru A, o statistica (gn)n2Nastfel ca pentru orice > 0 sa avem:

    limn!1

    Prob( jgn (X1; X2; :::Xn) Aj > ) = 0

    Cu alte cuvinte, > 0 ind dat, pentru valori mari ale lui n este foarte putin probabil cavariabila aleatoare gn (X1; X2; :::Xn) sa ia valori n afara intervalului [A ; A+ ], adica estefoarte putin probabil ca numarulgn (x1; x2; :::xn) sa e n afara intervalului [A ; A+ ]. In aceste conditii, dupa un numar den experiente, consideram pe gn (x1; x2; :::xn) ca o aproximatie buna pentru A. Este posibil sane nselam, dar probabilitatea de a ne nsela este mica, pentru n mare. Statistica nu ne oferaraspunsuri sigure ci doar aproximatii n care putem avea un grad mai mic sau mai mare dencredere. Se accepta acele aproximatii n care avem un grad mai mare de ncredere.

    Denitia 9.9 O statistica (gn (X1; :::Xn))n2N se numeste corecta sau deplasata relativ la val-oarea A daca avem:

    1) limn!1

    M(gn (X1; X2; :::; Xn)) = A:

    2) limn!1

    D (gn (X1; X2; :::; Xn)) = 0:

    si se numeste absolut corecta sau nedeplasata daca n plus M(gn (X1; X2; :::; Xn)) = A.Conditiile 1) si 2) din denitia de mai sus pun n evidenta situatii n care o statistica

    oarecare (gn)n2N este un estimator pentru o valoare A. Teorema de mai jos pune n evidentaimportanta conditiilor din denitia anterioara.

    Teorema 9.10 Daca statistica (gn (X1; X2; :::; Xn))n2N este corecta relativ la A atunci ea esteun estimator al lui A, adica pentru orice > 0 avem

    limn!1

    Prob(jgn (X1; X2; :::Xn) Aj > ) = 0:

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 123

    Demonstratie. Conform cu inegalitatea lui Cebsev (Lectia 5) pentru un > 0 avem:

    Prob(jgn (X1; X2; :::Xn)M (gn (X1; X2; :::Xn))j>) D(gn(X1;X2;:::Xn))

    2

    Acum tinnd seama de 1) si 2) din denitia corectitudinii rezulta

    Prob(jgn (X1; X2; :::Xn) Aj > )! 0

    cnd n!1, deci statistica (gn (X1; X2; :::; Xn))n2N este un estimator al lui A.QED.Aratam acum ca functiile de selectie introduse cu ocazia notatiilor precedente sunt esti-

    matori pentru valorile corespunzatoare ale variabilei X.

    Teorema 9.11 a) Statistica media de selectie:

    gn (X1; X2; :::; Xn) = X(n) = (X1 +X2 + +Xn) =n

    estimeaza media m =M(X) a v.a. X absolut corect.b) Statistica

    hn (X1; X2; :::; Xn) =1

    n

    XXri

    estimeaza absolut corect momentul de ordin r, mr, al v.a. X.c) Statistica

    S2 (X1; X2; :::; Xn) =1

    n

    XXi X(n)

    2estimeaza corect dar nu absolut corect dispersia v.a. X, 2 =D(X).

    d) S0 2 (X1; X2; :::; Xn) = 1n1nPi=1

    Xi X(n)

    2, adica dispersia de selectie modicata, aprox-

    imeaza absolut corect dispersia v.a. X.

    Demonstratie Trebuie vericate conditiile 1 si 2 din denitia statisticii corecte.a) Vericam 1): M(gn)= 1n

    PM(Xi)= 1n n m = m =M(X).

    Vericam 2): D(gn)= 1n2PD(Xi)=

    D(X)n, deoarece X1; X2; :::; Xn sunt independente. Prin

    urmare D(gn)! 0, cnd n!1.b) Vericam 1): M(hn)= 1n

    PM(Xri )=

    1n n mr = mr

    Vericam 2): D(hn)= 1n2PD(Xri )=

    1nD(Xr)! 0, cnd n!1. Retinem formula:

    D(X(n) = D(X)=n (9.4)

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 124

    c) ncercam sa vericam 1):

    MS2 (X1; X2; :::; Xn)

    din 9.3= M

    M2 (X1; X2; :::; Xn)X2(n)

    = M (M2 (X1; X2; :::; Xn)) 1

    n2M

    XXi

    2=M(X2) 1

    n2MX

    Xi

    XXj

    = M(X2) 1

    n2MX

    X2i

    1n2M

    Xi6=jXiXj

    !

    =M(X2) nn2MX2 1

    n2

    Xi6=jM (XiXj)

    Xi;Xjindependente:=

    n 1n

    M(X2) 1n2 n(n 1)M(X)2

    =n 1n

    M(X2)M(X)2 = n 1

    nD(X)! D (X)

    Prin urmare S2 nu estimeaza absolut corect dispersia v.a. X. Retinem formula deja gasita:

    MS2 (X1;X2; :::;Xn)

    =n 1n

    D(X) (9.5)

    E clar ca M (S 02 (X1; X2; :::; Xn)) = D (X).Vericam 2): lasam ca exercitiu pentru cititor vericarea formulei

    D(S 0 2) =1

    n

    m4 n 3

    n 1 [D(X)]2

    (9.6)

    unde m4 este momentul de ordin 4 al v.a. X.Se vede clar de aici ca D(S0 2)! 0, cnd n!1. De asemenea D (S2) = n1n 2D (S 02)!

    0 cnd n!1.QED.

    Observatia 9.12 In practica se foloseste S0 2 n locul lui S2 deoarece da rezultate mai bunedupa cum ne arata teorema 2. Totusi formula (9.6) ne spune ca pentru n sucient de maresi statistica S2 poate folosita ca estimator al dispersiei v.a. X. Din denitia lui S0 2 si dinformula (9.6) gasim formula utila:

    D(S 2) =(n 1)2n3

    m4 n 3

    n 1 [D(X)]2

    (9.7)

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 125

    Exercitiul 9.13 Fie selectia {0, 1, 1, 0, 1, 1, 2, 0, 0, 2}. Sa se estimeze absolut corectdispersia populatiei din care provine aceasta selectie.

    Solutie. Media este estimata absolut corect de media empirica m = 8=10 = 0; 8:Dispersia este estimata absolut corect de dispersia modicata empirica

    s0 *2 =1

    9[(0 0; 8)2 + (1 0; 8)2 + (1 0; 8)2 + (0 0; 8)2 + (1 0; 8)2

    +(1 0; 8)2 ++2 0; 8)2 + (0 0; 8)2 + (0 0; 8)2 + (2 0; 8)2]= 0; 56

    Observatia 9.14 Deoarece dispersia se mai numeste si varianta vom folosi si noi uneorivarianta de selectie pentru dispersia de selectie.

    9.1 Principiul verosimilitatii maxime

    Presupunem ca P este o populatie unde se urmareste caracteristica numerica X; care este ovariabila aleatoare cu densitatea de probabilitate f(x; ), ind un parametru necunoscut.Cunoastem doar forma matematica a functiei f(x; ). De exemplu daca stim ca X esteo v.a. normala cu media , necunoscuta dar cu dispersia 2 cunoscuta, atunci f(x;m) =1p2e

    (xm)222 .

    Pentru determinarea lui facem o selectie care da rezultatele fx1; :::; xngsi ncercam pebaza lor sa estimam pe . Deoarece v.a. de selectie X1; :::; Xn sunt independente, proba-bilitatea ca X1 sa ia valoari n intervalul [x1; x1 + dx1), X2 sa ia valori n [x2; x2 + dx2), ...,Xn sa ia valori n [xn; xn + dxn) este data de f(x1; ) f(x2; ) f(xn; )dx1dx2:::dxn =L (x1; :::; xn; ) dx1dx2::::dxn. Aceasta functie L se numeste functia de verosimilitate si va folosita pentru estimarea lui .Daca X ia valori discrete, atunci f(x; ) este probabilitatea ca X sa ia valoarea x: De

    exemplu, n cazul distributiei Poisson, f(x; ) = e xx!, cu x 2 N, reprezinta probabilitatea ca

    X = x, iar este parametrul necunoscut ( pe care urmeaza sa-l estimam!). Probabilitatea ca nn selectii independente sa se obtina rezultatele x1; x2; :::xn este f (x1; )f (x2; ) :::f (xn; ) =L (x1; x2; :::xn; ) care se numeste si n acest caz functia de verosimilitate.Functia L este determinata de volumul selectiei n si depinde de . Metoda verosimiltatii

    maxime consta n urmatorul principiu (axioma): valoarea cea mai verosimila (cea maipotrivita n acest sens!) a parametrului este aceea pentru care functia L (x1; :::; xn; ) estemaxima. Dupa cum stim de la Analiza matematica, aceasta cerinta are loc daca avem:

    @L (x1; :::; xn; )

    @= 0 (9.8)

    adica este un punct crirtic pentru L (x1; :::; xn; ).

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 126

    Ecuatia (9.8) n practica se dovedeste dicila. De aceea cel mai des se foloseste observa-tia: L (x1; :::; xn; ) este maxima daca si numai daca ln L (x1; :::; xn; ) este maxima (functialogaritmica este strict crescatoare). Deci (9.8) este echivalenta cu :

    @ ln L (x1; :::; xn; )

    @= 0 (9.9)

    care poarta numele de ecuatie a verosimilitatii maxime. Rezolvam ecuatia (9.9), sau ecuatia(9.8) si gasim = n(x1; :::xn). Ca estimator (functie de estimare) pentru luam variabilaaleatoare n(X1; X2; :::Xn); care, pentru selectia fx1; x2; :::xng da rezultatul n(x1; x2; :::xn).

    Se poate demonstra ca n conditii foarte generale, pentru selectii mari, statistica (X1; X2; :::Xn)obtinuta prin metoda verosimilitatii maxime, are o distributie aproximativ normala, cu mediaegala cu =valoarea adevarata a parametrului si dispersia

    D () =1

    n R11 @2 ln(f(x;))@2 f (x; ) dx =1

    nR11

    @ ln f(x;)

    @

    2f (x; ) dx

    Daca distributia este discreta atunci integralele din formula precedenta devin sume.

    Exemplul 9.15 Presupunem ca populatia are distributia Poisson (cazul evenimentelor rare).Functia de probabilitate este f(k;) = e k

    k!, k =0, 1, 2, .... Ne intereseaza sa es-

    timam parametrul prin metoda verosimilitatii maxime. Pentru aceasta facem o selectiefx1; x2; :::; xng f0; 1; 2; :::g.

    L (x1; :::; xn;) = f(x1;) f(x2;) f(xn;) = en Pxk

    x1!x2!:::xn!

    lnL (x1; :::; xn;) = n+X

    xk

    ln

    Xln (xk!)

    @ lnL@

    = 0 ne furnizeaza =Pxkn, deci un estimator pentru este

    n(X1; ::Xn) =X1+X2+:::Xn

    nadica media de selectie. Deoarece este media lui X (variabila

    Poisson), n este un estimator absolut corect pentru .

    Este el oare si cel mai ecient, n sensul ca are dispersia cea mai mica? Este greu deraspuns la aceasta ntrebare. Totusi avem un rezultat puternic care face oarecare lumina:

    Teorema 9.16 (Rao-Cramer) Daca statistica gn (X1; :::; Xn) da un estimator ecient (cudispersia minima , n multimea tuturor estimatorilor absolut corecti pentru ), atunci

    D (gn (X1; :::; Xn)) =1

    n1R1

    @ ln f(x;)

    @

    2f(x; )dx

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 127

    sauD (gn (X1; :::; Xn)) =

    1

    n1Px=0

    @ ln f(x;)

    @

    2f(x; )

    (9.10)

    daca distributia este cu valori discrete.

    Fara demonstratie.Ne ntoarcem la exemplul anterior. Stim ca D(n) = D

    PXkn

    = D(X)

    n=

    n. f(x; ) =

    ex

    x!, deci @ ln f(x;))

    @= 1 + x

    . De aici rezulta

    1Xx=0

    @ ln f (x; )

    @

    2f (x; )

    =

    1Xx=0

    1 2x

    +x2

    2

    e

    x

    x!

    = e

    0BBBB@1Xx=0

    x

    x!| {z }=e

    21Xx=1

    x1

    (x 1)!| {z }=e

    +1Xx=1

    x2

    (x 1)! (x 1 + 1)| {z }=e+ 1

    e

    1CCCCA=

    1

    Prin urmare 1n1Px=0( @ ln f(x;)@ )

    2f(x;)

    = n= D (n). Rezulta din teorema Rao-Cramer ca statistica

    medie de selectie este si un estimator ecient pentru . Putem spune acum ca = (Pxk) =n

    este o estimatie foarte bunan toate sensurile.

    Exemplul 9.17 Sa se estimeze parametrul p al unei distributii Bernoulli1 0p 1 p

    prin metoda verosimilitatii maxime.

    Solutie.

    f (x; p) =

    p daca x=1

    1 p daca x=0Functia de verosimilitate este L (x1; x2; :::xn) = pn1 (1 p)nn1 unde n1 este numarul de real-izari ale lui 1. @ lnL@p = 0 devine

    @(n1 ln p+(nn1) ln(1p))@p

    = 0 adica n1p nn11p = 0 care are solutiap = n1

    n. Valoarea n1 este valoarea variabilei X1 + X2 + ::: + Xn, unde Xi este variabila de

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 128

    selectie a carei valoare este 1 daca la experienta i se obtine rezultatul 1 si are valoarea 0 ncaz contrar. Prin urmare statistica ce estimeaza parametrul p este

    P = X1 +X2 + :::+Xnn

    care este chiar media de selectie. La fel ca n cazul repartitiei Poisson se arata ca

    D (P) = pqn

    =1

    nP1

    x=0

    @ ln f (x;p)

    @p

    2f (x; p)

    =1

    n

    @ ln (1 p)

    @p

    2(1 p) +

    @ ln p@p

    2p

    deci estimarea lui p este absolut corecta (exercitiu).Daca avem de estimat mai multi parametri 1; 2; ::p, stiind ca densitatea de probabilitate

    a variabilei aleatoare X este f (x; 1; :::p), atunci n mod analog cu cazul unui singur para-metru, principiul verosimilitatii maxime spune ca n urma a n experiente independente caredau rezultatele x1; x2; :::xn, se aleg pentru parametri acele valori care maximizeaza functiade verosimilitate L (x1; ::xn; 1; ::p) = f (x1; 1; 2; :::p) f (x2; 1; ::p) ::f (xn; 1; 2; ::p) sauceea ce este acelasi lucru acele valori care maximizeaza lnL (x1; x2; ::xn; 1; :::p). Aceastaimplica: 8>>>>>:

    @ lnL(x1;x2;::xn;1;:::p)

    @1= 0

    @ lnL(x1;x2;::xn;1;:::p)

    @2= 0

    :::::@ lnL(x1;x2;::xn;1;:::p)

    @p= 0

    (9.11)

    Exemplul 9.18 Sa presupunem ca v.a. X are o distributie normala cu

    f (x;m;) = 1p2e

    (xm)222 . In acest caz avem lnL = n

    2ln (2)n ln

    P(xim)222

    . Sistemul(9.11) devine: 1

    2

    P(xi m) = 0

    n+

    P(xim)23

    = 0

    care are ca solutii m =Pxin= m(x1; ::xn) si =

    qPi(xim)2

    n.

    Stim din aceasta lectie ca M(X1; X2; :::Xn) = X(n) = X1+X2+:::+Xnn si D(X1; :::Xn) =(X1 X)2+(X2 X)2+:::+(Xn X)2

    nsunt estimatii corecte pentru media si dispersia unei variabile

    aleatoare, n cazul nostru pentru m si 2.

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 129

    9.2 Metoda momentelor (K. Pearson)

    Data selectia fx1; :::; xng noi putem calcula momentul de ordin k al selectiei: mk =Pixki

    n,

    pentru orice k =0, 1, 2, .... Obtinem astfel estimatori pentru medie, dispersie ,momente dediferite ordine. Functia caracteristica Xc(t) are toate derivatele n t = 0 date de X

    (k)c (0) =

    ikMk (X). Prin urmare n conditii foarte generale, care asigura ca Xc (t) este analitica (sepoate dezvolta n serie convergenta de puteri n jurul oricarui punct), rezulta ca momenteleMk (X) determina pe Xc (t) care la rndul ei determina repartitia lui X (vezi Lectia 3).Aceasta observatie a fost folosita de K. Pearson pentru a gasi estimatori pentru parametriiunei legi de probabilitate.Fie (x; 1; 2; :::p) densitatea de probabilitate a v.a. X, unde parametrii 1; :::p sunt

    necunoscuti. Exista relatiile:mk =R11 (x; 1; 2; :::p)x

    kdx pentru orice k. Am vazut ca mkeste estimat de mk. Egalnd valoarea teoretic exacta cu estimarea practica, mk = m

    k, adica:(Z 1

    1xk (x; 1; 2; :::p) dx =

    Pi=ni=1 x

    ki

    n(9.12)

    pentru k=1,2,...p, obtinem un sistem care da prin rezolvare k = n (x1; x2; :::xn), pentruk=1,2,..p.Ca estimatori pentru k se iau v.a. k (X1; X2; :::Xn).Daca v.a. X este dicreta atunci integrala dim (9.12) devine suma, la fel ca n cazul metodei

    verosimilitatii maxime.

    Exemplul 9.19 Fie v.a. cu densitatea (x;) = 1()

    x1ex, pentru > 0 x > 0. Aiciparametrul este . Se cere o metoda de a estima pe prin selectii. Daca folosim metodamomentelor gasim Z 1

    0

    x 1 ()

    x1exdx =x1 + x2 + :::xn

    n

    adica = x1+x2+:::xnn .

    Exemplul 9.20 Densitatea de probabilitate a unei v.a. X are forma:

    f (x; a; b; c) =

    a+ 2bx; x 2 [0; c]

    0; n restRezultatele unei selectii de volum n=3 dau pentru X valorile {x1; x2; x3}={-1,0,1} . Sa se

    estimeze papametrii a; b; c prin metoda momentelor.

    Mai nti punem conditia ca1R1f (x; a; b; c) dx = 1, de unde gasim relatia:

    ac+ bc2 = 1 (9.13)

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 130

    Calculam acum media v.a. X:

    M(X) =

    cZ0

    x(a+ 2bx)dx =ac2

    2+2bc3

    3(9.14)

    momentul de ordin 2:

    M2(X) =

    cZ0

    x2(a+ 2bx)dx =ac3

    3+2bc4

    4(9.15)

    Momentele de selectie m1 =(-1+0+1)/3=0 si m2 =

    (-1)2+02+12

    /3=2/3 vor estima pe

    M(X) si pe M2(X). Deci vom obtine sistemul nelinear de ecuatii:8

  • LECTIA 9. STATISTICI. ESTIMAREA PARAMETRILOR 131

    3. Viata unui bec electric, masurata n numarul de ore de functionare continua pna cndse arde, se presupune uniform distribuita cu parametrii a si b:

    f(x) =

    1=(b a) ; a x b

    0 ; n rest.

    Se face o selectie de n becuri si se noteaza cu x1; :::; xn timpii de functionare ai acestorapna cnd se ard. Determinati estimatori pentru a si b prin metoda momentelor.

    4. Functia de probabilitate a v.a. X este data de

    f(x) =

    2b(cbx)

    c2; daca 0 x cb0; n rest

    : Stim ca media M(X)= c3b si 2X =

    c2

    18b2.

    i) daca c=3, este oare media de selectie M a unui esantion de volum n un estimatornedeplasat pentru parametrul b?

    ii) daca b=1/3, este M un estimator pentru c? (P( jM-cj < )! 1, cnd n!1). Indi-catie: folositi inegalitatea lui Cebsev sau teoria din aceasta lectie.

    5. Fie statistica g (X1; X2; :::; Xn) = a1X1 + a2X2 + + anXn, cu a1; :::; an 2 R. Cumtrebuie sa e numerele a1; :::; an, astfel nct g sa e un estimator nedeplasat pentru media ma populatiei? Indicatie: cereti M( g)=m.

    6. Daca g (X1; X2; :::; Xn) este un estimator nedeplasat pentru parametrul , este adevaratca si g2 este un estimator nedeplasat pentru 2?

    7. Greutatea unor utilaje produse de o rma este distribuita normal cu dispersia cunoscuta2X , dar cu media m necunoscuta. Fie statisticileG= (X1+X2+X3+X4+:::+Xn)

    nsi H=(X1+2X2+3X3+4X4 + :::+ nXn) 2n(n+1) , n 2 N .

    a) Sa se arate ca G si H sunt estimatori nedeplasati pentru m.b) Care estimator are dispersia mai mica?

  • Lectia 10

    Intervale de ncredere

    Denitia 10.1 Fie P o populatie, un parametru al ei si g = g (X1; :::; Xn), h = h (X1; :::; Xn)doua statistici astfel nct g (X1; :::; Xn) h (X1; :::; Xn), adica oricare ar selectia fx1; :::; xngsa avem ca g (x1; :::; xn) h (x1; :::; xn). Spunem ca intervalul [g; h] este un interval de n-credere pentru parametrul , de nivel de ncredere daca avem relatia:

    Prob fg hg (10.1)Numarul "=1 se mai numeste prag de ncredere. De obicei se

    exprima n procente, de exemplu pentru =0,95 putem scrie =95%.Cerinta (10.1) trebuie nteleasa astfel: daca dupa un numar mare de selectii fx1; :::; xng, sa

    zicem N, K dintre ele dau intervale [g(x1; x2::xn); h(x1; x2; :::xn)] cu proprietatea ca 2 [g; h](pentru ecare selectie xata, intervalul devine interval obisnuit, numeric), atunci K/N .Altfel spus, intervalele [g; h] acopera pe n proportie de cel putin %(de exemplu ,daca = 1=5 = 20=100, = 20%).

    Denitia 10.2 Pentru un , un interval de ncredere [g; h] de lungime minima, astfelnct Probfg hg = , se zice interval de ncredere ecient, relativ la ncrederea .

    Pentru calculele urmatoare vom avea nevoie de teorema:

    Teorema 10.3 Fie X o v.a. normala, de tip N (m;). Fie X1; X2; :::Xn variabilele deselectie asociate cu X. Atunci avem:a) Variabila X = X1+X2+:::+Xn

    neste de tipul N

    m; p

    n

    .

    b) VariabilaX1m

    2+X2m

    2+ ::: +

    Xnm

    2este de tip H (n) adica este o variabila

    2 standard cu n grade de libertate.

    c) VariabilaX1 X

    2+X2 X

    2+ :::+

    Xn X

    2este de tip H (n 1) adica este de tip

    2 cu n-1 grade de libertate si este independenta fata de variabila X.

    132

  • LECTIA 10. INTERVALE DE NCREDERE 133

    d) Variabilap(n 1)n Xmq

    (X1 X)2+(X2 X)2+:::+(Xn X)2este de tip Student cu n-1 grade de

    libertate.

    Demonstratie. a) Aceasta armatie este demonstrata n lectia 4, sectiunea Repartitianormala.b) Deoarece

    Xim

    sunt normale de tip N (0; 1) si independente, armatia de la acest

    punct rezulta din lectia 4, sectiunea Distributia 2.

    c) Faptul ca X siX1 X

    2+X2 X

    2+ :::+

    Xn X

    2sunt independente nu se demon-

    streaza n acest curs. Acum scriem caXim =Xi X

    +X m, de undeP (Xi m)2 =P

    Xi X2+P X m2 + 2( X m)PXi X. Dar PXi X = 0, deoarece

    X = 1n

    PXi. Prin urmareXXi m

    2=

    XXi X

    2+n( X m)2

    2=

    XXi X

    2+

    X m=pn

    2Membrul stng este de tipH (n), iar n membrul doi avem o suma de v.a. independente, dintrecare a doua este de tip H (1) ind patratul unei v.a. normale, de tip N (0; 1) (vezi lectia 4).Prin urmare am gasit 2(n) =? +

    2(1).Comparnd aceasta relatie cu

    2(p+q) =

    2(p) +

    2(q), unde

    indicii de jos indica numarul de grade de libertate (vezi lectia 4), gasim caP

    Xi X

    2este

    de tip 2(n1).d) Conform cu lectia 6, sectiunea Distributia Student, variabila aleatoare

    Xm=pnrPXi X

    2n1

    =p(n 1)n

    X mqX1 X

    2+X2 X

    2+ :::+

    Xn X

    2ind de tipul fp g

    n1; cu f de tipul N (0; 1) si g de tipul H (n 1) = H (n 1; 1) , rezulta ca

    are o distributie Student cu n 1 grade de libertate.QED.

    10.1 Intervale de ncredere pentru medie

    Sa consideram o caracteristica numerica X care are o disributie normala de medie m sidispersie 2. Daca n urma unei selectii de volum n s-au obtinut rezultatele x1; x2; :::xnpentru X; atunci, conform celor aratate n lectia trecuta valoarea x1+x2+::xnn este o estimare

    buna pentrum iar (x1x)2+(x2x)2+:::(xnx)2

    neste o estimare buna pentru 2. Ce ncredere putem

    avea n aceste estimari? In continuare vom da un raspuns la aceasta ntrebare?

  • LECTIA 10. INTERVALE DE NCREDERE 134

    10.1.1 Dispersia este cunoscuta

    Sa consideram cazul cnd dispersia 2 este cunoscuta. Valorile x1; x2; :::xn sunt valorile vari-abilelor aleatoare de selectie, independente, X1; X2; :::Xn , care au aceeasi distributie normalaca X. Deoarece variabila X = X1+X2+:::Xn

    neste normala cu media m si dispersia

    2

    nrezulta ca

    variabila Z = Xm=pneste normala cu media 0 si dispersia 1. Ca urmare:

    P (a Z a) = (a) (a) = 2 (a)

    Daca nlocuim pe Z cuX1+X2+:::Xn

    nm

    =pn

    gasim:

    P

    X1 +X2 + :::+Xn

    n a p

    n m X1 +X2 + :::+Xn

    n+ a

    pn

    = 2 (a)

    Prin urmare intervalul intervalulhx1+x2+:::xn

    n a p

    n; x1+x2+:::xn

    n+ a p

    n

    ieste un interval de n-

    credere pentru m cu nivelul de ncredere 2 (a). Introducnd pragul de ncredere ", avem1 " = 2 (a) sau (a) = 1"

    2. Am demonstrat deci:

    Propozitia 10.4 Fie X o variabila normala de dispersie cunoscuta 2 si de medie m ne-cunoscuta. Daca " 2 (0; 1) si a 2 R +, atunci, la selectii de volum n, o conditie sucientaca intervalul

    hX a p

    n; X + a p

    n

    isa e interval de ncredere de nivel 1 " pentru media m,

    este ca a sa verice ecuatia (a) 12 (1 ").

    QED.

    Observatia 10.5 La acelasi prag de ncredere ", cresterea volumului n de selectie conduce laun interval de ncredere mai scurt.

    Exemplul 10.6 Fie P o populatie normala de varianta (dispersie) cunoscuta 2 si de mediem necunoscuta (de estimat). Consideram selectii de volum xat n. Vom gasi un interval dencredere,de nivel de ncredere 95% pentru medie, daca alegem astfel pe a nct (a) 12 95100 .Din tabelul pentru gasim a 1; 96. Deci un interval de ncredere de nivel 95% va deforma:

    X 1; 96 pn;X + 1; 96

    pn

    :

    Exemplul 10.7 O rma produce piese cilindrice de diametru =10 mm. Abaterile de laacest diametru impus respecta o lege normala de variatie (dispersie) egala cu 0,04 mm (prac-tica a aratat acest lucru). Se face un sondaj pe 100 de piese si se gaseste ca media de selectie(empirica) este de 10,01 mm. Sa se gaseasca un interval de estimatie pentru media reala cunivelul de ncredere de 90%.

  • LECTIA 10. INTERVALE DE NCREDERE 135

    Solutie Aici n=100, =0,2, X(100)=0,01, (1-")=0,90, deci " =0,10. Din tabelul functiei gasim (a) 902100 = 0; 45 pentru 1; 65. Deci, un interval de estimatie pentru mediareala este:

    10; 01 1; 65 0;2

    10; 10; 01 + 1; 65 0;2

    10

    = [9; 977; 10; 043].

    Ce informatie obtine de aici producatorul? El este sigur n proportie de 90% ca abatereamedie de la diametru real =10 mm este de cel mult 0,043 mm.

    10.1.2 Dispersia este necunoscuta

    Am vazut pna acum ca daca dispersia unei populatii normale este cunoscuta putem estimaprin intervale de ncredere media populatiei cu ajutorul v.a. normale standard Z = Xm

    =pn,

    unde X este media de selectie, iar m este media reala a populatiei.Daca media m nu este cunoscuta atunci putem folosi punctul d) al teoremei precedente

    care spune ca variabila

    T =p(n 1)n

    X mqX1 X

    2+X2 X

    2+ :::+

    Xn X

    2=pn 1

    X mS

    are o distributie Student cu n-1 grade de libertate. Aici utilizat notatia (vezi lectia 9) S2 =(X1 X)2+(X2 X)2+:::+(Xn X)2

    n. Asa cum se vede n lectia 4, densitatea de probabilitate este

    simetrica fata de x=0, deci pentru functia de repartitie F (t) avem relatia F (t) = 1 F (t).Aceasta observatie ne ajuta sa folosim tabelul II pentru gasirea cuantilelor corespunzatoareacestei distributii. Pe coloana din stnga a tabelului avem gradele de libertate = n 1 (nvolumul selectiei), pe prima linie orizontala avem valorile functiei F(t) de la 0,60 pna la 0,999.Fie de aat la = n 1 = 4 valoarea lui a astfel ca F(a)=0,40. Avem 1-F(a)=F(a)=0,60si pentru 0,60 avem cuantila n tabel: a=0,271. Deci a = 0; 271.Sa punem aceste rezultate n urmatoarea propozitie:

    Propozitia 10.8 Fie P o populatie normala cu media m si dispersia 2 necunoscute. Pentruorice n, pentru un prag " 2 (0; 1) si a 2 R +, o conditie sucienta ca intervalul

    hX a Sp

    n1 ;X + aSpn1

    isa e interval de ncredere de nivel 1" (sau de prag ") pentru media m, este ca a sa e cuan-tila de ordin 1 "=2 a distributiei Student cu n 1 grade de libertate (adica F (a) = 1 "=2).

    Demonstratie. Relatia PX a Sp

    n1 m X + a Spn1= 1 " se mai poate scrie

    P

    a pn 1

    X mS

    a

    = 1 ";sau P (a T a) = 1 "

  • LECTIA 10. INTERVALE DE NCREDERE 136

    Dar

    P (a T a) = F (a) F (a) =F (a) 1 + F (a) = 2F (a) 1 = 2 (1 "=2) 1 = 1 "

    QED.

    Exemplul 10.9 Presupunem ca n exemplul precedent nu cunoastem dispersia 0,04 mm si

    ca o estimam cu formula S2 =(X1 X)2+(X2 X)2+:::+(Xn X)2

    ngasind-o ca ind egala cu 0,09

    mm. Avem 1 ("=2) = 0; 95, n = 100, S = 0; 3 (n cazul nostru). Cuantila corespunzatoarelui 0,95 o gasim din tabelul cu distributia Student. La = n 1 = 99 nu gasim date darputem folosi linia lui = 120, deoarece cuantilele vecine difera putin unele de altele (pentruacelasi prag binenteles). Aici gasim a=1,1658. Cu acest a gasit, intervalul de ncredere va :h10,01-1,658 0,3p

    99; 10,01+1,658 0,3p

    99

    i, adica [9,9798,10,0599]. Sa observam ca a=1,65 pentru

    situatia cnd am folosit v.a. Z si a=1,658 pentru situatia cnd am folosit v.a. T. Acest lucruse explica, deoarece pentru n mare (mai mare ca 40), n cazul nostru 100, cele doua cuantiledifera foarte putin.

    10.2 Intervale de ncredere pentru dispersie

    Daca media m a variabilei aleatoare X este cunoscuta, atunci putem folosi punctul b) alteoremei precedente care spune ca variabila

    X1m

    2+X2m

    2+ ::: +

    Xnm

    2este de tip

    H (n) iar daca media m nu este cunoscuta putem folosi punctul c) al teoremei, anume ca

    variabila aleatoareX1 X

    2+X2 X

    2+ :::+

    Xn X

    2este de tip H (n 1), n scopul de a

    determina intervale de ncredere pentru dispersie.

    nS2

    2= 2(n1) (10.2)

    adica nS2

    2este v.a 2 cu n 1 grade de libertate. Daca n loc de S2 se foloseste estimatorul

    nedeplasat S 0 2 se obtine formula

    (n 1)S 0 22

    = 2(n1) (10.3)

    Teorema 10.10 Fie " 2 (0; 1). Un interval de ncredere de nivel 100(1 ") procente pentrudispersia 2 a unei populatii normale cu media cunoscuta m, n cazul selectiilor de volum n, este

    (n 1)S 0 2

    b;(n 1)S 0 2

    a

    (10.4)

  • LECTIA 10. INTERVALE DE NCREDERE 137

    unde a este cuantila de ordin "=2 si b este cuantila de ordin 1 ("=2) a distributiei 2 cu n1grade de libertate.Demonstratie Notam cu F (t) functia de repartitie a v.a. 2(n1). Avem F (a) = "=2 si

    F (b) = 1 ("=2). Atunci Pa (n1)S0 2

    2 b= F (b) F (a) = 1 ("=2) ("=2) = 1 ".

    Dar, din a (n1)S0 22

    b gasim ca (n1)S0 2b 2 (n1)S0 2

    a. Prin urmare, intervalul din

    (10.4) acopera pe 2 cu probabilitatea 1 ".QED.

    Exemplul 10.11 Media erorilor de masurare a lungimilor unor baghete metalice este de 3mm. Presupunem ca aceste erori respecta legea normala cu media 3 mm si dispersia necunos-cuta. Se face o selectie de volum 4: {-1, 4, 4, 1}. Se cere un interval de estimatie pentru 2

    cu pragul de ncredere de 90%.

    Solutie n cazul nostru aplicam Teorema 10.9 cu 1-" =0,90, deci " =0,10. Cautam cuan-tilele pentru "=2 =0,05 si 1-("=2)=0,95, cnd n-1=3 (grade de libertate). Gasim a=0,351846 sib=7,81473 n Tabelul III. Calculam acum S0 2 = 13 ((1 3)2 + (4 3)2 + (4 3)2 + (1 3)2) =223. Intervalul va deci

    h227,81 ;

    220,35

    i= [2,81;62,85]. Se observa ca intervalul este destul de mare,

    deci precizia pentru 2 este mica, chiar daca apare cu probabilitate mare!

    10.3 Intervale de ncredere pentru ctul a doua dispersii

    Fie acum doua populatii distincte, normal distribuite. Facem o selectie de volum n1 din primapopulatie si o selectie de volum n2 din a doua populatie. Stim din formula (10.3) ca

    (n1 1)S 0 2121

    = 2(n11) (10.5)

    (n2 1)S 0 2222

    = 2(n21)

    unde 1; S 0 21 si 2; S0 22 sunt dispersiile si dispersiile de selectie modicate pentru cele doua

    populatii. Notam cu 1 = n1 1 si cu 2 = n2 1. Notam cu F (de la Fischer) v.a.

    S 0 21 =21

    S 0 22 =22

    =

    h2(1)=1

    ih2(2)=2

    i (10.6)Aceasta v.a. are o densitate de probabilitate ce depinde de doi parametri 1 si 2 iar formulaei este complicata din punct de vedere matematic (vezi lectia 4). Ea apare ca un ct de v.a.2, nmultit cu un numar care depinde de 1 si 2, adica 2=1. Vom mai nota o asemenea

  • LECTIA 10. INTERVALE DE NCREDERE 138

    variabila F1;2 pentru a pune n evidenta cei doi parametri de care depinde. Tabelul IV nefurnizeaza fractilele acestei distributii numai pentru ordinele 0,95; 0,975 si 0,99. Pe coloaneapar valorile parametrului 1 si pe linii apar valorile parametrului 2. De exemplu, pentrun1 = 10; n2 = 6; 1 = 9; 2 = 5; presupunem ca dupa selectie am obtinut F=7. Ne uitam lacuantila de ordin 0,95 si gasim valoarea 3,48. Valoarea selectiei, 7, este mai mare dect 3,48,deci cade n partea opusa, adica n partea cu probabilitatea 5%. Prin urmare inferentanoastra asupra ctului S

    0 21

    S0 22nu este adevarata cu 95% probabilitate. n practica este utila

    relatia:

    PF(1;2) c

    = P

    F(2;1)

    1

    c

    (10.7)

    Aici F(2;1) se numeste inversa v.a. F(1;2).Din aceste observatii rezulta imediat:

    Teorema 10.12 Avem relatia

    P

    aS 0 22S 0 21

    22

    21 bS

    0 22

    S 0 21

    = P

    a S

    0 21 =

    21

    S 0 22 =22

    b=

    F1;2 (b) F1;2 (a) = 1 "

    daca a si b sunt alese astfel ca F1;2 (b) = 1 "2 si F (a) = "2 . In aceste conditii un intervalde ncredere pentru

    21

    22, cu nivelul de ncredere (1 ") este

    haS0 22S0 21;bS0 22S0 21

    i.

    QED.

    10.4 Intervale de ncredere n cazul unor selectii mari

    Daca f(x; ) este densitatea de probabilitate a variabilei aleatoareX atunci dinR11 f(x; )dx =

    1 rezulta prin derivare n raport cu caR11

    @f@(x; ) d = 0 sau

    R @ ln(f(x;))@

    f(x; )dx = 0.

    Deci variabila aleatoare @ ln(f(x;))@

    are media 0 si dispersiaR11

    @ ln(f(x;))

    @

    2f(x; )dx. Pre-

    supunnd ca dispersia este nita , rezulta din legea limita centrala (vezi lectia 5) ca pentru nmare, variabila aleatoare

    @ ln(f(X1;))@

    + @ ln(f(X1;))@

    + :::+ @ ln(f(X1;))@r

    nR11

    @ ln(f(x;))

    @

    2f(x; )dx

  • LECTIA 10. INTERVALE DE NCREDERE 139

    unde X1, X2,... Xn sunt variabilele de selectie asociate cu X, are o distributie aproximativnormala cu media 0 si dispersia 1. Avem deci:

    Pr ob

    0BB@a < @ ln(f(X1;))@ + @ ln(f(X1;))@ + :::+ @ ln(f(X1;))@rnR11

    @ ln(f(x;))

    @

    2f(x; )dx

    < b

    1CCA t Z ba

    1p2e

    x2

    2 dx (10.8)

    Un interval de ncredere pentru ;cu nivelul de ncredere , se poate obtine pentru n mareastfel:- Se determina prin n experiente independente valorile x1,.. xn pentru X1,.. Xn.

    - Se determina a si b astfel caR ba

    1p2e

    x2

    2 dx = .- Din formula 10.8 rezulta ca multimea valorilor care verica inegalitatea

    a t") ", atunci [Y t" jZj ; Y + t" jZj] este un interval de ncredere de prag" pentru media , adica:

    P (Y t" jZj Y + t" jZj) 1 " Fie acum de estimat 2 a v.a. X. Presupunem ca am gasit o statistica Y a.. T= Y2 are

    distributia 2 cu d grade de libertate si e doua numere t0" si t00" astfel nct P(T t0")

    "2si P(T t00") "2 . Atunci

    hYt0"; Yt00"

    ieste un interval de ncredere pentru 2 de prag ":

    PYt0" 2 Y

    t00"

    1 ".

  • LECTIA 10. INTERVALE DE NCREDERE 140

    Se alege Y a.. sa aiba ct mai multe grade de libertate.FORMULE UTILIZATE FRECVENTIn formulele de mai jos nivelul de ncredere este 1 ", iar rezultatele a n

    masuratori independente ale unei caracteristici numerice cu distributie normalasunt x1; x2; :::xn.1. Un interval de ncredere pentru media m a unei variabile aleatoare normale,

    daca se cunoaste dispersia 2 este:x1 + x2 + :::xn

    n a p

    n;x1 + x2 + :::xn

    n+ a

    pn

    unde a se alege astfel ca (a) = 0; 5 "

    2.

    2. Un interval de ncredere pentru media m a unei v.a. normale, daca nu secunoaste dispersia, este:

    m a s

    pn 1 ;m

    + aspn 1

    unde m = x1+x2+:::xnn

    , s =q

    (x1m)2+(x2m)2+:::(xnm)2n

    , iar a se alege astfel ca F (a) =1 "

    2, F ind functia de repartitie a unei variabile Student cu n 1 grade de

    libertate.3. Un interval de ncredere pentru dispersia 2 a unei v.a. normale este:"

    (x1 m)2 + :::+ (xn m)2b

    ;(x1 m)2 + :::+ (xn m)2

    a

    #

    unde F (a) = "2; iar F (b) = 1 "

    2, F ind functia de repartitie a unei variabile 2 cu

    n 1 grade de libertate.4. Un interval de ncredere pentru ctul dispersiilor

    22

    21a doua v.a. indepen-

    dente este: 24a Pn2i=1(yim0)2n21Pn1i=1(xim)2n11

    ; b Pn2i=1(yim0)2n21Pn1

    i=1(xim)2n11

    35unde m = x1+x2+:::xn1

    n1, m0 = y1+y2+:::yn2

    n2, n1si n2 sunt volumele celor doua selectii,

    1 = n1 1, 2 = n2 1, iar a si b sunt alese astfel ca 1 "2 = F1;2(b) , "2 = F1;2(a)

    10.6 Exercitii rezolvate

    1. Atunci cnd se nasc 2 copii simultan (gemeni) probabiliatea ca ei sa e gemeni adevaratieste . Se presupune ca:

  • LECTIA 10. INTERVALE DE NCREDERE 141

    a) 2 gemeni adevarati au ntotdeauna acelasi sex si probabilitatea ca ei sa e baieti este 12 ;b) 2 gemeni falsi au sexe diferite si probabilitatea ca unul dintre ei sa baiat este 12 ;i)n cursul nasterii a 2 gemeni se considera evenimentele: A= (2 baieti); B= (2 fete);

    C= (1 baiat si 1 fata). Calculati n functie de probabilitatile p(A), p(B), p(C).ii) n cursul a 1000 de nasteri se realizeaza evenimentul C de 328 de ori. Dati pentru

    un interval de ncredere de prag "=0,05.iii) Observam acum n nasteri de gemeni si notam cu Y C numarul de realizari ale eveni-

    mentului C. Ce lege guverneaza v.a. Y C? Deniti cu ajutorul lui Y C un esantion nedeplasatZ pentru . Calculati varianta lui Z. Dati pentru n mare o conditie independenta de sisucienta pentru a putea deni cu ajutorul lui Z un interval de ncredere de prag "=0,05 acarui lungime sa e mai mica dect un a 2 R , dat. Caz particular a = 1100 .Solutie i) Notam cu V evenimentul: > si cu F: >. Atunci A=(A\V)[(A\F) si p(A)=p(V)pV (A)+p(F)pF (A)= 12 + (1 )14 = +14 . Lafel p(B)=+1

    4si p(C)=1

    2.

    ii) Fie X v.a. care are valoarea 1, daca se realizeaza evenimentul C, si 0 altfel. Esteclar ca M(X)==12 . X =

    1nYC =

    3281000

    = 0; 328. Cum X=Xi, avem ca X2i =Xi, deci

    S2 = 1n

    Pi

    X2i (X)2 = X1X. Cum T=XM(X)p

    S2=neste practic normala redusa, egalitatea

    P(jTj 1; 96) = 0; 05 da pentru intervalul de ncredere cerut: X1; 96 Spn X+1; 96 Spn ,sau 0; 299 1

    2 0; 357. De aici rezulta intervalul de ncredere cautat pentru : 0; 286

    0; 402:iii) YC este binomiala cu p=12 . Avem deci M(YC)=

    n(1)2

    si D(YC)=n(12)

    4. Egalitatea

    = 1 2nM(YC) da pentru estimatorul nedeplasat Z=1- 2nYC de dispersie

    4n2D(YC)=1

    2

    n.

    Cnd n ! 1, YC este practic gaussiana (normala), deci si Z este la fel. Consideramdeci T= Zq

    (12)=ncare este gaussiana redusa. Egalitatea P(jTj 1; 96) = 0; 05 ne per-

    mite sa scriem PjZ j 1; 96

    q1 2 =n = 0; 05, si cum q1 2 =n p1=n avem

    P(jZ j 1; 96=pn) < 0; 05, de unde Z-1;96pn Z+1;96p

    n. Lungimea lui va mai mica

    dect a atunci cnd a 21;96pn, sau n 3;92

    a

    2. Pentru a = 1

    100gasim n 153664.

    2. Se masoara forta de compresiune X (n Kg/cm3) a cimentului din care sunt confec-tionati cilindri mici, limita de la care ei se sparg. Pentru n=10 cilindri se observa urmatoarelepresiuni:

    19,6 19,9 20,4 19,8 20,521,0 18,5 19,7 18,4 19,4

    Presupunem ca X are o lege gaussiana (normala).i) Dati un interval de ncredere de prag " = 0; 1 pentru M(X).

  • LECTIA 10. INTERVALE DE NCREDERE 142

    ii) Dati o estimare nedeplasata b2 pentru varianta 2 a v.a. X, gasiti apoi un interval dencredere de prag 0,1 pentru 2.iii) Presupunem ca 2=0,69. Gasiti pentru M(X) un nou interval de ncredere de prag

    0,1. Comparati cu rezultatul de la 1).Solutie i) Calculam X = 19; 72 si nS2 = 6; 0960. T= XM(X)p

    S2=(n1)este o v.a. Student cu

    n 1 = 9 grade de libertate, avem P(jTj > t") = 0; 1 pentru t" = 1; 833. Intervalul dencredere cerut este deci X t" Spn1 M(X) X+ t" Spn1 , sau 19; 243 M(X) 20; 197.ii) O estimatie nedeplasata a lui 2 este b2 = nS2n1 = 0; 6773. Pe de alta parte stim ca U=nS22

    are distributia 2(Pearson) cu n 1 = 9 grade de libertate. Avem deci P(U > t0") = 0; 05pentru t00" = 3; 33. De aici gasim pentru

    2 intervalul de ncredere: nS2

    t0" 2 nS2

    t00", adica

    0; 36 2 1; 83.iii) Daca stim dispersia 2 = 0; 69 putem folosi faptul ca X este gaussiana N

    ;

    2

    n

    si deci

    T0 = XM(X)p2=n

    este gaussiana redusa. Egalitatea P(jT0j > t0") = 0; 1 ne conduce la t0" = 1; 6449.Prin urmare, gasim un interval de ncredere de prag 110 pentru M(X): X t0"

    p2=n M(X)

    X+ t0"p2=n, sau 19; 287 M(X) 20; 153. Acest interval este mai mic dect acela gasit la

    1) deoarece acum avem dispersia data.

    10.7 Exercitii

    1. Notam cu X vrsta n ani la care un om devine bunic. Presupunem ca X are distributianormala cu varianta 225. 9 persoane luate la nmplare au declarat ca au devenit bunici la:42, 56, 68, 56, 48, 36, 45, 71 si 64 ani.

    a) Calculati media si dispersia de selectie.b) Gasiti un interval de ncredere de 80% pentru medie.c) Gasiti un interval de ncredere de 95% pentru medie.

    2. n cadrul unui proces de estimare a mediei unei populatii oarecare, un statistician vreaca probabilitatea ca media de selectie sa difere de media adevarata cu mai putin de 0,2 sae mai mare de 0,95.a) Ce volum de selectie trebuie sa foloseasca?b) Daca volumul de selectie este 100, care este marja de aproximare (n unitati) a mediei

    reale cu media de selectie, pentru ca sa se obtina un prag de ncredere de 0,95?c) Daca se stie ca populatia este normala care trebuie sa e volumul de selectie ca Pr ob

    X m 0; 2 0; 95 ?

    3. Fie distributia student T cu 12 grade de libertate.a) gasiti fractile pentru 0,10; 0,60 si 0,95.b) gasiti media si dispersia.

  • LECTIA 10. INTERVALE DE NCREDERE 143

    c) P(T

  • Lectia 11

    Ipoteze statistice. Teste statistice

    11.1 Ipoteze si testarea lor

    n continuare vom face ipoteze asupra parametrilor unor populatii, stiind n prealabil clasade distributii din care fac parte (de exemplu: normala, Bernoulli, Poisson, etc.). Vom folosirezultatele obtinute n Lectia 10 asupra estimarii prin intervale de ncredere a unor parametriremarcabili pentru distributii cunoscute (media si dispersia pentru populatii normale, deexemplu).O ipoteza statistica este o ipoteza facuta asupra unor nsusiri statistice ale unei populatii

    P.Ea este simpla, daca se refera la ntreaga informatie care determina distributia populatiei,de exemplu ipoteza:H: populatia este normala de medie m=10 si dispersie 2=225, sauH: populatia este Bernoulli cu p=0,3.Ipoteza poate compusa daca se refera numai la o parte din informatiiile ce ar putea

    determina distributia populatiei. Iata un exemplu de distributie compusa:H: populatia este normala de medie 40, sauH: populatia este Poisson (nu facem nici o ipoteza asupra mediei ).In cazul ipotezelor compuse, ceilalti parametrii care impreuna cu cei testati ar duce la

    determinarea completa a distributiei, se estimeaza dintr-o selectie (sau mai multe) facutaasupra populatiei.O ipoteza poate exacta,de exemplu ipoteza H: media populatiei Poisson este =3, sau

    poate inexacta: H: media populatiei normale este m 5.n aparenta noi lucrm cu o singura ipoteza H. De fapt lucram cu doua ipoteze: H=H0 si

    H1, ipoteza contrara ipotezei H0. n cele ce urmeaza vom considera doua ipoteze alternativeH0 si H1. Nu intotdeauna ipoteza H1 reprezinta negatia logica obisnuita a ipotezei H0. Deexemplu, H0: media populatiei este m=30, H1: media populatiei s-a micsorat, adica estem

  • LECTIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 145

    se numeste test statistic. Daca testul statistic se refera la unul sau mai multi parametri ce aparn legea ce deneste populatia spunem ca testul este parametric. Dintre cele doua ipoteze H0si H1, una dintre ele, notata cu H0, ocupa locul central: testam pe H0 mpotrivaalternativeiH1. La nalul testarii statisticianul, e accepta pe H0, e ca respinge pe H0 n favoarea ipotezeiH1. Oricum el trebuie sa ia o decizie. Fiecare test statistic implica o statistica de selectie,adica o functie continua de tipul g (X1; :::; Xn), unde n este volumul selectiei, iar X1; :::; Xnsunt variabilele de selectie. Anumite valori ale statisticii conduc la acceptarea ipotezei H0,alte valori ale ei conduc la respingerea acestei ipoteze. Vom vorbi deci de un domeniu derespingere (de neacceptare). Regula de decizie este data de fapt de specicarea domeniuluide respingere al ipotezei H0, deoarece se considera ca domeniul complementar domeniului derespingere este exact domeniul de acceptare pentru ipoteza H0.Mai exact, daca ipoteza H0, numita si ipoteza nula, este adevarata atunci, in urma unei

    selectii concrete, este foarte probabil ca valoarea calculata pentru v.a. g (X1; :::; Xn) sa segaseasca intr-un interval de probabilitate mare. Acest lucru se intampla deoarece statisticag (X1; :::; Xn) are o repartitie bine determinata de ipoteza H0 si eventual de unele estimarifacute in urma selectiei concrete ce apare in problema. Deci noi trebuie sa stabilim o zona deacceptare, adica o submultime A din R a.i. probabilitatea ca o valoare a v.a. g (X1; :::; Xn) saapartina multimii A sa e destul de mare (de obicei se ia ca ind 0; 9). Multimea RnAse zice zona de respingere si probabilitatea ca v.a. g (X1; :::; Xn) sa ia o valoare in RnAeste foarte mica ( 0; 1). Numarul " = prob (g (X1; :::; Xn)2 RnA) se numeste prag desemnicatie pentru testul pe care il vom constitui, iar statistica g (X1; :::; Xn) este o v.a. caredepinde de v.a. de selectie X1; :::; Xn si este legata de ipoteza H0. De exemplu, daca H0 serefera la media populatiei, g (X1; :::; Xn) va media de selectie standardizata, adica Z = Xm=pn ,unde m este media ce rezulta din ipoteza H0, este deviatia standard (presupusa cunoscuta),n este volumul selectiei, iar X = (X1 +X2 + +Xn) =n, este v.a. media de selectie. Ipotezaalternativa, H1 este ipoteza ce rezulta natural in urma negarii ipotezei H 0. De exemplu, dacaH0 este "m = 30" si noi stim sigur ca media nu poate sa creasca in urma experimentuluice apare in problema, atunci H1 va "m < 30". Daca nu stim nimic despre modul in carese schimba media, este natural sa consideram ipoteza alternativa ca ind "m 6= 30", adica"m < 30" sau "m > 30". Iata deci cum functioneaza in general un test parametric referitorla parametrul al unei populatii P:1) construim ipotezele H0 (ipoteza nula) si H1 (ipoteza alternativa) asupra parametrului

    .2) construim v.a. g (X1; :::; Xn) care are o distributie (repartitie) cunoscuta daca consid-

    eram pe H0 adevarata.3) precizam pragul de semnicatie " pentru v.a. g (X1; :::; Xn) (" este mic, 0; 1).4) reprezentam grac (schematic si nu exact) zonele de respingere si respectiv de acceptare,

    (g) =densitatea de probabilitate a v.a. g.

  • LECTIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 146

    Zona tipica de respingere a unui test

    Aria hasurata este "=2 + "=2 = " = prob(g sa ia valori in zona de respingere).5) calculam gcalc: = g (x1; :::; xn) pentru valorile efective ale unei selectii furnizate de prob-

    lema. Daca gcalc 2 fzonei de acceptareg vom spune ca acceptam ipoteza H0 cu pragul desemnicatie ". Daca gcalc 2 fzonei de respingereg acceptam ipoteza alternativa H1 cu pragulde semnicatie ":

    11.1.1 Testul Z privind media unei populatii normale cu dispersiacunoscuta 2

    Vrem sa testam ipoteza: H0: m = m0, m0 specicat (m este media populatiei)H1: m 6= m0 Consideram statistica Z = Xm0

    =pn. Stim ca Z este o v.a. normala redusa (are media 0 si

    dispersia 1), pentru n mare. Aici este precizat de problema. Fie " 2 (0; 0; 1] pragul de semnicatie ales (" = 0; 05; 0; 01; etc.)

  • LECTIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 147

    Zona de respingere pentru un test bilateral

    Calculam pe Z"=2 ca ind cuantila de ordin "=2, adica F (Z"=2) = 1 "=2 (vezi TABELULI) calculam Zcalc = Xm0=pn pentru selectia din problema.Daca jZcalcj Z=2, acceptam ipoteza H0 cu pragul de semnicatie ".Daca jZcalcj > Z=2, respingem ipoteza H0 (acceptam H1) cu pragul de semnicatie ".

    Exemplul 11.1 Testati cu un prag (nivel) de semnicatie de 5% daca o selectie de volum 1,x1 = 172 provine dintr-o populatie normala cu media m = 150 si dispersia xata (cunoscuta)2 = 100.Solutie H0: m = 150; H1: m 6= 150; Z = Xm=pn = Xm , deoarece n = 1 si X = X1 = X.

    F (Z0;025) = 1 0; 025 = 0; 975:

  • LECTIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 148

    Deci, din TABELUL I gasim ca Z0;025 (cuantila de ordin 0,025) este 1,96.Zcalc =

    17215010

    = 2; 2. Deoarece jZcalcj > 1; 96 respingem H0 (acceptam H1) cu pragul desemnicatie de 5%. Adica este putin probabil ca selectia sa provina dintr-o populatie normalacu media m = 150 si dispersia 2 = 100.Aici am folosit un test bilateral (zona de respingere este simetrica fata de origine, adica

    are 2 cozi) deoarece pentru H1; m poate tot asa de bine < 150 sau > 150.

    Exemplul 11.2 Testati cu un prag de semnicatie " = 1% daca selectia de volum 1, x1 = 54,a fost facuta dintr-o populatie normala cu media m = 65 si dispersia 2 = 30, sau daca mediaeste mai mica decat 65.Solutie H0: m = 65; H1: m < 65. Vom avea deci un test unilateral (la stanga, cu o

    singura coada).Z = Xm=pn= Xm

    .

    Zona de respingere pentru un test unilateral

    Deoarece in tabelele statistice se dau numai valorile functiei de repartitie normala, F(z),pentru z 0, va trebui sa folosim proprietatile de simetrie ale densitatii de probabilitate (z).Avem ca P(Z < Z0;01) =F(Z0;01) = 0; 01. Deci F(Z0;01) =P(Z < Z0;01) = 1P(Z < Z0;01) =1 0; 01 = 0; 99, deci, din TABELUL I gasim ca Z0;01 = 2; 33, adica Z0;01 = 2; 33.Calculam Zcalc = 5465p30 = 2; 01. Cum 2; 01 > 2; 33 vom accepta ipoteza H0 cu pragul

    de semnicatie de 1%. Cum pragul este mic si Zcalc este foarte aproapede valoarea critica2; 33 statisticianul are dubii serioase asupra rezultatului si va trebui sa considere si altaselectie si sa foloseasca un test cu semnicatie mai mare, de exemplu de 5% pentru a maisigurde concluzia pe care o da.

    Exemplul 11.3 Din 100 de seminte plantate 83 au germinat. Folositi aproximarea distrib-utiei binomiala cu o distribatie normala pentru a testa pretentia comerciantului ca 90% din

  • LECTIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 149

    seminte germineaza. Folositi doua teste: unul cu pragul de semnicatie de 5%, altul cu pragulde 1%.Solutie Fie X v.a. care numara cate seminte au germinat din cele n. X Bin(n; p),

    unde n = 100.H0: p = 0; 9 (rata de germinare este de 90%).H1: p < 0; 9 (rata de germinare este mai mica de 90%).Vom avea deci un test unilateral, deoarece este putin probabil ca vanzatorul sa sustina o

    rata de germinare mai mica decat aceea reala.Pentru pragul " = 0; 05 avem:

    P(Z < Z0;05) = 0; 05; deci P(Z < Z0;05) = 0; 95 =F(Z0;05).Din TABELUL I gasim ca Z0;05 = 1; 65, deci Z0;05 = 1; 65.Cum H0: X Bin(100; 0; 9) avem ca X N(np; npq) =N(90; 9), deci Zcalc = Xnppnpq =

    83903

    = 2; 33.Dar Zcalc = 2; 33 < 1; 65 si deci va trebui sa resping H0 cu pragul de 5%. Adica

    fabricantul de seminte... minte!Pentru pragul " = 0; 01; (Z0;01) 0; 99, deci Z0;01 = 2; 32, sau Z0;01 = 2; 32.

    Cum Zcalc = 2; 33 < 2; 32, dar aproape insensibil mai mic, testul in acst caz nu poate concludent deoarece valoarea calculata Zcalc este prea aproape de valoarea critica 2; 32. Prinurmare, fabricantul... minte, dar nu minte prea mult! Este nevoie de alte solutii pentru acapata o certitudine mai mare.

    Exemplul 11.4 O masina produce benzi elastice cu tensiuni de rupere normal distribuite cumedia m = 45N si = 4; 36N . Intr-o zi s-a facut o selectie de volum 50 si s-a gasit mediaselectiei x = 43; 46N . Testati cu un prag de semnicatie de 5% daca acest lucru indica saunu o schimbare a mediei tensiunilor de rupere.

  • LECTIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 150

    Solutie H0: m = 45 (media nu s-a schimbat)H1: m 6= 45 (media s-a schimbat)-test bilateral!

    X Nm;

    2

    n

    , m = 45N; = 4; 36; n = 50.

    Zcalc =xm=pn= 43;4645

    43;36=p50= 2; 4975 < 1; 96. Prin urmare respingem ipoteza H0 cu

    pragul de semnicatie de 5%.Un interval de incredere de nivel 95% pentru medie este x 1; 96 p

    n= (42; 25; 44; 67).

    Vedem ca 45 =2 (42; 25; 44; 67). Cea mai mica valoare a lui astfel incat 45 sa e in intervalulde incredere x 1; 96 p

    neste = 5; 56 (vezi ecuatia 43; 46 + 1; 96 p

    50= 45).

    Exemplul 11.5 Tensiunea de rupere a unor cabluri produse de o fabrica este normal dis-tribuita cu media 6000N si deviatia standard = 150N. Gasiti probabilitatea ca un cablu luatla intamplare se aiba tensiunea de rupere > 6200N.S-a modicat procesul de productie si media tensiunilor de rupere se modica. Se aleg

    6 cabluri la intamplare dupa aceasta modicare, se testeaza si se gaseste o medie de ruperex = 5920N. Testati cu un prag de 5% daca dupa modicare media tensiunilor s-a micsorat.Gasiti o constanta C a.i. noi sa putem spune cu un nivel de incredere de 90% ca media derupere este mai mare decat C.Solutie X N(6000; 1502); P(X > 6200) =PXm

    > 6200m

    =P(Z > 1; 333) = 1P(Z 1; 333) =

    1F(1; 333) = 1 0; 90 = 0; 1: x = 5920N; H0: m = 6000N; H1: m < 6000N;X N

    m;

    2

    n

    =N6000; 150

    2

    6

    ;

  • LECTIA 11. IPOTEZE STATISTICE. TESTE STATISTICE 151

    Zcalc =xm=pn= 59206000

    150=p6= 1; 306 > 1; 65, deci acceptam ipoteza H0 cu pragul de

    semnicatie 5%. Trebuie sa gasim C a.i. P(C < m m) = 0; 9, sau inca

    PXC=p6> Xm

    =p6= Z

    = 0; 9. Deci F

    XC=p6> Z

    = 0; 9 si de aici gasim ca XC

    =p6= Z0;9 =

    1; 29. Prin urmare C= x 1; 29150p6.

    Exemplul 11.6 O distributie normala se crede a avea media 50. Se face o selectie de volum100 si se gaseste o medie de 52,6 si o deviatie standard de selectie de 14,5. Testati cu nivelulde 5% daca media populatiei a crescut.Solutie Fie m media reala si 2 disper