Statistica Seminar & Laborator

84
m n lege lege 100 × 10 N (5, 0.2) 200 × 50 P (0.01) 10000 μ =2 σ =0.5 L

description

Statistica Seminar & Laborator

Transcript of Statistica Seminar & Laborator

1 Statistic  Aplicat  (L1 & S1)

Experimente aleatoare în Matlab

Generarea de numere (pseudo-)aleatoare

Vorbim de numere pseudo-aleatoare deoarece numerele generate de Matlab sunt rezultatul compil riiunui program deja existent în Matlab, ³i de aceea ele nu pot � aleatoare în sensul strict al cuvântului.Îns , putem face abstracµie de modul programat de generare ale acestor numere ³i s  consider m c  aces-tea sunt numere aleatoare.

Generarea de numere aleatoare de o repartiµie dat 

Comenzile Matlab pentru generarea de numere aleatoare ce urmeaz  repartiµia notat  generic lege sunt:

legernd(<param>, m, n)

sau, alternativ,

random('lege', <param>, m, n).

Oricare dintre cele dou  comenzi genereaz  o matrice aleatoare, cu m linii ³i n coloane, având componentenumere aleatoare ce urmeaz  repartiµia lege. În loc de lege putem scrie oricare dintre expresiile din tabeluldin Tabelul 1.1. De exemplu,

normrnd (5, 0.2, 100, 10);

genereaz  o matrice aleatoare cu 100× 10 componente repartizate N (5, 0.2).

random ('poiss',0.01, 200, 50);

genereaz  o matrice aleatoare cu 200× 50 componente repartizate P(0.01).

Utilizând comanda

randtool

putem reprezenta interactiv selecµii aleatoare pentru diverse repartiµii. Comanda deschide o interfaµ gra�c  ce reprezint  prin histograme selecµiile dorite, pentru parametrii doriµi (vezi Figura 1.1). Datelegenerate deMatlab pot � exportate în �³ierul Workspace cu numele dorit. De exemplu, folosind dateledin Figura 1.1, am generat o selecµie aleatoare de 10000 de numere ce urmeaz  repartiµia lognormal  deparametri µ = 2 ³i σ = 0.5 ³i am salvat-o (folosind butonul Export) într-un vector L.

1

Figura 1.1: Interfaµ  pentru generarea de numere aleatoare de o repartiµie dat .

repartiµii probabilistice discrete repartiµii probabilistice continue

norm: repartiµia normal  N (µ, σ)bino: repartiµia binomial  B(n, p) unif: repartiµia uniform  continu  U(a, b)nbin: repartiµia binomial  negativ  BN(n, p) exp: repartiµia exponenµial  exp(λ)poiss: repartiµia Poisson P(λ) gam: repartiµia Gamma Γ(a, λ)unid: repartiµia uniform  discret  U(n) beta: repartiµia Beta β(m,n)geo: repartiµia geometric  Geo(p) logn: repartiµia lognormal  logN (µ, σ)hyge: repartiµia hipergeometric  H(n, a, b) chi2: repartiµia χ2(n)

t: repartiµia student t(n)f: repartiµia Fisher F(m, n)

wbl: repartiµia Weibull Wbl(k, λ)

Tabela 1.1: Repartiµii uzuale în Matlab

Repartiµiile uniform continu  ³i normal  mai pot � simulate în Matlab folosind ³i alte seturi de funcµii,mai simplu de utilizat. Aceasta se datoreaz  faptului c  ele sunt cele mai des utilizate în simularea de datealeatoare. Dup  cum vom vedea mai târziu, putem genera valori aleatoare de o repartiµie dat  plecândde la repartiµia uniform continu .

2

Generarea de numere uniform repartizate într-un interval, U(a, b)

Funcµia rand

• Funcµia rand genereaz  un num r aleator repartizat uniform în [0, 1].De exemplu, comanda

X = (rand < 0.5)

simuleaz  aruncarea unei monede ideale. Mai putem spune ca num rul X astfel generat este unnum r aleator repartizat B(1, 0.5).

• De asemenea, num rul

Y = sum(rand(10,1) < 0.5)

urmeaz  repartiµia B(10, 0.5) (simularea a 10 arunc ri ale unei monede ideale).

• rand(m, n) genereaz  o matrice aleatoare cu m× n componente repartizate U(0, 1).

• Comanda a+ (b− a) ∗ rand genereaz  un num r pseudo-aleator repartizat uniform în [a, b].

• Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-zentând starea actual  a generatorului de numere aleatoare uniform (distribuite). Pentru a schimbastarea curent  a generatorului sau iniµializarea lui, putem folosi comanda

rand(method, s)

unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate � 'state','seed' sau 'twister'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµiali-zatorului. De exemplu,

rand('state', 125)

�xeaz  generatorul la starea 125.

Observaµia 1.1 Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegemnumere aleatoare care au aceea³i ³ans  de a � oriunde în (a, b), ³i nu numere la intervale egale.

Figura 1.2 reprezint  cu histograme date uniform distribuite în intervalul [−2, 3], produse de comandaMatlab:

hist(5*rand(1e4,1)-2,100)

3

Figura 1.2: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (µ, σ)

Funcµia randn

• Funcµia randn genereaz  un num r aleator repartizat normal N (0, 1).

• randn(m, n) genereaz  o matrice aleatoare cu m× n componente repartizate N (0, 1).

• Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generato-rului, folosim comanda:

randn(method, s)

unde unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate � 'state'

sau 'seed'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµializatorului.

• Comanda m+σ∗randn genereaz  un num r aleator repartizat normal N (m, σ). De exemplu, codulurm tor produce Figura 1.3:

x = 0:0.05:10;

y = 5 + 1.1*randn(1e5,1); % date distribuite N (5, 1.1)

hist(y,x)

Simularea arunc rii unei monede

• Comanda

X = (rand < 0.5);

4

0 2 4 6 8 100

50

100

150

200

250

Figura 1.3: Reprezentarea cu histograme a datelor normale.

simuleaz  aruncarea unei monede ideale. Vom mai spunem c  num rul X astfel generat este unnum r aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, în cazul în care o urn  are bilealbe ³i negre în num r egal ³i extragem o bil  la întâmplare)

• Num rul

Y = sum (rand(30,1)<0.5)

urmeaz  repartiµia B(30, 0.5) (simularea a 30 arunc ri ale unei monede ideale).

• Acela³i experiment poate � modelat ³i prin comanda

round(rand(30,1))

Pentru a num ra câte feµe de un anumit tip au ap rut, folosim

sum(round(rand(30,1)))

Simularea în Matlab a unei v.a. de tip discret

S  consider m o variabil  aleatoare ce poate avea doar 3 rezultate posibile, a, b ³i c, cu probabilit µile derealizare 0.5, 0.2 ³i, respectiv, 0.3. Tabloul de repartiµie asociat este:

X :

(a b c

0.5 0.2 0.3

),

Pentru a modela aceast  variabil  aleatoare în Matlab, proced m astfel: alegem uniform la întâmplareun num r x din intervalul [0, 1]. Dac  x < 0.5, atunci convenim c  rezultatul a s-a realizat, dac 0.5 < x < 0.7, atunci rezultatul b s-a realizat. Altfel, rezultatul v.a. X este c. Dac  acest experiment serepet  de multe ori, atunci rezultatele pot � folosite în estimarea probabilit µilor de realizare a variabileialeatoare. Cu cât vom face mai multe experimente, cu atât vom aproxima mai bine valorile teoretice aleprobabilit µilor, deci putem spune c  am aproximat variabila aleatoare X.În Matlab, scriem:

syms a b c % declaram a, b si c ca variabile simbolice

r = rand;

X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)

5

Folosind aceast  metod , putem simula aruncarea unui zar ideal. Avem 6 rezultate posibile, ³i anume,apariµia unei feµe cu 1, 2, 3, 4, 5 sau 6 puncte. Pentru a simula acest experiment, modi�c m în modconvenabil problema. Vom considera c  punctele din intervalul [0, 1] formeaz  mulµimea tuturor cazurilorposibile ³i împ rµim intervalul [0, 1] în 6 subintervale de lungimi egale:{

(0,1

6), (

1

6,

2

6), (

2

6,

3

6), (

3

6,

4

6), (

4

6,

5

6), (

5

6, 1)

}.

corespunz toare, respectiv, celor ³ase feµe, s  zicem în ordinea cresc toare a punctelor de pe ele. Vomvedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete închise, deschisesau mixte nu are efect practic asupra calculului probabilit µii dorite. Acum, dac  dorim s  simul m înMatlab apariµia feµei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un num r "laîntâmplare" din intervalul [0, 1] ³i veri�c m dac  acesta se a�  în intervalul (26 ,

36). A³adar, comanda

Matlab

u = rand; (u < 3/6 & u > 2/6)

simuleaz  aruncarea unui zar ideal. Ca o observaµie, deoarece cele 6 feµe sunt identice, putem simpli�caaceast  comanda ³i scrie

(rand < 1/6).

Repartiµii probabilistice în Matlab

Funcµia de probabilitate (pentru v.a. discrete) ³i densitatea de repartiµie (pentru v.a. continue) (ambelenotate anterior prin f(x)) se introduc în Matlab cu ajutorul comenzii pdf, astfel:

pdf('LEGE', x, <param>) sau LEGEpdf(x, <param>).

Funcµia de repartiµie F (x) a unei variabile aleatoare se poate introduce în Matlab cu ajutorul comenziicdf, astfel:

cdf('LEGE', x, <param>) sau LEGEcdf(x, <param>).

Inversa funcµiei de repartiµie pentru repartiµii continue, F−1(y), se introduce cu comanda icdf, astfel:

icdf('LEGE', y, <param>) sau LEGEinv(y, <param>).

În comenzile de mai sus, LEGE poate � oricare dintre legile de repartiµie din Tabelul 1.1, x este un scalar sauvector pentru care se calculeaz  f(x) sau F (x), y este un scalar sau vector pentru care se calculeaz  F−1(y),iar <param> este un scalar sau un vector ce reprezint  parametrul (parametrii) repartiµiei considerate.

Observaµia 1.2 Fie X o variabil  aleatoare ³i F (x, θ) funcµia sa de repartiµie, θ �ind parametrul repar-tiµiei. Pentru un x ∈ R, relaµia matematic 

P (X ≤ x) = F (x)

o putem scrie astfel în Matlab:

cdf('numele repartiµiei lui X',x,θ). (1.1)

6

Problema poate aparea la evaluarea în Matlab a probabilit µii P (X < x). Dac  repartiµia considerat este una continu , atunci corespondentul în Matlab este tot (1.1), deoarece în acest caz

P (X ≤ x) = P (X < x) + P (X = x) = P (X < x).

De exemplu, dac  X ∼ N (5, 2), atunci

P (X < 4) = cdf('norm', 4, 5, 2).

Dac  X este de tip discret, atunci

P (X < x) =

{P (X ≤ [x]) , x nu e întreg

P (X ≤ m− 1) , x = m ∈ Z,

unde [x] este partea întreag  a lui x.De exemplu, dac  X ∼ B(10, 0.3), atunci

P (X < 5) = P (X ≤ 4)

= cdf('bino', 4, 10, 0.3) = 0.8497.

Exerciµii rezolvate

Exerciµiu 1.1 O moned  ideal  este aruncat  de 100 de ori, iar X este variabila aleatoare ce reprezint num rul de feµe cu stema ap rute.(a) Care este probabilitatea de a obµine exact 52 de steme?(b) S  se calculeze P (45 ≤ X ≤ 55).

Soluµie: (a) Avem de calculat P1 = P (X = 52). Îns  X este o variabil  aleatoare distribuit B(100, 0.5), a³adar rezultatul exact este:

P1 = C52100 · (0.5)52 · (0.5)48 = 0.0735.

(b) Not m cu FX funcµia de repartiµie pentru variabila aleatoare binomial  X. Atunci,

P2 = P (45 ≤ X ≤ 55) = P (X ≤ 55)− P (X < 45)

= FX(55)− FX(44)

=55∑

k=45

Ck100 · (0.5)k · (0.5)100−k = 0.7287.

Înl Matlab, putem calcula probabilit µile astfel:

(a) P1 = binopdf(52,100,0.5)

sau P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48

(b) P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) . √

Exerciµiu 1.2 Cineva a înregistrat zilnic timpul între dou  sosiri succesive ale tramvaiului într-o anumit staµie ³i a g sit c , în medie, acesta este de 20 de minute. Se ³tie c  acest timp este distribuit exponenµial.

7

Dac  o persoan  a ajuns în staµie exact când tramvaiul pleca, a�aµi care sunt ³ansele ca ea s  a³tepte celpuµin 15 minute pân  vine urm torul tramvai.

Soluµie: Not m cu T timpul de a³teptare în staµie între dou  sosiri succesive ale tramvaiului ³i cu FTfuncµia sa de repartiµie. �tim c  T ∼ exp(λ), unde λ = 20. A³adar, avem de calculat P (T ≥ 15), careeste:

P (T ≥ 15) = 1− P (T < 15) = 1− FT (15),

³i aceasta este

1 - cdf('exp',15, 20) = 0.4724 (sau 1-expcdf(15, 20) = 0.4724),

ceea ce implic  47.24% ³anse. √

Exerciµiu 1.3 Dintre spectatorii prezenµi pe un anumit stadion la un meci de fotbal, un procent de 20%sunt femei.La o tombola organizat  pentru spectatori, un computer alege la întâmplare numerele a 7 bilete de intrare³i se premiaz  posesorii.(i) Care este probabilitatea ca m car 3 dintre spectatorii premiaµi s  �e femei?(ii) Care este probabilitatea ca nicio femeie s  nu câ³tige la tombol ?(iii) Dac  selecµia biletelor câ³tig toare ar � fost realizat  prin alegerea a 7 spectatori ce erau a³ezaµiîn ³ir, pe un acela³i rând ales la întâmplare, argumentaµi dac  probabilit µile g site la (i) si (ii) r mânacelea³i.

Soluµie: Fie X variabila aleatoare ce reprezint  num rul de femei ce apar la alegerea la întâmplare a 7spectatori. Atunci X ∼ B(7, 0.2). Fie p = 0.2.(i) P (X ≥ 3) = 1− P (X < 3) = 1− P (X ≤ 2) = 1− FX(2) = 0.1480.În Matlab,

P1 = 1-binocdf(2,7,0.2).

(ii) P (X = 0) = C07 p

0 (1− p)7 = 0.2097 (=binopdf(0,7,0.2)).În Matlab,

P2 = binopdf(0,7,0.2).

(iii) În acest caz, X nu ar mai � o v.a. binomial , deoarece alegerea spectatorilor nu mai este aleatorie(spectatorii a³ezaµi al turi pot � cuno³tinte, prieteni etc.). √

Exerciµiu 1.4 (i) În faµa unui oponent de acela³i calibru la tenis de mas , care eveniment este maiprobabil: s  câ³tigi 3 partide din 4, sau s  câ³tigi 5 partide din 8? Justi�caµi r spunsul.(ii) Se menµine rezultatul anterior dac , în loc de tenis de mas , cei doi s-ar întrece la ³ah? Presupunemc  adversarii sunt de aceea³i valoare. Justi�caµi r spunsul.

- (i) Deoarece cei doi oponenµi sunt de acela³i calibru, probabilitatea unuia de a câ³tiga împotrivaceluilalt este p = 0.5. S  not m cu X num rul de jocuri câ³tigate de juc torul J1 împotriva lui J2. Atunci,X este o variabil  aleatoare binomial ; în cazul în care se joac  doar 4 partide, X ∼ B(4, 0.5), iar în cazulîn care se joac  8 partide, X ∼ B(8, 0.5).Probabilitatea ca J1 s  câ³tige 3 din 4 este P1 = C3

40.54 = 0.25,iar probabilitatea ca J1 s  câ³tige 5 din 8 este P2 = C5

80.58 = 0.2187.(ii) În acest caz, rezultatul se schimb . Nu mai putem folosi repartiµia binomial , deoarece la ³ah exist ³i posibilitatea unei remize (pentru o singur  partid , exist  3 rezultate posibile). √

8

Exerciµiu 1.5 Un sondaj preliminar a determinat c  42% dintre persoanele cu drept de vot dintr-oanumit  µar  ar vota candidatul C pentru pre³edinµie. Alegem la întâmplare 200 de votanµi. Care esteprobabilitatea ca un procent dintre ace³tia, situat între 40% ³i 50%, îl vor vota pe C la pre³edinµie?

- S  not m cu p = 0.42 ³i cu X variabila aleatoare ce reprezint  num rul de votanµi ce au alescandidatul C, din selecµia aleatoare de volum n = 200 considerat . Este clar c  X ∼ B(n, p). Se cereprobabilitatea P (80 ≤ X ≤ 100) (deoarece 40% din 200 înseamn  80 etc). Deoarece X este o variabil aleatoare discret , avem c :

P = P (80 ≤ X ≤ 100) = P (X ≤ 100)− P (X < 80) = FX(100)− FX(79),

unde FX este funcµia de repartiµie a lui X.În Matlab:

P = binocdf(100, 200, 0.42) - binocdf(79, 200, 0.42) = 0.7303. √

Exerciµiu 1.6 Care este probabilitatea de apariµie pentru prima oar  a feµei cu 6 puncte la aruncareaunui zar ideal în cel mult 3 arunc ri? Dar în exact 3 arunc ri?

- Not m cu X v.a. variabil  aleatoare ale c rei valori reprezint  num rul de e³ecuri avute pân la primul succes. Aceasta urmeaz  repartiµia geometric  Geo(1/6). În consecinµ , num rul de arunc ri

necesare obµinerii feµei pentru prima dat  este Y = X + 1. Probabilitatea de a obµine pentru primaoar  aceast  faµ  din cel mult 3 arunc ri este totuna cu probabilitatea de a avea cel mult 2 e³ecuri pân la apariµia acestei feµe. A³adar, avem:

P1 = P (Y ≤ 3) = P (X ≤ 2) = 0.4213.

Probabilitatea de a obµine pentru prima oar  faµa din exact 3 arunc ri este:

P2 = P (Y = 3) = P (X = 2) = 0.1157.

În Matlab scriem:

P1 = geocdf(2,1/6);

P2 = geopdf(2,1/6); √

Exerciµiu 1.7 Demonstraµi c  dac  X ∼ P(λ) ³i Y ∼ P(µ) sunt dou  variabile aleatoare independente,atunci X + Y ∼ P(λ + µ). Generalizaµi rezultatul pentru n variabile aleatoare independente repartizatePoisson.

Soluµie: Demonstr m un rezultat mai general:Dac  variabilele aleatoare X1 ∼ P(λ1), X1 ∼ P(λ1), . . . , X1 ∼ P(λn) sunt independente, atunci sumalor, Y = X1 +X2 + · · ·+Xn, urmeaz  repartiµia Y ∼ P(λ1 + λ2 + · · ·+ λn).Funcµia generatoare de momente pentru X1 este

MX1(t) = E(etX1) =∑k∈N

etke−λ1λk1k!

= e−λ1∑k∈N

(λ1et)k

k!= e−λ1eλ1e

t= eλ1(e

t−1).

Folosind independenta variabilelor aleatoare date, putem scrie:

MY (t) = MX1+X2+···+Xn(t) = E(et(X1+X2+···+Xn)) = E(etX1) · E(etX2) · · · · · E(etXn)

= eλ1(et−1) · eλ2(et−1) · · · · · eλn(et−1) = e(λ1+λ2+···+λn)(e

t−1).

9

Obµinem c MY (t) este funcµia generatoare de momente pentru o variabil  aleatoare Poisson cu parametrulλ1 + λ2 + · · ·+ λn. Folosind unicitatea funcµiei generatoare de momente, deducem c 

Y ∼ P(λ1 + λ2 + · · ·+ λn). √

Exerciµiu 1.8 (a) În magazinul de la colµul str zii intr  în medie 20 de clienµi pe or . �tiind c  num rulclienµilor pe or  este o variabil  aleatoare repartizat  Poisson, s  se determine care este probabilitatea caîntr-o anumit  or  s  intre în magazin cel puµin 15 clienµi?(b) Care este probabilitatea ca, într-o anumit  zi de lucru (de 10 ore), în magazin s  intre cel puµin 200de clienµi?

Soluµie: (a) Probabilitatea este

P1 = P (X ≥ 15) = 1− P (X < 15) = 1− P (X ≤ 14) = 1− FX(14) = 0.8951.

(b) P2 = P (

10∑k=1

Xk ≥ 200) = 1 − P (

10∑k=1

Xk < 200) = 1 − P (

10∑k=1

Xk ≤ 199) = 1 − F∑Xk(199) = 0.5094.

Am folosit faptul c 10∑k=1

Xk ∼ P(200), deoarece avem o sum  de v.a. independente, identic repartizate

Poisson (vezi Exerciµiu 1.7).În Matlab, probabilit µile cerute se calculeaz  astfel:

P1 = 1 - poisscdf(14,20);

P2 = 1 - poisscdf(199,200);

Exerciµiu 1.9 În drumul Mariei de acas  pân  la serviciu se a�  dou  semafoare. Not m cu X1 v.a. cereprezint  num rul de semafoare pe care Maria le prinde pe ro³u, ³i presupunem c  repartiµia lui X1 esteurm toarea:

x 0 1 2

p(x) 0.2 0.5 0.3

De asemenea, �e X2 num rul de semafoare pe care Maria le prinde pe ro³u pe drumul de întoarcere sprecas . Presupunem c  X1 ³i X2 sunt independente ³i identic repartizate.(a) Determinaµi repartiµia, media ³i dispersia variabilei aleatoare X = X1 +X2.(b) Care e probabilitatea ca Maria s  prind  cel puµin 2 semafoare pe ro³u de acas  la serviciu ³i retur?

Soluµie: (a) Repartiµia lui X este:

x 0 1 2 3 4

p(x) 0.04 0.2 0.37 0.3 0.09

E(X) = E(X1) + E(X2) = 2(0× 0.2 + 1× 0.5 + 2.3) = 2.2. ³i, folosind independenµa lui X1 ³i X2,

D2(X) = D2(X1) +D2(X2) = 2[(0− 1.1)2 × 0.2 + (1− 1.1)2 × 0.5 + (2− 1.1)2 × 0.3] = 0.98.

(b) P = 0.37 + 0.3 + 0.09 = 0.76. √

10

Exerciµii suplimentare

Exerciµiu 1.10 Consider m funcµia f : R −→ R, dat  prin

f(x) =

2

λx e−

x2

λ , x > 0;

0 , x ≤ 0.

(a) Pentru ce valori ale parametrului λ, funcµia f este o densitate de repartiµie?(S  not m cu X variabila aleatoare ce are aceast  densitate de repartiµie)

(b) Calculaµi EX ³i D2(X).(c) Dac  λ = 2, calculaµi P (X ≥ 2).

Exerciµiu 1.11 Consider m o v.a. X de tip continuu, având funcµia de repartiµie

F (x) =

0 , x ≤ 0;x

4

[1 + ln

(4

x

)], x ∈ [(0, 4];

1 , x > 4.

Calculaµi:(a) P (X ≤ 1), P (X = 1);(b) E(X);(c) P (1 ≤ X < 3).

Exerciµiu 1.12 Un anumit comerciant vinde trei tipuri de congelatoare: de 160 litri, de 190 litri ³i de230 litri. Fie X variabila aleatoare care reprezint  alegerea unui client ales la întâmplare, ce are tabelulde repartiµie:

x 160 190 230

p(x) 0.2 0.5 0.3

(a) Calculaµi E(X), D2(X).(b) Dac  preµul unui frigider se calculeaz  dup  formula P = 7X − 9.5, calculaµi valoarea a³teptat  apreµului pl tit de urm torul client care cump r  un congelator.(c) Calculaµi D2(P ).(d) Presupunem c , de³i capacitatea a�³at  este X, capacitatea real  a unui congelator este h(X) =X − 0.01X2. Care este valoarea medie a capacit µii reale pentru un congelator cump rat de urm torulclint?

Exerciµiu 1.13 Dou  zaruri ideale sunt aruncate în mod independent unul de cel lalt. Not m cu Mmaximum dintre valorile ap rute.(a) Determinaµi tipul v.a. M ³i tabloul s u de repartiµie.(b) Determinaµi funcµia de repartiµie ³i desenaµi-o gra�c.

Exerciµiu 1.14 Temperatura T (0C) dintr-un anumit proces chimic are repartiµia U(−5, 5).Calculaµi P (T < 0); P (−2.5 < T < 2.5); P (−2 ≤ T ≤ 3).

11

Exerciµiu 1.15 Temperatura de topire a unui anumit material este o v.a. cu media de 120 oC ³i deviµiastandard de 2 oC. Determinaµi temperatura medie ³i deviaµia standard în oF , ³tiind c  oF = 1.8 oC + 32.

Exerciµiu 1.16 Dac  Z ∼ N (0, 1), calculaµi:P (Z ≤ 1.35); P (0 ≤ Z ≤ 1); P (1 ≤ Z); P (|Z| > 1.5).

Exerciµiu 1.17 Not m cu Sn suma numerelor ce apar în n arunc ri independente ale unui zar ideal.(a) Calculaµi probabilitatea P = P (S2 ≥ 6).(b) Calculaµi probabilitatea obµinerii unui num r par.

Exerciµiu 1.18 O companie de asigur ri ofer  angajaµilor s i diverse poliµe de asigurare. Pentru unasigurat ales aleator, not m cu X num rul de luni scurs între dou  pl µi succesive. Funcµia de repartiµiea lui X este:

F (x) =

0 , x < 1;

0.3 , 1 ≤ x < 3;

0.4 , 3 ≤ x < 4;

0.45 , 4 ≤ x < 6;

0.65 , 6 ≤ x < 12;

1 , 12 ≤ x.

(a) Determinaµi funcµia de probabilitate a lui X.(b) Calculaµi P (3 ≤ X ≤ 6) ³i P (4 ≤ X).

Exerciµiu 1.19 Pentru evaluarea rezultatelor obtinute la teza de Matematica de catre elevii unei anumitescoli, se face un sondaj de volum 35 printre elevii scolii, iar notele lor sunt sumarizate in Tabelul 1.2.

note 4 5 6 7 8 9 10

frecventa 3 6 7 8 5 4 2

Tabela 1.2: Medii generale si frecvente

(i) Sa se scrie si sa se reprezinte gra�c functia de repartitie pentru aceasta selectie;(ii) Notam cu X variabila aleatoare care guverneaza populatia. Utilizand selectia de mai sus, sa seaproximeze probabilitatea P (6 ≤ X ≤ 8).

Exerciµiu 1.20 O pereche de zaruri ideale este aruncat  de 200 de ori. Care este probabilitatea s obµinem o sum  de 7 în cel puµin 20% dintre cazuri?

Exerciµiu 1.21 Simulaµi în Matlab variabila aleatoare discret  X ce are tabloul de distribuµie:

X :

(−2 0 214

12

14

).

G siµi ³i reprezentaµi gra�c funcµia de repartiµie F (x) a variabilei aleatoare X. Calculaµi F (12).

12

Exerciµiu 1.22 (i) Determinaµi funcµia generatoare de momente pentru o repartiµie exponenµial , exp(λ).(ii) Folosind funcµia generatoare de momente, ar taµi c  dac  {Xi}ni=1 sunt variabile aleatoare indepen-

dente, repartizate exp(λi) (respectiv), atunci vaiabila alatoare Y =

n∑i=1

Xi urmeaz  repartiµia Γ(n, λ), cu

λ =n∑i=1

λi.

Exerciµiu 1.23 (i) Determinaµi funcµia generatoare de momente pentru o repartiµie binomial , B(n, p).(ii) Demonstraµi c  dac  X ∼ B(m, p) ³i Y ∼ B(n, p) sunt dou  variabile aleatoare independente, atunciX + Y ∼ B(m + n, p). Generalizaµi rezultatul pentru n variabile aleatoare independente repartizatebinomial.

13

2 Statistic  Aplicat  (L2 & S2)

Exerciµiu 2.1 Dac  X ∼ N (0, 1), determinaµi densitatea de repartiµie a variabilei aleatoare X2.(repartiµia obµinut  este χ2(1)).

- Funcµia densitate de repartiµie pentru X este dat  de

fX(x) =1√2πe−

x2

2 , x ∈ R. (2.1)

Not m cu FX2(y) funcµia de repartiµie pentru X2 ³i cu fX2(y) densitatea sa de repartiµie. Nu putem folosiformula de la curs deoarece funcµia g(x) = x2, x ∈ R, nu este bijectiv . Pentru a calcula densitatea luiX2, putem proceda astfel:

FX2(y) = P (X2 ≤ y) =

{0 , y ≤ 0;

P (−√y ≤ X ≤ √y) , y > 0,

de unde

fX2(y) = F ′X2(y) =

0 , y ≤ 0;1

2√y

[fX(√y) + fX(−√y)] , y > 0,

=

0 , y ≤ 0;1√yfX(√y) , y > 0.

=

0 , y ≤ 0;1√2πy

e−y2 dy , y > 0. √

Exerciµiu 2.2 Ar taµi c  dac  X1, X2, . . . , Xn sunt variabile aleatoare independente, identic repartizate

N (µ, σ), atunci variabila aleatoare H =1

σ2

n∑i=1

(Xi − µ)2 urmeaz  repartiµia χ2(n).

- Dac  Xi ∼ N (µ, σ), atunci Yi =Xi − µσ

∼ N (0, 1). Deoarece {Xi}ni=1 sunt independente,

atunci ³i {Y 2i }ni=1 sunt independente. Dac  X ∼ N (0, 1), atunci X2 are densitatea de repartiµie

fX2(x) =

1√2πx

e−x2 dx , x > 0.

0 , x ≤ 0.

Funcµia generatoare de momente pentru X2 este

MX2(t) = E(etX2) =

∫ ∞0

etx2 1√

2πxe−

x2 dx = (1− 2t)−1/2, t < 1/2.

Folosind independenµa variabilelor {Y 2i }ni=1, obµinem c  funcµia generatoare de momente a lui H este

MH(t) =n∏i=1

(1− 2t)−1/2 = (1− 2t)−n/2, t < 1/2,

care este densitatea de repartiµie pentru o variabil  aleatoare χ2(n). √

14

Exerciµiu 2.3 Fie variabila aleatoare X ∼ exp(λ). Folosind metoda Hincin-Smirnov, generaµi o selec-µie de numere aleatoare ce urmeaz  repartiµia lui X.

- Funcµia de repartiµie a lui X este F : R −→ [0, 1], F (x) = 1 − e−x/λ, x > 0, iar F−1 (carese de�ne³te doar pentru valori în (0, 1)) este:

F−1(u) = −λ ln(1− u), u ∈ (0, 1).

Atunci, dac  {u1, u2, . . . , un} sunt numere aleatoare uniform repartizate în [0, 1], avem c  {F−1(u1),F−1(u2), . . . , F−1(un)} formeaz  o selecµie întâmpl toare de numere repartizate exp(λ).În Figura 2.1, am reprezentat gra�c o dou  selecµii de volum 150 de numere aleatoare repartizate exp(5);una generat  prin metoda funcµiei de repartiµie inverse, cealalt  generat  de funcµia Matlab prede�nit exprnd. Selecµiile generate au fost ordonate descresc tor. Funcµia Matlab care genereaz  �gura esteprezentat  mai jos.Apelarea funcµiei se face prin tastarea în fereastra de lucru în Matlab a comezii expsel(5). √

function expsel(lambda) % functia expsel.m

% generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator

Y = sort(-lambda*log(1-rand(150,1)), 'descend');

plot(Y, 'bo'); hold on % desenez selectia si retin figura

% generez 150 de numere cu exprnd si le ordonez descrescator

Z = sort(exprnd(lambda, 150,1), 'descend');

plot(Z, 'r*') % desenez Z cu rosu

legend('metoda functiei inverse','generare cu exprnd')

Figura 2.1: Generare de numere aleatoare prin metoda funcµiei inverse.

Exerciµiu 2.4 Dac  U este o variabil  aleatoare repartizat  U(0, 1), determinaµi repartiµia variabileialeatoare Y = −λ ln(U), λ > 0.

15

Soluµie: Densitatea de repartiµie a lui U este

fU (x) =

{1, dac  x > 0,

0, dac  x ≤ 0.

Funcµia de repartiµie a lui Y este

FY (y) = P (Y ≤ y) = P (−λ ln(U) ≤ y) =

=

{P(ln(U) ≥ − y

λ

), dac  y > 0,

0, dac  y ≤ 0.=

{1− P

(U < e−

), dac  y > 0,

0, dac  y ≤ 0.=

{1− FU

(e−

), dac  y > 0,

0, dac  y ≤ 0.

Atunci, densitatea de repartiµie a lui Y este

fY (y) = F ′Y (y) =

fU(e−

) 1

λe−

yλ , dac  y > 0,

0, dac  y ≤ 0.

=

1

λe−

yλ , dac  y > 0,

0, dac  y ≤ 0.

Se observ  c  Y ∼ exp(λ). √

Exerciµiu 2.5 S  presupunem c  X este o v.a. continu  ce reprezint  în lµimea (în cm) b rbaµilor dintr-o µar . Se ³tie c  P (X ≤ 170) = 0.1. �tiind c  X este normal distribuit , cu media m = 175, s  sedetermine dispersia lui X.

Soluµie: Consider variabila aleatoare standardizat  Z = X−175σ ∼ N (0, 1). Atunci,

0.1 = P (X ≤ 170) = P

(X − 175

σ≤ 170− 175

σ

)= P

(Z ≤ − 5

σ

),

de unde − 5

σeste cuantila de ordin 0.1 pentru Z ∼ N (0, 1). Aceasta este z0.1 = −1.28 (norminv(0.1)),

de unde σ = 3.9. √

Exerciµiu 2.6 Trei întreprinderi trimit acela³i tip de piese într-un depozit central, în proporµie de 5, 3, 2.Cele trei întreprinderi au rebuturi în proporµie de, respectiv, 1%, 3%, 2%. Valoarea pieselor ce s-au dovedita � rebuturi este de 3600 RON. Cum ar trebui împ rµit  aceast  sum  între cele 3 întreprinderi?

Soluµie: Not m cu:A−evenimentul ca o pies  aleas  la întâmplare din depozitul central s  �e rebut.Ai−evenimentul ca, alegând la întâmplare o pies  din depozitul central, aceasta s  aparµin  �rmei i.Pentru a determina cum împ rµim cei 3600 între cele 3 �rme, va trebui s  determin  probabilit µilecondiµionate P (A1|A), P (A2|A), P (A2|A), care reprezint  ponderile de rebuturi produse de �ecare�rm , condiµionate de apariµia unui rebut la o alegere la întâmplare din depozit.Dar, P (A1) = 0.5, P (A2) = 0.3, P (A3) = 0.2 ³i P (A|A1) = 0.01, P (A|A2) = 0.03, P (A|A3) = 0.02.Avem c 

P (A) = P (A1)P (A|A1) +P (A2)P (A|A2) +P (A3)P (A|A3) = 0.5× 0.01 + 0.3× 0.03 + 0.2× 0.02 = 0.018.

³i (formula lui Bayes)

P (A1|A) =P (A1)P (A|A1)

P (A)=

5

18, P (A2|A) =

P (A2)P (A|A2)

P (A)=

1

2, P (A3|A) =

P (A3)P (A|A3)

P (A)=

2

9.

16

În consecinµ , pierderile vor trebui s  �e împ rµite astfel:

5

18× 3600 = 1000 (�rma 1);

1

2× 3600 = 1800 (�rma 2);

2

9× 3600 = 800 (�rma 3).

Exerciµiu 2.7 Un anumit restaurant popular serve³te la cin  doar trei tipuri de meniuri cu preµuri �xe,³i anume: 25, 30 ³i 45 (incluzând b uturile). Pentru un cuplu ales la întâmplare dintre cele ce iau cinaîn acest restaurant, not m cu X costul meniului ales de femeie ³i cu Y costul meniului ales de partenerulei. Repartiµia comun  a costurilor este dat  în tabelul urm tor:

Yp(x, y) 25 30 4525 0.05 0.05 .10

X 30 0.05 0.10 .3545 0 0.20 .10

(1) Calculaµi repartiµiile marginale pentru X ³i Y ;(2) Care este probabilitatea ca preµul cinei pentru ambii parteneri s  �e cel mult 30 de �ecare?(3) Determinaµi dac  X ³i Y sunt v.a. independente;(4) Care este valoarea a³teptat  a costului total al cinei pentru un cuplu ales la întâmplare?(5) La �nalul cinei, �ecare cuplu prime³te din partea casei pr jituri cu r va³. Dac  un cuplu g se³te înr va³ mesajul �Drept curtoazie din partea casei, din preµul total al cinei vei primi înapoi diferenµa dintre

cel mai scump ³i cel mai ieftin dintre meniurile comandate de amândoi�, cât se a³teapt  restaurantul s returneze pentru un singur cuplu?(6) Determinaµi coe�cientul de corelaµie dintre X ³i Y .(7) Determinaµi repartiµia lui Y condiµionat  de evenimentul (X = 30).(8) Calculaµi E(Y |X = 30) ³i D2(Y |X = 30).

Soluµie: (1) pX(x) =∑

y p(x, y). Pentru x = 25, atunci pX(25) = 0.05 + 0.05 + 0.1 = 0.2. Obµinem c repartiµia marginal  a lui X este:

x 25 30 45

pX(x) 0.2 0.5 0.3

Similar, pY (y) =∑

x p(x, y). Pentru y = 45, atunci pY (45) = 0.1 + 0.35 + 0.1 = 0.55. Obµinem c repartiµia marginal  a lui Y este:

y 25 30 45

pY (y) 0.1 0.35 0.55

(2) Probabilitatea cerut  este P (X ≤ 30, Y ≤ 30) = 0.05 + 0.05 + 0.05 + 0.1 = 0.25.

(3) Variabilele X ³i Y nu sunt independende, deoarece p(x, y) 6= pX(x) · pY (y) m car pentru o pereche(x, y). De exemplu, p(25, 25) = 0.05 6= 0.2 · 0.1 = pX(25) · pY (25).

(4) h(X, Y ) = X + Y ³i E(h(X, Y )) =∑x

∑y

h(x, y)p(x, y) =∑x

∑y

(x+ y)p(x, y) = 71.25.

(5) Determin m repartiµia variabilei aleatoare Z = |X − Y |. Aceasta este:

17

z 0 5 15 20

pZ(z) 0.1 0.25 0.55 0.1

Media lui Z este E(Z) = 11.5.

(6) Prin de�niµie,

ρX,Y =cov(X, Y )

σX · σY=

E(X · Y )− µX · µYσX · σY

.

Dar,

µX =∑x

xpx = 25×0.2+30×0.5+45.3 = 33.5; µY =∑y

ypy = 25×0.1+30×0.35+45×0.55 = 37.75.

σ2X =∑x

(x− µx)2px = 60.25; σ2Y =∑y

(y − µy)2py = 66.188.

E(X · Y ) =∑x

∑y

xy p(x, y) = 1253.8.

Obµinem c  ρX,Y = −0.1722.

(7) Variabila aleatoare Y |X = 30 are funcµia de probabilitate fY |X(y| 30) =p(30, y)

pX(30), ce are tabelul de

repartiµie urm tor:

y 25 30 45

pY |X(y| 30) 0.1 0.2 0.7

(8) µY |X=30 = E(Y |X = 30) =∑

y y pY |X(y| 30) = 25× 0.1 + 30× 0.2 + 45× 0.7 = 40 ³i

D2(Y |X = 30) = E(Y 2|X = 30)− µ2Y |X=30 = 60. √

Exerciµiu 2.8 O numit  companie de ambalat fructe uscate, amestec  în acela³i pachet trei tipuri defructe, mango, ananas ³i papaya, astfel încât masa net  a pachetului este de 500 de grame, de³i cantit µileindividuale din �ecare fruct uscat pot varia de la un pachet la altul. Deoarece suma ponderilor maselor�ec rui fruct la produsul �nal este egal  cu 1, putem determina masa net  de ananas din �ecare pachetdac  am avea informaµii despre repartiµia comun  a celorlale dou  cantit µi de fruct din pachet.S  not m cu X ponderea masei de mango din masa net  a unui anumit pachet ³i cu Y ponderea maseide ananas din masa net  a aceluia³i pachet, ales la întâmplare. Presupunem c  repartiµia comun  a celordou  cantit µi este

f(x, y) =

{24xy, pentru 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, x+ y ≤ 1,

0, altfel.

(a) Veri�caµi dac  f(x, y) este o densitate de repartiµie legitim  ³i calculaµi probabilitatea ca masa net de papaya s  �e mai mare de un sfert de pachet.(b) Determinaµi densit µile de repartiµie marginale.(c) Veri�caµi dac  X ³i Y sunt independente.(d) Determinaµi coe�cientul de corelaµie dintre X ³i Y .

18

(e) Determinaµi densitatea de repartiµie a lui Y condiµionat  de X = x.(f) G siµi probabilitatea ca Y s  �e cel mult un sfert de pachet, ³tiind c  X este jum tate din masa net a pachetului. (i.e., calculaµi P (Y ≤ 0.25|X = 0.5)).(g) Calculaµi media condiµionat  a lui Y ³tiind c  X = 0.5. (i.e., E(Y |X = 0.5))(h) Calculaµi D2(Y |X = 0.5).

Soluµie: (a) Se vede c  f(x, y) ≥ 0, ∀x, y. În plus,∫ ∞−∞

∫ ∞−∞

f(x, y) dxdy =

∫ 1

0

(∫ 1−x

024xy dy

)dx =

∫ 1

024x

(y2

2

∣∣∣y=1−xy=0

)dx =

∫ 1

012x(1− x)2 dx = 1.

Not  cu D = {(x, y); 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 ³i x+ y ≤ 0.75}. Atunci, probabilitatea cerut  este:

P ((X,Y ) ∈ D) =x

D

f(x, y) dxdy =

∫ 0.75

0

(∫ 0.75−x

024xy dy

)dx = 0.3164.

(b) Repartiµia marginal  a lui X este:

fX(x) =

∫ ∞−∞

f(x, y) dy =

{12x(1− x)2, dac  0 ≤ x ≤ 1;

0, altfel.

Repartiµia marginal  a lui Y este:

fY (y) =

∫ ∞−∞

f(x, y) dx =

{12y(1− y)2, dac  0 ≤ y ≤ 1;

0, altfel.

(c) Deoarece f(x, y) 6= fX(x) · fY (y), ∀x, y, cele dou  variabile nu sunt independente.

(d) Prin de�niµie,

ρX,Y =cov(X, Y )

σX · σY=

E(X · Y )− µX · µYσX · σY

.

Dar,

µX =

∫ ∞−∞

xfX(x) dx =

∫ 1

012x2(1− x)2 dx = 0.4; µY =

∫ ∞−∞

yfY (y) dy =

∫ 1

012y2(1− y)2 dy = 0.4.

σ2X = E(X2)−µ2X =

∫ 1

012x3(1−x)2 dx−0.16 = 0.04; σ2Y = E(Y 2)−µ2Y =

∫ 1

012y3(1−y)2 dy−0.16 = 0.04.

E(X · Y ) =

∫ ∞−∞

∫ ∞−∞

xyf(x, y) dxdy =

∫ 1

0

∫ 1−x

024x2y2 dxdy =

2

15.

Obµinem c  ρX,Y = −2

3.

(e)

fY |X=x(y|x) =f(x, y)

fX(x)=

2y

(1− x)2, 0 ≤ y ≤ 1− x.

(f) Probabilitatea cerut  este:

P (Y ≤ 0.25|X = 0.5) =

∫ 0.25

∞fY |X(y|x) dy =

∫ 0.25

0

2y

(1− x)2dy =

1

4.

19

(g)

µY |X=x = E(Y |X = x) =

∫ ∞−∞

yfY |X(y|x) dy =

∫ 1−x

0

2y2

(1− x)2dy =

2

3(1− x), 0 ≤ x ≤ 1.

În particular, pentru X = 0.5, obµinem c  E(Y |X = 0.5) = 13 .

(h)

D2(Y |X = x) = E(Y 2|X = x)− µ2Y |X=x =

∫ 1−x

0

2y3

(1− x)2dy − 4

9(1− x)2 =

1

18(1− x)2, 0 ≤ x ≤ 1.

În particular, pentru X = 0.5, obµinem c  σ2Y |X=0.5 = D2(Y |X = 0.5) = 0.0139. √

Exerciµiu 2.9 Dac  X ³i Y sunt v.a. independente ³i identic repartizate N (0, 1), determinaµi repartiµiavariabilei aleatoare Z = X/Y .

Soluµie: Densit µile de repartiµie pentru X ³i Y sunt

fX(x) =1√2πe−x

2/2, x ∈ R, fY (y) =1√2πe−y

2/2, y ∈ R.

Deoarece sunt independente, densitatea de repartiµie a vectorului (X, Y ) este:

fX,Y (x) =1

2πe−(x

2+y2)/2, (x, y) ∈ R× R.

Pentru a determina repartiµia cerut , folosim transformarea u = x/y, v = y, care transform  (X, Y ) în(U, V ) = (X/Y, Y ). Transformarea invers  x = uv, y = v. Jacobianul transform rii inverse este J = v.Folosind formula de schimbare de variabile, obµinem:

fU, V (u, v) = fX,Y (uv, v)|v| = 1

2πe−v

2(u2+1)/2|v|, (u, v) ∈ R× R.

Densitatea de repartiµie marginal  a primei componente se obµine integrând în raport cu a doua variabil .Obµinem:

fX/Y (u) = fU (u) =

∫ ∞−∞

fU, V (u, v)dv =

∫ ∞−∞

1

2πe−v

2(u2+1)/2|v|dv =1

π(u2 + 1), u ∈ R.

Se observ  c  fX/Y este densitatea de repartiµie pentru o repartiµie Cauchy C(0, 1). √

Exerciµii suplimentare

Exerciµiu 2.10 Folosind metoda Hincin-Smirnov, generaµi o familie de 100 de numere aleatoare ce ur-meaz  densitatea de repartiµie f(x) = 5x4, 0 ≤ x ≤ 1.

Exerciµiu 2.11 Fie X o variabil  aleatoare repartizat  U(−π2,π

2).

(i) Determinaµi repartiµia variabilei aleatoare Y = tan(X) (Y se nume³te variabil  aleatoare Cauchy).(ii) Folosind metoda Hincin-Smirnov, generaµi o familie de 1000 de numere aleatoare repartizate CauchyC(0, 1).(iii) Calculaµi P (| tanX| >

√3).

20

Exerciµiu 2.12 Dac  X este o variabil  aleatoare repartizat  U(0, 1), determinaµi repartiµia variabileialeatoare Y = eX .

Exerciµiu 2.13 Fie X o variabil  aleatoare repartizat  B(n, p). Determinaµi repartiµia variabilei alea-toare Y = n−X.

Exerciµiu 2.14 Erorile a 10 m sur tori sunt variabile aleatoare εi ∼ N (0, 1), i = 1, 2, . . . , n.

(1) Ar taµi (folosind funcµia generatoare de momente) c  variabila aleatoare H =

10∑i=1

ε2i urmeaz  repar-

tiµia χ2, i.e. H ∼ χ2(10).(2) Determinaµi probabilit µile urm toare:

P (H ≤ 7); P (9.25 ≤ H ≤ 10.75); P (H > 12).

Exerciµiu 2.15 Latura unui pâtrat este o variabil  aleatoare ce are densitatea de repartiµie f(x) =x8 , x ∈ (0, 4). Determinaµi densitatea de repartiµie a ariei p tratului.

Exerciµiu 2.16 Dac  X ∼ N (0, 1), determinaµi densitatea de repartiµie a lui |X|.

Exerciµiu 2.17 (lipsa de memorie a variabilei aleatoare exponenµiale)

Ar taµi c  dac  X ∼ exp(λ), atunci are loc relaµia:

P (X > y + x|X > y) = P (X > x), (x ≥ 0, y ≥ 0).

Exerciµiu 2.18 Fie X ³i Y dou  variabile aleatoare independente, identic repartizate N (0, 1). Determi-naµi raza cercului (r) cu centrul în origine astfel încât P ((X, Y ) ∈ D(0, r)) = 0.95. (D(0, r) = {(x, y) ∈R, x2 + y2 ≤ r2})

Exerciµiu 2.19 Distanµa X la care sunt aruncate mingile aruncate de o ma³in  automat  de servit mingide tenis este o variabil  aleatoare repartizat  normal. Media distanµei este necunoscut , dar deviaµiastandard este 1.2m.(a) �tiind c  P (X ≤ 20) = 0.95, s  se g seasc  valoarea a³teptat  a distanµei (adic , E(X)).

(b) Stabiliµi repartiµia variabilei aleatoare Z =X − E(X)

1.2³i calculaµi probabilitatea P (Z2 ≤ 2).

Exerciµiu 2.20 Fie U ³i V dou  variabile aleatoare independente ³i identic repartizate U(0, 1).(1) Determinaµi repartiµia vectorului aleator (U, V ).(2) Determinaµi repartiµiile variabilelor aleatoare X =

√−2 lnU cos(2πV ) ³i Y =

√−2 lnU sin(2πV ).

(3) Bazându-v  pe rezultatul de la (2), construiµi un algoritm care s  permit  simularea de variabilealeatoare N (0, 1) independente plecând de la variabile aleatoare U(0, 1) independente.

Exerciµiu 2.21 Determinaµi repartiµia sumei a dou  variabile aleatoare independente ³i identic reparti-zate U(0, 1).

Exerciµiu 2.22 Determinaµi repartiµia raportului a dou  variabile aleatoare independente ³i identic re-partizate N (0, 1).

21

Exerciµiu 2.23 P cal  îl ademene³te pe Tândal  la un joc de barbut. P cal  a confecµionat urm toareletrei zaruri, pentru care num rul de puncte de pe �ecare faµ  sunt modi�cate:

zarul 1: 5 7 8 9 10 18

zarul 2: 2 3 4 15 16 17

zarul 3: 1 6 11 12 13 14

Pentru �ecare zar, toate feµele au aceea³i ³ans  de apariµie. Fiecare juc tor alege un zar ³i îl p streaz pentru restul competiµiei. Un joc const  în aruncarea zarului ales, iar cel care obµine un num r mai marede puncte va câ³tiga jocul. Un astfel de joc poate � repetat de mai multe ori, în condiµii identice ³iindependente.(a) P cal , politicos �ind, îl invit  pe Tândal  s  �e primul care î³i alege zarul. Ar taµi c , orice zar aralege Tândal , P cal  are posibilitatea de a alege un zar mai bun dintre cele r mase.(b) La �ecare joc, cel care obµine un num r mai mare de puncte prime³te de la cel lalt juc tor 1 RON.Determinaµi câ³tigul mediu pe care îl poate avea P cal  dup  60 de jocuri (arunc ri).(c) Calculaµi probabilitatea ca, dup  60 de jocuri, P cal  s  aib  cel puµin 10 RON.

Exerciµiu 2.24 Repartiµia comun  a vectorului aleator bidimensional (X, Y ) este reprezentat  de tabelulurm tor:

Yp(x, y) 10 20 3020 a 0.1 a

X 40 0.1 0.3 3a

(a) Determinaµi parametrul real a pentru care tabelul reprezint  o repartiµie legitim ;(b) Calculaµi P (X ≥ 20 ³i Y ≥ 30) ³i P (X ≤ 20 ³i Y ≥ 30).(c) Calculaµi F (20, 30), F (30, 40) ³i F (30, 25).(d) Pentru Z = X + Y , calculaµi probabilitatea P (|Z − 45| > 5).(e) Pentru W = 2X − 0.5Y + 10, determinaµi E(W ) ³i D2(W ).(f) Determinaµi cov(X, Y ) ³i ρX,Y .

Exerciµiu 2.25 La o benzin rie exist  dou  tipuri de staµii: cu servire asistat  sau cu auto-servire.Fiecare serviciu are câte dou  pompe independente. S  not m cu X num rul de pompe de la staµia cuservire asistat  care sunt folosite într-un anumit moment ³i cu Y num rul de pompe de la auto-servirefolosite în acela³i moment. Repartiµia comun  pentru (X, Y ) este

Yp(x, y) 0 1 2

0 0.1 0.04 .02X 1 0.08 0.20 .06

2 0.06 0.14 .3

(a) Calculaµi P (X = 1 ³i Y = 1) ³i P (X ≤ 1 ³i Y ≤ 1).(b) Descrieµi în cuvinte evenimentul (X 6= 0 ³i Y 6= 0) ³i calculaµi probabilitatea acestuia.(c) Determinaµi probabilit µile marginale pentru X ³i Y .(d) Veri�caµi dac  X ³i Y sunt independente.(e) Determinaµi coe�cientul de corelaµie ρX,Y .(f) Calculaµi E(Y |X = 0). Explicaµi în cuvinte ce reprezint  aceast  medie.

22

Exerciµiu 2.26 O anumit  �rm  prime³te comenzi la oricare dintre cele dou  linii telefonice disponibile.Pentru �ecare linie, timpul de a³teptare dintre dou  apeluri este repartizat exponenµial. Not m prin X³i Y cei doi timpi de a³teptare. Presupunem c  ace³ti timpi sunt independenµi unul de cel lalt. Dac  Xeste timpul de a³teptare mai mic dintre dou , atunci se poate ar ta c  repartiµia comun  pentru X ³i Yeste

f(x, y) =

{2e−(x+y), pentru 0 < x < y <∞.0, altfel.

(a) Determinaµi densitatea de repartiµie marginal  a lui X.(b) Determinaµi densitatea de repartiµie a lui Y condiµionat  de X = x.(c) G siµi probabilitatea ca Y s  �e mai mare decât 2 minute, ³tiind c  X ≤ 1 (i.e., P (Y > 2|X ≤ 1)).(d) Veri�caµi dac  X ³i Y sunt independente.(e) Determinaµi media condiµionat  a lui Y ³tiind c  X = 1. (i.e., calculaµi E(Y |X = 1)).(f) Determinaµi probabilit µile P (X + Y ≤ 1) ³i P (X ≤ 1, Y ≤ 1).

Exerciµiu 2.27 Repartiµia comun  pentru variabilele aleatoare X ³i Y este

f(x, y) =

{e−(x+y), pentru 0 < x, y <∞.0, altfel.

Determinaµi densit µile de repartiµie pentru variabilele aleatoare U = X + Y ³i V = XX+Y .

Exerciµiu 2.28 Presupunem c  timpii de funcµionare continu  a dou  baterii, T1 ³i T2, sunt independenµiunul de cel lalt. De asemenea, presupunem c  T1 ∼ exp(1000h) ³i T2 ∼ exp(1200h).(1) Determinaµi densitatea de repartiµie comun  celor dou  variabile aleatoare.(2) Calculaµi probabilitatea ca ambele baterii s  funcµioneze continuu mai mult de 1500h.(3) �tiind c  prima baterie a funcµionat exact 1200h, care este probabilitatea ca a dou  baterie s  maifunµioneze dup  acest timp?

Exerciµiu 2.29∗ Un b µ de lungime 1m este rupt în dou , alegând la întâmplare ³i uniform punctul derupere. S  not m cu X distanµa de la stânga b µului pân  la punctul de rupere. Rupem din nou parteadin stânga (de lungime X), alegând la întâmplare ³i uniform un nou punct de rupere. S  not m cu Ydistanµa de la stânga b µului rupt pân  la noul punct de rupere.(a) Determinaµi E(Y |X = x).(b) Folosind fX(x) ³i fY |X(y|x), determinaµi f(x, y).(c) G siµi fY (y).

Exerciµiu 2.30 Vectorul aleator (X, Y ) are densitatea de repartiµie

f(x, y) =

{ke−y pentru 0 < x < y < 1.

0, altfel.

(a) Determinaµi valoarea lui k pentru care f(x, y) este o densitate de repartiµie.(b) Calculaµi coe�cientul de corelaµie ρX,Y .

Exerciµiu 2.31 Vectorul aleator (X, Y ) are densitatea de repartiµie

f(x, y) =

{ke−y pentru x > 0, y > x.

0, altfel.

23

(a) Determinaµi valoarea lui k pentru care f(x, y) este o densitate de repartiµie.(b) Determinaµi densitat µile de repartiµie marginale.(c) Calculaµi P (X > 1|Y < 3).

Exerciµiu 2.32 Fie variabilele aleatoare discrete X ³i Y , reprezentând sumele ce pot � câ³tigate la dou jocuri de noroc independente. Aceste variabile au tabelele de repartiµie urm toare:

X = x 5 10 20

p(x) 0.5 0.4 0.1

Y = y 1 10 15 30

p(y) 0.6 0.25 0.1 0.05

(i) S  se determine repartiµiile variabilelor aleatoare m = min{X, Y } ³i M = max{X, Y }.(ii) Determinaµi valoarea a³teptat  a câ³tigului cumulat din cele dou  jocuri.

Exerciµiu 2.33 Vectorul aleator (X, Y ) are densitatea de repartiµie

f(x, y) =

{e−x−y pentru x ≥ 0, y ≥ 0.

0, altfel.

(a) Calculaµi probabilit µile P (X ≤ 1, Y ≤ 1), P (X + Y ≤ 1), P (X + Y > 2).(b) Calculaµi probabilit µile P (Y ≤ 1|X ≤ 1), P (X > 1|Y > 1), P (X ≥ 2Y ).(c) Calculaµi E(Y |X = 1), E(X|X = 1).

Exerciµiu 2.34 ∗ Se arunc  o moned  ideal  în mod repetat, independent de alte arunc ri. Not m cuXk câ³tigul obµinut de un juc tor la aruncarea de rang k (k ∈ N). Acesta poate � 2 (câ³tig), dac  aparestema, sau −2 (pierdere) dac  apare cealalt  faµ . Not m cu Sn câ³tigul cumulat din primele n arunc ri.Cunoscând valorile S1, S2, . . . , Sn (i.e., istoria câ³tigurilor pân  la rangul n), s  se determine valoareaa³teptat  a câ³tigului la aruncarea n+ 1, i.e., E[Sn+1|Sn, Sn−1, . . . , S0].

24

3 Statistic  Aplicat  (L3 & S3)

Aplicaµii la TLC

Justi�care gra�c  a teoremei limit  central 

Exerciµiu 3.1 În Figura 3.1 am reprezentat gra�c (cu bare) funcµiile de probabilitate pentru repartiµiilebinomial  ³i Poisson, atunci când num rul de extrageri în schema binomial  este un num r mare. Obser-v m c  pentru un num r n su�cient de mare, cele dou  gra�ce se suprapun. Aceasta este o "demonstraµie"gra�c  a urm toarei convergenµe:

limn→∞p→0

λ=np

Ckn pk qn−k =

e−λλk

k!. (3.1)

0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12

Figura 3.1: B(n, p) ³i P(np) pentru n = 100, p = 0.15

În practic , proprietatea (3.1) este satisf cut  pentru

n ≥ 30, p ≤ 0.1, λ = n p ≤ 0.1.

Din �gura 3.1, observ m c  gra�cul are forma clopotului lui Gauss, justi�când gra�c faptul c  funcµiilede probabilitate pentru binomial  (albastru) ³i Poisson (ro³u) tind la densitatea de repartiµie pentrurepartiµia normal .

n = input('n='); p = input('p=');

lambda = n*p;

a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda));

% a si b sunt valorile din problema celor 3σ

x=a:b; fB=binopdf(x,n,p); fP=poisspdf(x,lambda);

bar(x',[fB',fP'])

25

Exerciµiu 3.2 O pereche de zaruri ideale sunt aruncate de 100 de ori, în mod independent. Not m cuX variabila aleatoare ce reprezint  num rul de duble ap rute.(a) Care este probabilitatea de a obµine exact 20 de duble?(b) S  se calculeze P (14 ≤ X ≤ 17).(c) Aproximaµi probabilit µile de la (a) ³i (b) folosind teorema limit  central .

Soluµie: (a) Avem de calculat P1 = P (X = 20). Îns  X este o variabil  aleatoare repartizat B(100, 1/6), a³adar rezultatul exact este:

P1 = C20100

(1

6

)20(5

6

)80

≈ 0.0679.

(b) Not m cu FX funcµia de repartiµie pentru variabila aleatoare binomial  X. Atunci,

P2 = P (14 ≤ X ≤ 17) = P (X ≤ 17)− P (X < 14)

= FX(17)− FX(13)

=17∑

k=14

Ck100

(1

6

)k (5

6

)100−k≈ 0.3994.

(c) Dac  aproxim m P1 folosind formula

P (X = k) ≈ 1√npq

Φ

(k − np√npq

), (k = 20, p =

1

6, q =

5

6)

obµinem:

P1 ≈1√

100 · 16 ·56

Φ

20− 100/6√100 · 16 ·

56

≈ 0.0717.

Dac  aproxim m P2 folosind formula

P (X ≤ k) ≈ Θ

(k + 1

2 − np√npq

),

obµinem:

P2 = P (14 ≤ X ≤ 17) = P (X ≤ 17)− P (X ≤ 13) ≈ Θ

17 + 12 −

1006√

100 · 16 ·56

−Θ

13 + 12 −

1006√

100 · 16 ·56

≈ 0.3907.

Codul Matlab urm tor calculeaz  probabilit µile cerute.

P1 = binopdf(10,100,1/6) % valoarea exacta P1

P2 = binocdf(17,100,01/6) - binocdf(13,100,1/6) % valoarea exacta P2

P1 = 6/sqrt(500)*normpdf((20-100/6)*6/sqrt(500)) % valoarea aproximativa P1

P2 = normcdf((17+0.5-100/6)*6/sqrt(500))-normcdf((13+0.5-100/6)*6/sqrt(500)) % aprox P2

Exerciµiu 3.3 Timpul de deservire la un anumit ghi³eu dintr-o banc  este o variabil  aleatoare repartizat exponenµial, cu media de 2 minute. �tiind c  în faµ  mai sunt înc  36 persoane ce a³teapt  s  �e servite(prima persoan  la rând abia a fost chemat ) ³i c  timpii de servire sunt independenµi, s  se calculezeprobabilitatea de a a³tepta mai mult de o or  la rând.

26

Soluµie: Not m cu Ti timpul de deservire pentru persoana din rând de pe poziµia i (i = 1, 36).

Atunci Ti sunt variabile aleatoare independente ³i identic repartizate exp(2). Not m cu S36 =

36∑i=1

Ti.

Probabilitatea c utat  este

P (S36 > 60) = 1− P (S36 ≤ 60) = 1− FS36(60).

Pentru o variabil  aleatoare exponenµial  exp(2), media este µ = 2 ³i deviaµia standard este σ = 2.Deoarece n = 36 > 30, aplicând teorema limit  central , putem concluziona c  Sn ∼ N (nµ, σ

√n).

A³adar, S36 ∼ N (72, 12). Atunci, probabilitatea c utat  este aproximativ

1 - normcdf(60, 72, 12) = 0.8413.

Altfel, putem scrie probabilitatea sub forma

P (S36 > 60) = 1−P (S36 ≤ 60) = 1−P(S36 − 72

12≤ 60− 72

12

)= 1−Θ(−1) = 1−normcdf(-1) = 0.8413.

Observaµia 3.1 Putem chiar determina ³i repartiµia exact  a variabilei aleatoare S36. Folosind rezultatuldin Exerciµiul 1.22, obµinem c  S36 ∼ Γ(36, 2). A³adar, probabilitatea c utat  este (exact)

1 - gamcdf(60, 36, 2) = 0.8426.

Exerciµiu 3.4 Un cet µean turmentat pleac  de la bar spre cas . S  presupunem c  punctul de plecareeste punctul O de pe axa orizontal  ³i se mi³c  doar pe aceast  ax  astfel: în �ecare unitate de timp, acestaori face un pas în faµ , cu probabilitatea 0.5, ori face un pas în spate, cu probabilitatea 0.5, independentde pa³ii anteriori. Folosind Teorema limit  central , estimaµi probabilitatea ca, dup  100 de pa³i, acestanu a ajuns la mai mult de doi pa³i de punctul de plecare.

Soluµie: Fie Xi variabila aleatoare ce reprezint  pasul pe care cet µeanul îl face la momentul i (i ∈ N).S  atribuim X = −1, dac  face un pas la stânga, ³i X = 1, dac  face un pas la dreapta. A³adar, X esteo variabil  aleatoare discret  ce poate lua doar dou  valori, −1 ³i 1, ambele cu probabilitatea 0.5. Secalculeaz  cu u³urinµ , E(X) = 0 ³i D2(X) = 1. Suntem interesaµi s  a� m ce se întâmpl  dup  100 de

pa³i. Consider m mai întâi Sn =

n∑i=1

Xi. Atunci,

E(Sn) =n∑i=1

E(Xi) = 0 ³i D2(Sn) =n∑i=1

D2(Xi) = n,

deoarece {Xi}i=1, n sunt independente. Pentru n ≥ 30, Teorema limit  central  spune c 

Sn − E(Sn)

D(Sn)=

Sn√n∼ N (0, 1),

echivalent cu Sn ∼ N (0,√n). Pentru n = 100, S100 ∼ N (0, 10). Probabilitatea cerut  este:

P (|S100| ≤ 2) = P (−2 ≤ S100 ≤ 2) = FSn(2)− FSn(−2) ≈ 0.1585.

27

În Matlab, calcul m astfel: normcdf(2,0,10)-normcdf(-2,0,10).Folosind urm torul cod, putem simula în Matlab mi³carea aleatoare 1dim (vezi Figura 3.2):

N = input('N = '); % numar de pasi

X = 2*(rand(N,1)<0.5)-1; % simuleaza pasii la fiecare moment

S = cumsum(X); % simuleaza unde a ajuns dupa fiecare pas

plot(1:N, S, '-') % reprezinta miscarea

Z=length(find(S == 0)) % numarul de reintoarceri la bar √

Figura 3.2: Mi³care aleatoare (random walk) 1D.

Exerciµiu 3.5 Not m cu Sn suma numerelor ce apar în n arunc ri independente ale unui zar ideal.(a) Calculaµi probabilitatea P = P (S2 ≥ 6).(b) Folosiµi teorema limit  central  pentru a aproxima probabilit µile urm toare:

(i) P1 = P (S50 > 180);(ii) P2 = P (340 ≤ S100 ≤ 360).

Soluµie: (a) Tabloul de repartiµie pentru S2 este:

S2 :

(2 3 4 5 6 7 8 9 10 11 12136

236

336

436

536

636

536

436

336

236

136

),

de unde:P = 1− P (S2 < 6) = 1− P (S2 ≤ 5) = 1− 10

36=

13

18.

(b) Not m cu Xi num rul ap rut la aruncarea de rang i (i = 1, n).Observ m c : Xi = S1 ∼ U(6), µ = E(Xi) = 3.5, σ2 = D2(Xi) = 35

12 (i = 1, n).

Sn =n∑k=1

Xi, E(Sn) =n∑k=1

E(Xi) = n · E(Xi) = 3.5n, D2(Sn) =n∑k=1

D2(Xi) =35

12n.

Obµinem c : S50 ∼ N (175,√

8756 ), S100 ∼ N (350,

√8753 ). Pentru aproximare, scriem

P (Sn ≤ x) ≈ Θ

(x+ 0.5− E(Sn)

D(Sn)

).

28

Vom avea:

P1 = P (S50 > 180) = 1− P (S50 ≤ 180) ≈ 1−Θ

(5.5

√6

875

)≈ 0.3244.

În Matlab,1-normcdf(5.5*sqrt(6/875))

P2 = P (340 ≤ S100 ≤ 360) = P (S100 ≤ 360)− P (S100 ≤ 339)

≈ Θ

(10.5

√3

875

)−Θ

(−10.5

√3

875

)≈ 0.4613.

În Matlab,normcdf(10.5*sqrt(3/875)) - normcdf(-10.5*sqrt(3/875)) √

Exerciµiu 3.6 Arunc m o moned  ideal  în condiµii identice ³i not m cu νn frecvenµa absolut  de apariµiea feµei cu stema din cele n repetiµii ale experimentului. Care este num rul minim de arunc ri ce trebuieefectuate pentru ca

P(∣∣∣νnn− 0.5

∣∣∣ ≤ 0.1)≥ 0.98.

Determinaµi n prin dou  metode:(i) Folosind inegalitatea lui Cebâ³ev;(ii) Folosind Teorema limit  central .

Soluµie: (i) Observ m c  variabila aleatoare νn ∼ B(n, 0.5), de unde E(νn) = n2 ³i D2(νn) = n

4 .A³adar,

E(νnn

) = 0.5, D2(νnn

) =1

4n.

Folosim inegalitatea lui Cebâ³ev pentru X = νnn , a = 0.1. G sim c :

P(∣∣∣νnn− 0.5

∣∣∣ ≤ 0.1)≥ 1−

D2(νnn

)0.01

= 1− 25

n.

Impunem condiµia

1− 25

n≥ 0.98,

de unde obµinem c  n ≥ 1250 .

(ii) C ut m n astfel încât

P(−0.1 ≤ νn

n− 0.5 ≤ 0.1

)= 0.98. (3.2)

Ne a³tept m ca valoarea lui n s  �e mare, deci putem aplica Teorema limit  central . Aplicând TLC,scriem c  variabila aleatoare standardizat 

νn − E(νn)

D(νn)=νn − 0.5n

0.5√n∼ N (0, 1).

29

Folosind aceasta, rescriem egalitatea (3.2) astfel:

0.98 = P(−0.1 ≤ νn

n− 0.5 ≤ 0.1

)= P

(−0.1

√n

0.5≤ νn − 0.5n

0.5√n≤ 0.1

√n

0.5

)= Θ

(√n

5

)−Θ

(−√n

5

)= Θ

(√n

5

)−[1−Θ

(√n

5

)]= 2Θ

(√n

5

)− 1

de unde Θ(√

n5

)= 0.99 ³i

√n5 = Θ(0.99) = z0.99 ≈ 2.33 (cuantila de ordin 0.99 pentru repartiµia normal 

standard). Din ultima egalitate g sim c  n ≈ 135.2974. În Matlab, calcul m astfel:

n = (5*norminv(0.99,0,1))^2

A³adar, pentru ca relaµia din enunµ s  aib  loc, va trebui ca n ≥ 136 .Observ m c  aceast  valoare este mult mai mic  decât cea g sit  anterior. Metoda a doua (TLC) ne d un rezultat mai bun decât cel obµinut cu ajutorul inegalit µii lui Cebâ³ev. Aici, �mai bun� se traduce prinfaptul c , folosind num r mai mic de simul ri ale experimentului, obµinem acela³i rezultat. √

Exerciµiu 3.2 O companie independent  de evalu ri statistice a estimat ca un anumit candidat are 25%³anse s  câ³tige alegerile locale. Dorim s  efectu m un alt sondaj de opinie care s  veri�ce rezultatulcompaniei. Determinaµi care ar trebui s  �e volumul minim de selecµie pentru ca, cu o probabilitate de celpuµin 0.97, procentul de aleg tori ce intenµioneaz  s -l voteze pe respectivul candidat se încadreaz  întrevalorile 20% ³i 30%. Determinaµi volumul minim folosind cele dou  metode menµionate în Exerciµiul 3.6.

Soluµie: S  not m cu νn num rul de votanµi (din n ale³i aleator) care voteaz  cu respectivul candidat.Se cere cel mai mic n ∈ N pentru care

P(

0.2 ≤ νnn≤ 0.3

)≥ 0.97,

echivalent cuP(∣∣∣νnn− 0.25

∣∣∣ ≤ 0.05)≥ 0.97.

(i) Observ m c  variabila aleatoare νn ∼ B(n, 0.25), de unde E(νn) = n4 ³i D2(νn) = 3n

16 . A³adar,

E(νnn

) = 0.25, D2(νnn

) =3

16n.

Folosim inegalitatea lui Cebâ³ev pentru X = νnn , a = 0.05. G sim c :

P(∣∣∣νnn− 0.25

∣∣∣ ≤ 0.05)≥ 1−

D2(νnn

)0.052

= 1− 75

n.

Impunem condiµia

1− 75

n≥ 0.97,

de unde obµinem c  n ≥ 2500 .

(ii) C ut m n astfel încât

P(−0.05 ≤ νn

n− 0.25 ≤ 0.05

)= 0.97. (3.3)

30

Ne a³tept m ca valoarea lui n s  �e mare, deci putem aplica Teorema limit  central . Aplicând TLC,scriem c  variabila aleatoare standardizat 

νn − E(νn)

D(νn)= 4

νn − 0.25n√3n

∼ N (0, 1).

Folosind aceasta, rescriem egalitatea (3.3) astfel:

0.97 = P(−0.05 ≤ νn

n− 0.25 ≤ 0.05

)= P

(−0.05× 4

√n

3≤ 4

νn − 0.25n√3n

≤ 0.05× 4

√n

3

)= Θ

(0.2

√n

3

)−Θ

(−0.2

√n

3

)= Θ

(0.2

√n

3

)−[1−Θ

(0.2

√n

3

)]= 2Θ

(0.2

√n

3

)− 1

de unde Θ(0.2√

n3

)= 0.985 ³i 0.2

√n3 = z0.985 ≈ 2.17 (cuantila de ordin 0.985 pentru repartiµia normal 

standard). Din ultima egalitate g sim c  n ≈ 353.1969. În Matlab, calcul m astfel:

n = 3*(norminv(0.985,0,1)/0.2)^2

A³adar, pentru ca relaµia din enunµ s  aib  loc, va trebui ca n ≥ 354 .Observ m, din nou, c  aceast  valoare este mult mai mic  decât cea g sit  anterior. √

Exerciµiu 3.7 Urm torul set de date reprezint  preµurile (în mii de euro) a 20 de case, vândute într-oanumit  regiune a unui ora³:

113 60.5 340.5 130 79 475.5 90 100 175.5 100

111.5 525 50 122.5 125.5 75 150 89 100 70

Determinaµi amplitudinea, media, mediana, modul, cuartilele ³i distanµa intercuartilic  pentru acestedate. Care valoare este cea mai reprezentativ ?

Soluµie: Rearanj m datele în ordine cresc toare:

50 60.5 70 75 79 89 90 100 100 100 111.5

113.5 122.5 125.5 130 150 175.5 340.5 475.5 525

Amplitudinea este 525 − 50 = 475, media lor este 154.15, mediana este 105.75, modul este 100, cuartilainferioar  este Q1 = 84, cuartila superioar  este Q3 = 140, Q2 = Me ³i distanµa intercuartilic  ested = Q3 −Q1 = 56.Mediana este valoarea cea mai reprezentativ  în acest caz, deoarece cele mai mari trei preµuri, anume340.5, 475.5, 525, m resc media ³i o fac mai puµin reprezentativ  pentru celelalte date. În cazul în caresetul de date nu este simetric, valoarea median  este cea mai reprezentativ  valoare a datelor. ÎnMatlab,

31

X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ...

111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70

a = range(X); m = mean(X); Me = median(X); Mo = mode(X);

Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;√

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 25) 10[25, 30) 2

Tabela 3.1:

Exerciµiu 3.8 Consider m datele din Tabelul 3.1. Determinaµi amplitudinea, media, mediana, modul,dispersia ³i prima cuartil  pentru aceste date.

Soluµie: Amplitudinea este a = 30. Media este

x =

∑(x · f)

n=

1

70(2.5× 5 + 7.5× 13 + 12.5× 23 + 17.5× 17 + 22.5× 10 + 27.5× 2) = 13.9286.

Dispersia este:

s2 =1

n− 1(∑

(x2 · f)− n · x2)

=1

69(2.52 × 5 + 7.52 × 13 + 12.52 × 23 + 17.52 × 17 + 22.52 × 10 + 27.52 × 2 − 70 · 13.92862)

= 37.06.

Clasa median  este clasa [10, 15). Deoarece în clasele anterioare ([0, 5) ³i [5, 10)) se a�  deja 5 + 13 = 18date mai mici decât mediana, pentru a a�a în lµimea median  a plantelor (i.e., acea valoare care estemai mare decât în lµimea a 35 de plante ³i mai mic  decât în lµimea a alte 35 de plante), va trebuis  determin m acea valoare din clasa median  ce este mai mare decât alte 17 valori din aceast  clas .A³adar, avem nevoie de a determina o fracµie 17

23 dintre valorile clasei mediane. În concluzie, valoareamedian  este

Me = 10 +17

23× 5 = 13.6957.

Clasa modal  este [10, 15), iar modul este valoarea central  a clasei, 12.5.Calcul m acum prima cuartil . Împ rµim setul de date în patru. Prima cuartil  este acea valoare dintrecele 70 care este mai mare decât alte 18 valori, adic  Q1 = 10. Implementarea în Matlab:

x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor

f = [5; 13; 23; 17; 10; 2]; % frecventele

n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1); √

32

Exerciµiu 3.9 O companie de asigur ri a înregistrat num rul de accidente pe s pt mân  ce au avut locîntr-un anumit sat, în decurs de un an (52 de s pt mâni). Acestea sunt, în ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,

4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

(a) Construiµi un tabel de frecvenµe care s  conµin  num rul de accidente, frecvenµele absolute ³i relative.(b) G siµi media empiric , mediana ³i deviaµia standard empiric .(c) Reprezentaµi prin bare rezultatele din tabelul de frecvenµe.(d) G siµi ³i reprezentaµi gra�c (cdfplot) funcµia de repartiµie empiric  a num rului de accidente.(e) Aproximaµi probabilitatea ca într-o s pt mân  aleas  la întâmplare s  � avut cel puµin dou  accidente.

Soluµie: (a) Tabelul de frecvenµe este Tabelul 3.2.

num rul 0 1 2 3 4

frecv. abs. 7 9 14 12 10

frecv. rel. 0.1346 0.1731 0.2692 0.2308 0.1923

Tabela 3.2: Tabel de frecvenµe pentru Exerciµiu 3.9

(b) Avem:

x =

52∑i=1

xi = 2.1731, s =

√√√√ 1

51

52∑i=1

(xi − x)2 = 1.3094, Me = 2.

(c) Reprezentarea prin bare a num rului de accidente ³i gra�cul lui F ∗n(x) sunt reprezentate în Figura3.3.(d) Funcµia de repartiµie empiric  este:

F ∗n(x) = P (X ≤ x) =

0, dac  x < 0;752 , dac  x ∈ [0, 1);1652 , dac  x ∈ [1, 2);3052 , dac  x ∈ [2, 3);4252 , dac  x ∈ [3, 4);

1, dac  x ≥ 4.

Probabilitatea cerut  la (e) este:

P (X ≥ 2) = 1− P (X < 2) = 1− P (X ≤ 1) ≈ 1− F ∗n(1) = 1− 16

52= 0.6923.

Codul Matlab pentru calcule ³i gra�ce este:

Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];

m = mean(Y); s = std(Y); Me = median(Y);

subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare

subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice √

33

Figura 3.3: Reprezentare pentru num rul de accidente.

Exerciµiu 3.10 Test m media notelor obµinute de studenµii din ultimul an al unei universit µi. S  pre-supunem c  pentru aceste note avem media de selecµie x = 7.24 ³i deviaµia standard s = 0.7. Media taeste 8.45. Care îµi este poziµia mediei tale, raportat la mediile colegilor t i? (i.e., câte deviaµii standard,s, dedesubtul sau deasupra mediei de selecµie te situezi?)

Soluµie: Calcul m scorul Z. Avem:

z =x− xσ

=8.50− 7.24

0.7= 1.8 deviaµii standard deasupra mediei de selecµie.

Exerciµii suplimentare

Exerciµiu 3.11 Not m cu Sn num rul de steme ce apar la aruncarea repetat  de n ori a unei monedeideale. Folosiµi teorema limit  central  pentru a aproxima urm toarele probabilit µi:(a) P1 = P (S100 > 57);(b) P2 = P (473 ≤ S1000 ≤ 548);(c) P3 = P (S50 = 25). Care este valoarea exact  a lui P3?

Exerciµiu 3.12 Fie X1, X2, . . . , Xn variabile aleatoare identic repartizate ³i independente stochastic,astfel încât P (Xi > 0) = 1, ∀i (i.e., Xi > 0 a.s.). Ar taµi c  pentru n su�cient de mare, produsulX1 ·X2 · . . . ·Xn urmeaz  repartiµia lognormal .

Exerciµiu 3.13 Se arunc  o pereche de zaruri în mod repetat ³i independent.(a) Care este num rul mediu de arunc ri necesare pentru a obµine o dubl ?(b) Care este probabilitatea de a obµine o dubl  pentru prima dat  din cel mult 3 arunc ri? Dar dinexact 3 arunc ri?(c) Aplicând Teorema limit  central , determinaµi num rul minim de arunc ri necesare pentru ca, cu oprobabilitate de 0.95, frecvenµa relativ  a num rului de duble obµinute s  �e între 0.25 ³i 0.35.

34

Exerciµiu 3.14 Un zar ideal este aruncat de 48 de ori. Utilizaµi Teorema limit  central  pentru aaproxima:(a) probabilitatea ca suma punctelor obµinute s  �e mai mare decât 165.(b) probabilitatea ca suma punctelor obµinute s  �e între 160 ³i 175.

Exerciµiu 3.15 Dac  X ∼ P(1), determinaµi cel mai mic num r natural n pentru care P (X < n) ≥ 0.99.

Exerciµiu 3.16 Fie X o variabil  aleatoare cu µ = E(X) = 1 ³i σ =√D2(X) = 0.2. Determinaµi

marginile inferioare pentru urm toarele probabilit µi:

P (0.5 ≤ X ≤ 1.5), P (|X − 1| < 2).

Exerciµiu 3.17 Consider m ³irul de variabile aleatoare independente {Xn}n∈N∗ care pot lua urm toarelevalori: −

√n, 0,

√n, cu probabilit µile:

P (X1 = 0) = 1, P (Xk = −√k) = P (Xk =

√k) =

1

k³i P (Xk = 0) = 1− 2

k, k = 2, 3, 4, . . . .

Ar taµi c  acest ³ir satisface legea slab  a numerelor mari.

Exerciµiu 3.18 Teorema limit  central  a�rm  c  suma unui ³ir de v.a. independente ³i identic reparti-zate are o form  normal , indiferent ce tip de repartiµie au variabilele din ³ir. Dorim s  dovedim aceastagra�c, prin simul ri în Matlab, alegând o funcµie de repartiµie oarecare. S  alegem 40 de numere dinintervalul [0, 1] ce au una dintre densit µile de repartiµie de mai jos. Calcul m suma lor, notat  S40.Repet m acest eperiment de 1000 de ori ³i realiz m un gra�c cu bare (20 de bare) a rezultatelor obµinute.În acela³i sistem de coordonate, desen m densitatea de repartiµie N (µ, σ), unde µ = µ(S40) ³i σ = σ(S40).Urm riµi cât de bine se potrivesc cele dou  gra�ce.

(a) f(x) = 2x; (b) f(x) = 3x2; (c) f(x) = 2− 4|x− 0.5|.

Exerciµiu 3.19 Cât de mare ar trebui s  �e n, astfel încât suma Sn din exerciµiul precedent s  �eaproximativ normal ? R spundeµi al aceast  întrebare alegând, pe rând, câte n = 1, 5, 15, 20 numerealeatoare în [0, 1], pentru �ecare dintre densit µile de repartiµie de la (a) − (c), calculaµi de �ecare dat Sn ³i repetaµi experimentul de 1000 de ori. Determinaµi, de �ecare dat , pe acel n pentru care obµineµicea mai bun  potrivire între gra�cul cu bare ³i gra�cul densit µii de repartiµie.

35

4 Statistic  Aplicat  (L4 & S4)

Utilizând funcµiilelegernd(< param >, m, n) (4.1)

³irandom(′lege′, < param >,m, n) (4.2)

introduse anterior, putem genera variabile aleatoare de selecµie de un volum dat, n. Pentru aceasta, vatrebui ca m = n în (4.1) ³i (4.2). Astfel, comanda

random('norm',100,6, 50,50)

genereaz  o matrice p tratic , de dimensiune 50. Putem privi aceast  matrice aleatoare astfel: �ecarecoloan  a sa corespunde unei variabile aleatoare de selecµie de volum 50, c reia îi preciz m cele 50 devalori ale sale obµinute la o observaµie. În total, avem 50 de coloane, corespunzând celor 50 de variabilealeatoare de selecµie. A³adar, am generat 50 de variabile aleatoare de selecµie de volum 50, ce urmeaz repartiµia N (100, 6).

Exerciµiu 4.1 Presupunem c  masa medie a unor batoane de ciocolat  produse de o ma³in  este ocaracteristic  X ∼ N (100, 0.65). În vederea veri�c rii parametrilor ma³inii, dintre batoanele primiteîntr-un depozit s-au ales la întâmplare 1000 de buc µi.(i) Calculaµi media ³i deviaµia standard ale mediei de selecµie, X.(ii) Calculaµi P (98 < X < 102).(iii) Un baton este declarat rebut dac  masa sa este sub 98 de grame sau peste 102 de grame. Calculaµiprocentul de rebuturi avute.

Soluµie: (i) �tim c  media de selecµie X urmeaz  repartiµia N (100, 0.65/√

1000). A³adar,

µX = 100, σX ≈ 0.02.

(ii) Probabilitatea P1 = P (98 < X < 102) este

P1 = P (X < 102)− P (X ≥ 98) = FX(102)− FX(98) ≈ 1.

(iii) Probabilitatea de a avea un rebut este:

P2 = P({X < 98}

⋃{X > 102}

)= P (X < 98) + P (X > 102)

= FX(98) + 1− FX(102),

de unde, procentul de rebuturi este

r = P2 · 100% ≈ 0.2091%,

adic  aproximativ 2 rebuturi la 1000 de batoane.

36

În Matlab, acestea pot � calculate astfel:

mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei

X = normrnd(mu, sigma, n,n); % am generat selectia de volum n

Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie

m = mean(Xbar); s = std(Xbar); % media si deviatia standard

P1 = normcdf(102, mu, S) - normdf(98, mu, S);

P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma);

rebut = P2*100; √

Exerciµiu 4.2 �amponul marca Fairhair se vinde acum în supermarket în trei m rimi (volume): 250ml,500ml ³i 1 litru. Treizeci la sut  dintre cump r torii acestui produs cump r  �aconul de 250ml, 50% pecel de 500ml, iar restul pe cel de 1 litru. Not m cu X volumul unui �acon de Fairhair. Fie X1 ³i X2

volumele �acoanelor cump rate de doi dintre clienµi, ale³i la întâmplare.(a) Determinaµi repartiµia mediei de selecµie X. Calculaµi media E(X) ³i comparaµi-o cu µ = E(X).(b) Calculaµi D2(X) ³i comparaµi-o cu σ2 = D2(X).(c) Calculaµi probabilitatea P (X ≥ 500).(d) Care ar trebui s  �e volumul minim de cump r tori pentru ca media de selecµie s  satisfac  relaµiaP (X ≥ 500) > 0.75?

Soluµie: Fie v.a. X ce reprezint  volumul ales de un cump r tor. Atunci distribuµia lui X este:

x 250 500 1000

p(x) 0.3 0.5 0.2.

Deoarece X1 ³i X2 sunt variabile aleatoare de selecµie, ele sunt independente ac si au aceea³i repartiµie caX. Avem c  µ = E(X) = 525 ³i σ = D(X) = 25

√109.

(a) Media de selecµie este X = (X1 +X2)/2. Repartiµia sa este:

x 250 375 500 625 750 1000

p(x) 0.09 0.3 0.25 0.12 0.2 0.04.

Media este µX = E(X) = E(X) = µ = 525.

(b) σX =σ√2

= 25

√109

2< σ.

(c) P (X ≥ 500) = 0.25 + 0.12 + 0.2 + 0.04 = 0.61.

(d) În general, X ∼ N(µ,

σ√n

), de unde g sim c 

X − µσ√n

∼ N (0, 1) A³adar,

0.75 < P (X ≥ 500) = 1−P (X ≤ 500) = 1−P

(X − µ

σ√n

≤ 500− µσ√n

)= 1−Θ

(500− µ

σ√n

)= 1−Θ

(−√

n

109

),

de unde

Θ

(−√

n

109

)< 0.25 ³i −

√n

109< Θ−1(0.25) = z0.25 = −0.6745, de unde n > 109 · z20.25 ≈ 50. √

37

Exerciµiu 4.3 În vederea studierii unei caracteristici X ce are densitatea de repartiµie

f(x) =

{2x, x ∈ (0, 1);

0, x 6∈(0, 1).

s-a efectuat o selecµie repetat  de volum n = 100. Se cere s  se determine probabilitatea P (X < 0.65),unde X este media de selecµie.

Soluµie: Se observ  cu u³urinµ  c  f(x) îndepline³te condiµiile unei funcµii de repartiµie, adic  estem surabil , nenegativ  ³i ∫

Rf(x) dx =

∫ 1

02x dx = 1.

Pentru a calcula probabilitatea cerut , avem nevoie de E(X) ³i D2(X). Avem:

E(X) =

∫Rx f(x) dx =

∫ 1

02x2 dx =

2

3,

D2(X) = E(X2)− (E(X))2 =

∫Rx2 f(x) dx− 4

9=

1

18.

A³adar, repartiµia mediei de selecµie X este

X ∼ N(

2

3,

1√18 ·√

100

).

Putem acum calcula probabilitatea cerut . Ea este:

P (X < 0.65) = FX(0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) = 0.2398.

Exerciµiu 4.4 Not m cu P1, P2, . . . , P9 preµurile oferite de 9 ofertanµi la o licitaµie public  pentru vinde-rea unui anumit tablou. Presupunem c  acestea sunt variabile aleatoare repartizate uniform U(1000, 2000).Obiectul se va vinde celui care vine cu oferta cea mai mare. Determinaµi valoarea a³teptat  a preµuluiobµinut pentru acest tablou.

- Deoarece P ∼ U(1000, 2000), atunci

f(x) =

{1

1000 , dac  1000 < x < 2000

0, dac  x 6∈ (1000, 2000)

³iF (x) =

0, dac  x ≤ 1000x−10001000 , dac  1000 < x < 2000

1, dac  x ≥ 2000

Funcµia de repartiµie a statisticii de ordine M = P(9) = max{P1, P2, . . . , P9} este

FT(9)(x) = [F (x)]9, x ∈ R.

Densitatea de repartiµie a statisticii de ordine M este

fT(9)(x) = F ′T(9)(x) = 9[F (x)]8f(x), x ∈ R.

38

Preµul de vânzare a³teptat este media variabilei aleatoare M ,

E(Y ) =

∞∫∞

xfY (x)dx =9

1000

2000∫1000

x

(x− 1000

1000

)8

dx = 1900.

Exerciµiu 4.5 Becurile produse de un manufacturier A au timpul mediu de funcµionare de 1400 ore,cu deviaµia standard de 200 ore, în timp ce timpul mediu de funcµionare ale becurilor produse de unmanufacturier B au timpul mediu de funcµionare de 1200 ore, cu deviaµia standard de 100 ore. Se faceo selecµie de 125 becuri din �ecare tip ³i se testeaz  becurile alese. Pentru selecµiile date, care esteprobabilitatea ca becurile produse de A au un timp mediu de viaµ  mai mare cu(a) 160 de ore;(b) 250 de ore;mai mare decât timpul mediu de funcµionare ale becurilor produse de B?(c) Care este probabilitatea ca timpul mediu de funcµionare al becurilor selectate din tipul A s  �ecuprins între 1375 de ore ³i 1425 de ore?(d) Presupunem c  timpul mediu de funcµionare ale becurilor produse de A este o v.a. normal . Alegemla întâmplare un bec de tipul A. Care este probabilitatea ca timpul s  mediu de funcµionare s  �e cuprinsîntre 1375 de ore ³i 1425 de ore?

Soluµie: Not m cu T1 ³i T2 cele dou  timpuri de funcµionare. Avem c 

µT1 = 1400, σT1 = 200 ³i µT2 = 1200, σT2 = 100.

Pentru o selecµie de volum n = 125 (vom considera c  selecµia este repetat , deoarece volumul selecµieieste mult mai mic decât num rul becurilor produse de �ecare manufacturir), avem c :

T1 ∼ N (1400,200

5√

5) ³i T2 ∼ N (1200,

100

5√

5).

Diferenµa mediilor de selecµie este o v.a. repartizat  astfel:

T1 − T2 ∼ N (200, 20).

(a) Probabilitatea cerut  este:

P (T1 − T2 > 160) = 1− FT1−T2(160)

= 1 - normcdf(160,200,20) = 0.9772.

(b) Probabilitatea cerut  este:

P (T1 − T2 > 250) = 1− FT1−T2(250)

= 1 - normcdf(250,200,20) = 0.0062.

(c) Probabilitatea cerut  este:

P (1375 ≤ T1 ≤ 1425) = FT1(1425)− FT1(1375)

= normcdf(1425,1400,8*sqrt(5)) - normcdf(1375,1400,8*sqrt(5))

= 0.8377.

39

(c) Probabilitatea cerut  este:

P (1375 ≤ T1 ≤ 1425) = FT1(1425)− FT1(1375)

= normcdf(1425,1400,200) - normcdf(1375,1400,200)

= 0.0995.

Exerciµiu 4.6 Dou  avioane zboar  în aceea³i direcµie pe dou  coridoare paralele. La momentul t = 0,primul avion are un avans de 6km în faµa celui de-al doilea. Presupunem c  viteza primului avion (m surat în km/h) este o v.a. repartizat  normal, cu media 510 ³i deviaµia standard 10, iar viteza celui de-al doileaavion este normal repartizat , cu media 500 ³i deviaµia standard 10.(a) Care este probabilitatea ca, dup  4 ore de zbor, al doilea avion s  nu îl � ajuns pe primul?(b) Determinaµi probabilitatea ca, dup  4 ore de zbor, distanµa dintre cele dou  avioane s  �e de celmult 5km.

Soluµie: Not m cu v1 ³i v2 cele dou  viteze. Avem c 

v1 ∼ N (510, 10) ³i v2 ∼ N (500, 10).

Dup  4 ore de zbor (adic  avem câte o selecµie de volum 4 pentru �ecare v.a., anume {v1i}i, {v2i}i, i =1, 4), mediile de selecµie for satisface:

v1 ∼ N (510, 5) ³i v2 ∼ N (500, 5).

Diferenµa mediilor de selecµie este o v.a. repartizat  astfel:

v1 − v2 ∼ N (10, 5√

2).

(a) Evenimentul ca, dup  4 ore de zbor, al doilea avion s  nu îl � ajuns pe primul este

{4∑i=1

v1i + 6−4∑i=1

v2i > 0} = {4v1 − 4v2 + 6 > 0}.

Probabilitatea acestui eveniment este:

P ({4v1 − 4v2 + 6 > 0}) = P ({v1 − v2 > −3

2}) = 1− P ({v1 − v2 ≤ −

3

2}) = 1− Fv1−v2(−3

2)

= 1 - normcdf(-3/2,10,5*sqrt(2)) = 0.9481.

(b) Evenimentul ca, dup  4 ore de zbor, distanµa dintre cele dou  avioane s  �e de cel mult 5km este{|4v1 − 4v2 + 6| ≤ 5}. Probabilitatea acestui eveniment este:

P ({|4v1 − 4v2 + 6| ≤ 5}) = P

(−11

4≤ v1 − v2 ≤ −

1

4

)= Fv1−v2

(−1

4

)− Fv1−v2

(−11

4

)= normcdf(-1/4,10,5*sqrt(2)) - normcdf(-11/4,10,5*sqrt(2))

= 0.0379.

40

Exerciµiu 4.7 S  se arate c  dispersia de selecµie ³i dispersia de selecµie modi�cat  au urm toarelepropriet µi:

E[d2∗(X)] = D2(X), E[d2(X)] =n− 1

nD2(X), ∀n ∈ N∗.

- Not m cu µ = E(X). Avem c :

E(d2(X)) = E

(1

n

n∑i=1

(Xi −X)2

)=

1

nE

(n∑i=1

(Xi − µ+ µ−X)2

)

=1

nE

(n∑i=1

(Xi − µ)2 − 2(X − µ)

n∑i=1

(Xi − µ) +

n∑i=1

(X − µ)2

)

=1

n

[n∑i=1

E[(Xi − µ)2

]− 2nE

((X − µ)2

)+ nE

[(X − µ)2

]]

=1

n

[nE[(X − µ)2

]− nE

((X − µ)2

)]=

1

n

[nD2(X)− nD2(X)

]= D2(X)− D2(X)

n=n− 1

nD2(X).

Totodat , se observ  c  E[d2∗(X)] = D2(X). √

Exerciµii suplimentare

Exerciµiu 4.8 Un anumit component electric, care este strict necesar pe un satelit ce orbiteaz  P mântul,are durata medie de funcµionare continu  de 10 zile.(a) Care este probabilitatea ca durata de funcµionare continu  a unui astfel de component s  dep ³easc 10 zile? (se consider  c  timpul de funcµionare este o v.a. exponenµial ).(b) De îndat  ce se defecteaz , acest component va trebui înlocuit imediat cu unul nou, identic. Care estenum rul minim de componente de acest tip ce trebuie luate la plecarea într-o misiune de un an, pentruca probabilitatea ca satelitul s  devin  inoperativ din cauza epuiz rii tuturor rezervelor funcµionabile s �e mai mic  de 0.02?

Exerciµiu 4.9 Consider m funcµia f : R −→ R, dat  prin

f(x) =

{a e−x , x > 0;

0 , x ≤ 0.

(i) G siµi valoarea parametrului a pentru care f(x) este o densitate de repartiµie;(ii) Fie X v.a. ce are densitatea de repartitie gasit . Calculaµi probabilitatea P (X > 1);(ii) Fie {X1, X2, . . . , X100} variabilele aleatoare de selecµie repetat  asupra lui X si �e X media deselecµie. Calculaµi P

(X > 1

)³i P

(X = a

).

Exerciµiu 4.10 Determinaµi dispersia statisticii dispersie de selecµie d2∗(X).

Exerciµiu 4.11 Presupunem c  timpul necesar pescuirii unui pe³te dintr-un anumit iaz este o variabil aleatoare repartizat  exp(10min). La un concurs, ³apte pescari se întrec în a prinde câte un pe³te,câ³tigând cel care l-a prins primul.(i) Care este probabilitatea ca primul pe³te s  �e prins în mai puµin de 7 minute?(ii) Care este probabilitatea ca toµi cei 7 pescari s  � prins câte un pe³te în mai puµin de 15 minute?

41

Exerciµiu 4.12 (a) Ar taµi c  dac  U ∼ U(0, 1), atunci

X = µ+ λ tan

(U − 1

2

)]∼ C(λ, µ).

(b) Generaµi înMatlab o selecµie de 500 de variabile aleatoare ce urmeaz  repartiµia Cauchy C(100, 10).

Exerciµiu 4.13 Cantitatea de ap  consumat  de Ana în �ecare zi se presupune a � o v.a. normal  cumedia 2 l ³i deviaµia standard 300ml, independent  de zi. Ana a cump rat azi un bax de 6 sticle a câte2.5 litri de ap  �ecare. Presupunând c  Ana bea doar din apa cump rat  azi, care este probabilitatea caea s  mai aib  ap  din acest stoc ³i dup  o s pt mân  (7 zile, inclusiv cea de azi)?

Exerciµiu 4.14 Masa medie a unui bagaj ce trece pe la serviciul de check-in al aeroportului din Ia³i pentrucursa de Viena este o v.a. cu media 21 kg ³i deviaµia standard 3.5 kg pentru pasagerii de la clasa economic³i o v.a. cu media 12 kg ³i deviaµia standard 4.5 kg pentru pasagerii de la clasa business. Presupunem c aceste valori sunt ale unor variabile aleatoare independente de la un pasager la altul, indiferent de clas .(a) Dac  într-o anumit  curs  se a�  16 pasageri la clasa business ³i 81 pasageri la clasa economic, careeste valoarea a³teptat  ³i deviaµia standard a masei totale de bagaje ale pasagerilor din acel avion?(b) Care este probabilitatea ca masa total  de bagaje ale celor 97 de pasageri pentru aceast  curs  s nu dep ³easc  2000 kg?(c) Se aleg la întâmplare bagajele a 6 pasageri de la clasa economic ³i a 10 pasageri de la clasa business³i se cânt resc. Care este probabilitatea ca diferenµa maselor bagajelor dintre cele dou  clase s  �e maimic  de 20 kg?

Exerciµiu 4.15 Batoanele de ciocolat  produse de o anumit  �rm  cânt resc �ecare 50 g, cu deviaµiastandard 0.02 g. Se aleg la întâmplare dou  loturi de batoane de ciocolat , �ecare având 100 de buc µi.Care este probabilitatea ca masele totale ale celor dou  loturi s  nu difere prin mai mult de 5 g?

Exerciµiu 4.16 Presupunem c  timpul de a³teptare a autobuzului în staµie este o v.a. repartizat U(0, 10) pentru orele dimineµii, iar timpul de a³teptare a autobuzului în staµie la orele serii este o v.a.repartizat  U(0, 8). Toµi timpii sunt independenµi între ei.(a) Dac  într-o anumit  s pt mân  luaµi autobuzul în �ecare zi (5 zile lucr toare), care este timpul totalmediu pe care v  a³teptaµi s -l petreceµi în staµia de autobuz în întreaga s pt mân ?(b) Care este abaterea standard a timpului total petrecut în staµia de autobuz în întreaga s pt mân ?(c) Determinaµi valoarea medie ³i abaterea standard a diferenµei dintre timpul total petrecut dimineaµa³i timpul total petrecut seara în staµia de autobuz în întreaga s pt mân ?

Exerciµiu 4.17 Fie X1, X2, . . . , X10 o selecµie repetat  de volum 10 de v.a. repartizate U(0, 1). G siµimedia ³i deviaµia standard pentru primele dou  statistici de ordine, X(1) ³i X(2).

Exerciµiu 4.18 Tudor ³i Maria au hot rât s  se întâlneasc  între orele 1:00p.m. ³i 2:00p.m. în faµa unuirestaurant local, pentru a lua prânzul. Not m cu X timpul sosirii Mariei ³i cu Y timpul sosirii lui Tudor.Presupunem c  X ³i Y sunt independente, �ecare �ind uniform repartizate U(1, 2).(a) Care este repartiµia comun  a vectorului (X, Y )?(b) Care este probabilitatea ca amândoi s  ajung  între 1:15 ³i 1:30?(c) Dac  primul care ajunge a³teapt  15 minute, iar dac  cel talt nu sose³te în acest timp pleac , careeste probabilitatea ca ei s  se întâlneasc  în faµa acelui restaurant?(d) Dac  Tudor a ajuns la 1:15 p.m., care este probabilitatea ca Maria s  � ajuns pân  la 1:30p.m.?(e) Determinaµi probabilitatea ca primul sosit s  ajung  pân  la ora 1:15p.m.(f) Determinaµi probabilitatea ca amândoi s  soseasc  pân  la ora 1:15p.m.

42

5 Statistic  Aplicat  (L5 & S5)

Estimaµii prin Matlab

Estimaµii punctuale

Estimarea parametrilor prin metoda verosimilit µii maxime poate � realizat  în Matlab folosind funcµiamle. Formatul general al funcµiei este:

[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)

unde:

• p este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz  a � estimat punctual;

• pCI este variabila de memorie pentru intervalul (intervalele) de încredere ce va � estimat;

• X este un vector ce conµine datele ce urmeaz  a � analizate;

• distribution este parte din formatul comenzii iar lege poate � oricare dintre legile din Tabelul1.1;

• nume_i/val_i sunt perechi opµionale de argumente/valori, dintre care amintim:

� alpha reprezint  nivelul de con�denµ  pentru intervalul de încredere. Valoarea implicit  înMatlab este α = 0.005;

� ntrials (utilizat  doar pentru repartiµia binomial , reprezint  num rul de repetiµii ale expe-rimentului.

Dac  urm rim s  estim m parametrii unei caracteristici gaussiene, atunci putem folosi comanda simpli�-cat :

[p, pCI] = mle(X)

f r  a mai preciza legea de distribuµie.

vârsta frecvenµa frecvenµa relativ  frecvenµa cumulat  vârsta medie[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60Total 385 100% - -

Tabela 5.1: Tabel cu frecvenµe pentru rata somajului.

De exemplu, s  lu m drept obiect de lucru datele din Tabelul 5.1. O estimare a parametrilor µ ³i σ prinmetoda verosimilit µii maxime este

43

X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55]

[p, pCI] = mle(X)

³i obµinem estim rile:

p =

41.9716 12.0228 % estimari punctuale pentru µ si σ

pCI =

40.7653 11.2439 % intervale de incredere

43.1779 12.9547

unde prima coloan  reprezint  estimarea punctual  ³i un interval de încredere pentru µ, iar a doua coloan estimarea punctual  ³i un interval de încredere pentru σ.

Estim ri punctuale ³i cu intervale de încredere mai putem obµine ³i utilizând funcµia

LEGEfit(X,alpha)

unde, în locul cuvântului LEGE punem o lege de probabilitate ca în Tabelul 1.1, X reprezint  observaµiile³i alpha este nivelul de con�denµ . (Exemple: normfit, binofit, poissfit, expfit etc).

Exerciµiu 5.1 S  se arate c  media de selecµie X constituie un estimator absolut corect ³i e�cient alparametrului λ din repartiµia Poisson P(λ).

Soluµie: Deoarece X ∼ P(λ), urmeaz  c  E(X) = D2(X) = λ. Atunci,

E(X) =1

nE

(n∑i=1

Xi

)=

1

n

(n∑i=1

E(Xi)

)=

1

n(n∑i=1

λ) = λ,

D2(X) =1

n2D2

(n∑i=1

Xi

)=

1

n2

(n∑i=1

D2(Xi)

)=

1

n2(n∑i=1

λ) =λ

n−→ 0, când n→∞.

A³adar, conform de�niµiei, media de selecµie este un estimator absolut corect pentru parametrul λ. Funcµiade probabilitate este

f(x, λ) = e−λλx

x!, x ∈ N,

de unde∂ ln f(x, λ)

∂λ= −1 +

x

λ.

Calcul m e�cienµa estimatorului. Avem

In(λ) = n · E

([∂ ln f(X, λ)

∂λ

]2)

= nE(

1− 2X

λ+X2

λ2

)= n

(1− 2

λ

λ+

1

λ2(λ2 + λ)

)=n

λ.

Se observ  c  D2(X) · In(λ) = 1, deci estimatorul X pentru λ este e�cient. √

44

Exerciµiu 5.2 Fie Xi ∼ B(1, p), i = 1, n ³i

θ = nX =n∑i=1

Xi, num rul de succese în n incerc ri.

S  se arate c  θ este un estimator su�cient pentru p.

Soluµie: Pentru veri�carea su�cienµei, utiliz m de�niµia. Avem succesiv:

L(x1, x2, . . . , xn; p) =

n∏i=1

pxi(1− p)1−xi

= p

n∑i=1

xi

(1− p)n−

n∑i=1

xi

= g(x) · h(θ(x), p),

unde g(x) ≡ 1 ³i h(θ(x), p) = pθ(x)(1− p)n−θ(x). √

Exerciµiu 5.3 Arunc m o moned  despre care nu ³tim dac  este sau nu corect  (adic , probabilitateade apariµie a feµei cu stema nu este neap rat 0.5). Fie X variabila aleatoare ce reprezint  num rul deapariµii ale feµei cu stema la aruncarea repetat  a unei monede. Not m cu p probabilitatea evenimentuluica la o singur  aruncare a monedei apare stema. Realiz m 80 de arunc ri ale acelei monede ³i obµinemvalorile (1 înseamn  c  faµa cu stema a ap rut iar 0 dac  nu a ap rut):

0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0

1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0

(1) S  se g seasca un estimator absolut corect pentru p ³i a se studieze e�cienµa acestuia.(2) S  se g seasc  estimaµii punctuale ³i intervale încredere pentru p, folosind funcµiile mle ³i binofitdin Matlab.

Soluµie: (1) Repartiµia lui X este Bernoulli, B(1, p). Astfel,

E(X) = p, D2(X) = p(1− p).

Consider m variabilele de selecµie repetat  de volum, (Xk)k=1n.Un estimator absolut corect pentru medie este X, deoarece

E(X) = E(X) ³i D2(X) =p(1− p)n2

−−−−→n→∞

0.

A³adar, pentru selecµia dat , valoarea x =

n∑k=1

xk = 0.5125.

(2) Utilizând funcµiile Matlab astfel:

[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)

45

cu rezultatul:

p = pCI =

0.5125 0.3981

0.6259

sau, folosind comanda binofit,

[p,pCI] = binofit(sum(Y),length(Y),0.05)

cu rezultatul:

p = pCI =

0.5125 0.3981

0.6259 √

Exerciµiu 5.4 Consider m un vector ale c rui componente sunt:

X = 2*rand(1e6,1) - 1;

Dac  presupunem c  aceste observaµii au fost obµinute urm rind valorile unei v.a. normale N (µ, σ),atunci estim m parametrii s i astfel:

[mu, sigma] = normfit(X)

G sim estim rile

mu = 0.0006425

sigma =0.5771

Dac  presupunem c  aceste observaµii au fost obµinute urm rind valorile unei v.a. uniforme continuuU(a, b), atunci estim m parametrii s i astfel:

[a, b] = unifit(X)

a = -1.0000

b = 1.0000

Exerciµiu 5.5 Consider m urm torul joc de noroc: Se arunc  o moned  pentru care probabilitatea deapariµie a feµei cu banul este θ. Dac  la o aruncare a monedei apare faµa cu banul, atunci juc torul pierde1RON ³i jocul se încheie. Altfel, pentru �ecare apariµie consecutiv  a feµei cu stema câ³tig  1RON ³i areposibilitatea s  arunce din nou moneda. Jocul continu  pân  la apariµia feµei cu banul, când jocul seopre³te.

46

Not m cu X suma (câ³tigat  sau pierdut ) la acest joc de noroc ³i presupunem c  funcµia sa probabilitateeste:

f(x; θ) =

{θ , x = −1;

(1− θ)2θx , x = 0, 1, 2, . . .

(a) Veri�caµi dac  f(x; θ) este o funcµie de probabilitate legitim . Calculaµi E(X) (valoarea a³teptat  acâ³tigului).(b) Determinaµi un estimator pentru parametrul θ.(c) Un num r de 10 persoane au participat la acest joc, urm toarele �ind sumele rezultate în �ecare caz:{1, −1, 0, 1, 2, 3, −1, 1, 2, 0}. Folosiµi aceste observaµii pentru a determina o estimare pentru probabili-tatea de a pierde la acest joc.

Soluµie: (a) Mai întâi, observ m c  θ ∈ (0, 1). Ar t m c  suma probabilit µilor este 1. Avem:

θ +

∞∑x=0

(1− θ)2θx = θ + (1− θ)2∞∑x=0

θx = θ + (1− θ)2 1

1− θ= 1.

Media variabilei aleatoare X este:

E(X) = −θ +∞∑x=0

(1− θ)2xθx = −θ + (1− θ)2∞∑x=0

xθx = −θ + (1− θ)2 θ

(1− θ)2= 0.

Observ m c  nu putem utiliza metoda momentelor pentru a determina un estimator pentru θ, deoareceE(X) nu depinde de θ (nu conµine nicio informaµie despre θ).

(b) Not m cu Y variabila aleatoare ce reprezint  num rul de insuccese (i.e., num rul variabilelor aleatoarede selecµie pentru care Xi = −1). Atunci, funcµia de verosimilitate este:

L(θ) =n∏i=1

f(xi; θ) = θYn−Y∏i=1

(1− θ)2θXi = θ

Y+

n−Y∑i=1

Xi

(1− θ)2(n−Y ).

Logaritmând, obµinem:

lnL(θ) = (Y +n−Y∑i=1

Xi) ln θ + 2(n− Y ) ln(1− θ)

Punctele critice pentru aceast  funcµie veri�c  ecuaµia:

lnL(θ)

∂θ= 0,

de unde g sim c 

θ =

Y +n−Y∑i=1

Xi

2n− Y +n−Y∑i=1

Xi

.

Se veri�c  faptul c  derivata a doua a acestei funcµii în raport cu θ este negativ , deci punctul obµinuteste de maxim.

47

Pentru urm toarele observaµiile date, g sim c  Y = 2 ³i valoarea estimatorului este θ = 2+1020−2+10 = 3

7 , ceeace înseamn  c  probabilitatea de a pierde la acest joc este 3

7 .

Mai mult, observ m c  estimaµia lui θ bazat  pe un ³ir de n observaµii toate egale cu −1 este θ = 1

(deoarece, în acest caz, Y = n,

n−Y∑i=1

Xi = 0), adic  estimarea ³ansei de a pierde bazat  pe cele n observaµii

pierdante este 1.

Exerciµiu 5.6 Timpii de deservire la un anumit ghi³eu pentru 7 clienµi sunt (în minute.fracµiuni de mi-nut): 3.14, 4.63, 2.71, 4.85, 4.37, 5.12, 3.49 sunt valori ale unei caracteristici uniforme U(0, θ). Determinaµiestimatori pentru parametrul θ prin metoda momentelor ³i prin metoda verosimilit µii maxime. Calculaµivalorile estimatorilor pentru selecµia dat .

Soluµie: Densitatea de repartiµie pentru o variabil  aleatoare U(0, θ) este

f(x; θ) =

1

θ, x ∈ (0, θ);

0 , în rest

Metoda momentelor: Egalând momentul teoretic de oridinul întâi (α1(X) = E(X)) cu momentul deselecµie de ordinul întâi (α1(X) = X), obµinem:

θ

2= E(X) = X,

de unde estimatorul obµinut prin metoda momentelor este θ1 = 2X. Pentru selecµia dat , valoarea acestuiaeste θ1 = 8.0886.

Metoda verosimilit µii maxime: Funcµia de verosimilitate este

L(X; θ) =

1

θn, Xi ∈ (0, θ), i = 1, n;

0 , în rest

Observ m c  aceast  funcµie admite un maxim doar în cazul în care toate variabilele aleatoare de selecµieiau valori în (0, θ), caz în care max

i=1, nXi ≤ θ. Dar, funcµia de verosimilitate este o funcµie descresc toare

în θ, a³adar maximumul lui L(θ) se obµine pentru θ2 = maxi=1, n

Xi.

Pentru observaµiile date, estimaµia de verosimilitate maxim  este θ2 = 5.12.

Observaµia 5.1 De³i valorile celor doi estimatori sunt diferite, totu³i, dac  num rul de observaµii estefoarte mare (n → ∞), atunci estimaµiile date de θ1 ³i θ2 vor � sensibil egale. Pentru un num r mic deobservaµii, aceste valori nu sunt neap rat uniform distribuite într-un interval, deci nu ne putem a³teptala valori egale pentru θ1 ³i θ2.

48

Estimaµii prin intervale de încredere în Matlab

Exemplu 5.2 O ma³in  de îngheµat  umple cupe cu îngheµat . Se dore³te ca îngheµat  din cupe s  aib masa de µ = 250g. Desigur, este practic imposibil s  umplem �ecare cup  cu exact 250g de îngheµat .Presupunem c  masa conµinutului din cup  este o variabil  aleatoare repartizat  normal, cu masa ne-cunoscut  ³i dispersia cunoscut , σ = 3g. Pentru a veri�ca dac  ma³ina este ajustat  bine, se aleg laîntâmplare 30 de înghetate ³i se cânt re³te conµinutul �ec reia. Obµinem astfel o selecµie repetat , x1, x2,. . . , x30 dup  cum urmeaz :

257 249 251 251 252 251 251 249 248 248 251 253 248 245 251

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253

Se ³tie c  un estimator absolut corect pentru masa medie este media de selecµie, X = 250.0667.Se cere s  se g seasc  un interval de încredere pentru µ, cu nivelul de con�denµ  0.99.

Soluµie: Dup  cum am v zut mai sus, un interval de încredere pentru µ este:

(µ, µ) =

(x− z1−α

2

σ√n, x+ z1−α

2

σ√n

).

Urm torul cod Matlab furnizeaz  un interval de încredere bazat pe datele de selecµie observate.

n=30; sigma=3; alpha = 0.01;

x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];

z = icdf('norm',1-alpha/2,0,1); % cuantila de ordin 1-alpha/2 pentru normala

m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); % capetele intervalului

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit

Rulând codul, obµinem intervalul de încredere pentru µ când σ este cunoscut:

(µ, µ) = (248.659, 251.478). √

Observaµia 5.3 Exist  funcµii prede�nite în Matlab ce furnizeaz  estimatori punctuali ³i intervale deîncredere. A se compara rezultatul din acest exerciµiu cu cel din Exemplul 5.4 (estimare a intervalului deîncredere când σ nu este cunoscut) sau Exerciµiul 5.6 (intervale furnizate de funcµii Matlab prede�nite).

Exemplu 5.4 S  se g seasc  un interval de încredere pentru masa medie din Exerciµiul 5.2, în cazul încare abaterea standard σ nu mai este cunoscut .

Soluµie: Dup  cum am v zut mai sus, un interval de încredere pentru µ este:

(µ, µ) =

(x− t1−α

2;n−1

d∗(X)√n

, x+ t1−α2;n−1

d∗(X)√n

).

49

Figura 5.1: Intervalul de încredere pentru Exerciµiu 5.2.

Urm torul cod Matlab furnizeaz  un interval de încredere bazat pe datele de selecµie observate.

n=30; alpha = 0.01;

x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];

dev = std(X); % deviatia standard de selectie

t = icdf('t',1-alpha/2,n-1); % cuantila de ordin 1-alpha/2 pentru t(n-1)

m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); % capetele intervalului

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit

Rulând codul, obµinem intervalul de încredere pentru µ când σ este cunoscut:

(µ, µ) = (248.572, 251.561). √

Observaµia 5.5 A se compara rezultatul din acest exemplu cu cel din Exemplul 5.2 (estimare a in-tervalului de încredere când σ este cunoscut) sau Exerciµiul 5.6 (intervale furnizate de funcµii Matlab

prede�nite).

Exemplu 5.6 Suntem, din nou, în cadrul Exerciµiului 5.2, cu menµiunea c  dispersia nu este cunoscut a priori (vezi Exerciµiu 5.4). Dorim s  obµinem o estimaµie printr-un interval de încredere pentru µ cândσ nu este cunoscut . Folosind funcµia normfit obµinem chiar mai mult decât ne propunem, ³i anume:estimaµii punctuale pentru µ ³i σ ³i câte un interval de încredere pentru ambele. Rulând funcµia, adic 

[m,s,mCI,sCI] = normfit(X,0.01)

50

Observ m c  valorile furnizate pentru intervalul de încredere pentru µ, (mCI), sunt exact acelea³i ca celeobµinute în Exerciµiu 5.4.

m = s = mCI = sCI =

250.0667 2.9704 248.572 2.2111

251.561 4.4159

Observaµia 5.7 S  presupunem c  facem 50 de selecµii repetate de volum 30 (adic  alegem în 50 de zilediferite câte o selecµie de 30 de îngheµate) ³i a� m intervalele de încredere (toate cu nivelul de con�denµ α = 0.01) pentru masa medie a conµinutului. Figura 5.2 reprezint  gra�c cele 50 de intervale.

Dup  cum se observ  din �gur , se poate întâmpla ca un interval de încredere generat s  nu conµin valoarea pe care acesta ar trebui s  o estimeze. Aceasta nu contrazice teoria, deoarece probabilitatea cucare valoarea estimat  este acoperit  de intervalul de încredere este

P(µ < µ < µ

)= 1− α = 0.99,

deci exist  ³anse de a gre³i în estimare, în cazul de faµ  de 1%.

Figura 5.2: 50 de realiz ri ale intervalului de încredere pentru µ

Exemplu 5.8 Într-un institut politehnic, s-a determinat c  dintr-o selecµie aleatoare de 100 de studenµiînscri³i, doar 67 au terminat studiile, obµinând o diplom . G siµi un interval de încredere care, cu ocon�denµ  de 90%, s  determine procentul de studenµi absolvenµi dintre toµi studenµii ce au fost înscri³i.

Soluµie: Mai întâi, observ m c  α = 0.1, n > 30, p = 67100 = 0.67, np = 67 > 5 ³i n(1 − p) = 33 > 5.

Deoarece nu ni se d  vreo informaµie despre N (num rul total de studenµi înscri³i), putem presupune c n < 0.05N . G sim c  intervalul de încredere c utat este:(

0.67− z0.975

√0.67 (1− 0.67)

100, 0.67 + z0.975

√0.67 (1− 0.67)

100

)= (59.27%, 74.73%). √

51

Exemplu 5.9 Dintr-o selecµie de 200 de elevi ai unei ³coli cu 1276 de elevi, 65% a�rm  c  deµin cel puµinun telefon mobil. S  se g seasc  un interval de încredere pentru procentul de copii din respectiva ³coal ce deµin cel puµin un telefon mobil, la nivelul de semni�caµie α = 0.05.

Soluµie: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N , g sim c  un interval de încrederela nivelul de semni�caµie 0.05 este(

0.65− 1.96

√0.65 (1− 0.65)

200

√1276− 200

1276− 1, 0.65 + 1.96

√0.65 (1− 0.65)

200

√1276− 200

1276− 1

)= (58.93%, 71.07%). √

Observaµia 5.10 Dac  se dore³te estimarea volumului selecµiei pentru care se obµine estimarea proporµieip printr-un interval de încredere cu o eroare maxim  E , atunci folosim formula

E = z1−α2

√p (1− p)

n(5.1)

Dac  am putea ghici proporµia populaµiei, p, atunci g sim urm toarea estimare a volumului selecµiei:

n =

[p(1− p)

(z1−α

2

E

)2], (5.2)

unde [ · ] este partea întreag . Dac  p nu poate � ghicit, atunci folosim faptul c  p(1 − p) este maximpentru p = 0.5 ³i estim m pe n prin

n =

[1

4

(z1−α

2

E

)2].

Exemplu 5.11 Un studiu susµine c  între 35% ³i 40% dintre elevii de liceu din µar  fumeaz . Cât demare ar trebui s  �e volumul unei selecµii dintre elevii de liceu pentru a estima procentul real de elevi cefumeaz , cu o eroare de estimare maxim  de 0.5%. Se va alege nivelul de semni�caµie α = 0.1.

Soluµie: Folosim formula (5.2), pentru p = 0.4 (se alege valoarea 40%, cea mai apropiat  de 50%).Cuantila este z0.95 = 1.28. G sim c  o estimaµie pentru n este:

n =

[0.4(1− 0.4)

(1.64

0.005

)2]

= 25820. √

Exemplu 5.12 O fabric  produce batoane de ciocolat  cânt rind 100g �ecare. Pentru a se estima aba-terea masei de la aceast  valoare, s-a f cut o selecµie de 35 de batoane, obµinându-se valorile:

100.12; 99.92; 100.1; 99.89; 100.07; 99.88; 100.11; 99.90; 99.97; 100.2;

99.89; 100.15; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89;

99.76; 100.1; 99.24; 98.19; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89;

52

100.12; 98.63; 99.03; 100.3; 98.68.

G siµi un interval de încredere (cu α = 0.05) pentru deviaµia standard masei batoanelor produse de res-pectiva fabric .

Soluµie: Mai întâi, calcul m d2(x). Avem:

d2(x) =1

35

35∑i=1

[Xi − 100]2 = 0.3.

Din tabele, sau utilizând Matlab, g sim cuantilele:

χ20.975; 35 = 53.2033; χ2

0.025; 35 = 20.5694.

În Matlab, cuantilele se calculeaz  astfel:

icdf('chi2',0.975, 35); icdf('chi2',0.025, 35)

Intervalul de încredere pentru dispersie este:

(σ2, σ2) = (0.20, 0.51).

Pentru variaµia standard, intervalul de încredere este:

(σ, σ) = (√

0.2,√

0.51) = (0.44, 0.71). √

Exemplu 5.13 G siµi un interval de încredere (cu α = 0.05) pentru deviaµia standard a conµinutului denicotin  a unui anumit tip de µig ri, dac  o selecµie de 25 de buc µi are deviaµia standard a conµinutuluide nicotin  de 1.6mg.

Soluµie: Mai întâi, s = d∗(x) = 1.6. Din tabele, sau utilizând Matlab, g sim:

χ20.975; 24 = 39.3641; χ2

0.025; 24 = 12.4012.

Intervalul de încredere pentru dispersie este:

(σ2, σ2) = (1.56, 4.95).

Pentru variaµia standard, intervalul de încredere este:

(√

1.5608,√

4.9544) = (1.25, 2.22). √

Exemplu 5.14 Dou  strunguri sunt potrivite s  produc  piese identice pentru o comand . Pentru aestima dac  abaterile diametrelor pieselor produse de cele dou  ma³ini sunt sensibil egale, s-au luat laîntamplare dou  seturi de volume n1 = 7 ³i n2 = 10 de piese din cele dou  loturi. M sur torile au condusla urm toarele rezultate:

53

Lotul 1 25.06 24.95 25.01 25.05 24.98 24.97 25.02 − − −Lotul 2 25.01 25.09 25.02 24.95 24.97 25.03 24.99 24.97 25.03 24.98

S  se determine un interval de încredere pentru raportul dispersiilor diametrelor pieselor produse de celedou  loturi (α = 0.1). Se va presupune c  diametrele pieselor urmeaz  o repartiµie normal .

Soluµie: Determin m mai întâi dispersiile empirice. Acestea sunt:

d2∗1 =1

6

7∑i=1

(L1i − L1i)2 = 0.0412 ³i d2∗2 =

1

9

10∑j=1

(L2j − L2j)2 = 0.0409.

Cuantilele sunt:f0.05, 6, 9 = 0.2440 ³i f0.95, 6, 9 = 3.3738.

Folosind Matlab, putem calcula cuantilele astfel:

f1 = finv(0.05, 6, 9); f2 = finv(0.95, 6, 9);

G sim intervalul de încredere:

(f1, f2) ≈ (0.25, 3.4). √

Exemplu 5.15 Dintr-o selecµie de 45 de baieµi ai unei ³coli, 21 au spus c  le place Matematica, iar dintr-oselecµie de 65 de fete ale aceleia³i ³coli, 37 au susµinut c  le place aceast  disciplin . Construiµi un intervalde încredere la nivelul de semni�caµie α = 0.02 pentru diferenµa proporµiilor de baieµi ³i fete din respectiva³coal  c rora le place Matematica.

Soluµie: Mai întâi, p1 = 2345 , p2 = 37

65 ³i z0.99 ≈ 2.33. Intervalul c utat este:21

45− 37

65− 2.33

√2145 ·

2445

45+

3765 ·

2865

65,

21

45− 37

65+ 2.33

√2145 ·

2445

45+

3765 ·

2865

65

= (−0.1990, −0.0061).

Exerciµiu 5.16 O selecµie aleatoare de volum n = 25 cu media se selecµie x = 50 se ia dintr-o populaµiede volum N = 1000, ce are deviaµia standard σ = 2.(a) Dac  presupunem c  populaµia este normal , g siµi un interval de încredere pentru media populaµiei,cu α = 0.05.(b) G siµi un interval de încredere pentru media populaµiei (α = 0.05) în cazul în care populaµia nu estenormal .

Soluµie: (a) G sim intervalul de încredere

(µ, µ) =

(50− z0.975

2√25, 50 + z0.975

2√25

)= (48.4, 51.6).

54

(b) Deoarece populaµia nu este normal distribuit  ³i nici volumul populaµiei nu este mare (n < 30), vomestima intervalul de încredere bazându-ne pe inegalitatea lui Cebî³ev. Avem c  probabilitatea ca valorilelui X s  �e aproximate prin µX = µ cu o eroare de cel mult k deviaµii standard este:

P ({|X − µX | < kσX}) ≥ 1− 1

k2.

Luând 1− 1

k2= 0.95, g sim k =

√20. Astfel, un interval de încredere pentru media populaµiei va �

(µ, µ) =

(x− k σ√

n, x+ k

σ√n

)=

(50−

√20

2√25, 50 +

√20

2√25

)= (46.42, 53.58).

Am folosit faptul c  σ2X

= D2(X) =σ2

n. Observ m c  acest interval este mai mare decât cel g sit ante-

rior, de aceea inegalitatea lui Cebî³ev este rar folosit  pentru a determina intervale de încredere. Totu³i,în acest caz nu aveam o alt  alternativ  de calcul. Dac  se dore³te o precizie mai bun , ar � indicat cavolumul selecµiei s  �e de cel puµin 30, caz în care putem folosi aproximarea cu repartiµia normal . √

Exerciµii propuse

Exerciµiu 5.7 Ar taµi c  n·(1−X) este un estimator su�cient pentru parametrul p din repartiµia B(n, p).

Exerciµiu 5.8 Ar taµi c  informaµia Fisher In(µ) pentru o caracteristic  N (µ, σ) este

In(µ) = nI1(µ) =n

σ2.

(deci, cantitatea de informaµie cre³te cu descre³terea lui σ.)

Exerciµiu 5.9 Ar taµi c  statistica d2∗(X) este un estimator absolut corect pentru σ2 = D2(X), iarstatistica d2(X) este un estimator corect, dar nu absolut corect, pentru D2(X).

Exerciµiu 5.10 Estimaµi prin metoda verosimilit µii maxime parametrul p al unei caracteristici X ∼B(n, p).

Exerciµiu 5.11 Determinaµi un estimator punctual (prin metoda momentelor ³i prin metoda verosimili-t µii maxime) pentru parametrul α al caracteristicii X ce are densitatea de repartiµie f : R → R+, dat prin:

f(x; θ) =

{αe−αx , x > 0,

0 , x ≤ 0.

Veri�caµi dac  estimatorul g sit este deplasat.

Exerciµiu 5.12 Fie selecµia

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948

598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

S  se estimeze absolut corect dispersia populaµiei din care provine aceast  selecµie.

55

Exerciµiu 5.13 Estimaµi prin metoda momentelor parametrii unei caracteristici X ∼ N (µ, σ).

Exerciµiu 5.14 Dac  {Xi}i=1, n sunt variabile aleatoare de selecµie repetat  de volum n efectuate asupraunei caracteristici X, ar taµi c  informaµia Fisher In(θ) de�nit  prin

In(θ) = E

[(∂L(X, θ)

∂θ

)2]

este In(θ) = nI1(θ). (i.e., informaµia Fisher conµinut  în selecµia dat  este de n ori informaµia conµinut într-o singur  variabil  de selecµie.)

Exerciµiu 5.15 S  se arate c  X este un estimator e�cient pentru parametrul µ al repartiµiei normaleN (µ, σ).

Exerciµiu 5.16 Consider m o selecµie de volum n dintr-o colectivitate repartizat  Γ(n, λ), n ∈ N. G siµiun estimator pentru parametrul λ prin metoda verosimilit µii maxime ³i unul prin metoda momentelor.

Exerciµiu 5.17 Consider m funcµia f : R −→ R, dat  prin

f(x) =

2

ax e−

x2

a , x > 0;

0 , x ≤ 0.

(a) Pentru ce valori ale parametrului a, funcµia f(x) este o densitate de repartiµie?(S  not m cu X variabila aleatoare ce are aceast  densitate de repartiµie);(b) G siµi un estimator pentru parametrul a (folosind, la alegere, metoda momentelor sau metoda vero-similit µii maxime);(c) Calculaµi E(a), D2(a), P (X > 0).

Exerciµiu 5.18 La un control de calitate se veri�c  masa tabletelor de ciocolat  produse de o anumit ma³in . Pentru a se realiza acest control s-a efectuat o selecµie de 50 tablete ³i s-a obµinut c  masa X alciocolatelor are urm toarele dimensiuni (în grame):

Masa 99.98 99.99 100.00 100.01 100.02

Frecvenµa 9 10 13 11 7

S  se determine:(a) o estimaµie absolut corect  pentru masa medie a tabletelor produse;(b) o estimaµie corect  ³i una absolut corect  pentru dispersia valorilor masei faµ  de medie.

Exerciµiu 5.19 Fie X o variabil  aleatoare exponenµial  de parametru λ. Dac  r > 0, g siµi un estimatorprin metoda verosimilit µii maxime pentru P (X ≤ r).

Exerciµiu 5.20 Fie X1, X2, . . . , Xn o selecµie repetat  de volum n mare, luat  dintr-o caracteristic  ceare media µ necunoscut  ³i dispersia 4. Determinaµi volumul selecµiei pentru care, cu o probabilitate de99% putem estima pe µ cu o eroare de o zecime.

56

Exerciµiu 5.21 La un control de calitate, dintr-un lot de 150 de piese, 5 s-au g sit defecte. Determinaµiun interval de încredere cu α = 0.01 pentru probabilitatea ca o pies  luat  la întâmplare s  �e defect .

Exerciµiu 5.22 Un angajat la Serviciu Forµelor de Munc  dore³te s  fac  un sondaj prin care s  determineprocentul de persoane dintr-o regiune a µ rii ce lucreaz  la negru. El dore³te s  �e 98% sigur c  rezultatulg sit estimeaz  procentul real cu o eroare de cel mult 2%. Dintr-un sondaj recent, la care au participat1500 de persoane angajate, 273 au declarat c  nu li s-au f cut carte de munc .(a) Cât de mare ar trebui s  �e volumul selecµiei pentru a realiza estimarea dorit ?(b) Dac  nu ar avea acces la acel sondajul recent, cât de mare ar trebui s  �e volumul selecµiei pentru arealiza estimarea dorit ?

Exerciµiu 5.23 Un studiu recent arat  c  dintre 120 de accidente rutiere ce s-au soldat cu victime, 56era datorate consumului de alcool. G siµi un interval de încredere care s  estimeze cu o probabilitate derisc α = 0.05 procentul real al accidentelor rutiere cauzate de consumul de alcool.

Exerciµiu 5.24 Not m cuX procentul de timp necesar unui student (ales la întâmplare) pentru a terminaun anumit test într-un interval de timp �xat. Densitatea de repartiµie a lui X este f : R→ R+,

f(x; θ) =

{(θ + 1)xθ , 0 ≤ x ≤ 1, (θ ∈ R)

0 , altfel.

(a) Pentru ce valori ale parametrului θ, funcµia f este o densitate de repartiµie?Datele urm toare reprezint  rezultatele a 7 studenµi ale³i la întâmplare:

x1 = 0.87, x2 = 0.75, x3 = 0.54, x4 = 0.95, x5 = 0.68, x6 = 0.72, x7 = 0.8.

(b) Folosiµi metoda momentelor pentru a determina un estimator pentru parametrul θ ³i calculaµi valoareaestimatorului pentru datele de mai sus.(c) Folosiµi metoda verosimilit µii maxime petru a determina un estimator pentru parametrul θ ³i calculaµivaloarea estimatorului pentru datele de mai sus.

Exerciµiu 5.25 Cât de mare ar trebui s  �e volumul selecµiei, pentru a estima proporµia de fum tori dinµar  cu o eroare de cel mult 2%, ³i o probabilitate de încredere de 0.95?

Exerciµiu 5.26 Fie X o caracteristic  binomial  B(n, p), cu n cunoscut. Folosind metoda intervalelorde încredere pentru selecµii mari, determinaµi un interval de încredere pentru parametrul p, la nivelul desemni�caµie α.

Exerciµiu 5.27 În urma arunc rii unei monede de 4050 de ori, s-a observat c  faµa cu stema a ap rutde 2052 ori. Determinaµi un interval de încredere pentru probabilitatea de apariµie a feµei cu stema laaruncarea respectivei monede. Se va lua nivelul de semni�caµie α = 0.05.

Exerciµiu 5.28 La un control de calitate, dintr-un lot de 150 de piese, 5 au fost g site defecte. Deter-minaµi un interval de încredere cu α = 0.01 pentru probabilitatea ca o pies  luat  la întâmplare s  �edefect .

57

6 Statistic  Aplicat  (L6 & S6)

Testarea tipului de date experimentale

Pentru a putea efectua un test statistic în mod corect, este necesar s  ³tim care este tipul (tipurile) dedate pe care le avem la dispoziµie. Pentru anumite teste statistice (e.g., testul Z sau testul t, dateletestate trebuie s  �e normal distribuite ³i independente. De multe ori, chiar ³i ipoteza ca datele s  �enormal repartizate trebuie veri�cat . De aceea, se pune problema realiz rii unei leg turi între funcµiade repartiµia empiric  ³i cea teoretic  (teste de concordanµ ). Vom discuta mai pe larg aceste teste deconcordanµ  într-o secµiune urm toare.ÎnMatlab sunt deja implementate unele funcµii ce testeaz  dac  datele sunt normal repartizate. Funcµianormplot(X) reprezint  gra�c datele din vectorul X versus o repartiµie normal . Scopul acestei funcµiieste de a determina gra�c dac  datele din observate sunt normal distribuite. Dac  aceste date sunt selec-tate dintr-o repartiµie normal , atunci acest gra�c va � liniar, dac  nu, atunci va � un gra�c curbat. Deexemplu, s  reprezent m cu normplot vectorii X ³i Y de mai jos. Gra�cele sunt cele din Figura 6.1.

X = normrnd(100,2,200,1);

subplot(1,2,1); normplot(X)

Y = exprnd(5,200,1);

subplot(1,2,2); normplot(Y)

Figura 6.1: Reprezentarea normal  a datelor.

Observ m c  primul gra�c este aproape liniar, pe când al doilea nu este. Putem astfel s  concluzion mc  datele date de X sunt normal repartizate (fapt con�rmat ³i de modul cum le-am generat), iar dateledin Y nu sunt normal repartizate.

Funcµia chi2gof determin , în urma unui test χ2, dac  datele observate sunt normal repartizate, la unnivel de semni�caµie α = 0.05. Astfel, comanda

h = chi2gof(x)

58

ne va furniza rezultatul h = 1, dac  datele nu sunt normal repartizate (i.e., ipoteza alternativ  (H1) esteadmis ), sau h = 0, dac  nu putem respinge ipoteza c  datele observate sunt normal distribuite (i.e.,ipoteza nul  (H0) este admis ). Aplicând testul pentru X ³i Y de mai sus, obµinem h = 0, respectiv,h = 1.

De asemenea, putem veri�ca dac  datele statistice ar putea proveni ³i din alte repartiµii decât cea normal .De exemplu, funcµia

probplot(distribution,Y)

creaz  un gra�c ce compar  repartiµia datelor din vectorul Y cu repartiµia dat  de distribution. Prin-tre repartiµiile ce pot � comparate folosind aceast  comand  menµion m: 'normal', 'exponential','weibull' ³i 'lognormal'. Trebuie avut grij  ca valorile vectorului Y s  �e pozitive pentru comparareacu oricare dintre ultimele trei repartiµii. Comanda simpli�cat  este probplot(Y), care presupune în modimplicit c  distribution = 'normal'. O alt  comand  util  este

wblplot(Y)

care este echivalent  cu comanda probplot(weibull,Y).În continuare, prezent m un exemplu de utilizare a acestor comenzi. Figura 6.2, veri�c m dac  �ecaredintre cele dou  selecµii generate, una exponenµial  ³i cealalt  normal , ar putea proveni dintr-o repartiµieexponenµial .

x = exprnd(0.5, 250,1); % selectie exponentiala

y = normrnd(3, 1, 250,1); % selectie normala

probplot('exponential',[x y])

legend('Selectie exponentiala','Selectie normala','Location','SE')

Figura 6.2: Reprezentarea exponenµial  a datelor.

59

Urm toarea funcµie Matlab compar  un set de date cu o repartiµie precizat . Funcµia

histfit(X, n, 'tip_repartitie')

reprezint  datele din vectorulX printr-o histogram  ce are num rul de bare egal cu n. Dac  opµiunea 'tip_repartitie'apare (valabil  doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram  se va desena densitatea de re-partiµie a repartiµiei precizate (e.g., exponential, gamma, lognormal etc). În caz în care opµiunea nu apare, seconsider  implicit c  repartiµia cu care se compar  datele este cea normal . Exemplul de mai jos produce gra�culdin Figura 6.3.

X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)

Figura 6.3: Compararea prin histograme.

Teste parametrice rezolvate în Matlab

Testul Z în Matlab

Testul Z pentru o selecµie poate � simulat în Matlab utilizând comanda

[h, p, ci, zval] = ztest(X,m0,sigma,alpha,tail)

unde:

• h este rezultatul testului. Dac  h = 1, atunci ipoteza nul  se respinge, dac  h = 0, atunci ipoteza nul  nupoate � respins  pe baza observaµiilor facute (adic , se admite, pân  la un test mai puternic);

• p este valoarea P (P− value);

• ci este un interval de încredere pentru µ, la nivelul de semni�caµie α;

60

nota frecvenµa frecvenµa relativ 2 2 2.22%3 4 4.44%4 8 8.89%5 15 16.67%6 18 20.00%7 17 18.89%8 15 16.67%9 7 7.78%10 4 4.44%

Total 90 100%

Tabela 6.1: Tabel cu frecvenµe pentru date discrete.

• zval este valoarea statisticii Z pentru observaµia considerat ;

• X este un vector sau o matrice, conµinând observaµiile culese. Dac  X este matrice, atunci mai multe testeZ sunt efectuate, de-alungul �ec rei coloane a lui X;

• m0 = µ0, valoarea testat ;

• sigma este deviaµia standard teoretic  a lui X, a priori cunoscut ;

• alpha este nivelul de semni�caµie;

• tail poate � unul dintre urm toarele ³iruri de caractere:

� 'both', pentru un test bilateral (poate s  nu �e speci�cat , se subînµelege implicit);

� 'left', pentru un test unilateral stânga (µ < µ0);

� 'right', pentru un test unilateral dreapta (µ > µ0);

Exemplu 6.1 Spre exempli�care, s  presupunem c  datele discrete din Tabelul 6.1 sunt obµinute în urma unuisondaj care contabilizeaz  notele la Matematic  obµinute de elevii unei anumite ³coli. Dorim s  test m, la nivelulde semni�caµie α = 0.05, dac  media tuturor notelor la Matematic  a elevilor ³colii este µ = 6.8 sau mai mare. Se³tie c  deviaµia standard este σ = 2.5.

Soluµie: A³adar, avem de testat

(H0) µ = 6.8 vs. (H1) µ > 6.8.

Vectorul X de mai jos cuprinde toate notele obµinute în urma sondajului.

X = [2*ones(2,1); 3*ones(4,1); 4*ones(8,1); 5*ones(15,1); 6*ones(18,1); ...

7*ones(17,1); 8*ones(15,1); 9*ones(7,1); 10*ones(4,1)];

[h, p, ci, zval] = ztest(X, 6.8, 2.5, 0.05, 'right')

Acest cod a�³eaz 

h = p = ci = stats =

0 0.9500 5.9332 -1.6444

Inf

Aceasta înseamn  faptul c  ipoteza nul  este admis  la acest nivel de semni�caµie. √

61

Observaµia 6.2 (1) Dac  ipoteza alternativ  este bilateral  ((H1) : µ 6= 6.8), atunci comanda ar �:

[h, p, ci, zval] = ztest(X, 6.8, 2.5)

În acest caz, g sim c  ipoteza nul  este respins  (i.e., rezultatul este h = 1).

(2) Decizia testului putea � luat  ³i pe baza P−valorii. Aceasta este:

Pv = P (Z > z0) = 1− P (Z ≤ z0) = 1−Θ(z0) = 0.95 > 0.05 = α.

În Matlab, aceast  valoare poate � calculat  astfel:

m0 = 6.8; sigma = 2.5; n = 90; z0 = (mean(X) - m0)/(sigma/sqrt(n));

Pv = 1 - normcdf(z0, 0, 1)

(3) Pentru efectuarea testului, nu este neap rat necesar s  a�³ m toate cele patru variabile din membrul stâng.Putem a�³a, dup  preferinµ , doar trei, dou , sau numai o variabil , dar doar în ordinea precizat . De exemplu,comanda

h = ztest(X, m0, sigma, alpha, tail)

ne va furniza doar rezultatul testului (h = 0 sau h = 1), f r  a a�³a alte variabile.(4) Nu exist  o funcµie în Matlab care s  simuleze testul Z pentru dou  selecµii.

Testul t în Matlab

Testul t pentru o selecµie

Testul t poate � simulat în Matlab utilizând comanda general 

[h, p, ci, stats] = ttest(X,m0,alpha,tail)

unde:

• h, p, ci, m0, alpha, tail sunt la fel ca în funcµia ztest;

• variabila stats înmagazineaz  urm toarele date:

� tstat - este valoarea statisticii T pentru observaµia considerat ;

� df - num rul gradelor de libertate ale testului;

� sd - deviaµia standard de selecµie;

Exemplu 6.3 Dorim s  test m dac  o anumit  moned  este corect , adic  ³ansele �ec rei feµe de a apare la oricearuncare sunt 50%− 50%. Arunc m moneda în caza de 100 de ori ³i obµinem faµa cu stema de exact 59 de ori. Pebaza acestei experienµe, c ut m s  test m ipoteza nul 

(H0) : moneda este corect 

vs. ipoteza alternativ (H1) : moneda este m sluit ,

62

la un prag de semni�caµie α = 0.05.

Soluµie: Fie X variabila aleatoare ce reprezint  faµa ce apare la o singur  aruncare a monedei. S  spunemc  X = 1, dac  apare faµa cu stema ³i X = 0, dac  apare faµa cu banul. Teoretic, X ∼ B(1, 0.5), de undeE(X) = 0.5, D2(X) = 0.25.Prin ipotez , ni se d  o selecµie de volum n = 100 ³i scriem observaµiile f cute într-un vector x ce conµine 59 de 1³i 41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selecµie. Rescriem ipotezele (H0) ³i (H1)astfel:

(H0) : µ = 0.5

(H1) : µ 6= 0.5.

Dac  {X1, X2, . . . , Xn} sunt variabilele aleatoare de selecµie, atunci alegem statistica

T =X − µd∗(X)√

n

.

Dac  ipoteza (H0) se admite, atunci µ este �xat, µ = 0.5 ³i statistica T ∼ t(n − 1). Valoarea acestei statisticipentru selecµia dat  este:

t0 =x− µd∗(X)√

n

= 1.8207.

Din t1−α2 ; n−1 = t0.975; 99 = 1.9842, rezult  c  |t0| < t1−α2 ; n−1, ³i decidem c  ipoteza (H0) este admis  (nu poate� respins  la nivelul de semni�caµie α).P−valoarea este

Pv = 1− Fn−1(t0) + Fn−1(−t0) = 1− F99(1.8207) + F99(−1.8207) = 0.0717.

Codul Matlab pentru calculul analitic de mai sus este urm torul:

n=100; mu = 0.5; alpha = 0.05; x = [ones(59,1); zeros(41,1)];

t0 = (mean(x) - mu)/(std(x)/sqrt(n));

tc = tinv(1-alpha/2, n-1); % cuantila

if (abs(t0) < tc)

disp('moneda este corecta')

else disp('moneda este masluita')

end

Pv= 1 - tcdf(t0,n-1) + tcdf(-t0,n-1) % P-valoarea

Rulând codul, obµinem rezultatul:

moneda este corecta

În loc s  folosim codul de mai sus, am putea folosi funcµia ttest din Matlab, dup  cum urmeaz :

[h, p, ci, stats] = ttest(X,0.5,0.05,'both')

³i obµinem

h = p = ci = stats =

0 0.0717 0.4919 tstat: 1.8207

0.6881 df: 99

sd: 0.4943 √

63

Observaµia 6.4 (1) Deoarece P−valoarea este p = 0.0717, deducem c  la un prag de semni�caµie α ≥ 0.08,ipoteza nul  ar � fost respins .(2) Dac  dintre cele 100 de observ ri aveam o apariµie în plus a stemei, atunci ipoteza nul  ar � respins , adic moneda ar � fost catalogat  a � m sluit .

Testul t pentru dou  selecµii

Testul t pentru egalitatea a dou  medii poate � simulat în Matlab utilizând comanda

[h, p, ci, stats] = ttest2(X, Y, alpha, tail, vartype)

unde:

• h, p, ci, alpha, stats ³i tail sunt la fel ca mai sus;

• X ³i Y sunt vectori sau o matrice, conµinând observaµiile culese. Dac  ele sunt matrice, atunci mai multe testeZ sunt efectuate, de-alungul �ec rei coloane;

• vartype ia valoarea equal dac  dispersiile teoretice sunt egale sau unequal pentru dispersii inegale.

Exemplu 6.5 Caracteristicile X1 ³i X2 reprezint  notele obµinute de studenµii de la Master MF ′08, respectiv,MF ′09 la examenul de Statistic  Aplicat . Conducerea universit µii recomand  ca aceste note s  urmeze repartiµianormal  ³i examinatorul se conformeaz  dorinµei de sus. Presupunem c  X1 ∼ N (µ1, σ1) ³i X2 ∼ N (µ2, σ2), cuσ1 6= σ2, necunoscute a priori. Pentru a veri�ca modul cum s-au prezentat studenµii la acest examen în doi aniconsecutivi, select m aleator notele a 25 de studenµi din prima grup  ³i 30 de note din a doua grup . distribuctiide frecvenµe ale notelor sunt cele din Tabelul 6.2.(i) Veri�caµi dac  ambele seturi de date provin dintr-o repartiµie normal ;

(ii) G siµi un interval de încredere pentru diferenµa mediilor, la nivelul de semni�caµie α = 0.05;(ii) S  se testeze (cu α = 0.01) ipoteza nul 

(H0) : µ1 = µ2, (în medie, studenµii sunt la fel de buni)

versus ipoteza alternativ 

(H1) : µ1 < µ2, (în medie, studenµii au note din ce în ce mai mari)

Nota obµinut Frecvenµa absolut 

Grupa MF ′08 Grupa MF ′095 3 56 4 67 9 88 7 69 2 310 0 2

Tabela 6.2: Tabel cu note.

Soluµie: (i) h = chi2gof(u) % h = 0, deci u ∼ Nk = chi2gof(v) % k = 0, deci v ∼ N

(u ³i v sunt vectorii din codul Matlab de mai jos)

64

(ii) Un interval de încredere la acest nivel de semni�caµie se obµine apelând funcµia Matlab

[h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'unequal')

Acesta este:(-0.7294, 0.6760)

Altfel, se calculeaz  intervalul de încredere:x1 − x2 − t1−α2 ; N

√d2∗1n1

+d2∗2n2

, x1 − x2 + t1−α2 ; N

√d2∗1n1

+d2∗2n2

Codul Matlab:

n1=25; n2=30; alpha = 0.05;

u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)];

v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)];

d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2;

t = tinv(1-alpha/2,N);

m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2);

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);

(iii) Comanda Matlab este:

[h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'unequal')

În urma rul rii comenzii, obµinem:

h = p = ci = stats =

0 0.4698 -Inf tstat: -0.0761

0.8137 df: 52.7774

sd: 2x1 double √

Observaµia 6.6 Valoarea P poate � calculat  ³i cu formula:

Pv = P (T < t0) = FN−1(t0) = 0.4698.

În Matlab,

t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2); Pv = tcdf(t0, N-1)

Testul χ2 pentru dispersie în Matlab

Exemplu 6.7 Se cerceteaz  caracteristica X, ce reprezint  diametrul pieselor (în mm) produse de un strung. �timc  X urmeaz  legea normal  N (µ, σ). Alegem o selecµie de volum n = 11 ³i obµinem distribuµia empiric :(

10.50 10.55 10.60 10.652 3 5 1

).

65

S  se testeze (cu α = 0.1) ipoteza nul (H0) : σ2 = 0.003,

versus ipoteza alternativ (H1) : σ2 6= 0.003.

Soluµie: Intervalul de încredere pentru σ este (0.0012, 0.0055) iar valoarea critic  este χ20 = 7.2727. Deoarece

aceasta aparµine intervalului de încredere, concluzion m c  ipoteza nul  nu poate � respins  la acest nivel desemni�caµie.Aceea³i concluzie poate � luat  în urma inspecµiei valorii P , care este mai mare decât nivelul α. Avem:

Pv = P (|χ2| > |χ20|) = P (χ2 > χ2

0) = 1− Fn−1(7.2727) = 0.6995. √

Testul χ2 poate � simulat în Matlab utilizând comanda

[h, p, ci, stats] = vartest(X,var,alpha,tail)

unde:

• h, p, ci, m0, alpha, stats, tail sunt la fel ca în funcµia ttest;

• var este valoarea testat  a dispersiei;

Spre exempli�care, codul Matlab pentru exerciµiul anterior este:

X = [10.50*ones(2,1); 10.55*ones(3,1); 10.60*ones(5,1); 10.65];

[h, p, ci, stats] = vartest(X,0.003,0.1,'both')

Rularea acestuia ne d :

h = p = ci = stats =

0 0.6011 0.0012 chisqstat: 7.2727

0.0055 df: 10

adic  ipoteza nul  este acceptat  la acest nivel de semni�caµie.Folosind Matlab, putem calcula P−valoarea astfel:

c0 = (n-1)/0.003*var(X); Pv = 1 - chi2cdf(c0,10)

Testul F în Matlab

Testul raportului dispersiilor poate � simulat în Matlab utilizând comanda

[h, p, ci, stats] = vartest2(X, Y, alpha, tail)

unde variabilele sunt la fel ca în funcµia ttest2.

66

Exemplu 6.8 Revenim la Exerciµiul 6.5 ³i veri�c m dac  cele dou  selecµii de note (Tabelul 6.2) provin dinpopulaµii cu dispersii egale. A³adar, avem de testat (la nivelul de semni�caµie α = 0.01)

(H0) σ21 = σ2

2 vs. (H1) σ21 6= σ2

2 .

Soluµie: Utilizând notaµiile din Exerciµiul 6.5, comanda Matlab care rezolv  acest test este:

[h, p, CI, stats] = vartest2(u, v , 0.01 , 'both')

(pentru teste unilaterale, folosim 'left' sau 'right' în locul lui 'both'.)Rezultatul comenzii anterioare este:

h = p = CI = stats =

0 0.2119 0.2191 fstat: 0.6047

1.7426 df1: 24

df2: 29

Deoarece h = 0, decidem c  dispersiile teoretice ale celor dou  populaµii pot � considerate a � egale la nivelul desemni�caµie α = 0.01. √

Observaµia 6.9 Decizia testului poate � luat  ³i pe baza inspecµiei valorii P , observând c  aceasta este mai maredecât α. Aceasta este:

Pv = 1− Fn1−1, n2−1(|f0|) + Fn1−1, n2−1(−|f0|) = 1− Fn1−1, n2−1(|f0|).

În Matlab, calcul m astfel:

f0 = var(u)/var(v); Pv = 1 - fcdf(abs(f0),n1-1,n2-1)

Teste parametrice pentru proporµii

Exemplu 6.10 Într-un sondaj naµional de opinie, 5000 de persoane au fost rugate s  r spund  la o întrebarelegat  de apartenenµa religioas . La întrebarea "Sunteµi cre³tini?", r spunsul a fost a�rmativ în 4893 dintre cazuri.Rezultatul acestui sondaj este utilizat în estimarea procentului de cre³tini din µar . S  not m cu p acest procent.La nivelul de semni�caµie α = 0.05, testaµi dac  p este de 95% sau mai mare.

Soluµie: Avem de testat ipoteza

(H0) : p = 0.95 vs. (H1) : p > 0.95.

Procentul de selecµie este p = 48935000 = 0.9786, cuantila este z1−α = 1.6449 ³i valoarea statisticii este

P0 =0.9786 − 0.95√0.95 (1− 0.95)

5000

= 9.2791 ∈ [1.6449, ∞),

a³adar ipoteza nul  este respins  la acest nivel de semni�caµie. Admitem c  p > 0.95.Aceea³i concluzie poate � dedus  ³i prin inspecµia P−valorii. Aceasta este

Pv = P (Z > P0) = 1− P (Z ≤ P0) = 1−Θ(9.2791) ≈ 0 < α = 0.05.

A³adar, ipoteza nul  va � respins  la toate nivele de semni�caµie practice. √

67

Exemplu 6.11 Revenim la Exemplul 5.15. S  se testeze, la nivelul de semni�caµie α = 0.02 dac  exist  diferenµesemni�cative între proporµiile de baieµi ³i fete din respectiva ³coal  c rora le place Matematica.

Soluµie: Avem: p1 = 2345 , p2 = 37

65 , p∗ = 23+37

45+65 = 611 ³i z0.99 ≈ 2.33. Valoarea statisticii este:

P0 =2345 −

3765√

611 (1− 6

11 )(

145 + 1

65

) = −0.6019 ∈ [−2.3263, 2.3263],

deci ipoteza nul  nu poate � respins  la acest nivel de semni�caµie.Aceea³i concluzie o putem lua dac  veri�c m P−valoarea. Aceasta este:

Pv = P (|Z| > |P0|) = 1− P (Z < |P0|) + P (Z < −|P0|) = 0.5472 > 0.02 = α.

Exerciµii suplimentare

Exerciµiu 6.1 Se arunc  o moned  de 250 de ori, obµinându-se 138 de apariµii ale stemei. La un nivel de semni�-caµie α = 0.05, s  se decid  dac  avem su�ciente dovezi de a a�rma c  acest  moned  este fals .

Exerciµiu 6.2 Caracteristica X reprezint  cheltuielile lunare pentru convorbirile telefonice ale unei familii. Înurma unui sondaj la care au participat 100 de familii, am obµinut datele (repartiµia de frecvenµe):(

[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300)6 11 13 18 20 14 11 7

).

(a) S  se veri�ce, cu nivelul de semni�caµie α = 0.02, ipoteza c  media acestor cheltuieli lunare pentru o singur familie este de 140RON , ³tiind c  abaterea standard este 35RON .(b) S  se veri�ce aceea³i ipotez , în cazul în care abaterea standard nu este cunoscut  a priori.

Exerciµiu 6.3 La un examen naµional, se contabilizeaz  nota x obµinut  de �ecare examinat în parte. Pentru o

analiza statistic , se aleg la întâmplare 200 de candidaµi. S-a g sit c  suma notelor alese este200∑i=1

xi = 1345.37 ³i

suma p tratelor acestor note este200∑i=1

x2i = 10128.65. Se cer:

(a) G siµi un interval de încredere pentru media µ a tuturor notelor participanµilor la examen, la nivelul desemni�caµie α = 0.05.(b) Testaµi ipoteza nul  (H0) : µ = 6.75, vs. ipoteza alternativ  (H1) : µ 6= 6.75, la nivelul α = 0.05. Argumentaµistatistica folosit  în testare.

Exerciµiu 6.4 Pentru o selecµie dat , de volum n = 196, am obµinut x = 0.25 ³i s = 4. Nu cunoa³tem nici valoareamedie ³i nici dispersia variabilei aleatoare ce caracterizeaz  populaµia. Veri�caµi la nivelul de semni�caµie α = 0.05ipoteza µ = 0, cu alternativa µ 6= 0.

Exerciµiu 6.5 Un patron susµine c  �rma sa nu face discriminare sexual  la angajare (i.e., atât b rbaµii, cât ³ifemeile au aceea³i ³ans  de a se angaja în respectiva �rm ). Se aleg 500 de angajaµi ³i se g sesc 267 de b rbaµi.Testaµi la nivelul de semni�caµie 0.05 dac  patronul �rmei spune adev rul sau nu.

Exerciµiu 6.6 Dintre toate înregistr rile vitezelor vehiculelor ce trec prin dreptul radarului �x a³ezat în faµa uni-versit µii, se aleg 10 date la întâmplare. Acestea sunt (în km/h):

68

48 44 55 45 47 41 39 49 55 52

Presupunem c  selecµia face parte dintr-o populaµie normal .(a) G siµi un interval de încredere cu încrederea de 98% pentru viteza medie a vehiculelor ce trec prin dreptulradarului.(b) Testaµi dac  viteza medie cu care se circul  prin faµa acestui radar este de 45km/h sau nu, considerându-se unnivel de semni�caµie α = 0.02 ;(c) Estimaµi probabilitatea ca viteza legal  de 50km/h s  � fost dep ³it , folosind datele selecµiei considerate.

Exerciµiu 6.7 O selecµie de volum n = 50 este folosit  pentru a veri�ca urm toarea ipotez 

(H0) : µ = 15 vs. (H1) : µ 6= 15,

la nivelul de semni�caµie α = 0.05. Determinaµi: valoarea critic , regiunea critic , valoarea statisticii pentru selecµiadat  ³i concluzia test rii, pentru(a) x = 17.5 ³i s = 4.5 (σ este necunoscut);(b) x = 17.5 ³i σ = 4.

Exerciµiu 6.8 O selecµie de volum n = 50 este folosit  pentru a veri�ca urm toarea ipotez 

(H0) : µ = 15 vs. (H1) : µ 6= 15,

la nivelul de semni�caµie α = 0.05. Determinaµi: valoarea critic , regiunea critic , valoarea statisticii pentru selecµiadat  ³i concluzia test rii, pentru(a) x = 17.5 ³i s = 4.5 (σ este necunoscut);(b) x = 17.5 ³i σ = 4.

Exerciµiu 6.9 Într-un sondaj de opinie, 5 b rbaµi ³i 5 femei au fost întrebate dac  urm resc meciuri de fotbal laTV în mod regulat. Toµi b rbaµii ³i doar dou  femei au r spuns a�rmativ, ceilalµi spunând c  nu. S  se testeze lanivelul de semni�caµie α = 0.05 dac  diferenµa este semni�cativ  din punct de vedere statistic (i.e., dac  femeile seuit  la fotbal la TV cot la cot cu b rbaµii).

Exerciµiu 6.10 Urm rim preµul X al aceluia³i articol în 20 de magazine, alese la întâmplare. Acestea sunt:

9.6 9.9 10.3 10.0 10.5 9.7 9.9 10.2 10.0 10.4

9.9 9.8 10.1 10.4 9.9 10.2 10.3 10.1 10.0 9.7

Consider m c  preµul acestui articol urmeaz  o repartiµie gaussian .(i) Se poate admite ipoteza E(X) = 10.0, la nivelul de semni�caµie α = 0.05?(ii) Se poate admite ipoteza D2(X) = 0.2, la nivelul de semni�caµie α = 0.05?

Exerciµiu 6.11 Informaµiile din tabelul de mai jos sunt date despre dou  selecµii independente ce au fost extrasedin dou  populaµii statistice.

Selecµia Volumul selecµiei media de selecµie deviaµia standard de selecµie1 50 9.75 1.52 75 9.5 0.95

Se cer:(a) Estimaµi punctual ³i printr-un interval de încredere (α = 0.01) valoarea µ1 − µ2;(b) Testaµi (α = 0.01) ipoteza

(H0) : µ1 = µ2 vs. (H1) : µ1 6= µ2

69

Exerciµiu 6.12 O selecµie de 700 de salarii pe or  din România arat  c  media salariului pe or  este x = 11.42RON³i s = 9.3. Putem decide, pe baza acestui sondaj, c  media salariului pe or  este, de fapt, µ > 9.78RON, valoarestabilit  de guvernul român? Se va folosi α = 0.05.

70

7 Statistic  Aplicat  (L7 & S7)

Teste de concordanµ  (probleme)

Exemplu 7.1 Se arunc  un zar de 60 de ori ³i se obµin rezultatele din Tabelul 7.1. S  se decid , la nivelul desemni�caµie α = 0.02, dac  zarul este corect sau fals.

Faµa (clasa Oi) Frecvenµa absolut  (ni)1 152 73 44 115 66 17

Tabela 7.1: Tabel cu num rul de puncte obµinute la aruncarea zarului.

Soluµie: (aplic m testul χ2 de concordanµ , cazul neparametric)Zarul este corect doar dac  �ecare faµ  a sa are aceea³i ³ans  de a aparea, adic  probabilit µile ca �ecare faµ  înparte s  apar  sunt:

(H0) : pi =1

6, (i = 1, 2, . . . , 6).

Altfel, not m cu X variabila aleatoare ce are valori num rul punctelor ce apar la aruncarea zarului. Un zar corectar însemna c  X urmeaz  repartiµia uniform  discret  U(6).Toate cele 60 de rezultate obµinute în urma arunc rii zarului pot � împ rµite în ³ase clase. Aceste clase sunt:Oi = {i}, i ∈ {1, 2, . . . , 6}. Ipoteza nul  este (H0) sau, echivalent,

(H0) : Funcµia de repartiµie a lui X este U(6).

Ipoteza alternativ  este "(H0) nu are loc", adic :

(H1) : Exist  un j, cu pj 6=1

6, (j ∈ {1, 2, . . . , 6}).

Calculez valoarea statisticii χ2 pentru observaµiile date:

χ20 =

(15− 10)2

10+

(7− 10)2

10+

(4− 10)2

10+

(11− 10)2

10+

(6− 10)2

10+

(17− 10)2

10= 13.6.

Repartiµia statisticii χ2 este χ2 cu k − 1 = 5 grade de libertate. Regiunea critic  este:

U = (χ20.98; 5; +∞) = (13.3882, +∞).

Deoarece χ20 se a�  în regiunea critic , ipoteza nul  se respinge la nivelul α = 0.02, a³adar zarul este m sluit.

Codul Matlab:

n = 60; k=6; alpha = 0.02; x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6);

chi2 = sum((f-n*p).^2)./(n*p)); % valoarea χ20

val = chi2inv(1-alpha,k-1); % cuantila χ20.99; 5

H = (chi2 > val) % afiseaza 0 daca zarul e corect si 1 daca nu √

Observaµia 7.2 Dac  nivelul de semni�caµie este ales α = 0.01, atunci χ20.99; 5 = 15.0863, ceea ce determin 

acceptarea ipotezei nule (adic  zarul este corect) la acest nivel.

71

Exemplu 7.3 În urma unui recens mânt, s-a determinat c  proporµiile indivizilor din RO ce aparµin uneia dintrecele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%. S-au testat aleator 450 de persoane dinRO, obµinându-se urm toarele rezultate:

Grupa sanguin  O A B ABFrecvenµa 136 201 82 31

Veri�caµi, la nivelul de semni�caµie α = 0.05, compatibilitatea datelor cu rezultatul teoretic.

Soluµie: Ipotezele statistice sunt:

(H0) : Rezultatul observat este compatibil cu cel teoretic,

(H1) : Exist  diferenµe semni�cative între rezultatul teoretic ³i observaµii.

Dac  ipoteza nul  ar � adev rat , atunci valorile a³teptate pentru cele patru grupe sanguine (din 450 de persoane)ar �: O : 153.5, A : 184.5, B : 85, AB : 27.

Calculez valoarea statisticii χ2 pentru observaµiile date:

χ20 =

(136− 153.5)2

153.5+

(201− 184.5)2

184.5+

(82− 85)2

85+

(31− 27)2

27= 4.1004.

Repartiµia statisticii este χ2(3). Astfel, regiunea critic  este:

U = (χ20.95; 3; +∞) = (7.8147, +∞).

Deoarece χ20 nu se a�  în regiunea critic , ipoteza nul  nu poate � respins  la acest nivel de semni�caµie. √

Teste de concordanµ  în Matlab

Am v zut deja c  funcµia chi2gof(x) testeaz  (folosind testul χ2 al lui Pearson) dac  vectorul x provine dintr-orepartiµie normal , cu media ³i dispersia estimate folosind x.

Pentru testul χ2, forma general  a funcµiei Matlab este:

[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)

unde:− h, p sunt la fel ca în exemplele anterioare;− perechile namei/valuei sunt opµionale. Variabilele namei pot �: num rul de clase, 'nbins', un vector devalori centrale ale intervalelor ce de�nesc clasele, 'ctrs', sau un vector cu capetele claselor, 'edges'.Alte variabile ce pot � utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'.− variabila de memorie stats a�³eaz : chi2stat - statistica χ2, df - gradele de libertate, edges - un vectorcu capetele intervalelor claselor dup  triere, O - num rul de valori observate în �ecare clas , E - num rul de valoria³teptate în �ecare clas .

Exemplu 7.4 Spre exempli�care, revenim la Exerciµiul 7.1, dar cu valoarea nivelului de încredere din Observaµia7.2. Codul Matlab ce folose³te funcµia de mai sus este:

x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01;

[h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha)

72

Acest cod returneaz :

h = p = stats =

0 0.0184 chi2stat: 13.6000

df: 5

edges: [0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000]

O: [15 7 4 11 6 17]

E: [10 10 10 10 10 10]

Acest rezultat con�rm  c  ipoteza nul  (zarul este corect) este acceptat  la nivelul α = 0.01. √

Exemplu 7.5 La campionatul mondial de fotbal din 2006 au fost jucate în total 64 de meciuri, iar repartiµianum rului de goluri înscrise într-un meci are tabelul de distribuµie ca în Tabelul 7.2. Determinaµi (la nivelul desemni�caµie α = 0.05) dac  num rul de goluri pe meci urmeaz  o distribuµie Poisson.

Nr. de goluri pe meci Nr. de meciuri0 81 132 183 114 105 26 2

Tabela 7.2: Tabel cu num rul de goluri pe meci la FIFA WC 2006.

Soluµie: (aplic m testul de concordanµ  χ2 parametric) Fie X variabila aleatoare ce reprezint  num rul degoluri înscrise într-un meci. Teoretic, X poate lua orice valoare din mulµimea N. Mulµimea observaµiilor f cuteasupra lui X este {1, 2, 3, 4, 5, 6}, cu frecvenµele respective din tabel. În total, au fost inscrise 144 de goluri.Estim m num rul de goluri pe meci prin media lor, adic  λ = x = 144

64 = 2.25. Pe baza datelor observate, dorim s test m dac  X urmeaz  o repartiµie Poisson. Avem astfel de testat ipoteza nul :

(H0) : X urmeaz  o lege Poisson P(λ).

vs. ipoteza alternativ (H1) : X nu urmeaz  o lege Poisson P(λ).

Dac  admitem ipoteza (H0) (adic  X ∼ P(2.25), atunci pi = pi(λ) ³i distribuµia valorilor variabilei este dat  de

Clasa ni pi n pi(ni − n pi)2

n pi0 8 0.1054 6.7456 0.23331 13 0.2371 15.1775 0.31242 18 0.2668 17.0747 0.05013 11 0.2001 12.8060 0.25474 10 0.1126 7.2034 1.08575 2 0.0506 3.2415 −≥ 6 2 0.0274 1.7514 −≥ 5 4 0.0780 4.9926 0.1973

Tabela 7.3: Tablou de distribuµie pentru P(2.25).

Tabelul 7.3. Valoarea pi este P (X = i), adic  probabilitatea ca variabila aleatoare X ∼ P(2.25) s  ia valoarea i

73

(i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece pentru ultimele dou  clase din Tabelul 7.3, anume {X = 5}³i {X ≥ 6}, numerele ni nu dep ³e³c valoarea 3, le ³tergem din tabel ³i le unim într-o singur  clas , în care {X ≥ 5},cu ni = 4 > 3. Vom nota prin p≥5 probabilitatea

p≥5 = P (X ≥ 5) = 1− P (X < 5) = 1− P (X ≤ 4) = 1−4∑i=0

P (X = i).

R mânem a³adar cu 6 clase. Ipoteza nul  (H0) se poate rescrie astfel:

(H0) : p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p≥5 = 0.0780.

Ipoteza alternativ  este(H1) : ipoteza (H0) nu este adev rat .

Calcul m acum valoarea statisticii χ2 pentru observaµiile date:

χ20 =

(8− 6.7456)2

6.7456+

(13− 15.1775)2

15.1775+

(18− 17.0747)2

17.0747+

(11− 12.8060)2

12.8060+ . . .

+(10− 7.2034)2

7.2034+

(4− 4.9926)2

4.9926= 2.1337.

Deoarece avem 6 clase ³i am estimat parametrul λ, deducem c  num rul gradelor de libertate este 6−1−1 = 4. Cu-antila de referinµ  (valoarea critic ) este χ2

0.95; 4 = 9.4877. Regiunea critic  pentru χ2 este intervalul (χ20.95; 4, +∞).

Deoarece χ20 < χ2

0.95; 4, urmeaz  c  ipoteza nul  (H0) nu poate � respins  la nivelul de semni�caµie α. A³adar,este rezonabil s  a�rm m c  num rul de goluri marcate urmeaz  o repartiµie Poisson. Prezent m mai jos un codMatlab ce rezolv  aceast  problem .

X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);...

5*ones(2,1);6*ones(2,1)];

f = [8 13 18 11 10 4]; % vectorul de frecvente absolute

n = 64; alpha = 0.05; lambda = mean(X);

for i=1:5 % probabilitatile P(X=i), i=0,1,2,3,4

p(i) = poisspdf(i-1,lambda);

end

p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X≥5)H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4);

if (H2 < Hstar)

disp('X urmeaza repartitia Poisson');

else

disp('X nu urmeaza repartitia Poisson');

end √

Observaµia 7.6 Dac  ipoteza nul  este respins , atunci motivul poate � acela c  unele valori observate au deviatprea mult de la valorile a³teptate. În acest caz, este interesant de observat care valori sunt extreme, cauzândrespingerea ipotezei nule. Putem de�ni astfel reziduurile standardizate:

ri =Oi − n pi√n pi (1− pi)

=Oi − Ei√Ei (1− pi)

,

unde prin Oi am notat valorile observate ³i prin Ei valorile a³teptate. Dac  ipoteza nul  ar � adev rat , atunciri ∼ N (0, 1). În general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate extreme.

Exemplu 7.7 Într-o anumit  zi de lucru, urm rim timpii de a³teptare într-o staµie de tramvai, pân  la încheiereazilei de lucru (adic , pân  trece ultimul tramvai). Fie T caracteristica ce reprezint  num rul de minute a³teptateîn staµie, pân  sose³te tramvaiul. Rezultatele observaµiilor sunt sumarizate în Tabelul 7.4. Se cere s  se cerceteze(α = 0.05) dac  timpii de a³teptare sunt repartizaµi exponenµial.

74

Durata 0− 5 5− 10 10− 15 15− 20 20− 25ni 39 35 14 7 5

Tabela 7.4: Timpi de a³teptare în staµia de tramvai.

Soluµie: (folosim testul χ2 de concordanµ , parametric) Avem de testat ipoteza nul 

(H0) F (x) ∼= F0(x) = 1− e−λx, x > 0

vs. ipoteza alternativ (H1) ipoteza (H0) este fals .

Deoarece parametrul λ este necunoscut, va trebui estimat pe baza selecµiei date. Pentru aceasta, folosim metodaverosimilit µii maxime. Funcµia de verosimilitate pentru exp(λ) este

L(t1, t2, . . . , tn; λ) =

n∏k=1

λe−λ ti = λne−λn t.

Mai sus, am notat prin t1, t2, . . . , tn valorile de selecµie pentru variabila aleatoare T .Punctele critice pentru L(λ) sunt date de ecuaµia

∂ lnL

∂λ= 0 =⇒ ∂

∂λ

(n lnλ− λn t

)=⇒ λ =

1

t.

Se observ  cu u³urinµ  c ∂2 lnL

∂λ2|λ=λ = −n t2 < 0,

de unde concluzion m c  λ este punct de maxim pentru funcµia de verosimilitate.Tabelul de distribuµie pentru caracteristica T este:(

2.5 7.5 12.5 17.5 22.539 35 14 7 5

).

Calcul m media de selecµie, t = 1100 (2.5 · 39 + 7.5 · 35 + 12.5 · 14 + 17.5 · 7 + 22.4 · 5) = 7.7, adic  λ = 0.1299.

Dac  variabila T ar urma repartiµia exponenµial  exp(λ), atunci probabilit µile ca T s  ia valori în �ecare clas sunt, în mod corespunz tor:

pi = pi(λ) = P (X ∈ (ai, ai+1] | F = F0) = F0(ai+1; λ)− F0(ai; λ), i = 1, 2, 3, 4, 5.

unde a6 = +∞.În Tabelul 7.5 am înregistrat urm toarele date:

• clasele (de notat c  ultima clas  este (20, +∞), deoarece se dore³te o concordanµ  a datelor observate cudate repartizate exponenµial, iar mulµimea valorilor pentru repartiµia exponenµial  este R+),

• extremit µile din stânga ale claselor (ai),

• frecvenµele absolute ni (sau valorile observate în �ecare clas ),

• probabilit µile pi, valorile a³teptate în �ecare clas  (n pi),

• erorile relative de aproximare ale datelor a³teptate cu cele observate.

Num rul gradelor de libertate este k − p − 1 = 3. Calcul m valoarea critic  χ20.95; 3 = 7.8147 ³i, de asemenea,

valoarea

H0 =

k∑i=1

(ni − n pi)2

n pi= 6.5365.

75

Deoarece χ20 < χ2

0.95; 3, ipoteza (H0) nu poate � respins  la acest nivel de semni�caµie.

Codul Matlab este urm torul:

T = [2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)];

% sau

% T = [5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)];

n = 100; alpha = 0.05; m = mean(T); lambda = 1/m;

a = [0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5];

for i =1:5

p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);

end

H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3);

if (H2 < cuant)

disp('Timpii de asteptare sunt exponential repartizati');

else

disp('ipoteza (H0) se respinge');

end √

Clasa ai ni pi n pi(ni − n pi)2

n pi(0, 5] 0 39 0.4776 47.7615 1.6072(5, 10] 5 35 0.2495 24.9499 4.0483(10, 15] 10 14 0.1303 13.0334 0.0717(15, 20] 15 7 0.0681 6.8085 0.0054

(20, +∞) 20 5 0.0745 7.4467 0.8039

(0, +∞) − 100 1 100 6.5365

Tabela 7.5: Tabel de distribuµie pentru timpii de a³teptare.

76

Corelaµie ³i Regresie

Fie X ³i Y doi vectori de acela³i tip. Urm toarele funcµii din Matlab sunt utile pentru analiza corelaµiei ³iregresiei:

• scatter(X,Y) reprezint  gra�c valorile lui Y vs. valorile lui X;

• R = corrcoef(X,Y) calculeaz  coe�cientul de corelaµie între X ³i Y. Rezultatul este a�³at sub forma:>> ans =

1.0000 ρρ 1.0000

unde 1.0000 este coe�cientul de corelaµie dintre X ³i X, respectiv Y ³i Y, iar ρ este coe�cientul c utat.

• cov(X,Y) pentru matricea de covarianµ  empiric  dintre X ³i Y;

• b = regress(Y,X) a�³eaz  estimarea coe�cienµilor pentru care Y = bX. Aici, X este o matrice n × k ³i Yun vector coloana n× 1. Coloanele vectorului X corespund observaµiilor (i.e., variabilelor independente).Dac  X este un vector coloan  de aceea³i dimensiune cu Y, atunci b este doar un scalar.Dac  X este matrice, atunci putem folosi aceast  comand  pentru a estima coe�cienµii de regresie liniar multipl . Spre exemplu, s  presupunem c  se dore³te estimarea coe�cienµilor de regresie liniar  simpl , i.e.,β0 ³i β1 pentru care y = β0 + β1 x, unde pentru �ecare dintre x ³i y avem n observaµii. În acest caz, k = 2.Fie X, respectiv, Y vectorii ce conµin aceste observaµii. Comanda Matlab care estimeaz  cei doi coe�cienµieste

B = regress(Y', [ones(n,1)'; X]')

Comanda furnizeaz  aproxim ri pentru parametrii β0 ³i β1 ce fac urm toarea aproximare cât mai bun :y1y2...yn

≈ β0

11...1

+ β1

x1x2...xn

.

• p = polyfit(X,Y,n) g se³te coe�cienµii unui polinom p(x) de grad n ale c rui valori p(xi) se apropie celmai mult de datele observate yi, în sensul celor mai mici p trate. Matlab va a�³a în acest caz un vectorlinie de lungime n+1, conµinând coe�cienµii polinomiali în ordinea descresc toare a puterilor. Spre exemplu,dac 

p(x) = β0 + β1x+ β2x2 + · · ·+ βnx

n,

atunci Matlab va a�³aβn, . . . , β1, β0.

• Y = polyval(p,X) a�³eaz  valorile unui polinom p(x) pentru valorile din vectorul X. Polinomul p(x) estedat prin coe�cienµii s i, ordonaµi în ordine descresc toare a puterilor. De exemplu, dac  p(x) = 3x2 + 2x+ 4³i dorim s  evalu m acest polinom pentru trei valori, −3, 1 ³i 5, atunci scriem în Matlab:

p = [3 2 4]; polyval(p,[-3 1 5])

obµinând rezultatul:ans = 37 5 69

Exerciµiu 7.8 Dorim s  determin m dac  exist  vreo corelaµie între notele la examenul de Probabilit µi ³i cele dela Statistic  obµinute de studenµii unui an de studiu. În acest sens, au fost observate notele obµinute de 10 studenµi

77

la aceste dou  discipline ³i au fost trecute în Tabelul 7.6 de mai jos. Se cere:(a) Stabiliµi dac  exist  o leg tur  puternic  între aceste note (r ³i r2);(b) Determinaµi dreapta de regresie a notelor de la Statistic  în raport cu notele la Probabilit µi ³i desenaµi-o înacela³i sistem de axe ca ³i notele obµinute (scatter plot).(c) Testaµi dac  exist  sau nu vreo corelaµie între notele de la Statistic  ³i Probabilit µi.

Student A B C D E F G H I JProbabilit µi 82 36 72 58 70 48 44 94 60 40Statistic  84 42 50 64 68 54 46 80 60 32

Tabela 7.6: Notele la Statistic  ³i Probabilit µi.

Soluµie: (a) Calcul m r (cu formula lui Person). Funcµia Matlab pentru coe�cientul Pearson este corrcoef.În codul Matlab de mai jos l-am calculat pe r folosind aceast  funcµie, dar ³i în dou  alte modalit µi, folosindformula

r =cove(x, y)

sx · sy,

sau scriind desf ³urat expresia lui r.

(b) Coe�cienµii de regresie se pot obµine în 3 moduri, �e folosind funcµia Matlab polyfit, care realizeaz  �tareadatelor cu un polinom, în cazul liniar �ind un polinom de forma S(P ) = β0 + β1 P . O alt  variant  de calcula coe�cienµilor β0 ³i β1 este simpla implementare în Matlab a formulelor pentru ace³tia. A treia variant  estefolosirea funcµiei regress din Matlab.Reprezentarea gra�c  a datelor poate � realizat  folosind ori funcµia plot, ori funcµia "scatter", ambele funcµiiprede�nite din Matlab. Gra�cul este cel din Figura 7.1.

P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32];

mp = mean(P); ms = mean(S);

%%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~

CC = corrcoef(P,S); r = CC(1,2)

%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

% C = cov(P,S)/(std(P)*std(S)); r = C(1,2);

% r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2));

%%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~

B = polyfit(P,S,1)

%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

% b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;

% B = regress(S',[P;ones(10,1)']');

%%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-')

% scatter(P,S) % varianta pentru scatter plot

%%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru ρ = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2);

if (abs(T0) < quant)

disp('P si S nu sunt corelate')

else

disp('P si S sunt corelate')

end

Rulând codul de mai sus, obµinem:

r = B = P si S sunt corelate

0.8247 0.7553 10.3816 √

78

Figura 7.1: Notele ³i dreapta de regresie.

Exerciµiu 7.9 Fie ³irul de date:

x = 0.3 0.8 1.2 1.6 2.1 2.4 2.7

y = 3.52 4.53 5.58 6.62 8.27 10.18 11.80

S  se studieze existenµa unei dependenµe între x ³i y de forma y = a eb x.

Soluµie: Calcul m ln y. Obµinem:

ln y = 1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681

Se observ  c  r = 0.9988 ≈ 1 (coe�cientul de corelaµie între x ³i ln y), de unde b nuim c  e posibil s  avemo regresie liniar  între variabilele x ³i ln y. Estim m coe�cienµii de regresie ai lui ln y faµ  de x ³i g sim:β0 = 1.1074, β1 = 0.4980. Aceasta poate � realizat  în Matlab prin comanda

regress(log(y)',[x',ones(7,1)])

A³adar, ln y = 0.4980x + 1.1074, de unde y = e1.1074 e0.4980 x ≈ 3 ex/2. În Figura 7.2 am reprezentat gra�c dateleobservate ³i aproxim rile lor. √

Exerciµiu 7.10 Prognoza spune c  temperatura într-o anumit  zon  muntoas  descre³te cu cca. 6◦C la �ecare1km câ³tigat în în lµime. Pentru o veri�care, au fost m surate simultan temperaturile în 10 localit µi diferite dinacea zon , acestea �ind înregistrate în Tabelul 7.7. Dac  temperatura se presupune a � o funcµie liniar  (regresie

hi 500 1000 1500 2000 2500 3000 3500 4000 4500 5000Ti 15 14 11 6 −1 2 0 −4 −8 −14

Tabela 7.7: Tabel cu temperaturi (Ti) la diverse altitudini (hi).

liniar ) de altitudine, se cere:

79

Figura 7.2: Aproximarea datelor din Exerciµiul 7.9

(i) S  se estimeze parametrii β0 ³i β1;(ii) S  se testeze (α = 0.05) dac  prognoza din enunµ este adevarat  (i.e., β1 = −0.006);(iii) S  se g seasc  un interval de încredere pentru panta dreptei de regresie, β1;(iv) Cât de bun  este aproximarea temperaturii cu o funcµie liniar  de altitudine?(v) Estimaµi temperatura la altitudinea h = 2544. G siµi, de asemenea, un interval de încredere pentru aceastatemperatur .

Soluµie: (i) Estim m parametrii necunoscuµi folosind formulele

β1 =sxys2x

³i β0 = y − β1 x, (7.1)

sau folosind funcµia Matlab polyfit (vezi codul de mai jos).(ii) Pentru testarea ipotezei nule (H0) : β1 = −0.006 utiliz m testul pentru coe�cientul β1.(iii) Un interval de încredere pentru β1 se poate calcula folosind formula[

β1 − t1−α2 ;n−2σ

sx, β1 + t1−α2 ;n−2

σ

sx

]. (7.2)

(iv) Pentru a decide cât de bun  este aproximarea, calcul m coe�cientul de determinare, R2. Acesta este R2 =94.83, ceea ce înseamn  c  temperatura real  este foarte aproape de cea prognozat .(v) Utiliz m formulele

yp = β0 + β1 xp. (7.3)

³i [yp − t1−α2 ;n−2 σ

√1 +

1

n+

(xp − x)2

s2x, yp + t1−α2 ;n−2 σ

√1 +

1

n+

(xp − x)2

s2x

]. (7.4)

pentru xp = 2544. (vezi rezultatele generate de codul de mai jos)Codul Matlab este urm torul:

h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000];

T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T);

%%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~

CC = corrcoef(h,T); r = CC(1,2)

R2 = r^2

%%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

80

B = polyfit(h,T,1)

%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

% B = regress(T',[h;ones(10,1)']');

% b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh;

%%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~

x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-')

%%%~~~~~~ Testul pentru panta dreptei de regresie, (H0) : β1 = −0.006 ~~~~~~~~~~~~~~~~

alpha = 0.05; n = 10;

sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2)); sigmax = std(h);

T0 = (B(1)+0.006)*sigmax/sigmahat; quant = tinv(1-alpha/2,n-2);

if (abs(T0) < quant)

disp('ipoteza (H0) se accepta')

else

disp('ipoteza (H0) se respinge')

end

%%%~~~~~~~~~~~~~~~ Interval de incredere pentru β1 ~~~~~~~~~~~~~~~~~~~~~~~

CI = [B(1) - quant*sigmahat/sigmax,\;B(1) + quant*sigmahat/sigmax]

hp = 2544; Tp = B(2) + B(1)*hp

CI_T = [Tp - quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}, ...

Tp + quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}]

Rulând codul de mai sus, obµinem:

r = R2 = B = CI =

-0.9738 94.83 [-0.0061, 18.9333] [-0.0096, -0.0026]

Tp = CI_T =

3.3610 [-2.2335, 8.9555]

ipoteza nula se accepta √

Figura 7.3: Diagrama de temperaturi în funcµie de altitudine, ³i dreapta de regresie.

81

Exerciµii suplimentare

Exerciµiu 7.1 Testaµi normalitatea datelor din Tabelul 3.1 la nivelul de semni�caµie α = 0.1.

Exerciµiu 7.2 Se prezice c  repartiµia literelor care apar cel mai des în limba englez  ar � urm toarea:

Litera O R N T EFrecvenµa 16 17 17 21 29

Aceasta semni�c  urm toarea: de �ecare dat  când cele 5 litere apar într-un text, în 16% dintre cazuri apare literaO, în 21% dintre cazuri apare litera T etc. S  presupunem c  un criptologist analizeaz  un text ³i num r  apariµiilecelor 5 litere. Acesta a g sit urm toarea distribuµie:

Litera O R N T EFrecvenµa 18 14 18 19 31

Folosind testul χ2 de concordanµ , s  se veri�ce dac  aceste apariµii sunt în not  discordant  cu predicµia iniµial .

Exerciµiu 7.3 Un student ia cu împrumut o carte de la bibliotec  ³i observ  c  pagina de interes este rupt  pealocuri. Totu³i, poate citi textul din Figura 7.4. Se cere s  se reconstruiasc  pasajul de text (i.e., determinaµi y ³idreapta de regresie a lui x faµ  de y). De asemenea, calculaµi coe�cientul empiric de corelaµie r ³i comentaµi asupraaproxim rii datelor de seleµie prin dreptele de selecµie.

Figura 7.4: Fragment incomplet dintr-un text

Exerciµiu 7.4 Tabelul 7.8 conµine cali�cativele obµinute de un elev de clasa I la cele 9 discipline, în �ecare dintrecele dou  semestre. S  se g seasc  o m sur  a leg turii dintre cele dou  seturi de cali�cative (e.g., coe�cientul decorelaµie Spearman).

Discipline A B C D E F G H ISem. I FB FB B FB B B B S FBSem. II B B B FB FB S B S FB

Tabela 7.8: Cali�cative din anul I de studiu

Exerciµiu 7.5 Se dau urm toarele date:

(a) Testaµi dac  ρ = 0 (coe�cientul de corelaµie teoretic).(b) Este faptul c  x ³i y sunt legate prin relaµia y = x2 în contradicµie cu rezultatul de la punctul (a) (datele suntperfect necorelate)?(c) Calculaµi coe�cientul de corelaµie Spearman.

82

x −3 −2 −1 0 1 2

y 9 4 1 0 1 4

Exerciµiu 7.6 Suntem interesaµi în determinarea unei leg turi între în lµime ³i m rimea la pantof. Datele dintabelul de mai jos reprezint  observaµii asupra în lµimilor (H) ³i a m rimilor la pantof (M) pentru 10 b rbaµi, ale³ila întâmplare.

H 1.75 1.70 1.80 1.65 1.83 1.73 1.86 1.65 1.68 1.82M 43 41.5 44 40.5 44.5 41 44.5 39.5 40 43.5

(a) Calculaµi coe�cientul de corelaµie Pearson dintre în lµime ³i m rimea la pantof. Ce procent din valorile lui Msunt determinate de valorile lui H(b) Determinaµi o aproximare pentru dreapta de regresie a lui M faµ  de H.(c) Obµineµi o predicµie a m rimii la pantof pentru un b rbat cu în lµimea 1.78.

(d) La nivelul de semni�caµie α = 0.05, testaµi ipoteza c  panta dreptei de regresie este3

4.

Exerciµiu 7.7 Fie ³irul de date:

u = 1.0 1.5 2.0 2.5 3.0 3.5 4.0

v = 1.5 4.5 7.5 12.5 17.5 24.5 32.5

S  se studieze existenµa unei dependenµe între u ³i v de forma v = a u2 + b.

Exerciµiu 7.8 În tabelul urm tor, se dau câte 5 valori pentru dou  variabile x ³i y, unde y este variabila indepen-dent . Determinaµi o dreapta de regresie potrivit  pentru a calcula(i) valoarea lui x când y = 2.5;(ii) valoarea lui y când x = 50;(iii) Putem prezice valoarea lui y pentru x = 75?

x 46 55 41 58 53

y 1.7 2.1 1.5 2.9 1.9

Exerciµiu 7.9 Se m soar  viteza unei ma³ini, v, în primele 10 secunde dup  aceasta a început s  accelereze.Aceste date sunt înregistrate în Tabelul 7.9. Se cere:

t 0 1 2 3 4 5 6 7 8 9 10v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Tabela 7.9: Viteza unei ma³ini în primele 10 secunde dup  plecarea de pe loc

(a) Desenaµi diagrama scatter plot;(b) Determinaµi dreapta de regresie a lui v faµ  de t;(c) Calculaµi coe�cientul de corelaµie empiric  ³i comentaµi asupra validit µii aproxim rii datelor cu dreapta deregresie.

83

Exerciµiu 7.10 Opinia general  este c  rata maxim  (R) a b t ilor inimii unei persoane se poate determina dup formula R = β0 + β1 V , unde V este vârsta persoanei, calculat  în ani. Cercet torii cardiologi a�rma c  ace³ticoe�cienµi ar �: β0 = 220 ³i β1 = −1. Pentru o veri�care empiric  a acestei a�rmaµii, sunt alese la întâmplare 15persoane de diverse vârste, care sunt supuse unui test pentru determinarea ratei maxime ale bat ilor inimii. Acesterezultate sunt contabilizate în Tabelul 7.10.(a) Calculaµi coe�cientul de corelaµie Pearson dintre vârst  ³i rata maxim  a bat ilor inimii. Care este semni�caµiaacestei valori?(b) Determinaµi dreapta de regresie a lui R faµ  de V ³i desenaµi-o în acela³i sistem de axe cu datele din tabel.(c) Testaµi ipoteza (H0) : β1 = −1, vs. ipoteza alternativ  (H1) : β1 6= −1, la nivelul de semni�caµie α = 0.05.

Vârsta 15 23 25 35 17 34 54 50 45 42 19 42 20 39 37Rata max 207 186 187 180 200 175 169 183 156 183 199 174 198 183 178

Tabela 7.10: Tabel cu rata maxim  a bat ilor inimii în funcµie de vârst .

Exerciµiu 7.11 Dreapta de regresie a variabilei y faµ  de variabila x este y = 2x − 6. Determinaµi condiµiile încare dreapta de regresie a lui x faµ  de y este x = 0.5 y + 3.

A 3 1 4 12 11 3 5 2 9 6 4 6 7 6 14N 9.00 9.50 8.75 4.75 5.50 8.50 6.75 8.25 5.50 6.75 8.00 7.75 6.00 7.00 3.50

Tabela 7.11: Tabel cu absenµe ³i note la Statistic .

Exerciµiu 7.12 Tabelul 7.11 conµine num rul de absenµe (A) la Statistic  ³i notele corespunz toare (N) a 15studenµi.(a) Calculaµi coe�cientul de corelaµie Pearson. Care este semni�caµia acestei valori referitor la relaµia dintre absenµe³i note?(b) Determinaµi dreapta de regresie a lui N faµ  de A ³i desenaµi-o în acela³i sistem de axe cu datele din tabel.(c) Testaµi, la un nivel de semni�caµie α = 0.05, dac  exist  dovezi su�ciente pentru a a�rma c  între num rul deabsenµe ³i notele obµinute exist  o corelaµie.

Exerciµiu 7.13 În Tabelul 7.12 datele reprezint  în lµimile (H) ³i masele corporale (M) a 10 fete dintr-o clas  aunui liceu. Suntem interesaµi în prezicerea masei corporale, ³tiind înalµimea unei eleve.

H 179.6 166.8 163.1 180.0 158.4 166.5 165.8 168.1 175.9 160.7M 61.2 48.2 46 64.4 46.3 54.7 51.4 55.3 65.3 47.9

Tabela 7.12: Înalµimea ³i masa corporal  a 10 eleve dintr-o clas .

(a) Desenaµi diagrama scatter plot a lui H versus M . Bazându-v  pe aceast  diagram , consideraµi c  metodaregresiei liniare este potrivit  în acest caz?(b) Calculaµi estimaµii ale parametrilor (β0 ³i β1) de regresie liniar  ³i reprezentaµi gra�c dreapta de regresie liniar .(c) Obµineµi o estimare nedeplasat  pentru σ2.(d) Testaµi ipoteza nul  (H0) : β1 = 0.9.

84