Curs Statistica Aplicata

85

Transcript of Curs Statistica Aplicata

Page 1: Curs Statistica Aplicata

Iulian STOLERIU

Statistic Aplicat

Page 2: Curs Statistica Aplicata

1 Statistic Aplicat (C1)

Introducere în Statistic

Scurt istoric

Statistica este o ramur a ³tiinµelor ce se preocup de procesul de colectare de date ³i informaµii,de organizarea ³i interpretarea lor, în vederea explic rii unor fenomene reale. În general, prin date(sau date statistice) înµelegem o mulµime de numere ce au o anumit însemn tate. Aceste numerepot legate între ele sau nu. Suntem interesaµi de studiul acestor date, cu scopul de a înµelegeanumite relaµii între diverse tr s turi ce m soar datele culese. De regul , oamenii au anumiteintuiµii despre realitatea ce ne înconjoar , pe care le doresc a conrmate într-un mod cât maiexact. De exemplu, dac într-o anumit zon a µ rii rata somajului este ridicat , este de a³teptatca în acea zon calitatea vieµii persoanelor de acolo s nu e la standarde ridicate. Totu³i, ne-amdori s m cât mai preci³i în evaluarea leg turii dintre rata somajului ³i calitatea vieµii, de aceeane-am dori s construim un model matematic ce s ne conrme intuiµia. Un alt gen de problem :ardem de ner bdare s a m cine va noul pre³edinte, imediat ce secµiile de votare au închis porµile(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea ³i unicarea tuturor datelorîntr-un timp record nu este o m sur deloc practic . În ambele probleme menµionate, observaµiile³i culegerea de date au devenit prima treapt spre înµelegerea fenomenului studiat. De cele maimulte ori, realitatea nu poate complet descris de un astfel de model, dar scopul este de a oferio aproximare cât mai del ³i cu costuri limitate. În ambele situaµii menµionate apar erori înaproximare, erori care µin de întâmplare. De aceea, ne-am dori s putem descrie aceste fenomenecu ajutorul variabilelor aleatoare. Plecând de la colecµiile de date obµinute dintr-o colectivitate,Statistica introduce metode de predicµie ³i prognoz pentru descrierea ³i analiza propriet µilorîntregii colectivit µi. Aria de aplicabilitate a Statisticii este foarte mare: ³tiinµe exacte sau sociale,umanistic sau afaceri etc. O disciplin strâns legat de Statistic este Econometria. Aceastaramur a Economiei se preocup de aplicaµii ale teoriilor economice, ale Matematicii ³i Statisticiiîn estimarea ³i testarea unor parametri economici, sau în prezicerea unor fenomene economice.

Statistica a ap rut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date desprepopulaµiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei maibune administr ri. Datorit originii sale, Statistica este considerat de unii ca ind o ³tiinµ desine st t toare, ce utilizeaz aparatul matematic, ³i nu este privit ca o subramur a Matematicii.Dar nu numai originile sale au fost motivele pentru care Statistica tinde s devin o ³tiinµ separat de Teoria Probabilit µilor. Datorit revoluµiei computerelor, Statistica a evoluat foarte mult îndirecµia computaµional , pe când Teoria Probabilit µilor foarte puµin. A³a cum David Williamsscria în [18], "Teoria Probabilit µilor ³i Statistica au fost odat c s torite; apoi s-au separat; încele din urm au divorµat. Acum abia c se mai întâlnesc".Din punct de vedere etimologic, cuvântului statistic î³i are originile în expresia latin statisticumcollegium (însemnând consiliul statului) ³i cuvântul italian statista, însemnând om de stat saupolitician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnatpentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair aextrapolat termenul la colecµii ³i clasic ri de date.Metodele statistice sunt ast zi aplicate într-o gam larg de discipline. Amintim aici doar câteva

Page 3: Curs Statistica Aplicata

C1 & L1 [Dr. Iulian Stoleriu] 2

exemple:

• în Agricultur , de exemplu, pentru a studia care culturi sunt mai potrivite pentru a folositepe un anumit teren arabil;

• în Economie, pentru studiul rentabilit µii unor noi produse introduse pe piaµ , pentru core-larea cererii cu ofert , sau pentru a analiza cum se schimb standardele de viaµ ;

• în Biologie, pentru clasicarea din punct de vedere ³tiinµic a unor specii de plante saupentru selectarea unor noi specii;

• în tiinµele educaµiei, pentru a g si cel mai ecient mod de lucru pentru elevi sau pentru astudia impactul unor teste naµionale asupra diverselor caregorii de persoane ce lucreaz înînv µ mânt;

• în Meteorologie, pentru a prognoza vremea într-un anumit µinut pentru o perioad de timp,sau pentru a studia efectele înc lzirii globale;

• în Medicin , pentru testarea unor noi medicamente sau vaccinuri;

• în Psihologie, în vederea stabilirii gradului de corelaµie între timiditate ³i singur tate;

• în Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaµiei;

• în tiinµele sociale, pentru a studia impactul crizei economice asupra unor anumite clasesociale;

• etc.

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai întâicare este colectivitatea asupra c reia se dore³te studiul. Aceast colectivitate (sau populaµie)poate populaµia unei µ ri, sau numai elevii dintr-o ³coal , sau totalitatea produselor agricolecultivate într-un anumit µinut, sau toate bunurile produse într-o uzin . Dac se dore³te studiulunei tr s turi comune a tuturor membrilor colectivit µii, este de multe ori aproape imposibil dea observa aceast tr s tur la ecare membru în parte, de aceea este mult mai practic de astrânge date doar despre o submulµime a întregii populaµii ³i de a c uta metode eciente de aextrapola aceste observaµii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cudescrierea acestei colecµii de date, numit Statistic descriptiv . Aceast descriere a tr s turilorunei colectivit µi poate f cut atât numeric (media, dispersia, mediana, cuantile, tendinµe etc),cât ³i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot procesate într-un anumit fel, încât s putem trage concluzii foarte precise despre anumite tr s turi ale întregiicolectivit µi. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale întregiicolectivit µi, studiind doar o parte din ea, se nume³te Statistic inferenµial . În contul Statisticiiinferenµiale putem trece ³i urm toarele: luarea de decizii asupra unor ipoteze statistice, descriereagradului de corelare între diverse tipuri de date, estimarea caracteristicilor numerice ale unortr s turi comune întregii colectivit µi, descrierea leg turii între diverse caracteristici etc.

Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract a Statisticii. Din datele culese pe cale experimental , Statistica Matematic va c uta s extrag

Page 4: Curs Statistica Aplicata

C1 & L1 [Dr. Iulian Stoleriu] 3

informaµii ³i s le interpreteze. Un cercet tor într-un domeniul teoretic al Statisticii, cum este ³iStatistica Matematic , va c uta s îmbun t µeasc metodele teoretice existente sau s introduc altele noi. Aceasta va utiliza noµiuni din Teoria probabilit µilor, dar ³i noµiuni din alte ramuri aleMatematicii, cum ar : Algebra liniar , Analiza matematic , Teoria optimiz rii. De asemenea,partea computaµional este deosebit de util în studiul Statisticii moderne, f r de care cercetareaar îngreunat sau, uneori, chiar imposibil de realizat. În aceast lucrare vom utiliza pachetele deprograme Matlab pentru efectuarea calculelor, în versiunea Matlab 7.1. Acest software esteintrodus ³i dezvoltat de compania The MathWorks (vezi [9]).

Modelare Statistic

De obicei, punctul de plecare este o problem din viaµa real , e.g., care partid are o susµineremai bun din partea populaµiei unei µ ri, dac un anumit medicament este relevant pentru boal pentru care a fost creat, dac este vreo corelaµie între num rul de ore de lumina pe zi ³i depresie.Apoi, trebuie s decidem de ce tipuri date avem nevoie s colect m, pentru a putea da un r spunsla întrebarea ridicat ³i cum le putem colecta. Modurile de colectare a datele pot diverse: putemface un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Estenevoie de o metod bine stabilit de colectare a datelor ³i s construim un model statistic potrivitpentru analiza acestora. În general, date culese de noi pot potrivite într-un model statistic princare

Data observat = f(x, θ) + eroare de aproximare, (1.1)

unde f este o funcµie ce veric anumite propriet µi ³i este caracteristic modelului, x este vectorulce conµine variabilele m surate ³i θ e un parametru (sau un vector de parametri), care poate determinat sau nedeterminat. Termenul de eroare apare deseori în pratic , deoarece unele dateculese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, ³i eventualrevizuit, astfel încât s se potriveasc într-o m sur cât mai precis datelor culese.

Denim o populaµie (colectivitate) statistic ca ind o mulµime de elemente ce posed o trasatur comun . Aceasta poate nit sau innit , real sau imaginar . Elementele ce constituie o co-lectivitate statistic se vor numi unit µi statistice sau indivizi. Volumul unei colectivit µi statisticeeste dat de num rul indivizilor ce o constituie. Caracteristica (variabila) unei populaµii statisticeeste o anumit proprietate urm rit la indivizii ei în procesul prelucr rii statistice. Caracteristicilepot : cantitative (m surabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) ³i calitative (nem surabile sauatribute) (e.g., ro³u, verde, albastru etc). La rândul lor, variabilele cantitative pot discrete (nu-m rul de sosiri ale unui tramvai în staµie) sau continue (timpul de a³teptare între dou sosiri aletramvaiului în staµie). Caracteristicile pot depinde de unul sau mai multi parametri, parametriiind astfel caracteristici numerice ale colectivit µii.Suntem interesaµi în a m sura una sau mai multe variabile relative la o populaµie, îns aceasta s-arputea dovedi o munc extrem de costisitoare, atât din punctul de vedere al timpului necesar, cât³i din punctul de vedere al depozit rii datelor culese, în cazul în care volumul colectivit µii estemare sau foarte mare (e.g., colectivitatea este populaµia cu drept de vot a unei µ ri ³i caracteristicaurm rit este candidatul votat la alegerile prezidenµiale). De aceea, este foarte întemeiat alegereaunei selecµii de date din întreaga populaµie ³i s urm rim ca pe baza datelor selectate s putemtrage o concluzie în ceea ce prive³te variabila colectivit µii.

O selecµie (sau e³antion) este o colectivitate parµial de elemente extrase (la întâmplare sau nu)

Page 5: Curs Statistica Aplicata

C1 & L1 [Dr. Iulian Stoleriu] 4

din colectivitatea general , în scopul cercet rii lor din punctul de vedere al unei caracteristici.Dac extragerea se face la întâmplare, atunci spunem c am facut o selecµie întâmpl toare. Nu-m rul indivizilor din selecµia aleas se va numi volumul selecµiei. Dac se face o enumerare sau olistare a ec rui element component al unei a populaµii statistice, atunci spunem c am facut unrecens mânt. Selecµia ar trebui s e reprezentativ pentru populaµia din care face parte. Numimo selecµie repetat (sau cu repetiµie) o selecµie în urma c reia individul ales a fost reintrodus dinnou în colectivitate. Altfel, avem o selecµie nerepetat . Selecµia nerepetat nu prezint interesdac volumul colectivit µii este nit, deoarece în acest caz probabilitatea ca un alt individ s eales într-o extragere nu este aceea³i pentru toµi indivizii colectivit µii. Pe de alt parte, dac volumul întregii populaµii statistice este mult mai mare decât cel al e³antionului extras, atunciputem presupune c selecµia efectuat este repetat , chiar dac în mod practic ea este nerepetat .Spre exemplu, dac dorim s facem o prognoz a cine va noul pre³edinte la alegerile din toamn ,e³antionul ales (de altfel, unul foarte mic comparativ cu volumul populaµiei cu drept de vot) seface, în general, f r repetiµie, dar îl putem considera a o selecµie repetat , în vederea aplic riitestelor statistice.Selecµiile aleatoare se pot realiza prin diverse metode, în funcµie de urm torii factori: disponibi-litatea informaµiilor necesare, costul operaµiunii, nivelul de precizie al informaµiilor etc. Mai josprezent m câteva metode de selecµie.

• selecµie simpl de un volum dat, prin care toµi indivizii ce compun populaµia au aceea³i³ans de a ale³i. Aceast metod mininimizeaz riscul de a p rtinitor sau favorabilunuia dintre indivizi. Totu³i, aceast metod are neajunsul c , în anumite cazuri, nu reect componenµa întregii populaµii. Se aplic doar pentru colectivit µi omogene din punctul devedere al tr s turii studiate.

• selecµie sistematic , ce presupune aranjarea populaµiei studiate dup o anumit schem or-donat ³i selectând apoi elementele la intervale regulate. (e.g., alegerea a ec rui al 10-leanum r dintr-o carte de telefon, primul num r ind ales la întâmplare (simplu) dintre primele10 din list ).

• selecµie straticat , în care populaµia este separat în categorii, iar alegerea se face la întâm-plare din ecare categorie. Acest tip de selecµie face ca ecare grup ce compune populaµia s poata reprezentat în selecµie. Alegerea poate facut ³i în funcµie de m rimea ec rui grupce compune colectivitatea total (e.g., aleg din ecare judeµ un anumit num r de persoane,proporµional cu num rul de persoane din ecare judeµ).

• selecµie ciorchine, care este un e³antion straticat construit prin selectarea de indivizi dinanumite straturi (nu din toate).

• selecµia de tip experienµ , care µine cont de elementul temporal în selecµie. (e.g., diver³i timpide pe o encefalogram ).

• selecµie de convenienµ : de exemplu, alegem dintre persoanele care trec prin faµa universit µii.

• selecµie de judecat : cine face selecµia decide cine ramâne sau nu în selecµie.

• selecµie de cot : selecµia ar trebui s e o copie a întregii populaµii, dar la o scar mult maimic . A³adar, putem selecta proporµional cu num rul persoanelor din ecare ras , de ecare

Page 6: Curs Statistica Aplicata

C1 & L1 [Dr. Iulian Stoleriu] 5

gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ a persoanelor întregii µ ri, într-o scar mult mai mic ).

Organizarea ³i descrierea datelor

Presupunem c avem o colectivitate statistic , c reia i se urm re³te o anumit caracteristic .(e.g., colectivitatea este mulµimea tuturor studenµilor dintr-o universitate înrolaµi într-un anumitan de studii, iar caracteristica este num rul de credite obµinute de studenµi în decursul acelui an).Vom numi date informaµiile obµinute în urma observaµiei valorilor acestei caracteristici. Datelepot calitative sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ sau, respectiv, cantitativ . Aceste date pot date discrete, dac sunt obµinute în urma observ riiunei caracteristici discrete (o variabila aleatoare discret ), sau date continue, dac aceast carac-teristic este continu (o variabil aleatoare de tip continuu). În cazul din exemplu, datele vor cantitative ³i discrete.Primul pas în analiza datelor proasp t culese este de a le ordona ³i reprezenta grac, dar ³i de acalcula anumite caracteristici numerice pentru acestea. Datele înainte de prelucrare, adic exacta³a cum au fost culese, se numesc date negrupate. De exemplu, num rul de apeluri la 112 în lunaIulie, specicat zilnic, este:

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948

598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urm -re³te a se grupa datele, pentru o mai u³oar gestionare. Imaginaµi-v c enumer m toate voturileunei selecµii întâmpl toare de 15000 de votanµi, abia ie³iµi de la vot. Mai degrab , este util s grup m datele dup numele candidaµilor, precizând num rul de voturi ce l-a primit ecare.

Gruparea datelor

Datele prezentate sub form de distribuµie (tabel) de frecvenµe se numesc date grupate. Datelede selecµie obµinute pot date discrete sau date continue, dup cum caracteristicile studiate suntvariabile aleatoare discrete sau, respectiv, continue.

(1) Dac datele de selecµie sunt discrete (e.g., x1, x2, . . . , xn) ³i au valorile distinctex′1, x

′2, . . . , x

′r, r ≤ n, atunci ele pot grupate într-un a³a-numit tabel de frecvenµe (vezi exemplul

din Figura 1.1) sau într-un tablou de frecvenµe, dup cum urmeaz :

data :

(x′1 x′2 . . . x′rf1 f2 . . . fr

)unde fi este frecvenµa apariµiei valorii x′i, (i = 1, 2, . . . , r), ³i se va numi distribuµia empiric deselecµie a lui X. Aceste frecvenµe pot absolute sau de relative. Un tabel de frecvenµe (sau odistribuµie de frecvenµe) conµine toate categoriile ce sunt observate din datele colectate ³i num rulde elemente ce aparµine ec rei categorii în parte, adic frecvenµa absolut . O frecvenµ relativ se obµine prin împ rµirea frecvenµei absolute a unei categorii la suma tuturor frecvenµelor din tabel.

Page 7: Curs Statistica Aplicata

C1 & L1 [Dr. Iulian Stoleriu] 6

nota frecvenµa frecvenµa relativ 2 2 2.22%3 4 4.44%4 8 8.89%5 15 16.67%6 18 20.00%7 17 18.89%8 15 16.67%9 7 7.78%10 4 4.44%

Total 90 100%

Tabela 1.1: Tabel cu frecvenµe pentru date discrete.

Astfel, suma tuturor frecvenµelor relative este egal cu 1. Elementele unui tabel sunt, de regul :valori pentru variabile, frecvenµe sau frecvenµe relative.

În Tabelul 1.1, sunt prezentate notele studenµilor din anul al III-lea la examenul de Statistic .Acesta este exemplu de tabel ce reprezent o caracteristic discret .

Observaµia 1.1 (o glum povestit de G. Pólya,1 despre cum NU ar trebui interpretat frecvenµarelativ )Un individ suferind merge la medic. Medicul îl examineaz îndelung ³i, balansând dezam gitcapul, îi spune pacientului:"Of... drag domnule pacient, am dou ve³ti: una foarte proast ³i una bun . Mai întâi v aducla cuno³tinµ vestea proast : suferiµi de o boal groaznic . Statistic vorbind, din zece pacienµi cecontracteaz aceast boal , doar unul scap ."Pacientul, deja în culmea disper rii, este totu³i consolat de doctor cu vestea cea bun :"Dar, µi pe pace! Dumneavoastr aµi venit la mine, ³i asta v face tare norocos", continu optimist doctorul."Am avut deja nou pacienµi ce au avut aceea³i boal ³i toµi au murit, a³a c ... veµi supravieµui!"

(2) Dac X este de tip continuu, atunci se obi³nuieste s se fac o grupare a datelor de selecµie înclase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentând timpi (în min.sec) de a³teptarepentru primii 100 de clienµi care au a³teptat la un ghi³eu pân au fost serviµi.

Putem grupa datele de tip continuu într-un tablou de distribuµie de forma:

data :

([a0, a1) [a1, a2) . . . [ar−1, ar)f1 f2 . . . fr

),

sau sub forma unui tabel de distribuµie (vezi Tabelul 1.3). A³adar, putem grupa datele de tipcontinuu de mai sus în tablou de distribuµie:(

[0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)14 17 21 18 16 14

). (1.2)

1György Pólya (1887− 1985), matematician ungur

Page 8: Curs Statistica Aplicata

C1 & L1 [Dr. Iulian Stoleriu] 7

1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76

0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14

2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28

0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89

1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85

3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12

3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88

5.36 1.32

Tabela 1.2: Date statistice negrupate

clasa frecvenµa valoare medie[a0, a1) f1 x′1[a1, a2) f2 x′2

......

...[ar−1, ar) fr x′r

Tabela 1.3: Tabel cu frecvenµe pentru date continue.

Uneori, tabelul de distribuµie pentru o caracteristic de tip continuu mai poate scris ³i sub forma:

data :

(x′1 x′2 . . . x′rf1 f2 . . . fr

)unde

• x′i =ai−1 + ai

2este elementul de mijloc al clasei [ai−1, ai);

• fi este frecvenµa apariµiei valorilor din [ai−1, ai), (i = 1, 2, . . . , r),r∑i=1

fi = n.

A³adar, dac ne este dat o în³iruire de date ale unei caracteristici discrete sau continue, atuncile putem grupa imediat în tabele sau tablouri de frecvenµe. Invers (avem tabelul sau tabloul derepartiµie ³i vrem s enumer m datele) nu este posibil, decât doar în cazul unei caracteristici detip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului într-o anumit regiune a µ rii pe categorii de vârste, nu am putea ³ti cu exactitate vârsta exact a persoanelorcare au fost selecµionate pentru studiu.

Observ m c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numivaloare de mijloc pentru o clas , valoarea obµinut prin media valorilor extreme ale clasei. Încazul Tabelului 1.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenµa cumulat a unei clase este suma frecvenµelor tuturor claselor cu valori mai mici.

Vom numi o serie de timp (sau serie dinamic ori cronologic ) un tablou de forma

data :

(x1 x2 . . . xnt1 t2 . . . tn

),

Page 9: Curs Statistica Aplicata

C1 & L1 [Dr. Iulian Stoleriu] 8

vârsta frecvenµa frecvenµa relativ frecvenµa cumulat vârsta medie[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60Total 385 100% - -

Tabela 1.4: Tabel cu frecvenµe pentru rata somajului.

unde xi sunt variabile de r spuns, iar ti momente de timp (e.g., r spunsurile citite de un electro-cardiograf).

Motive serioase pentru care merit s devii statistician

(top 10)

(10) Pentru statisticienii, deviaµiile sunt considerate a normale.

(9) Statisticienii lucreaz discret ³i continuu.

(8) Putem concluziona orice dorim, la un nivel de semnicaµie potrivit.

(7) Nu trebuie s spunem niciodat ca suntem siguri; e sucient doar 95%.

(6) Normalitatea nu este o condiµie sine qua non.

(5) Suntem semnicativ diferiµi.

(4) Putem testa, f r probleme ³i folosind o lege bine stabilit , distribuµia posterioar a cuiva.

(3) Statistica este arta de a nu nevoit s spui vreodat c ai gre³it.

(2) Un statistician poate sta cu capul într-un cuptor incandescent ³i cu picioarele înpte îngheaµ ³i s spun c , în medie, se simte bine.

(1) Aproape nimeni nu dore³te jobul nostru important, deci nu vei avea emoµii c vei r mâne³omer.

Page 10: Curs Statistica Aplicata

Laborator 1 [Dr. Iulian Stoleriu] 9

2 Statistic Aplicat (L1)

Reprezent ri grace

Un tabel de frecvenµe sau o distribuµie de frecvenµe (absolute sau relative) sunt de cele mai multeori baza unor reprezent ri grace, pentru o mai bun vizualizare a datelor. Aceste reprezent ripot f cute în diferite moduri, dintre care amintim pe cele mai uzuale.

5 6 7 8 9 100

0.2

0.4

0.6

Figura 2.1: Reprezentarea cu puncte.

Reprezentare prin puncte

Reprezentarea prin puncte (en., dot plot) este folosit pentru selecµii de dimensiuni mici. Suntreprezentate puncte a³ezate unul peste celalalt, reprezentând num rul de apariµii ale unei valoripentru caracteristica dat . Un astfel de grac este reprezentat în Figura 2.1. Aceste reprezent risunt utile atunci când se dore³te scoaterea în evidenµ a anumitor pâlcuri de date (en., clusters) sauchiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate.

O funcµie Matlab util pentru reprezentarea datelor discrete este funcµia stem. Aceast funcµiereprezint datele sub forma unor linii verticale terminate cu un un cerculeµ gol (în mod implicit)la extremitatea opus axei. Are formatul general:

stem(X, Y, 'fill', 'type') % deseneaza pe Y vs. X

Opµiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din grac. Opµiunea 'type'se refer la tipul de linie folosit; poate linie continu (în mod implicit), punctat (:) sau de tiplinie-punct (−.). Spre exemplu, linia de cod

x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')

Page 11: Curs Statistica Aplicata

Laborator 1 [Dr. Iulian Stoleriu] 10

produce Figura 2.2.

Figura 2.2: Reprezentarea datelor discrete.

Reprezentarea stem-and-leaf

S presupunem c urm toarele date sunt punctajele (din 100 de puncte) obµinute de cei 20 deelevi ai unei grupe la o testare semestrial :

50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 2.1 reprezint aceste date sub forma stem-and-leaf (ramur -frunz ). Se observ c acesttabel arat atât cum sunt repartizate datele, cât ³i forma repartiµiei lor (a se privi gracul c având pe OY drept axa absciselor ³i OX pe cea a ordonatelor). A³adar, 7|5 semnic un punctajde 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod devizualizare a datelor. În secµiunile urm toare vom prezenta ³i alte metode utile.

stem leaf109 2 68 1 5 6 87 3 5 7 7 7 96 1 2 2 4 8 85 0 3 5 94 1 4 83 4 921 80

Tabela 2.1: Tabel stem-and-leaf reprezentând punctajele studenµilor.

Page 12: Curs Statistica Aplicata

Laborator 1 [Dr. Iulian Stoleriu] 11

Reprezentarea cu bare

Este util pentru reprezentarea variabilelor discrete cu un num r mic de valori diferite. Barele suntdreptunghiuri ce reprezint frecvenµele ³i nu sunt unite între ele. Fiecare dreptunghi reprezint o singur valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regul , pe orizontal iar frecvenµele pe vertical . În Figura 2.31 sunt reprezentate datele din tabelul cu note. Se poateschimba orientarea categoriilor ³i a claselor; în acest caz barele vor ap rea pe orizontal (veziFigura 2.32). Pentru reprezent ri grace vom folosi aplicaµia Matlab. În capitolul urm tor vom

Figura 2.3: Reprezent rile cu bare.

prezenta o scurt introducere în Matlab. Pentru mai multe detalii, se poate consulta ghidulonline de utilizare [9].Comenzile Matlab uzuale pentru reprezentarea cu bare sunt:

bar(X, Y, 'style'); % deseneaza vectorul Y vs. vectorul X

barh(X, Y); % deseneaza pe orizontala vectorul Y vs. vectorul Xbar(X, w); % deseneaza vectorul X vs. 1:N (N este lungimea lui X);bar3(Y, w, 'style') % deseneaza vectorul Y prin bare 3D

% w este latimea barelor, 'style' este modul reprezentarii

Mai sus, 'style' poate una dintre urm toarele: 'detached' (bare separate), 'grouped' (bare grupateal turat), sau 'stacked' (bare suprapuse).

Exemplu 2.1 (1) Comanda care produce primul grac din Figura 2.3 este:

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)

Aici, vectorul X este vectorul linie [2 3 4 5 6 7 8 9 10], scris prescurtat prin [2:10], iar vectorul Yeste [2 4 8 15 18 17 15 7 4]. L µimea barelor este 0.5.

Page 13: Curs Statistica Aplicata

Laborator 1 [Dr. Iulian Stoleriu] 12

(2) Comanda Matlab urm toare realizeaz al doilea grac din Figura 2.3, corespunz tor datelor dinTabelul 2.1:

barh(5:9, [3 5 6 4 2], 0.5)

(3) În Figura 2.4, am reprezentat prin bare 3D trei vectori: X (numerele naturale de la 1 la 7), Y(permutare aleatoare a elementelor lui X) ³i Z (numere naturale pare, de la 14 la 2). Cei trei vectoriformeaz coloanele matricei M . Comanda subplot(m,n,p) divizeaz fereastra grac în m × n zonedreptunghiulare ³i se poziµioneaz pe zona de rang p, unde va executa comanda ce urmeaz . Figura 2.4este generat de codul urm tor:

X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z'];

subplot(1,3,1); bar3(M, 0.75, 'detached')

subplot(1,3,2); bar3(M, 0.75, 'grouped')

subplot(1,3,3); bar3(M, 0.75, 'stacked')

Figura 2.4: Reprezentare 3D prin bare.

Histograme

Cuvântul "histogram " a fost introdus pentru prima oar de Karl Pearson2 în 1895. Acesta deriv dincuvintele grece³ti histos (gr., ridicat în sus) ³i gramma (gr., desen, înregistrare). O histogram este oform pictorial a unui tabel de frecvenµe, foarte util pentru selecµii mari de date de tip continuu. Seaseam n cu reprezentarea prin bare, cu urm toarele dou diferenµe: nu exist spaµii între bare (de³i, potap rea bare de înalµime zero ce arat a spaµiu liber) ³i ariile barelor sunt proporµionale cu frecvenµelecorespunz toare. Num rul de dreptunghiuri este egal cu num rul de clase, l µimea dreptunghiului este

2Karl Pearson (1857− 1936), statistician, avocat ³i eugenist britanic

Page 14: Curs Statistica Aplicata

Laborator 1 [Dr. Iulian Stoleriu] 13

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 25) 10[25, 30) 2

Tabela 2.2: Tabel cu în lµimile plantelor.

Tabela 2.3: Histograme pentru datele din Tabelul 2.2.

intervalul clasei, iar în lµimea este a³a încât aria ec rui dreptunghi reprezint frecvenµa. Aria total atuturor dreptunghiurilor este egal cu num rul total de observaµii. Dac barele unei histograme au toateaceea³i l µime, atunci în lµimile lor sunt proporµionale cu frecvenµele. În lµimile barelor unei histogrameise mai numesc ³i densit µi de frecvenµ .În cazul în care l µimile barelor nu sunt toate egale, atunci în lµimile lor satisfac:

în lµimea = k · frecvenµal µimea clasei

, k = factor de proporµionalitate.

Comenzile Matlab uzuale pentru crearea histogramelor sunt:

hist(X, n); % unde X este un vector, n este numarul de bare

hist(X, Y); % deseneaza distributia vectorului X, cu numarul de bare egal cu

% lungimea vectorului Y, centrate in elementele lui Y

N = histc(X,E); % returneaza numarul N de valori ale vectorului X, care se afla

% intre elementele vectorului E

bar(E,N,'histc') % reprezinta grafic pe N determinat anterior

hist3(Y) % realizeaza o histogram 3D, unde Y este vector bidimensional

Datele din Tabelul 2.2 reprezint în lµimile unui e³antion de plante culese de un cercet tor dintr-o anu-mit regiune a µ rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 2.3. CodulMatlab care produce acest grac este:

X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ...

5*rand(10,1)+20; 5*rand(2,1)+25]; % genereaza un vector X ca in Tabelul 2.2C = [2.5 7.5 12.5 17.5 22.5 27.5]; % mijloacele latimilor barelor

hist(X,C); % deseneaza 6 histograme

axis([-1 31 0 30]) % fixeaza axele

S presupunem c altcineva ar grupat datele din Tabelul 2.2 într-o alt manier , în care clasele nusunt echidistante (vezi Tabelul 2.4). În Tabelul 2.4, datele din ultimele dou clase au fost cumulateîntr-o singur clas , de l µime mai mare decât celelalte, deoarece ultima clas din Tabelul 2.2 nu avea

Page 15: Curs Statistica Aplicata

Laborator 1 [Dr. Iulian Stoleriu] 14

suciente date. Histograma ce reprezint datele din Tabelul 2.4 este cea din Figura 2.5. Conform curegula proporµionalit µii ariilor cu frecvenµele, se poate observa c primele patru bare au în lµimi egalecu frecvenµele corespunz toare, pe când în lµimea ultimei bare este jum tate din valoarea frecvenµeicorespunz toare, deoarece l µimea acesteia este dublul l µimii celorlalte.În general, pentru a construi o histogram , vom avea în vedere urm toarele:− datele vor împ rµite (unde este posibil) în clase de lungimi egale. Uneori aceste diviz ri sunt naturale,alteori va trebui s le fabric m.− num rul de clase este, în general, între 5 ³i 20.− înregistraµi num rul de date ce cad în ecare clas (numite frecvenµe).− gura ce conµine histograma va avea clasele pe orizontal ³i frecvenµele pe vertical .

Liniile de cod urm toare simuleaz histograma reprezentat în Figura 2.5:

x = randn(1000, 2); % numere repartizate normal

hist3(x)

Figura 2.5: Histogram 3D.

Observaµia 2.2 (1) Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 2.4 este[20, ∞)), atunci se obi³nuie³te ca l µimea ultimului interval s e luat drept dublul l µimii intervalu-lui precedent.(2) În multe situaµii, capetele intervalelor claselor sunt ni³te aproxim ri, iar în locul acestora vom puteautiliza alte valori. Spre exemplu, s consider m clasa [15, 20). Aceast clas reprezint clasa acelor plantece au în lµimea cuprins între 15cm ³i 20cm. Deoarece valorile în lµimilor sunt valori reale, valorile 15³i 20 sunt, de fapt, aproxim rile acestor valori la cel mai apropiat întreg. A³adar, este posibil ca aceast clas s conµin acele plante ce au în lµimile situate între 14.5cm (inclusiv) ³i 20.5cm (exclusiv). Amputea face referire la aceste valori ca ind valorile reale ale clasei, numite frontierele clasei. În cazul încare am determinat frontierele clasei, l µimea unei clase se dene³te ca ind diferenµa între frontierele ce-i

Page 16: Curs Statistica Aplicata

Laborator 1 [Dr. Iulian Stoleriu] 15

corespund. În concluzie, în cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, l µimea 6 ³i densitateade frecvenµ 17

6 . Pentru exemplicare, în Tabelul 2.6 am prezentat frontierele claselor, l µimile lor ³idensit µile de frecvenµ pentru datele din Tabelul 1.4.

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 30) 12

Tabela 2.4: Tabel cu în lµimile plantelor.

Tabela 2.5: Histograme pentru datele din Tabelul 2.4.

în lµimea (în cm) frontierele l µimea frecvenµa densitatea de frecvenµ [18, 25) 17.5− 25.5 8 34 4.25[25, 35) 24.5− 35.5 11 76 6.91[35, 45) 34.5− 45.5 11 124 11.27[45, 55) 44.5− 55.5 11 87 7.91[55, 65) 54.5− 65.5 11 64 5.82

Tabela 2.6: Tabel cu frontierele claselor.

Reprezentare prin sectoare de disc

Se poate reprezenta distribuµia unei caracteristici ³i folosind sectoare de disc (diagrame circulare) (en.,pie charts), ecare sector de disc reprezentând câte o frecvenµ relativ . Aceast variant este util înspecial la reprezentarea datelor calitative. Comanda Matlab pentru un pie chart pentru un vector Xeste pie(X). De exemplu, comanda care produce Figura 2.6 este:

T = [10 11.11 15.56 25.55 22.22 15.56];

pie(T,'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10')

Exist ³i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale, folosind comanda pie3(x) dinMatlab. În Figura 2.7 am reprezentat datele din Tabelul 1.4.

pie3([34 76 124 87 64])

Page 17: Curs Statistica Aplicata

Laborator 1 [Dr. Iulian Stoleriu] 16

10%

11%

16%

26%

22%

16%

Nota 5Nota 6Nota 7Nota 8Nota 9Nota 10

Figura 2.6: Reprezentarea pe disc a frecvenµelor relative ale notelor din tabelul cu note

Figura 2.7: Reprezentare pe disc 3D

Page 18: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 17

3 Statistic Aplicat (C2)

Elemente de Teoria probabilit µilor

Experienµe aleatoare

Numim experienµ aleatoare (sau experiment aleator) orice act cu rezultat incert, care poate repetat înanumite condiµii date. Opusul noµiunii de experiment aleator este experimentul determinist, semnicândun experiment ale c rui rezultate sunt complet determinate de condiµiile în care acesta se desf ³oar . Re-zultatul unui experiment aleator depinde de anumite circumstante întâmpl toare ce pot aparea. Exemplede experienµe aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de viaµ a unui individ,observarea vremii de a doua zi, observarea num rului de apeluri telefonice recepµionate de o centralatelefonic într-un timp dat. Aplicarea experienµei asupra unei colectivit µi date se nume³te prob . Re-zultatul potenµial al unei experienµe aleatoare se nume³te eveniment aleator. De exemplu: apariµia uneiduble (6, 6) la aruncarea a dou zaruri, extragerea unei bile albe dintr-o urn . Se nume³te caz favorabil

pentru evenimentul aleator un caz în care respectivul eveniment se realizeaz . Un eveniment aleator poateavea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se nume³te eveniment

elementar.Fie Ω o mulµime nevid , pe care o vom numi mulµimea tuturor evenimentelor elementare. Un elemental lui Ω îl vom nota cu ω. Vom numi evenimentul sigur, acel eveniment care se poate realiza în urmaoric rei experienµe aleatoare. Evenimentul imposibil este acel eveniment ce nu se realizeaz în nicio prob .Evenimentele aleatoare le vom nota cu A, B, C, . . . . Prin Ac vom nota evenimentul complementar lui A,care se realizeaz atunci când A nu se realizeaz . Avem: Ac = Ω \A.Pentru a putea cuantica ³ansele de realizare a unui eveniment aleator, s-a introdus noµiunea de probabi-litate. În literatura de specialitate, probabilitatea este denit în mai multe moduri: cu deniµia clasic (apare pentru prima oar în lucr rile lui P. S. Laplace3), folosind o abordare statistic (cu frecvenµerelative) sau utilizând deniµia axiomatic (Kolmogorov).

Probabilitatea clasic este denit doar pentru cazul în care experienµa aleatoare are un num r nit decazuri posibile ³i echiprobabile (toate au aceea³i ³ans de a se realiza). În acest caz, probabilitatea derealizare a unui eveniment este raportul dintre num rul cazurilor favorabile realiz rii evenimentului ³inum rul cazurilor egal posibile ale experimentului aleator.

Exemplu 3.1 Se cere probabilitatea obµinerii unei duble la o singur aruncare a unei perechi de zaruriideale. Mulµimea cazurilor posibile este mulµimea tuturor perechilor (i, j); i, j = 1, 6, care are 36 deelemente. Cazurile favorabile sunt cele din mulµimea (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), adic 6elemente. Probabilitatea apariµiei unei duble este P = 6

36 = 16 .

Sunt îns foarte multe cazuri în care deniµia clasic nu mai poate utilizat . Spre exemplu, în cazulîn care se cere probabilitatea ca, alegând la întâmplare un punct din p tratul [0, 1] × [0, 1], acesta s sesitueze deasupra primei bisectoare. În acest caz, atât num rul cazurilor posibile, cât ³i num rul cazurilorfavorabile este innit, f când deniµia clasic a probabilit µii inutilizabil .

Probabilitatea statistic exprim probabilitatea cu ajutorul frecvenµelor de realizare a unui eveniment într-un num r mare de experimente aleatoare realizate în acelea³i condiµii.

3Pierre-Simon, marquis de Laplace (1749− 1827), matematician ³i astronom francez

Page 19: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 18

S consider m o experienµ aleatoare (e.g., aruncarea unui zar) al c rei rezultat posibil este evenimentulaleator A (e.g., apariµia feµei cu 6 puncte). Aceste experiment aleator îl putem efectua de N ori încondiµii identice (spunem c efectu m N probe ale experimentului), astfel încât rezultatul unei probe s nu inuenµeze rezultatul alteia (probe independente). S not m cu νN (A) frecvenµ absolut de realizare

a lui A în cele N probe independente. RaportulνN (A)

Nse va numi frecvenµ relativ . Not m cu fN (A)

acest raport, ce are urm toarele propriet µi:

(a) 0 ≤ fN (A) ≤ 1;

(b) fN (Ω) = 1;

(c) fN (Ac) = 1− fN (A), ∀A;

(d) fN (A⋃B) = fN (A) + fN (B), dac A

⋂B = ∅.

Mai mult, exist limN→∞

fN (A) ³i aceasta este denit ca ind probabilitatea de realizare a evenimentului A,

notat P (A). A³adar, în cazul deniµiei statistice a probabilit µii, aceasta este limit ³irului frecvenµelorrelative de producere a respectivului eveniment când num rul de probe tinde la innit (vezi Teorema 7.4).

În cele ce urmeaz , vom deni noµiunea de probabilitate din punct de vedere axiomatic. Aceast axioma-tic a fost introduse de matematicianul rus A. N. Kolmogorov4 (1929) ³i are la baza teoria m surii.

Deniµia axiomatic a probabilit µii

Reamintim, Ω este o mulµime abstract , nevid .

Deniµia 3.2 Numim algebr sau câmp o colecµie F de submulµimi ale lui Ω astfel încât:(a) ∅ ∈ F ;(b) dac A ∈ F , atunci Ac ∈ F ; (Ac = Ω \A) (închidere la complementariere)(c) dac A, B ∈ F , atunci A

⋃B ∈ F (închidere la reuniune nit ).

Propoziµia 3.3 (c) implic

(c') dac (Ai)i=1, n ∈ F , atuncin⋃i=1

Ai ∈ F . (3.1)

Deniµia 3.4 Numim σ−algebr sau σ−câmp (sau corp borelian) o colecµie F de submulµimi ale lui Ωastfel încât (a), (b) din deniµia anterioar sunt satisf cute ³i, în plus, avem

(c') dac (An)n∈N ∈ F , atunci∞⋃n=1

An ∈ F ; (închidere la reuniune num rabil ) (3.2)

Exemplu 3.5 (1) Ω = R ³i F = A; A ⊂ R este o σ−algebr ;(2) F = Ω, ∅ este o algebr ;(3) Dac A ∈ Ω, F = A, Ac, Ω, ∅ este o algebr ;(4) Dac A ⊂ R, atunci mulµimea tuturor p rµilor lui A, P(A), formeaz o σ-algebr .(5) Dac Ω e o mulµime nevid ³i F este o σ−algebr pe Ω, atunci perechea (Ω, F) se nume³te spaµiu

m surabil. Elementele unei σ-algebre se numesc mulµimi m surabile.

4Andrei Nikolaevich Kolmogorov (1903− 1987), matematician rus

Page 20: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 19

Deniµia 3.6 Fie F o colecµie de submulµimi ale lui Ω. Numim σ−algebr generat de F cea mai mic σ−algebr ce conµine F . O not m prin σ(F) ³i este, de fapt,

σ(F) =⋂A⊃F

A. (3.3)

Dac E e un spaµiu topologic, vom numi σ-algebr Borel5, notat B(E), σ-algebra generat de familiamulµimilor deschise din E, i.e., cea mai mic σ-algebr ce conµine deschi³ii lui E.Dac E = Rd, atunci B(Rd) (sau Bd) este σ-algebra generat de cuburile deschise din Rd. O mulµimeA ∈ Bd se nume³te mulµime borelian .

Deniµia 3.7 O funcµie P : (Ω, F)→ R, care asociaz oric rui eveniment A ∈ F num rul real P (A), cupropriet µile:

(a) P (A) ≥ 0, ∀A ∈ F ;

(b) P (Ω) = 1;

(c) P (A⋃B) = P (A) + P (B),∀A, B ∈ F , A

⋂B = ∅,

se nume³te probabilitate.

Aceasta este deniµia axiomatic dat de A. N. Kolmogorov. Un câmp de evenimente (Ω, F) înzestrat cuo probabilitate P se nume³te câmp de probabilitate în sens Kolmogorov ³i îl vom nota cu (Ω, F , P ).

Observaµia 3.8 Dac în locul condiµiei (c) avem:(c)′ dac (An)n∈N ∈ F disjuncte dou câte dou (Ai

⋂Aj = ∅, ∀i 6= j) ³i P (

⋃n∈N

An) ∈ F , atunci

P (⋃n∈N

An) =∑n∈N

P (An). (σ − aditivitate) (3.4)

atunci P se va numi probabilitate σ−aditiv pe corpul borelian (Ω, F), iar (Ω, F , P ) se va numi câmp

borelian de probabilitate.

Observaµia 3.9 (1) Fie Ω o mulµime cu n elemente, F = P(Ω) ³i A ∈ Ω. Atunci

P (A) =card Acard Ω

(3.5)

dene³te o m sur de probabilitate pe F (probabilitatea în sens clasic).(2) În cazul în care condiµia (b) din deniµia probabilit µii lipse³te, atunci spunem ca P dene³te o m sur

pe spaµiul m surabil (Ω, F ), iar tripletul (Ω, F , P ) se va numi spaµiu cu m sur . O probabilitate esteastfel un caz particular al noµiunii de m sur , în cazul în care m sura întregului spaµiu este P (Ω) = 1.

Spunem c o proprietate are loc a.s. (aproape sigur) dac are loc întotdeauna, cu excepµia unei mulµimiA pentru care P (A) = 0. O astfel de mulµime se va numi mulµime P -nul .

5Félix Édouard Justin Émile Borel (1871− 1956), matematician si politician francez

Page 21: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 20

Câmp de probabilitate

Principalul concept al teoriei probabilit µilor este spaµiu probabilistic sau câmp de probabilitate. În cele ceurmeaz , când ne vom referi la câmp de probabilitate, vom înµelege un triplet (Ω, F , P ), cu urm toarelepropriet µi:

(i) Ω este o mulµime abstract (mulµimea tuturor evenimentelor elementare ale unui experimentstochastic);

(ii) F ⊂ P(Ω) este o σ-algebr , i.e., sunt îndeplinite urm toarele condiµii:(σ1) Ω ∈ F ;(σ2) A ∈ F =⇒ Ac ∈ F ;(σ3) ∀(An)n∈N ∈ F =⇒

⋃n∈N

An ∈ F ;

(iii) P : F → R e o funcµie satisf când condiµiile:(P1) P (Ω) = 1;(P2) ∀A ∈ F , P (A) ≥ 0;(P3) ∀(An)n∈N, An

⋂Am = ∅,∀n 6= m, avem P (

⋃n∈N

An) =∑n∈N

P (An).

Terminologie:(i) Elementele lui F se numesc evenimente iar ω ∈ Ω sunt elemente de prob .(ii) O mulµime A ⊂ F , cu A− σ-algebr , o vom numi sub-σ-algebr a lui F .(iii) ∀A ∈ F , P (A) se va numi probabilitatea lui A.(iv) Dac P (A) = 0, atunci A se va numi mulµime P -nul .(v) Dac P (A) = 1, atunci A este evenimentul sigur sau A se realizeaz aproape sigur (a.s.).

Dat ind un ³ir (An)n∈N în Ω, denim

lim infn→∞

An =

∞⋃n=1

⋂m≥n

Am ³i lim supn→∞

An =

∞⋂n=1

⋃m≥n

Am. (3.6)

În general, lim infn→∞

An ⊆ lim supn→∞

An. În caz de egalitate vom spune c ³irul (An)n∈N are limit ³i vom scrie

limn→∞

An = lim infn→∞

An = lim supn→∞

An. (3.7)

Observaµia 3.10 Din punct de vedere euristic, lim infn→∞

An reprezint evenimentul care se realizeaz când

toate An se realizeaz , mai puµin un num r nit. Pe de alt parte, lim supn→∞

An înseamn realizarea unei

innit µi de evenimente din ³irul A1, A2, . . . .

Câmp de probabilitate geometric

S presupunem c am dispune de un procedeu prin care putem alege la întâmplare un punct dintr-uninterval [a, b]. În plus, vom presupune c acest procedeu ne asigur c nu exist porµiuni privilegiate aleintervalului [a, b], i.e., oricare ar dou subintervale de aceea³i lungime, este la fel de probabil ca punctuls cad în oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege unnum r mare de puncte, acestea vor repartizate aproximativ uniform în [a, b], i.e., nu vor exist puncteîn vecin tatea c rora punctul ales s cad mai des, ori de câte ori este ales. De aici reiese c probabilitatea

Page 22: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 21

ca un punct s cad într-un subinterval al lui [a, b] este dependent de lungimea acelui subinterval ³i nu depoziµia sa în interiorul lui [a, b]. Mai mult, aceasta este chiar proporµional cu lungimea subintervalului.

Se poate observa analogia cu experienµa alegerii dintr-un num r de cazuri egal posibile.

Dac [a, b] e mulµimea cazurilor egal posibile ³i [c, d] ⊂ [a, b] este mulµimea cazurilor favorabile, atunciprobabilitatea ca punctul ales s cad în [c, d] este

P (A) =m sura ([c, d])

m sura ([a, b])=d− cb− a

.

În particular, dac x ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval s coincid cu un punct dinainte stabilit este zero ³i, astfel, întrez rim posibilitatea teoretic ca un eveniment s aib probabilitatea nul , far ca el s e evenimentul imposibil ∅.

În mod cu totul analog, dac se ia la întâmplare un punct dintr-un domeniu planar D, astfel ca s nu existepuncte sau porµiuni privilegiate în acest domeniu, atunci probabilitatea ca punctul s cad în subdomeniulD′ ⊂ D este aria D′

aria D .

În trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulµimii cazurilor favo-rabile ³i volumul mulµimii cazurilor egal posibile.

Probabilit µi condiµionate

Fie spaµiul probabilistic (Ω, F , P ) ³i A, B ∈ F , cu P (B) > 0. Denim probabilitatea evenimentului Acondiµionat de realizarea evenimentului B, notat P (A|B) sau PB(A), prin:

PB(A) =P (A

⋂B)

P (B). (3.8)

Observaµia 3.11 PB(A) astfel denit va o probabilitate pe F , iar tripletul (Ω, F , PB) este un câmpde probabilitate.

Propoziµia 3.12 (a) (formula probabilit µilor totale) Fie (Bi)i∈I , (I ⊂ N) o partiµie a lui Ω, astfel încâtP (Bi) > 0, ∀i ∈ I. Atunci

P (A) =∑i∈I

P (Bi) · PBi(A), ∀A ∈ F . (3.9)

(b) (formula lui Bayes6) În condiµiile de la (a) ³i, în plus, P (A) > 0, avem:

PA(Bi) =P (Bi) · PBi(A)∑

j∈IP (Bj) · PBJ (A)

, ∀i ∈ I. (3.10)

(c) Dac B1, B2, . . . , Bn ∈ F , astfel încât P (B1⋂B2⋂· · ·⋂Bn) > 0, atunci:

P (B1

⋂B2

⋂· · ·⋂Bn) = P (B1) · PB1(B2) · . . . · PB1

⋂···

⋂Bn−1

(Bn). (3.11)

6Thomas Bayes, (1702− 1761) matematician britanic

Page 23: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 22

Variabile aleatoare

Din punct de vedere euristic, o variabil aleatoare este o funcµie ce ia valori întâmpl toare. În viaµ dezi cu zi întâlnim numeroase astfel de funcµii, e.g., numerele ce apar la extragerea loto, num rul clienµilordeserviµi la un anumit ghi³eu într-o anumit perioad , timpul de a³teptare a unei persoane într-o staµie deautobuz pân la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfâr³itul alfabetuluiX, Y, Z sau ξ, η, ζ ³i altele.

Fie (Ω,F , P ) un câmp de probabilitate ³i (E, E) un spaµiu m surabil.O funcµie X : (Ω,F , P )→ (E, E) se nume³te variabil aleatoare (v.a.) dac

pentru orice B ∈ E , X−1(B) ∈ F (3.12)

(mai spunem c X este o funcµie F−m surabil ).În particular, dac :

• (E, E) ≡ (R,B(R)), atunci X este o variabil aleatoare real ;

• (E, E) ≡ (Rd,B(Rd)), atunci X este vector aleator (sau v.a.) d-dimensional( );

• (E, E) ≡ (Rn×m,B(Rn×m), atunci X este o matrice aleatoare.

Deoarece mulµimile (−∞, x], x ∈ R genereaz B(R), pentru ca X : (Ω,F , P ) → R s e o v.a. real este sucient ca

∀x ∈ R, ω ∈ Ω | X(ω) ≤ x ∈ F . (3.13)

Vom utiliza notaµiile X ≤ x not= ω ∈ Ω | X(ω) ≤ x ³i, în general,

X ∈ B not= ω ∈ Ω | X(ω) ∈ B

Dac X : (Ω,F , P )→ Rd este o v.a., atunci

F(X) = X−1(B), B ∈ Bd

este o σ−algebr , denumit σ−algebra generat de v.a. X. Astfel, σ(X) este cea mai mic sub−σ−algebr a lui F astfel încât X este m surabil .

Dac (Xn)n∈N este un ³ir de v.a. reale astfel încât Xk(ω)→ X(ω), aproape pentru toµi ω ∈ Ω, atunci Xeste tot o v.a. real .

Fie Xi : (Ω,F , P )→ (E, E), (i ∈ I) o familie de v.a.. Denim σ−algebra generat de familia Xi, i ∈ N,notat σ(Xi, i ∈ I), cea mai mic σ−algebr pentru care Xi, i ∈ I, sunt m surabile.

Variabilele aleatoare pot lua o mulµime cel mult num rabil de valori (³i le numim v.a. discrete) saupoate lua o mulµime continu de valori (un interval nit sau innit din R), ³i le vom numi (v.a. de tip

continuu). Exemple de v.a. discrete: num rul feµei ap rute la aruncarea unui zar, num rul de apariµiiale unui tramvai într-o staµie într-un anumit interval, num rul de insuccese ap rute pân la primul succesetc. Din clasa v.a. de tip continuu amintim: timpul de a³teptare la un ghi³eu pân la servire, preµul unuiactiv nanciar într-o perioad bine determinat .O v.a. discret X se poate scrie sub forma

X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, J ⊂ N. (3.14)

Page 24: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 23

Aici χA este funcµia indicatoare a mulµimii A, iar Ak = X−1(xk). Observ m cu u³urinµ c

n⋃i=1

Ai = Ω ³i Ai⋂Aj = ∅, ∀i 6= j.

Uneori, unei o v.a. discrete i se atribuie urm torul tablou de repartiµie:

X :

(xipi

), (3.15)

unde pi = P (X = xi), i ∈ J ⊂ N,n∑i=1

pi = 1. Spre exemplu, tabloul de repartiµie pentru v.a. ce reprezint

num rul de puncte ce apare la aruncarea unui zar ideal este:(1 2 3 4 5 6

1/6 1/6 1/6 1/6 1/6 1/6

),

O v.a. X real se nume³te de tip continuu dac exist f : Rd → R m surabil Borel ce îndepline³tecondiµiile:

(a) f(x) ≥ 0, a.s.

(b)

∫Rf(x) dx = 1

(c) PX(B) =

∫Bf(x) dx, ∀B ∈ F .

Funcµia f se nume³te densitatea de repartiµie a lui X.

În urm toarele dou secµiuni, vom deni cele mai importante caracteristici funcµionale ³i numerice aleunei variabile aleatoare X : (Ω,F , P )→ (Rd, B(Rd)).

Caracteristici funcµionale ale variabilelor aleatoare

Repartiµia

Repartiµia (sau legea, sau distribuµia) lui X este o m sur de probabilitate pe Bd, PX : Bd → [0, 1], dat prin

PX(B) = P (X ∈ B), ∀B ∈ Bd. (3.16)

Repartiµia unei v.a. de tip discret (de forma 3.14) este astfel:

PX(B) =∑j∈J

P (Aj)δxj (B), (3.17)

unde

δa(B) =

1, dac a ∈ B0, în rest

Repartiµia unei v.a. X de tip continuu este:

PX(B) =

∫Bf(x) dx, ∀B ∈ Bd, (3.18)

Page 25: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 24

unde f(x) este densitatea de repartiµie a lui X. În limba englez , pentru repartiµie se folosesc termenii:distribution sau law.

Funcµia de repartiµie (sau funcµia de repartiµie cumulat )

Numim funcµie de repartiµie ata³at v.a reale X o funcµie F : R→ [0, 1], dat prin

F (x) = P (X ≤ x).

Astfel, F (x) = PX((−∞, x]), adic este repartiµia mulµimii (−∞, x].Termenul în englez pentru funcµia de repartiµie este cumulative distribution function (cdf).Dac X = (X1, X2, . . . , Xd) : (Ω, F , P ) → Rd este un vector aleator, atunci funcµia de repartiµie sedene³te ca ind F : Rd → [0, 1], dat prin

F ((x1, x2, . . . , xd)) = P (X1 ≤ x1;X2 ≤ x2; . . . , Xd ≤ xd).

Propriet µi ale funcµiei de repartiµie:

• este cresc toare (F (x) ≤ F (y), ∀x, y ∈ R, x ≤ y);

• este continu la dreapta ( limyx

F (y) = F (x), ∀x ∈ R);

• limx→−∞

F (x) = 0 ³i limx→∞

F (x) = 1.

În cazul unei variabile aleatoare discrete, cu tabloul de repartiµie dat de (3.15), funcµia sa de repartiµiaîntr-un punct x este:

F (x) =∑

i;xi≤x

pi. (3.19)

Dac X este o variabil aleatoare continu ³i f este densitatea sa de repartiµie, atunci funcµia de repartiµieeste dat de formula:

F (x) =

x∫−∞

f(t) dt, x ∈ R. (3.20)

Observaµia 3.13 Deseori în calcule probabilistice, avem de calculat evenimentul P (X > x), pentru unx ∈ R dat. Numim funcµie de repartiµie complementar , funcµia Fc : R→ [0, 1], dat prin F (x) = P (X >x) = 1− F (x), ∀x ∈ R.

Funcµia caracteristic

Numim funcµie caracteristic ata³at v.a reale X o funcµie φX : R→ C, dat prin:

φX(t) =∑k∈J

ei t xk pk, dac X =∑k∈J

xk χAk , (X = discret )

φX(t) =

∫Rei t xf(x) dx, dac X = variabil aleatoare continu .

Aici, i este num rul imaginar, (i2 = −1).Propriet µi ale funcµiei caracteristice:

Page 26: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 25

• |φX(t)| = 1, ∀t ∈ R;

• φaX(t) = φX(a t), ∀t ∈ R, a ∈ R;

• φaX+b(t) = φX(a t)eibt, ∀t ∈ R, a ∈ R;

• φX(−t) = φX(t), ∀t ∈ R;

• φX : R→ C este uniform continu ;

• ∀ti, tj ∈ R, ∀zi, zj ∈ C avemn∑

i, j=1

φX(ti − tj)zizj ≥ 0.

Funcµia de probabilitate (sau de frecvenµ )

Fie X o variabil aleatoare discret , X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, Ai ∈ F , J ⊂ N. Numim funcµie de

probabilitate (de frecvenµ ) ata³at variabilei aleatoare discrete X o funcµie f : R→ R, denit prin

f(xi) = pi, unde pi = P (Ai), i ∈ J.

Funcµia de probabilitate (en., probability distribution function) pentru o variabil aleatoare discret estesimilara densit µii de repartiµie pentru o variabil aleatoare continu . Într-adevar, propriet µile pe care lesatisface funcµia de probabilitate sunt:

f(xi) ≥ 0, ∀i ∈ J,n∑i=1

f(xi) = 1.

Caracteristici numerice ale variabilelor aleatoare

Media

Deniµia 3.14 Dac X este o v.a. de tip discret, X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, J ⊂ N, atunci media

acestei v.a. se dene³te prin:E(X) =

∑i∈J

xiP (Ai). (3.21)

Deniµia 3.15 Dac X este o v.a. de tip continuu, cu densitatea de repartiµie f : R→ R, atunci media

(teoretic ) acestei v.a., dac exist (!) (nu toate v.a. de tip continuu admit medie - vezi repartiµia Cauchy),se dene³te astfel:

E(X) =

∫Rxf(x)dx, (dac aceast integral exist ). (3.22)

Observaµia 3.16 Deniµia mediei poate dat într-un cadru mult mai general, folosind integrala Le-

besque. Aceast integral este generalizarea integralei Riemann. Sumariz m mai jos, gradual ³i f r demonstraµiile aferente, construcµia mediei unei v.a. reale.

Page 27: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 26

Pasul 1: O v.a. X cu X(ω) =n∑i=1

xiχAi(ω) se nume³te v.a. simpl . Pentru v.a. simpl X denim

media (notat cu E(X)) astfel:

E(X)not=

∫ΩX(ω) dP (ω) =

n∑i=1

xiP (Ai).

Pasul 2: Dac X : Ω → R ³i X ≥ 0, atunci exist un ³ir Xn : Ω → R, (n ∈ N) de v.a. simple astfelîncât

0 ≤ X1(ω) ≤ · · · ≤ Xn(ω) ≤ X(ω), ∀ω ∈ Ω

³ilimn→∞

Xn(ω) = X(ω).

DenimE(X) = lim

n→∞E(Xn).

Pasul 3: Fie X : Ω→ R o v.a.. Atunci X = X+ −X−, unde

X+(ω) = maxX(ω), 0, X−(ω) = max−X(ω), 0 = (−X)+(ω).

În acest caz denim media lui X,E(X) = E(X+)− E(X−),

ori de câte ori m car una dintre E(X+) ³i E(X−) este nit . Când ambele sunt nite, atunci spunem c X este o v.a. integrabil .Dac X = X1 + iX2 : Ω→ C, denim media v.a. complexe X prin

E(X) = E(X1) + iE(X2),

ori de câte ori ambele medii exist ³i sunt nite.Dac X este un vector aleator, X = (X1, X2, . . . , Xd)

T : Ω→ Rd, atunci denim media lui X prin

E(X) = (E(X1), E(X2), . . . , E(Xd))T .

Propoziµia 3.17 Fie X : Ω→ Rd o v.a. cu densitatea de repartiµie f ³i o funcµie m surabil g : Rd → R.Atunci

E(g(X)) =

∫Rdg(x)f(x) dx.

În particular, dac g : R→ R este funcµia identic , atunci:

E(X) =

∫ΩX(ω) dP (ω) =

∫Rxf(x) dx,

³i astfel redescoperim deniµia mediei unei v.a. de tip continuu din Deniµia 3.15.Relaµia anterioar se mai nume³te ³i formula de transport pentru integral , deoarece integrala abstract pe mulµimea Ω este "transportat " într-o integrala Riemann pe R.

Dispersia (sau varianµa) ³i abaterea standard

Dac X este o variabil aleatoare ³i X = X − E(X) (numit abaterea lui X de la media sa), atunciE(X) = 0. A³adar, nu putem m sur gradul de împr ³tiere a valorilor lui X în jurul mediei sale doarcalculând X − E(X). Avem nevoie de o alt m sur . Aceasta este dispersia variabilei aleatoare.

Page 28: Curs Statistica Aplicata

STATS 2 [Dr. Iulian Stoleriu] 27

Deniµia 3.18 Dac X este o v.a. discret , X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, J ⊂ N, cu media E(X) = m,

denim dispersia lui X ca ind:

D2(X) =∑i∈J

(xi −m)2pi, unde pi = P (Ai), ∀i ∈ J. (3.23)

Deniµia 3.19 Fie X : Ω → R o v.a. de tip continuu pentru care media poate denit (exist E(X) = m ∈ R). Denim dispersia lui X (sau varianµa lui X) cantitatea

D2(X) = E[(X −m)2] =

∫R

(x−m)2f(x) dx. (3.24)

Notaµiile consacrate pentru dispersie sunt D2(X) sau σ2.

Observaµia 3.20 Dispersia scris ca integral abstract (vezi propoziµia anterioar ) este:

σ2 =

∫Ω

(X(ω)−m)2 dP (ω).

Numim abatere standard (sau deviaµie standard) cantitatea σ =√σ2.

Page 29: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 28

4 Statistic Aplicat (L2)

Experienµe aleatoare în Matlab

Generarea de numere (pseudo-)aleatoare

Numerele generate de Matlab sunt rezultatul compil rii unui program deja existent în Matlab, a³adarel vor pseudo-aleatoare. Putem face abstracµie de modul programat de generare ale acestor numere ³is consider m c acestea sunt numere aleatoare.

Generarea de numere uniform repartizate într-un interval, U(a, b)

Funcµia rand

• Funcµia rand genereaz un num r aleator repartizat uniform în [0, 1].De exemplu, comanda

X = (rand < 0.5)

simuleaz aruncarea unei monede ideale. Mai putem spune ca num rul X astfel generat este unnum r aleator repartizat B(1, 0.5).

• De asemenea, num rul

Y = sum(rand(10,1) < 0.5)

urmeaz repartiµia B(10, 0.5) (simularea a 10 arunc ri ale unei monede ideale).

• rand(m, n) genereaz o matrice aleatoare cu m× n componente repartizate U(0, 1).

• Comanda a+ (b− a) ∗ rand genereaz un num r pseudo-aleator repartizat uniform în [a, b].

• Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-zentând starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimbastarea curent a generatorului sau iniµializarea lui, putem folosi comanda

rand(method, s)

unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state','seed' sau 'twister'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµiali-zatorului. De exemplu,

rand('state', 125)

xeaz generatorul la starea 125.

Page 30: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 29

Observaµia 4.1 Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegemnumere aleatoare care au aceea³i ³ans de a oriunde în (a, b), ³i nu numere la intervale egale.

Figura 4.1 reprezint cu histograme date uniform distribuite în intervalul [−2, 3], produse de comandaMatlab:

hist(5*rand(1e4,1)-2,100)

Figura 4.1: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (µ, σ)

Funcµia randn

• Funcµia randn genereaz un num r aleator repartizat normal N (0, 1).

• randn(m, n) genereaz o matrice aleatoare cu m× n componente repartizate N (0, 1).

• Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generato-rului, folosim comanda:

randn(method, s)

unde unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state'

sau 'seed'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµializatorului.

• Comanda m+σ∗randn genereaz un num r aleator repartizat normal N (m, σ). De exemplu, codulurm tor produce Figura 4.2:

x = 0:0.05:10;

y = 5 + 1.1*randn(1e5,1); % date distribuite N (5, 1.1)hist(y,x)

Page 31: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 30

0 2 4 6 8 100

50

100

150

200

250

Figura 4.2: Reprezentarea cu histograme a datelor normale.

Generarea de numere aleatoare de o repartiµie dat

Comenzile Matlab

legernd(<param>, m, n)

³i

random('lege', <param>, m, n).

Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu m linii ³i n coloane, având componentenumere aleatoare ce urmeaz repartiµia lege. În loc de lege putem scrie oricare dintre expresiile din tabeluldin Figura 6.1. De exemplu,

normrnd (5, 0.2, 100, 10);

genereaz o matrice aleatoare cu 100× 10 componente repartizate N (5, 0.2).

random ('poiss',0.01, 200, 50);

genereaz o matrice aleatoare cu 200× 50 componente repartizate P(0.01).

Utilizând comanda

randtool

putem reprezenta interactiv selecµii aleatoare pentru diverse repartiµii. Comanda deschide o interfaµ grac ce reprezint prin histograme selecµiile dorite, pentru parametrii doriµi (vezi Figura 4.3). Datelegenerate deMatlab pot exportate în ³ierulWorkspace cu numele dorit. De exemplu, folosind dateledin Figura 4.3, am generat o selecµie aleatoare de 10000 de numere ce urmeaz repartiµia lognormal deparametri µ = 2 ³i σ = 0.5 ³i am salvat-o (folosind butonul Export) într-un vector L.

Page 32: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 31

Figura 4.3: Interfaµ pentru generarea de numere aleatoare de o repartiµie dat .

Simularea arunc rii unei monede

• Comanda

X = (rand < 0.5);

simuleaz aruncarea unei monede ideale. Vom mai spunem c num rul X astfel generat este unnum r aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, în cazul în care o urn are bilealbe ³i negre în num r egal ³i extragem o bil la întâmplare)

• Num rul

Y = sum (rand(30,1)<0.5)

urmeaz repartiµia B(30, 0.5) (simularea a 30 arunc ri ale unei monede ideale).

• Acela³i experiment poate modelat ³i prin comanda

round(rand(30,1))

Pentru a num ra câte feµe de un anumit tip au ap rut, folosim

sum(round(rand(30,1)))

Exemplu 4.2 Dorim s scriem o funcµie MATLAB care s simuleze aruncarea repetat a unei monedem sluite, pentru care probabilitatea teoretic de a obµine o anumit faµ este p ∈ (0, 1). S se determine

Page 33: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 32

probabilitatea ca la aruncarea monedei s obµinem faµa cu stema ³i s deseneze o gur care s justicegrac convergenµa ³irului frecvenµelor relative la aceast probabilitate.

function moneda(N,p); % functia moneda.m

x = rand(1, N); % aruncam moneda

V = (x < p); % valoarea de adevar a lui (x<p)

Sn = cumsum(V); % suma cumulata

A = 1:N; % vectorul nr de aruncari

Fn = Sn./A; % frecventa relativa a stemei

semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); % reprezinta grafic Fn

axis([0 N 0 1]); % axele

title('moneda') % numele figurii

xlabel('aruncari');ylabel('probabilitatea') % numele axelor

101

102

103

104

105

0

1/4

0.5

3/4

1

aruncari

prob

abili

tate

a

moneda

101

102

103

104

105

0

1/6

0.5

5/6

1

aruncari

prob

abili

tate

a

zar

Figura 4.4: Simularea arunc rii unei monede corecte (a) ³i a unui zar corect (b)

O rulare a funcµiei, e.g., moneda(1e5,0.5), produce gracul din Figura 4.4(a). De asemenea, se poatesimula ³i aruncarea unei monede m sluite, dac alegem ca parametrul p al funcµiei s e diferit de 0.5.

Simularea în Matlab a unei v.a. de tip discret

S consider m o variabil aleatoare ce poate avea doar 3 rezultate posibile, a, b ³i c, cu probabilit µile derealizare 0.5, 0.2 ³i, respectiv, 0.3. Tabloul de repartiµie asociat este:

X :

(a b c

0.5 0.2 0.3

),

Pentru a modela aceast variabil aleatoare în Matlab, proced m astfel: alegem uniform la întâmplareun num r x din intervalul [0, 1]. Dac x < 0.5, atunci convenim c rezultatul a s-a realizat, dac

Page 34: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 33

0.5 < x < 0.7, atunci rezultatul b s-a realizat. Altfel, rezultatul v.a. X este c. Dac acest experiment serepet de multe ori, atunci rezultatele pot folosite în estimarea probabilit µilor de realizare a variabileialeatoare. Cu cât vom face mai multe experimente, cu atât vom aproxima mai bine valorile teoretice aleprobabilit µilor, deci putem spune c am aproximat variabila aleatoare X.În Matlab, scriem:

syms a b c % declaram a, b si c ca variabile simbolice

r = rand;

X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)

Folosind aceast metod , putem simula aruncarea unui zar ideal. Avem 6 rezultate posibile, ³i anume,apariµia unei feµe cu 1, 2, 3, 4, 5 sau 6 puncte. Pentru a simula acest experiment, modic m în modconvenabil problema. Vom considera c punctele din intervalul [0, 1] formeaz mulµimea tuturor cazurilorposibile ³i împ rµim intervalul [0, 1] în 6 subintervale de lungimi egale:

(0,1

6), (

1

6,

2

6), (

2

6,

3

6), (

3

6,

4

6), (

4

6,

5

6), (

5

6, 1)

.

corespunz toare, respectiv, celor ³ase feµe, s zicem în ordinea cresc toare a punctelor de pe ele. Vomvedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete închise, deschisesau mixte nu are efect practic asupra calculului probabilit µii dorite. Acum, dac dorim s simul m înMatlab apariµia feµei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un num r "laîntâmplare" din intervalul [0, 1] ³i veric m dac acesta se a în intervalul (2

6 ,36). A³adar, comanda

Matlab

u = rand; (u < 3/6 & u > 2/6)

simuleaz aruncarea unui zar ideal. Ca o observaµie, deoarece cele 6 feµe sunt identice, putem simplicaaceast comanda ³i scrie

(rand < 1/6).

Exemplu 4.3 Dorim s simuleze în Matlab aruncarea repetat a unui zar corect. S se determine pro-babilitatea ca la aruncarea zarului s obµinem faµa cu trei puncte ³i s deseneze o gura care s justicegrac convergenµa ³irului frecvenµelor relative la aceast probabilitate (vezi Figura 4.4(b)).

function dice(N); % functia dice.m

u = rand(1, n); % probabilitatea aparitiei fetei ∴Z1 = (u < 3/6 & u > 2/6); % aparitia fetei ∴freq = cumsum(Z1)./(1:n); % frecventa relativa

subplot(1,2,2); % activeaza fereastra din stanga

semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:');

axis([0 n 0 1]); % axele

title('zar') % numele figurii

xlabel('aruncari');ylabel('probabilitatea')

Fi³ierul dice.m simuleaz aruncarea unui zar corect de un num r N de ori. O rulare a funcµiei, e.g.,dice(1e5) produce gracul din Figura 4.4(b).

Page 35: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 34

Metoda Monte Carlo

Metoda Monte Carlo este o metod de simulare statistic , ce produce soluµii aproximative pentru o marevarietate de probleme matematice prin efectuarea de experimente statistice pe un computer. Se poateaplica atât problemelor cu deterministe, cât ³i celor probabilistice ³i este folositoare în obµinerea de soluµiinumerice pentru probleme care sunt prea dicile în a rezolvate analitic. Este o metod folosit de secole,dar a c p tat statutul de metod numeric din anii 1940. În 1946, S. Ulam7 a devenit primul matema-tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatulMonaco, unde se practic foarte mult jocurile de noroc, în special datorit jocului de rulet (ruleta = ungenerator simplu de numere aleatoare). De asemenea, Nicholas Metropolis8 a adus contribuµii importantemetodei.Are la baz generarea de numere aleatoare convenabile ³i observarea faptului c o parte dintre acesteaveric o proprietate sau anumite propriet µi. În general, orice metod care are la baz generarea de nu-mere aleatoare în vederea determin rii rezultatului unui calcul este numit o metod Monte Carlo. Oriceeveniment zic care poate v zut ca un proces stochastic este un candidat în a modelat prin metoda MC.

Integrarea folosind metoda Monte Carlo

Dorim s folosim metode Monte Carlo pentru evaluarea integralei

I =

∫ b

af(x) dx. (4.1)

În general, pentru a evalua numeric integral , metoda Monte Carlo nu este prima alegere, însa este foarteutil în cazul în care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient decât alte metode de aproximare când dimensiunea spaµiului e mare.

Dac dorim aplicarea metodei MC, atunci avem de ales una din urm toarele variante:

Varianta 1 (poate aplicat doar pentru f ≥ 0. Dac f ³i valori negative, dar este m rginit inferior,atunci putem utiliza o translaµie, astfel încât s avem de integrat o funcµie nenegativ ) Încadr m graculfuncµiei f într-un dreptunghi

D = [a, b]× [0, d],

unde d > sup[a, b]

f . Evalu m integrala folosindu-ne de calculul probabilit µii evenimentului A, c un punct

ales la întâmplare în interiorul dreptunghiului D s se ae sub gracul funcµiei f(x). Facem urm toareaexperienµ aleatoare: alegem în mod uniform (comanda rand ne ofer aceast posibilitate în Matlab)un punct din interiorul dreptunghiului ³i test m dac acest punct se a sub gracul lui f(x). Repet mexperienµa de un num r N (mare) de ori ³i contabiliz m num rul de apariµii f(N) ale punctului sub grac.Pentru un num r mare de experienµe, probabilitatea ca un punct generat aleator în interiorul dreptun-ghiului s se ae sub gracul funcµiei va aproximat de frecvenµa relativ a realiz rii evenimentului,adic

P ' f(N)

N.

7Stanislaw Marcin Ulam (1909− 1984), matematician de origine polonez , n scut în Lvov, Ucraina8Nicholas Constantine Metropolis (1915− 1999), zician grec

Page 36: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 35

Pe de alt parte, probabilitatea teoretic este

P =I

aria dreptunghi,

de unde aproximarea

I ' aria dreptunghi · f(N)

N. (4.2)

Totu³i, aceast metod nu e foarte ecient , deoarece N trebuie s e foarte mare pentru a avea o preciziebun .

Exemplu 4.4 Utilizând metoda Monte Carlo, s se evalueze integrala

I =

5∫−2

e−x2dx.

Soluµie: Gener m 106 puncte aleatoare în interiorul p tratului [−2, 5] × [0, 1] ³i veric m care dintreacestea se a sub gracul funcµiei f(x) = e−x

2, x ∈ [0, 1]. Urm toarea funcµie Matlab calculeaz inte-

grala dorit :

function I = integrala(N) % functia integrala.m

x = 7*rand(N,1)-2; y = rand(N,1); % genereaza N numere aleatoare in [−2, 5]× [0, 1]f = find(y < exp(-x.^2)); % numar punctele aflate sub graficul functiei e−x

2

I = 7* length(f)/N; % formula (4.2)

O rulare a funcµiei, integrala(1e6), ne furnizeaz rezultatul I = 1.7675.

Varianta 2 Putem rescrie integrala în forma

I = (b− a)

∫ b

af(x)h(x) dx, (4.3)

unde

h(x) =

1

b− a, dac x ∈ [a, b],

0 , altfel.

Funcµia h(x) denit mai sus este densitatea de repartiµie a unei v.a. X ∼ U [a, b], iar relaµia (4.1) serescrie

I = (b− a)E(f(X)). (4.4)

Folosind legea slab a numerelor mari, putem aproxima I prin:

I ' b− aN

N∑k=1

f(Xk), (4.5)

unde Xk sunt numere aleatoare ce urmeaz repartiµia U [a, b].

Putem generaliza aceast metod pentru calculul integralelor de tipul∫Vf(x) dx, unde V ⊂ Rn.

Page 37: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 36

Exemplu 4.5 S se evalueze integrala din Exemplul (4.4) folosind formula (4.5).

Soluµie: Codul Matlab este urm torul:

x = 7*rand(1e6,1)-2; % genereaza 106 numere aleatoare U(−2, 5)g = exp(-x.^2); % g(x) = e−x

2

I = 7*mean(g) % 7*media lui g(x)

sau, restrâns, putem apela urm toarea comand :

estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2))) % I ≈ 1.7671

Exemplu 4.6 Evaluând integrala

I =

1∫0

ex dx

printr-o metod Monte Carlo s se estimeze valoarea num rului transcendent e. (e = I + 1).

Soluµie: estimate = mean(exp(rand(10^6,1))) + 1 % e ≈ 2.7183

Exemplu 4.7 (aproximarea lui π folosind jocul de darts)În ce const jocul? S presupunem c suntem la nivelul încep tor. Avem de aruncat o s geat ascuµit ,ce poate penetra cu u³urinµ lemnul, spre o tabl p trat din lemn, în interiorul c ruia se a desenatun cerc circumscris p tratului. Dac s geata se înnge în interiorul discului atunci aµi câ³tigat un punct,dac nu - nu câ³tigaµi nimic. Repet m jocul de un num r N de ori ³i contabiliz m la sfâr³it num rul depuncte acumulate, s zicem c acest num r este νN .

S presupunem c sunteµi un juc tor slab de darts (asta implic faptul c orice punct de pe tabl areaceea³i ³ans de a µintit), dar nu a³a de slab încât s nu nimeriµi tabla. Cu alte cuvinte, presupunemc de ecare dat când aruncaµi s geata, ea se înnge în tabl .

Se cere s se aproximeze valoarea lui π pe baza jocului de mai sus ³i s se scrie un program în Matlabcare s simuleze experimentul.

Soluµie: S not m cu A evenimentul ca s geata s se înng chiar în interiorul discului. În cazul în carenum rul de arunc ri N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat

de limit ³irului frecvenµelor relative, adic limn→∞

νNN

.

Pe de alt parte, P (A) = aria discaria perete

= π4 . A³adar, putem aproxima π prin

π ' 4νNN

(pentru N 1). (4.6)

Funcµia Matlab care aproximeaz pe π este prezentat mai jos. Metoda care a stat la baza aproxim riilui π este o metoda Monte Carlo.

Page 38: Curs Statistica Aplicata

Laborator 2 [Dr. Iulian Stoleriu] 37

function Pi = darts(N) % numar de aruncari

theta = linspace(0,2*pi,N); % genereaza vectorul theta

x = rand(N,1); y = rand(N,1); % (x,y) - intepaturi

X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); % cerc in polar

plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele

S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese

Prob = S/N; % frecventa relativa

approxpi = 4*Prob; % aproximarea lui pi

axis([0 1 0 1]); % deseneaza axele

title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);

O simpl rulare a funcµiei, darts(2000), ne genereaz Figura 4.5. √

Figura 4.5: Simularea jocului de darts.

Page 39: Curs Statistica Aplicata

STATS 3 [Dr. Iulian Stoleriu] 38

5 Statistic Aplicat (C3)

Elemente de Teoria probabilit µilor (II)

Caracteristici numerice ale variabilelor aleatoare (continuare)

Momente

Pentru o v.a. X de tip discret, X(ω) =∑i∈J

xiχAi(ω), ∀ω ∈ Ω, J ⊂ N,

cu E(X) = m ³i pi = P (Ai), i ∈ J , denim momentele:

αk(X) = E(Xk) =∑i∈J

xki pi (momente iniµiale de ordin k);

βk(X) = E(|X|k) =∑i∈J|xi|kpi (momente absolute de ordin k);

µk(X) = E((X −m)k) =∑i∈J

(xi −m)kpi (momente iniµiale centrate de ordin k);

γk(X) = E(|X −m|k) =∑i∈J|xi −m|kpi (momente absolute centrate de ordin k);

Pentru o v.a. X de tip continuu ce admite medie m = E(X) <∞, denim momentele:

αk(X) = E(Xk) =

∫Rxkf(x) dx =

∫ΩXkdP (momente iniµiale de ordin k);

βk(X) = E(|X|k) =

∫R|x|kf(x) dx =

∫Ω|X|kdP (momente absolute de ordin k);

µk(X) = E((X −m)k) =

∫R

(x−m)kf(x) dx =

∫Ω

(X −m)kdP (momente iniµiale centrate);

γk(X) = E(|X −m|k) =

∫R|x−m|kf(x) dx =

∫Ω|X −m|kdP (momente absolute centrate);

Cuantile

Fie o v.a. X cu funcµia de repartiµie F (x).

Deniµia 5.1 Pentru α ∈ (0, 1), denim cuantila de ordin α valoarea xα astfel încât:

F (xα) = P (X ≤ xα) = α. (5.1)

Observaµia 5.2 (1) Cuantilele sunt m suri de poziµie, ce m soar locaµia unei anumite observaµii faµ de restul datelor. A³a cum se poate observa din Figura 5.1, valoarea xα este acel num r real pentru carearia ha³urat este chiar α.

Page 40: Curs Statistica Aplicata

STATS 3 [Dr. Iulian Stoleriu] 39

Figura 5.1: Cuantila de ordin α.

(2) În cazul în care X este o variabil aleatoare discret , atunci (5.1) nu poate asigurat pentru oriceα. Îns , dac exist o soluµie a acestei ecuaµiei F (x) = α, atunci exist o innitate de soluµii: intervalulce separ dou valori posibile.

(3) Cazuri particulare de cuantile: mediana (α = 1/2), cuartile (α = i/4, i = 1, 4), decile (α =j/10, i = 1, 10), percentile (α = k/100, k = 1, 100), promile (α = l/1000, l = 1, 1000).

Modul (valoarea cea mai probabil )

Este acea valoare x∗ pentru care f(x∗) (densitatea de repartiµie sau funcµia de probabilitate) este maxim .O repartiµie poate s nu aib niciun mod, sau poate avea mai multe module.

Inegalit µi între momente

(a) βr(X + Y ) ≤ cr(βr(X) + βr(Y )), unde cr = 1 pentru r ∈ (0, 1] ³i cr = 2r−1 pentru r > 1.

(b) (βr(X))1/r ≤ (βs(Y ))1/s, ∀0 ≤ r ≤ s; (Lyapunov9)

(c) E|XY | ≤ (E|X|r)1/r(E|Y |s)1/s, ∀r, s > 1, r−1 + s−1 = 1; (Hölder10);

(d) (E|X + Y |r)1/r ≤ (E|X|r)1/r + (E|Y |r)1/r; (Minkowski11)

(e) Fie g : R→ R convex . Atunci avem g(E(X)) ≤ E(g(X)). (Jensen12)

(f) Dac a > 0, p ∈ N∗, atunci avem:

P (|X| ≥ a) ≤ βp(X)

ap; (Markov13)

9Aleksandr Mikhailovich Lyapunov (1857− 1918), matematician rus, student al lui Cebî³ev10Otto Ludwig Hölder (1859− 1937), matematician german11Hermann Minkowski (1864− 1909), matematician german12Johan Ludwig William Valdemar Jensen (1859− 1925), matematician si inginer danez13Andrei Andreyevich Markov (1856− 1922), matematician rus, student al lui Cebî³ev

Page 41: Curs Statistica Aplicata

STATS 3 [Dr. Iulian Stoleriu] 40

În particular, pentru p = 2 ³i X e înlocuit cu variabila aleatoare (X −m), (m = E(X)), obµinem:

P (|X −m| ≥ a) ≤ σ2

a2. (Cebî³ev14) (5.2)

Dac în inegalitatea lui Cebî³ev lu m a = kσ, unde k ∈ N, atunci obµinem:

P (|X −m| ≥ kσ) ≤ 1

k2, (5.3)

sau, echivalent:

P (|X −m| < kσ) ≥ 1− 1

k2. (5.4)

În cazul particular k = 3, obµinem regula celor 3σ:

P (|X −m| ≥ 3σ) ≤ 1

9≈ 0.1.

sauP (m− 3σ < X < m+ 3σ) ≥ 8

9, (5.5)

semnicând c o mare parte din valorile posibile pentru X se a în intervalul [m− 3σ, m+ 3σ].

Standardizarea unei variabile aleatoare

Fie variabila aleatoare X, de medie m ³i dispersie σ2.

Deniµia 5.3 Variabila aleatoare X =X −mσ

se nume³te variabila aleatoare standardizat (sau nor-

mat ).

Propriet µile variabilei aleatoare standardizate:

E(X) = 0, D2(X) = 1.

Corelaµia ³i coecientul de corelaµie

Conceptul de corelaµie (sau covarianµ ) este legat de modul în care dou variabile aleatoare tind s semodice una faµ de cealalt ; ele se pot modica e în aceea³i direcµie (caz în care vom spune c X ³i Ysunt direct <sau pozitiv> corelate) sau în direcµii opuse (X ³i Y sunt invers <sau negativ> corelate).Fie X, Y v.a. cu mediile, respectiv, mX , mY ³i dispersiile σ2

X , respectiv, σ2Y . Calculând dispersia sumei

X + Y , obµinem:

D2(X + Y ) = E[(X + Y − (mX +mY )2)]

= E[(X −mX)2] + E[(Y −mY )2] + 2E[(X −mX)(Y −mY )]

= D2(X) +D2(Y ) + 2E[(X −mX)(Y −mY )].

14Pafnuty Lvovich Chebyshev (1821− 1894), matematician rus

Page 42: Curs Statistica Aplicata

STATS 3 [Dr. Iulian Stoleriu] 41

Deniµia 5.4 Denim corelaµia (sau covarianµa) v.a. X ³i Y , notat prin cov(X, Y ), cantitateacov(X, Y ) = E[(X −mX)(Y −mY )].

Proprietatea 5.5 (a) Continuând ³irul anterior de egalit µi, putem scrie:

D2(X + Y ) = D2(X) +D2(Y ) + 2 cov(X, Y ). (5.6)

(b) cov(X, Y ) = cov(Y, X) = E[(X −mX)(Y −mY )] = E(XY )−mXmY .(c) cov(X, X) = D2(X), pentru orice v.a. X.(d) cov(X + Y, Z) = cov(X,Z) + cov(Y,Z), pentru orice v.a. X,Y, Z.(e) Dac X ³i Y sunt v.a. independente (i.e., realiz rile lui X nu depind de realiz rile

lui Y ), atunci cov(X, Y ) = 0. Reciproca nu este întotdeauna adev rat .

Fie v.a. X ³i Y , pentru care presupunem c variaµiile σ2X ³i σ2

Y sunt nite ³i nenule. Consider m v.a.

standardizate, X =X −mX

σX³i Y =

Y −mY

σY.

Deniµia 5.6 Se nume³te coecient de corelaµie (teoretic) al v.a. X ³i Y covarianµa variabilelor standar-dizate X ³i Y . Not m astfel:

ρ(X, Y ) = cov(X, Y ) =cov(X, Y )

σXσY. (5.7)

Observaµia 5.7 (a) Dac X ³i Y sunt independente (i.e., realiz rile uneia sunt independente de reali-z rile celeilalte − vezi secµiunea urm toare), atunci

ρ(X, Y ) = 0.

(b) − 1 ≤ ρ(X, Y ) ≤ 1, pentru orice v.a. X ³i Y .(c) Dac Y = aX + b (a, b ∈ R), atunci

ρ(X, Y ) =

+1, dac a = 1;

−1, dac a = −1.

Independenµa

Conceptul de independenµ a v.a. sau a evenimentelor este foarte important din punctul de vedere alcalculului probabilit µilor evenimentelor compuse din evenimente mai simple. Independenµa este unuldintre conceptele principale care deosebesc Teoria probabilit µilor de Teoria m surii, neavând echivalentîn teoria din urm .

Deniµia 5.8 Fie (Ω, F , P ) un câmp de probabilitate, A, B ∈ F dou evenimente arbitrare.(1) Dac anumite informaµii despre evenimentul B au inuenµat în vreun fel realizarea evenimentuluiA, atunci vom spune c A ³i B sunt evenimente dependente. De exemplu, evenimentele A = mâine plou

³i B = mâine mergem la plaj sunt dependente.(2) S presupunem c evenimentul B satisface relaµia P (B) > 0. Vom spune c evenimentele A ³iB sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B, adic probabilitatea condiµionat

P (A| B) = P (A), (5.8)

Page 43: Curs Statistica Aplicata

STATS 3 [Dr. Iulian Stoleriu] 42

echivalent cuP (A

⋂B)

P (B)= P (A).

Putem rescrie ultima egalitate sub forma simetric :

P (A⋂B) = P (A) · P (B). (5.9)

Deoarece în relaµia (5.9) nu mai este nevoie de condiµie suplimentara pentru P (B), este preferabil s denim independenµ a dou evenimente arbitrare astfel:

Dou evenimente, A, B ∈ F se numesc independente (stochastic) dac relaµia (5.9) are loc.

Deniµia 5.9 (i) Evenimentele A1, A2, . . . , An se numesc independente în ansamblu dac pentru ecaresubmulµime i1, i2, . . . , ik a mulµimii 1, 2, . . . , n avem

P (Ai1⋂Ai1

⋂· · ·⋂Aik) = P (Ai1) · P (Ai2) · . . . · P (Aik). (5.10)

(ii) Spunem c evenimentele A1, A2, . . . , An sunt independente dou câte dou dac pentru oricare dou evenimente, Ai ³i Aj , din aceast mulµime, avem

P (Ai⋂Aj) = P (Ai) · P (Aj)). (5.11)

(iii) În general, evenimentele (Ai)i∈I ⊂ F , (I ⊂ N), se numesc independente dac

P (⋂j∈J

Aj) =∏j∈J

P (Aj), (5.12)

pentru orice J ⊂ I, J−nit .

Observaµia 5.10 Independenµ dou câte dou a evenimentelor nu implic independenµa în ansamblu.S exemplic m considerând urm toarea experienµ .Consider m aruncarea a dou monede ideale. Fie A evenimentul ca "faµa ce apare la prima moned estestema", B evenimentul ca "faµa ce apare la a doua moned este stema", iar C evenimentul ca "doar la omoned din cele dou a ap rut faµa cu stema". Se observ cu u³urinµ c evenimentele A, B ³i C suntindependente dou câte dou , deoarece:

P (A⋂C) = P (A) · P (C) =

1

4; P (B

⋂C) = P (B) · P (C) =

1

4; P (A

⋂B) = P (A) · P (B) =

1

4.

Totodat , mai observ m c oricare dou dintre ele determina în mod unic pe al treilea. A³adar, indepen-denµa a dou câte dou nu implic independenµa celor trei evenimente în ansamblu, fapt observat ³i dinrelaµia

0 = P (A⋂B⋂C) 6= P (A) · P (B) · P (C) =

1

8.

Deniµia 5.11 Dac Mi, i ∈ I ⊂ N, cu Mi ⊂ F , este o familie de σ−corpuri, atunci spunem c acestea sunt independente (stochastic) dac pentru orice submulµime nit J ⊂ I ³i pentru orice alegerede evenimente Aj ∈Mj , este îndeplinit condiµia

P (⋂j∈J

Aj) =∏j∈J

P (Aj). (5.13)

Page 44: Curs Statistica Aplicata

STATS 3 [Dr. Iulian Stoleriu] 43

Deniµia 5.12 (1) Spunem c v.a. (Xi)i∈I : (Ω,F) → R, (I ⊂ N), sunt independente (în ansamblu)

dac σ−corpurile generate de Xi, σ(Xi)i∈I , formeaz o familie de σ−corpuri independente.(2) Spunem c v.a. (Xi)i∈I : (Ω,F)→ R, (I ⊂ N), sunt independente dou câte dou dac oricare ar dou variabile aleatoare din aceast familie, acestea sunt independente în sensul deniµiei de la (1).

Observaµia 5.13 Deniµia variabilelor aleatoare independente (în ansamblu) este echivalent cu:

Pentru orice k ≥ 2 ³i orice alegere a mulµimilor boreliene B1, B2, . . . , Bk ∈ Bd, avem:

P(X1 ∈ B1

⋂X2 ∈ B2

⋂· · ·⋂Xk ∈ Bk

)= P (X1 ∈ B1) ·P (X2 ∈ B2) · . . . ·P (Xk ∈ Bk), (5.14)

sau, cu alte cuvinte, evenimentele X1 ∈ B1, X2 ∈ B2, . . . , Xk ∈ Bk sunt independente în ansamblu.

Exemplu 5.14 S consider m aruncarea unui zar. Arunc m zarul de dou ori ³i not m cu X1, respectiv,X2, v.a. ce reprezint num rul de puncte ap rute la ecare aruncare. Evident, valorile acestor v.a. suntdin mulµimea 1, 2, 3, 4, 5, 6. A³adar,

Xi : Ω→ 1, 2, 3, 4, 5, 6, i = 1, 2.

Avem:

P(X1 = i

⋂X2 = j

)= P (X1 = i, X2 = j) =

1

36= P (X1 = i) · P (X2 = j), ∀i, j ∈ 1, 2, 3, 4, 5, 6,

aceast însemnând c variabilele aleatoare X1 ³i X2 sunt independente stochastic (arunc rile au fostefectuate independent una de cealalt ).

Teorema 5.15 Consider m familia de v.a. X1, X2, . . . , Xn, Xi : (Ω,F)→ R, i = 1, n.Urm toarele armaµii sunt echivalente:

(i) X1, X2, . . . , Xn sunt v.a. independente stochastic;

(ii) P (X1 ∈ B1, X2 ∈ B2, . . . , Xn ∈ Bn) = P (X1 ∈ B1) · P (X2 ∈ B2) · . . . · P (Xn ∈ Bn), ∀Bi ∈ Bd;(iii) F(X1, X2,..., Xn)(x1, x2, . . . , xn) = FX1(x1) · FX2(x2) · . . . · FXn(xn), ∀x1, x2, . . . , xn ∈ R;

(iv) φ(X1, X2,..., Xn)(t) = φX1(t1) · φX2(t2) · . . . · φXn(tn), ∀t = (t1, t2, . . . , tn) ∈ Rn. (5.15)

Dou dintre dintre cele mai importante propriet µi ale v.a. independente sunt urm toarele:

Teorema 5.16 Dac X1, X2, . . . , Xn sunt v.a. reale, independente, astfel încât

E(|Xk|) <∞, ∀k = 1, 2, . . . , n,

atunci E(|X1 ·X2 · . . . ·Xn|) <∞ ³i:

E(X1 ·X2 · . . . ·Xn) = E(X1) · E(X2) · . . . · E(Xn). (5.16)

Teorema 5.17 Dac X1, X2, . . . , Xn sunt v.a. reale, independente, astfel încât

D2(Xk) <∞, ∀k = 1, 2, . . . , n,

atunci D2(X1 +X2 + . . . +Xn) <∞ ³i:

D2(X1 +X2 + . . . +Xn) = D2(X1) +D2(X2) + . . . +D2(Xn). (5.17)

Page 45: Curs Statistica Aplicata

STATS 3 [Dr. Iulian Stoleriu] 44

Tipuri de convergenµ a ³irurilor de variabile aleatoare

Fix m (Ω, F , P ) un câmp de probabilitate ³i Xn, X : Ω→ R variabile aleatoare cu media m ³i dispersiaσ2 nite.

Deniµia 5.18 Spunem c :

(1) Xn converge aproape sigur la X (notat Xna.s.−→ X) dac

P ( limn→∞

Xn = X) = 1,

echivalent cu relaµia

∃Ω0 ∈ F , P (Ω0) = 1, astfel încât limn→∞

Xn(ω) = X(ω), ∀ω ∈ Ω0.

(2) Xn converge în probabilitate la X (notat Xnprob−→ X), dac

∀ε > 0, limn→∞

P (ω : |Xn(ω)−X(ω)| ≥ ε) = 0.

(3) Xn converge în medie de ordin r la X (notat XnLr−→ X), dac

limn→∞

∫Ω|Xn(ω)−X(ω)|r dP (ω) = 0,

echivalent cu

limn→∞

∫R|xn − x|rf(x)dx = 0.

(4) Xn converge în repartiµie la X (notatrep−→ X, sau Xn ⇒ X) dac

limn→∞

E(g(Xn)) = E(g(X)), ∀g : R→ R, continu ³i m rginit .

(5) Xn converge la X în sensul funcµiei de repartiµie dac

limn→∞

FXn(x) = FX(x), ∀x punct de continuitate pentru FX .

(6) Xn converge la X în sensul funcµiei caracteristice dac

limn→∞

φXn(t) = φX(t), ∀t ∈ R.

Teorema 5.19 (leg turi între diverse tipuri de convergenµ )

(a) Xna.s.−→ X implic Xn

prob−→ X.

(b) XnLr−→ X implic Xn

prob−→ X (din inegalitatea lui Markov).

(c) Xnprob−→ X implic Xn ⇒ X.

(d) Urm toarele tipuri de convergenµ sunt echivalente: convergenµa în repartiµie, convergenµa în funcµiede repartiµie ³i convergenµa în funcµie caracteristic .

Page 46: Curs Statistica Aplicata

Laborator 4 [Dr. Iulian Stoleriu] 45

6 Statistic Aplicat (L3)

Repartiµii probabilistice în Matlab

Funcµia de probabilitate (pentru v.a. discrete) ³i densitatea de repartiµie (pentru v.a. continue) (ambelenotate anterior prin f(x)) se introduc în Matlab cu ajutorul comenzii pdf, astfel:

pdf('LEGE', x, <param>) sau LEGEpdf(x, <param>).

Funcµia de repartiµie F (x) a unei variabile aleatoare se poate introduce în Matlab cu ajutorul comenziicdf, astfel:

cdf('LEGE', x, <param>) sau LEGEcdf(x, <param>).

Inversa funcµiei de repartiµie pentru repartiµii continue, F−1(y), se introduce cu comanda icdf, astfel:

icdf('LEGE', y, <param>) sau LEGEinv(y, <param>).

În comenzile de mai sus, LEGE poate oricare dintre legile de repartiµie din Tabelul 6.1, x este un scalar sauvector pentru care se calculeaz f(x) sau F (x), y este un scalar sau vector pentru care se calculeaz F−1(y),iar <param> este un scalar sau un vector ce reprezint parametrul (parametrii) repartiµiei considerate.

Observaµia 6.1 Fie X o variabil aleatoare ³i F (x, θ) funcµia sa de repartiµie, θ ind parametrul repar-tiµiei. Pentru un x ∈ R, relaµia matematic

P (X ≤ x) = F (x)

o putem scrie astfel în Matlab:

cdf('numele repartiµiei lui X',x,θ). (6.1)

Problema poate aparea la evaluarea în Matlab a probabilit µii P (X < x). Dac repartiµia considerat este una continu , atunci corespondentul în Matlab este tot (6.1), deoarece în acest caz

P (X ≤ x) = P (X < x) + P (X = x) = P (X < x).

De exemplu, dac X ∼ N (5, 2), atunci

P (X < 4) = cdf('norm', 4, 5, 2).

Dac X este de tip discret, atunci

P (X < x) =

P (X ≤ [x]) , x nu e întreg

P (X ≤ m− 1) , x = m ∈ Z,

Page 47: Curs Statistica Aplicata

Laborator 4 [Dr. Iulian Stoleriu] 46

unde [x] este partea întreag a lui x.De exemplu, dac X ∼ B(10, 0.3), atunci

P (X < 5) = P (X ≤ 4)

= cdf('bino', 4, 10, 0.3) = 0.8497.

Tabelul 6.1 conµine câteva repartiµii uzuale ³i funcµiile corespunz toare în Matlab.

repartiµii probabilistice discrete repartiµii probabilistice continue

norm: repartiµia normal N (µ, σ)bino: repartiµia binomial B(n, p) unif: repartiµia uniform continu U(a, b)nbin: repartiµia binomial negativ BN(n, p) exp: repartiµia exponenµial exp(λ)poiss: repartiµia Poisson P(λ) gam: repartiµia Gamma Γ(a, λ)unid: repartiµia uniform discret U(n) beta: repartiµia Beta β(m,n)geo: repartiµia geometric Geo(p) logn: repartiµia lognormal logN (µ, σ)hyge: repartiµia hipergeometric H(n, a, b) chi2: repartiµia χ2(n)

t: repartiµia student t(n)f: repartiµia Fisher F(m, n)

wbl: repartiµia Weibull Wbl(k, λ)

Tabela 6.1: Repartiµii uzuale în Matlab

Exerciµiu 6.1 O moned ideal este aruncat de 100 de ori, iar X este variabila aleatoare ce reprezint num rul de feµe cu stema ap rute.(a) Care este probabilitatea de a obµine exact 52 de steme?(b) S se calculeze P (45 ≤ X ≤ 55). Folosiµi aproximarea cu o variabil aleatoare normal .

Soluµie: (a) Avem de calculat P = P (X = 52). Îns X este o variabil aleatoare distribuit B(100, 0.5), a³adar rezultatul exact este:

P = C52100 · (0.5)52 · (0.5)48 = 0.0735.

(b) Not m cu FX funcµia de repartiµie pentru variabila aleatoare binomial X. Atunci,

P (45 ≤ X ≤ 55) = P (X ≤ 55)− P (X < 45)

= FX(55)− FX(44)

=55∑

k=45

Ck100 · (0.5)k · (0.5)100−k = 0.7287.

Codul Matlab urm tor calculeaz probabilit µile cerute, calculate analitic anterior.

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 % solutia exacta

P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta

. √

Page 48: Curs Statistica Aplicata

Laborator 4 [Dr. Iulian Stoleriu] 47

Exerciµiu 6.2 Cineva a înregistrat zilnic timpul între dou sosiri succesive ale tramvaiului într-o anumit staµie ³i a g sit c , în medie, acesta este de 20 de minute. Se ³tie c acest timp este distribuit exponenµial.Dac o persoan a ajuns în staµie exact când tramvaiul pleca, aaµi care sunt ³ansele ca ea s a³tepte celpuµin 15 minute pân vine urm torul tramvai.

Soluµie: Not m cu T timpul de a³teptare în staµie între dou sosiri succesive ale tramvaiului ³i cu FTfuncµia sa de repartiµie. tim c T ∼ exp(λ), unde λ = 20. A³adar, avem de calculat P (T ≥ 15), careeste:

P (T ≥ 15) = 1− P (T < 15) = 1− FT (15),

³i aceasta este1 - cdf('exp',15, 20) = 0.4724,

ceea ce implic 47.24% ³anse. √

Exerciµiu 6.3 Dintre spectatorii prezenµi pe un anumit stadion la un meci de fotbal, un procent de 20%sunt femei.La o tombola organizat pentru spectatori, un computer alege la întâmplare numerele a 7 bilete de intrare³i se premiaz posesorii.(i) Care este probabilitatea ca m car 3 dintre spectatorii premiaµi s e femei?(ii) Care este probabilitatea ca nicio femeie s nu câ³tige la tombol ?(iii) Dac selecµia biletelor câ³tig toare ar fost realizat prin alegerea a 7 spectatori ce erau a³ezaµiîn ³ir, pe un acela³i rând ales la întâmplare, argumentaµi dac probabilit µile g site la (i) si (ii) r mânacelea³i.

Soluµie: Fie X variabila aleatoare ce reprezint num rul de femei ce apar la alegerea la întâmplare a 7spectatori. Atunci X ∼ B(7, 0.2). Fie p = 0.2.(i) P (X ≥ 3) = 1− P (X < 3) = 1− P (X ≤ 2) = 1− FX(2) = 0.1480.În Matlab,

P1 = 1-binocdf(2,7,0.2).

(ii) P (X = 0) = C07 p

0 (1− p)7 = 0.2097.În Matlab,

P2 = binopdf(0,7,0.2).

(iii) În acest caz, X nu ar mai o v.a. binomial , deoarece alegerea spectatorilor nu mai este aleatorie(spectatorii a³ezaµi al turi pot cuno³tinte, prieteni etc.). √

Exerciµiu 6.2 (a) În magazinul de la colµul str zii intr în medie 20 de clienµi pe or . tiind c num rulclienµilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea caîntr-o anumit or s intre în magazin cel puµin 15 clienµi?(b) Care este probabilitatea ca, într-o anumit zi de lucru (de 10 ore), în magazin s intre cel puµin 200 declienµi? Calculaµi aceast probabilitate în dou moduri: folosind funcµia de repartiµie Poisson ³i folosindaproximarea cu repartiµia normal .

Soluµie: (a) Probabilitatea este P1 = P (X ≥ 15) = 1− P (X < 14) = 1− FX(14) = 0.8951.

(b) P2 = P (

10∑k=1

Xk ≥ 200) = 1 − P (

10∑k=1

Xk < 199) = 1 − F∑Xk(199) = 0.5094, unde

10∑k=1

Xk ∼ P(200).

În Matlab, probabilit µile cerute se calculeaz astfel:

Page 49: Curs Statistica Aplicata

Laborator 4 [Dr. Iulian Stoleriu] 48

P1 = 1 - poisscdf(14,20);

P2 = 1 - poisscdf(199,200);

Exerciµiu 6.4 (i) În faµa unui oponent de acela³i calibru la tenis de mas , care eveniment este maiprobabil: s câ³tigi 3 partide din 4, sau s câ³tigi 5 partide din 8? Justicaµi r spunsul.(ii) Se menµine rezultatul anterior dac , în loc de tenis de mas , cei doi s-ar întrece la ³ah? Presupunemc adversarii sunt de aceea³i valoare. Justicaµi r spunsul.

Page 50: Curs Statistica Aplicata

STATS 4 [Dr. Iulian Stoleriu] 49

7 Statistic Aplicat (C4)

Elemente de Teoria probabilit µilor (III)

Teoreme limit

Fie (Ω, F , P ) un câmp de probabilitate ³i X : (Ω, F , P )→ R o v.a. ce înregistreaz rezultatele posibileale unui anumit experiment aleator. Putem modela repetiµia acestui experiment prin introducerea unui³ir de v.a., (Xn)n∈N : (Ω, F , P )→ R. Ne-am dori ca acest ³ir s deµin aceea³i informaµie (din punct devedere probabilistic) ca ³i X. În acest scop, introducem noµiunea de variabile aleatoare identic repartizate.

Deniµia 7.1 Variabilele aleatoare X1, X2, . . . , Xn, . . . se numesc identic repartizate dac funcµiile co-respunz toare de repartiµie satisfac ³irul de egalit µi:

FX1(x) = FX2(x) = . . . = FXn(x) = . . . , ∀x ∈ R. (7.1)

Dac , în plus, presupunem c v.a. din ³irul de mai sus sunt independente stochastic, atunci putem priviacest ³ir de v.a. ca un model pentru repet ri independente ale experimentului în aceleasi condiµii. De³iavem de-a face cu un ³ir de funcµii ce iau valori întâmpl toare, suma unui num r sucient de mare devariabile aleatoare î³i pierde caracterul aleator.

Teoremele limit clasice descriu comportarea asimptotic a sumei Sn =n∑k=1

Xk, potrivit normalizat .

Spunem c ³irul (Xn)n urmeaz legea slab (respectiv, tare) a numerelor mari dac :

Sn − E(Sn)

n

prob−→ 0, (respectiv,Sn − E(Sn)

n

a.s.−→ 0), (n→∞)

În Teoria Probabilit µilor exist mai multe rezultate care stabilesc condiµiile în care una sau cealalt dintrelegile anterioare au loc. Prezent m în continuare doar cele mai importante dintre ele, ³i anume: teoremelelui Cebî³ev ³i Hincin, pentru legea slab , ³i teorema lui Kolmogorov pentru legea tare.

Teorema 7.2 (Cebî³ev)

Dac v.a. (Xn)n∈N∗ satisfac condiµiile:

(i) toate Xn admit momente absolute de ordin 2 (i.e., β2(Xn) <∞);

(ii) limn→∞

1

n2D2(Sn) = 0,

atunciSn − E(Sn)

n

prob−→ 0, când n→∞.

Demonstraµie. Pentru orice a > 0 xat, conform inegalit µii lui Cebî³ev aplicate variabilei aleatoareSnn,

avem:

P (

(∣∣∣∣Snn − E(Snn

)∣∣∣∣ ≥ a) ≤ 1

a2D2

(Snn

)=

1

a2

1

n2D2(Sn)→ 0, când n→∞.

2

Page 51: Curs Statistica Aplicata

STATS 4 [Dr. Iulian Stoleriu] 50

Observaµia 7.3 În plus, dac Xn sunt independente stochastic ³i identic repartizate, cu E(Xn) =m, ∀n ∈ N, atunci concluzia anterioar devine:

Snn

prob−→ m.

Astfel, teorema ne spune c , de³i variabilele aleatoare independente pot lua valori dep rtate de mediile lor,media aritmetic a unui num r sucient de mare de astfel de variabile aleatoare ia valori în vecin tatealui m, cu o probabilitate foarte mare.

Teorema 7.4 (Teorema lui Bernoulli)

S consider m o experienµ în care probabilitatea de realizare a unui eveniment A este P (A) = p. Se facN experienµe independente. Dac νN este num rul de realiz ri ale lui A din cele N experienµe atunci,pentru orice ε > 0, avem:

limn→∞

P(∣∣∣νNN− p∣∣∣ < ε

)= 1. (7.2)

Cu alte cuvinte, ³irul frecvenµelor relative converge în probabilitate la probabilitatea p. Asta înseamn c ,dac se efectueaz o selecµie de volum mare N ³i se obµin νN cazuri favorabile, atunci, cu o probabilitateapropiat de 1, putem arma c probabilitatea evenimentului cercetat este egal cu frecvenµa relativ .

Demonstraµie. Vom asocia ec rei experienµe i o variabil aleatoare Xi, astfel încât

Xi =

1, dac în experienµa i evenimentul A s-a realizat;

0, dac experienµa i evenimentul A nu s-a realizat.

Observ m c Xi ∼ B(1, p). Atunci, deoarece experimentele sunt independente, avem:

n∑i=1

Xi = νN ∼ B(N, p), E(νN ) = Np, D2(νN ) = Np(1− p).

Aplicând inegalitatea lui Cebî³ev variabilei aleatoareνNN

, obµinem:

P(∣∣∣νNN− E

(νNN

)∣∣∣ < ε)≥ 1−

D2(νNN

)ε2

,

echivalent cu

P(∣∣∣νNN− p∣∣∣ < ε

)≥ 1− p(1− p)

Nε2,

de unde concluzia dorit . 2

Teorema 7.5 (Hincin15) (legea slab a numerelor mari)

Dac Xn, n ≥ 1, sunt variabile aleatoare ce admit momente absolute de ordin 1, sunt independente dou câte dou ³i identic repartizate, atunci ³irul (Xn)n urmeaz legea slab a numerelor mari, i.e.,

1

n

n∑k=1

Xkprob−→ m, (n→∞), (7.3)

unde m = E(Xn), ∀n ∈ N∗.15Aleksandr Yakovlevich Khinchin (1894− 1959), matematician rus

Page 52: Curs Statistica Aplicata

STATS 4 [Dr. Iulian Stoleriu] 51

Teorema 7.6 (Kolmogorov) (legea tare a numerelor mari)

Fie ³irul de v.a. (Xn)n∈N∗ , independente, sunt identic repartizate ³i E(|X1|) <∞.Dac not m cu m = E(X1), atunci ³irul (Xn)n satisface legea tare a numerelor mari, adic :

1

n

n∑k=1

Xka.s−→ m, (n→∞). (7.4)

Observaµia 7.7 Concluzia legii slabe a numerelor mari se mai poate scrie ³i sub forma:

P

(limn→∞

X1 +X2 + · · ·+Xn

n= m

)= 1.

Teorema 7.8 (TLC) (teorema limit central )

Dac v.a. (Xn)n∈N sunt independente ³i identic repartizate, cu m = E(X1) ³i σ2 = D2(X1) nite, atunci:

1

σ√n

(n∑k=1

Xk − nm

)⇒ Y ∼ N (0, 1), pentru n→∞.

Observaµia 7.9 (a) Teorema TLC ne spune c , dac avem un ³ir de v.a. independente stochastic ³iidentic repartizate, atunci, pentru n sucient de mare, suma standardizat ,

Sn =Sn − nmσ√n

(7.5)

este o v.a. de repartiµie N (0, 1).

Sau, mai putem spune c distribuµia v.a. X =1

n

n∑k=1

Xk este aproximativ normal N (m,σ√n

).

(b) Not m cu

Znnot=

1

σ√n

(n∑k=1

Xk − nm

).

Atunci, convergenµa din teorema limit central este echivalent cu

limn→∞

P (Zn ≤ x) = Θ(x), ∀x ∈ R, (7.6)

unde Θ(x) este denit în (12.3), sau

limn→∞

P

(a ≤ Sn − nm

σ√n≤ b)

=1√2π

∫ b

ae−x

2/2 dx = Θ(b)−Θ(a). (7.7)

(b) Dac m = 0, σ2 = 1, atunci TLC devine

1√n

n∑k=1

Xk ⇒ Y ∼ N (0, 1), pentru n→∞.

(c) TLC ne permite s aproxim m sume de v.a. identic repartizate, avînd orice tip de repartiµii (atâttimp cât variaµia lor e nit ), cu o v.a. normal . Un exemplu ar aproximarea repartiµiei normale curepartiµia binomial când num rul de încerc ri e foarte mare (vezi teorema lui de Moivre-Laplace de maijos).

Page 53: Curs Statistica Aplicata

STATS 4 [Dr. Iulian Stoleriu] 52

Se pune problema: Cât de mare ar trebui s e n, în practic , pentru c teorema limit central s e

aplicabil ? Dac variabilele aleatoare Xkk sunt deja normal repartizate, atunci teorema aproximareasumei standardizate cu o variabil normal este, de fapt, o egalitate, ind adevarat pentru orice n ∈ N∗.Dac Xkk nu sunt normal repartizate, atunci un num r n astfel încât n ≥ 30 ar sucicient pentruaproximarea cu repartiµia normal de³i, dac repartiµia lui Xk este simetric , aproximarea ar putea bun ³i pentru un num r n mai mic de 30.

(d) Legea tare a numerelor mari e foarte util în metode de simulare tip Monte Carlo.

Teorema 7.10 (de Moivre16 - Laplace)Fie X1, X2, . . . , Xn, . . . un ³ir de v.a. independente stochastic, identic repartizate B(1, p) ³i e Sn =X1 +X2 + · · ·+Xn. Atunci, pentru orice −∞ < a < b <∞, avem:

limn→∞

P

(a ≤ Sn − np√

npq≤ b)

=1√2π

∫ b

ae−x

2/2 dx. (q = 1− p) (7.8)

Demonstraµie. Demonstraµia rezult imediat din (7.7), µinând cont c

E(Sn) = np ³i D2(Sn) = npq.

2

Observaµia 7.11 (1) A³adar, dac parametrul n este sucient de mare, atunci o repartiµie binomial poate aproximat cu una normal , cu media np ³i dispersia npq. În practic ,

• aproximarea este una sucient de bun dac np ≥ 5 ³i n(1− p) ≥ 5;

• aceast aproximare poate îmbun t µit dac aplic m factori de corecµie.

Pentru n ³i p îndeplinind condiµiile de mai sus, ³i folosind (7.6), putem aproxima funcµia de repartiµie arepartiµiei binomiale prin:

P (X ≤ k) ≈ Θ

(k − np√npq

), (7.9)

unde Θ este funcµia de repartiµie pentru repartiµia normal standard, i.e.,

Θ(x) =1√2π

∫ x

−∞e−

y2

2 dy, x ∈ R.

De asemenea, putem aproxima ³i funcµia de probabilitate a repartiµiei binomiale folosind densitatea re-partiµiei normale standard:

P (X = k) ≈ 1√npq

Φ

(k − np√npq

), (7.10)

unde Φ(x) = ddxΘ(x) este densitatea de repartiµie a repartiµiei normale standard.

O variant îmbun t µit a aproxim rii (7.9) este:

P (X ≤ k) ≈ Θ

(k + 1

2 − np√npq

). (7.11)

16Abraham de Moivre (1667− 1754), matematician francez

Page 54: Curs Statistica Aplicata

STATS 4 [Dr. Iulian Stoleriu] 53

Termenul 12 din (7.11) este folosit ca o valoare de ajustare când se face aproximarea unei variabile aleatoare

discrete cu una continu .O variant îmbun t µit a aproxim rii (7.10) este:

P (X = k) = P (k − 1

2< X < k +

1

2)

= P

(k − 1

2 − np√npq

<X − np√npq

<k + 1

2 − np√npq

)

≈ Θ

(k + 1

2 − np√npq

)−Θ

(k − 1

2 − np√npq

).

(2) În general, dac dorim s aproxim m o repartiµie discret (ce are media µ ³i dispersia σ2) cu unanormal , atunci scriem:

P (X ≤ k) ≈ Θ

(k + 1

2 − µσ

)(7.12)

³i

P (X = k) ≈ 1

σΦ

(k − µσ

), (7.13)

sau

P (X = k) ≈ Θ

(k + 1

2 − µσ

)−Θ

(k − 1

2 − µσ

). (7.14)

Funcµii de variabile aleatoare

Funcµii de o singur variabil aleatoare

Presupunem c X este o variabil aleatoare continu , c reia i se cunoa³te densitatea de repartiµie, fX(x).Not m cu FX(x) funcµia sa de repartiµie.Fie g(x) este o funcµie m surabil (Borel). Atunci Y = g(X) dene³te o alt variabil aleatoare. Dorims g sim densitatea de repartiµie pentru g(X). S not m cu DY = x ∈ R; g(x) ≤ y. Putem scrie:

Y ≤ y = g(X) ≤ y = ω ∈ Ω, X(ω) ∈ DY (not= X ∈ DY ).

Atunci,

FY (y) = P (X ∈ DY ),

=

∫DY

fX(x) dx. (7.15)

Dac g(x) este bijectiv ³i x = h(y)not= g−1(y), atunci, folosind schimbarea de variabil la integrare,

densitatea de repartiµie a lui Y este dat de:

fY (y) = fX(h(y))

∣∣∣∣dh(y)

dy

∣∣∣∣ . (7.16)

Page 55: Curs Statistica Aplicata

STATS 4 [Dr. Iulian Stoleriu] 54

Exemplu 7.12 Consider m funcµiag(x) = ax+ b, a 6= 0.

Dac fX(x) este densitatea de repartiµie a unei variabile aleatoare continue X, atunci densitatea derepartiµie a variabilei aleatoare Y = g(X) este

fY (y) =1

|a|fX

(y − ba

).

Alternativ, putem calcula densitatea lui g(X) astfel:Not m cu FY (y) funcµia de repartiµie pentru Y ³i cu fY (y) densitatea sa de repartiµie. Atunci:

FY (y) = P (aX+b ≤ y) =

P

(X ≤ y − b

a

), a > 0;

P

(X ≥ y − b

a

), a < 0;

=

FX

(y − ba

), a > 0;

1− FX(y − ba

), a < 0;

Dac FX este continu , atunci:

fY (y) =dFY (y)

dy=

1

|a|fX

(y − ba

).

Aplicaµie. Metoda funcµiei de repartiµie inverse (Hincin-Smirnov)

Propoziµia 7.13 FieX este o variabil aleatoare de o repartiµie dat , pentru care funcµia sa de repartiµie,F (x), este continu ³i strict cresc toate, în orice punct în care aceasta nu este 0 sau 1. Fie U o variabil aleatoare repartizat U(0, 1). Atunci, variabila aleatoare Y = F−1(U) urmeaz aceea³i repartiµie ca ³i X.

Demonstraµie. Notez cu FY funcµia de repartiµie pentru Y . Arat m ca FY este tocmai funcµia de repartiµiea lui X. Avem succesiv:

FY (x) = P (Y ≤ x) = P (F−1(U) ≤ x)

= P (U ≤ F (x)) = F (x), ∀x ∈ [0, 1].

2

Utilizând acest rezultat, urm toarea propoziµie rezult imediat:

Propoziµia 7.14 Fie X o variabil aleatoare ca în propoziµia precedent . Dac U1, U2, . . . , Un suntvariabile aleatoare independentic stochastic ³i identic repartizate U(0, 1), atunci F−1(U1), F−1(U2), . . . ,F−1(Un) formeaz o selecµie întâmpl toare de numere ce urmeaz repartiµia lui X.

Page 56: Curs Statistica Aplicata

STATS L4 [Dr. Iulian Stoleriu] 55

8 Statistic Aplicat (L4)

Aplicaµii la TLC

Exerciµiu 8.1 O moned ideal este aruncat de 100 de ori, iar X este variabila aleatoare ce reprezint num rul de feµe cu stema ap rute.

• (a) Care este probabilitatea de a obµine exact 52 de steme?

• (b) S se calculeze P (45 ≤ X ≤ 55). Folosiµi aproximarea cu o variabil aleatoare normal .

Soluµie: (a) Avem de calculat P = P (X = 52). Îns X este o variabil aleatoare distribuit B(100, 0.5), a³adar rezultatul exact este:

P = C52100 · (0.5)52 · (0.5)48 = 0.0735.

Dac aproxim m rezultatul folosind formula (7.12), obµinem:

P =1√

100 · 0.5 · 0.5Φ

(52− 50√

100 · 0.5 · 0.5

)≈ 0.0737.

Cu varianta îmbun t µit , obµinem:

P = Θ

(52 + 1

2 − 50√

25

)−Θ

(52− 1

2 − 50√

25

)≈ 0.0736.

(b) Not m cu FX funcµia de repartiµie pentru variabila aleatoare binomial X. Atunci,

P (45 ≤ X ≤ 55) = P (X ≤ 55)− P (X < 45)

= FX(55)− FX(44)

=55∑

k=45

Ck100 · (0.5)k · (0.5)100−k = 0.7287.

Dac folosim aproximarea cu repartiµia normal , obµinem:

P (45 ≤ X ≤ 55) ≈ Θ

(55 + 1

2 − 50√

25

)−Θ

(45− 1

2 − 50√

25

)= 0.7287.

Codul Matlab urm tor calculeaz probabilit µile cerute.

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 % solutia exacta

P1 = 1/5*normpdf(2/5) % solutia aproximativa 1

P1 = normcdf(2.5/5) - normcdf(1.5/5) % solutia aproximativa 2

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta

P2 = normcdf(5.5/5) - normcdf(-5.5/5) % solutia aproximativa √

Page 57: Curs Statistica Aplicata

STATS L4 [Dr. Iulian Stoleriu] 56

Exerciµiu 8.1 Un cet µean turmentat pleac de la bar spre cas . S presupunem c punctul de plecareeste punctul O de pe axa orizontal ³i se mi³c doar pe aceast ax astfel: în ecare unitate de timp,acesta ori face un pas la stânga, cu probabilitatea 0.5, ori face un pas la dreapta, cu probabilitatea 0.5,independent de pa³ii anteriori. Folosind Teorema limit central , estimaµi probabilitatea ca, dup 100 depa³i, acesta nu a ajuns la mai mult de doi pa³i de punctul de plecare.

Soluµie: Fie Xi variabila aleatoare ce reprezint pasul pe care cet µeanul îl face la momentul i (i ∈ N).S atribuim X = −1, dac face un pas la stânga, ³i X = 1, dac face un pas la dreapta. A³adar, X esteo variabil aleatoare discret ce poate lua doar dou valori, −1 ³i 1, ambele cu probabilitatea 0.5. Secalculeaz cu u³urinµ , E(X) = 0 ³i D2(X) = 1. Suntem interesaµi s a m ce se întâmpl dup 100 de

pa³i. Consider m mai întâi Sn =

n∑i=1

Xi. Atunci,

E(Sn) =n∑i=1

E(Xi) = 0 ³i D2(Sn) =n∑i=1

D2(Xi) = n,

deoarece Xii=1, n sunt independente. Pentru n ≥ 30, Teorema limit central spune c Sn ∼ N (0,√n).

Pentru n = 100, S100 ∼ N (0, 10). Probabilitatea cerut este (utiliz m ³i relaµia (7.12)):

P (|S100| ≤ 2) = P (−2 ≤ S100 ≤ 2) ≈ Θ

(2 + 1

2 − 0

10

)−Θ

(−2 + 1

2 − 0

10

)= 0.1583.

Folosind urm torul cod, putem simula în Matlab mi³carea aleatorie (vezi Figura 8.1):

N = input('N = '); % numar de pasi

X = 2*(rand(N,1)<0.5)-1; % simuleaza pasii la fiecare moment

S = cumsum(X); % simuleaza unde a ajuns dupa fiecare pas

plot(1:N, S, '-') % reprezinta miscarea

Z=length(find(S == 0)) % numarul de reintoarceri la bar √

Figura 8.1: Mi³care aleatoare (brownian ) 1D.

Page 58: Curs Statistica Aplicata

STATS L4 [Dr. Iulian Stoleriu] 57

Exerciµiu 8.2 Arunc m o moned ideal în condiµii identice ³i not m cu νn frecvenµa absolut de apariµiea feµei cu stema din cele n repetiµii ale experimentului. Care este num rul minim de arunc ri ce trebuieefectuate pentru ca

P(∣∣∣νnn− 0.5

∣∣∣ ≤ 0.1)≥ 0.98.

Determinaµi n prin dou metode:(i) Folosind inegalitatea lui Cebâ³ev;(ii) Folosind Teorema limit central .

Soluµie:

(i) Observ m c variabila aleatoare νn ∼ B(n, 0.5), de unde E(νn) = n2 ³i D2(νn) = n

4 . A³adar,

E(νnn

) = 0.5, D2(νnn

) =1

4n.

Folosim inegalitatea lui Cebâ³ev pentru X = νnn , a = 0.1. G sim c :

P(∣∣∣νnn− 0.5

∣∣∣ ≤ 0.1)≥ 1−

D2(νnn

)0.01

= 1− 25

n.

Impunem condiµia

1− 25

n≥ 0.98,

de unde obµinem c n ≥ 1250 .

(ii) C ut m n astfel încât

P(−0.1 ≤ νn

n− 0.5 ≤ 0.1

)= 0.98. (8.1)

Ne a³tept m ca valoarea lui n s e mare, deci putem aplica Teorema limit central . Aplicând TLC,scriem c variabila aleatoare standardizat

νn − E(νn)

D(νn)=νn − 0.5n

0.5√n∼ N (0, 1).

Folosind aceasta, rescriem egalitatea (8.1) astfel:

0.98 = P(−0.1 ≤ νn

n− 0.5 ≤ 0.1

)= P

(−0.1

√n

0.5≤ νn − 0.5n

0.5√n≤ 0.1

√n

0.5

)= Θ

(√n

5

)−Θ

(−√n

5

)= Θ

(√n

5

)−[1−Θ

(√n

5

)]= 2Θ

(√n

5

)− 1

de unde Θ(√

n5

)= 0.99 ³i

√n

5 = Θ(0.99) = z0.99 ≈ 2.33 (cuantila de ordin 0.99 pentru repartiµia normal

standard). Din ultima egalitate g sim c n ≈ 135.2974. În Matlab, calcul m astfel:

n = (5*norminv(0.99,0,1))^2

A³adar, pentru ca relaµia din enunµ s aib loc, va trebui ca n ≥ 136 .Observ m c aceast valoare este mult mai mic decât cea g sit anterior. Metoda a doua (TLC) ne d un rezultat mai bun decât cel obµinut cu ajutorul inegalit µii lui Cebâ³ev. Aici, mai bun se traduce prinfaptul c , folosind num r mai mic de simul ri ale experimentului, obµinem acela³i rezultat. √

Page 59: Curs Statistica Aplicata

STATS L4 [Dr. Iulian Stoleriu] 58

Exerciµiu 8.3 O companie independent de evalu ri statistice a estimat ca un anumit candidat are 25%³anse s câ³tige alegerile locale. Dorim s efectu m un alt sondaj de opinie care s verice rezultatulcompaniei. Determinaµi care ar trebui s e volumul minim de selecµie pentru ca, cu o probabilitate de celpuµin 0.97, procentul de aleg tori ce intenµioneaz s -l voteze pe respectivul candidat se încadreaz întrevalorile 20% ³i 30%. Determinaµi volumul minim folosind cele dou metode menµionate în Exerciµiul 8.2.

Soluµie: S not m cu νn num rul de votanµi (din n ale³i aleator) care voteaz cu respectivul candidat.Se cere cel mai mic n ∈ N pentru care

P(

0.2 ≤ νnn≤ 0.3

)≥ 0.97,

echivalent cuP(∣∣∣νnn− 0.25

∣∣∣ ≤ 0.05)≥ 0.97.

(i) Observ m c variabila aleatoare νn ∼ B(n, 0.25), de unde E(νn) = n4 ³i D2(νn) = 3n

16 . A³adar,

E(νnn

) = 0.25, D2(νnn

) =3

16n.

Folosim inegalitatea lui Cebâ³ev pentru X = νnn , a = 0.05. G sim c :

P(∣∣∣νnn− 0.25

∣∣∣ ≤ 0.05)≥ 1−

D2(νnn

)0.052

= 1− 75

n.

Impunem condiµia

1− 75

n≥ 0.97,

de unde obµinem c n ≥ 2500 .

(ii) C ut m n astfel încât

P(−0.05 ≤ νn

n− 0.25 ≤ 0.05

)= 0.97. (8.2)

Ne a³tept m ca valoarea lui n s e mare, deci putem aplica Teorema limit central . Aplicând TLC,scriem c variabila aleatoare standardizat

νn − E(νn)

D(νn)= 4

νn − 0.25n√3n︸ ︷︷ ︸ ∼ N (0, 1).

Atenµie, aici s-a strecurat o

gre³eal în soluµia de la seminar!

Acolo, s-a împ rµit la D2(νn), în loc de D(νn)

Folosind aceasta, rescriem egalitatea (8.2) astfel:

0.97 = P(−0.05 ≤ νn

n− 0.25 ≤ 0.05

)= P

(−0.05× 4

√n

3≤ 4

νn − 0.25n√3n

≤ 0.05× 4

√n

3

)= Θ

(0.2

√n

3

)−Θ

(−0.2

√n

3

)= Θ

(0.2

√n

3

)−[1−Θ

(0.2

√n

3

)]= 2Θ

(0.2

√n

3

)− 1

de unde Θ(0.2√

n3

)= 0.985 ³i 0.2

√n3 = z0.985 ≈ 2.17 (cuantila de ordin 0.985 pentru repartiµia normal

standard). Din ultima egalitate g sim c n ≈ 353.1969. În Matlab, calcul m astfel:

n = 3*(norminv(0.985,0,1)/0.2)^2

A³adar, pentru ca relaµia din enunµ s aib loc, va trebui ca n ≥ 354 .Observ m, din nou, c aceast valoare este mult mai mic decât cea g sit anterior. √

Page 60: Curs Statistica Aplicata

STATS 5 [Dr. Iulian Stoleriu] 59

9 Statistic Aplicat (C5)

Elemente de Statistic descriptiv

S consider m o populaµie statistic de volum N ³i o caracteristic a ei, X, ce are funcµia de repartiµieF . Asupra acestei caracteristici facem n observaµii, în urma c rora culegem un set de date statistice.Dup cum am v zut anterior, datele statistice pot prezentate într-o form grupat (descrise prin tabelede frecvenµe) sau pot negrupate, exact a³a cum au fost culese în urma observ rilor. Pentru analizaacestora, pot utilizate diverse tehnici de organizare ³i reprezentare grac a datelor statistice îns , decele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat . Suntem interesaµi în aatribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel devalori numerice, e.g., m suri ale tendinµei centrale (media, modul, mediana), m suri ale dispersiei (dis-persia, deviaµia standard), m suri de poziµie (cuantile, distanµa intercuantilic ) etc. În acest capitol, vomintroduce diverse m suri descriptive numerice, atât pentru datele grupate, cât ³i pentru cele negrupate.

M suri descriptive ale datelor negrupate

Consider m un set de date statistice negrupate, x1, x2, . . . , xn (xi ∈ R, i = 1, 2 . . . , n, n ≤ N), cecorespund unor observaµii f cute asupra variabilei X. Denim urm toarele:

(1) Valoarea medie empiric

Este o m sur a tendinµei centrale a datelor. Pentru o selecµie x1, x2, . . . , xn, denim:

x =1

n

n∑i=1

xi,

ca ind media empiric . Dac x1, x2, . . . , xN sunt toate cele N observaµii (recens mânt) asupra carac-teristicii populaµiei, atunci m rimea

µ =1

N

N∑i=1

xi

se nume³te media (empiric a) populaµiei. Vom vedea mai târziu c , pentru a estima media µ a întregiipopulaµii statistice, nu este necesar s avem toate valorile x1, x2, . . . , xN, ci doar o selecµie a ei, ³i vomputea folosi x ca un estimator pentru µ.Pentru ecare i, cantitatea di = xi − x se nume³te deviaµia faµ de medie. Aceasta nu poate denit cao m sur a gradului de împr ³tiere a datelor, deoarece

n∑i=1

(xi − x) = 0.

(2) Momentele empirice

Pentru k ∈ N∗, momentele empirice de ordin k se denesc astfel:

αk =1

n

n∑i=1

xki (pentru selecµie).

Page 61: Curs Statistica Aplicata

STATS 5 [Dr. Iulian Stoleriu] 60

Pentru p 6= 0, denim

xp =1

n

(n∑i=1

xpi

) 1p

(pentru selecµie), (9.1)

formul ce este cunoscut ³i sub denumirea de formula generalizat a mediilor. Pentru p = 1, obµinemmedia empiric (aritmetic ) (x), pentru p = −1, obµinem media armonic (x(h)), pentru p = 2 avemmedia p tratic (x(q)). Dac µinem cont ³i de media geometric ,

x(g) = n√x1 · x2 · . . . · xn,

atunci relaµia dintre aceste medii este:

x(h) ≤ x(g) ≤ x ≤ x(q).

Pentru întreaga colectivitate, momentele de ordin k sunt

mk =1

N

N∑i=1

xki , (k ∈ N∗).

Pentru ecare k ∈ N∗, momentele empirice centrate de ordin k se denesc astfel:

µk =1

n

n∑i=1

(xi − x)k, pentru selecµie,

³i

µk =1

N

N∑i=1

(xi − µ)k, pentru populaµie.

(3) Dispersia empiric

Aceasta este o m sur a gradului de împr ³tiere a datelor în jurul valorii medii. Pentru o selecµiex1, x2, . . . , xn, denim dispersia empiric :

s2 =1

n− 1

n∑i=1

(xi − x)2

(=

1

n− 1[

n∑i=1

x2i − n(x)2]

).

Pentru întreaga populaµie de volum N , dispersia populaµiei este denit prin m sura

σ2 =1

N

N∑i=1

(xi − µ)2.

Observaµia 9.1 Cantitatea1

n

n∑i=1

(xi − x)2 este tot o m sur a dispersiei (empirice) de selecµie. Vom

vedea mai târziu c alegerea lui s2 este mai potrivit într-un anume sens. De altfel, ambele valori pot folosite ca estimatori ai dispersiei populaµiei, σ2.

Page 62: Curs Statistica Aplicata

STATS 5 [Dr. Iulian Stoleriu] 61

(4) Deviaµia empiric standard

Este tot o m sur a împr ³tierii datelor în jurul valorii medii. Pentru o selecµie x1, x2, . . . , xn, denimdeviaµia empiric standard:

s =

√√√√ 1

n− 1

n∑i=1

(xi − x)2.

Pentru întreaga populaµie de volum N , deviaµia standard a populaµiei este denit prin cantitatea

σ =

√√√√ 1

N

N∑i=1

(xi − µ)2.

(5) Amplitudinea (plaja de valori, range)

Pentru un set de date, amplitudinea (en., range) este denit ca ind diferenµa dintre valoarea cea maimare ³i valoarea cea mai mic a datelor, i.e., xmax − xmin.

(6) Scorul Z

Este num rul deviaµiilor standard pe care o anumit observaµie, x, le are sub sau deasupra mediei. Pentruo selecµie x1, x2, . . . , xn, scorul Z este denit astfel:

z =x− xs

.

Pentru o populaµie, scorul Z este:

z =x− µσ

.

(7) Corelaµia (covarianµa) empiric

Dac avem n perechi de observaµii, (x1, y1), (x2, y2), . . . , (xn, yn), denim corelaµia (covarianµa) empiric

(de selecµie):

covsel =1

n− 1

n∑i=1

(xi − x)(yi − y). (9.2)

Covarianµa empiric pentru întreaga populaµie este:

covpop =1

N

N∑i=1

(xi − µx)(yi − µy). (9.3)

(8) Coecientul de corelaµie empiric

rsel =covselsxsy

, coecient de corelaµie de selecµie,

rpop =covpopσxσy

, coecient de corelaµie pentru populaµie.

(9) Funcµia de repartiµie empiric

Se nume³te funcµie de repartiµie empiric asociat unei variabile aleatoareX ³i unei selecµii x1, x2, . . . , xn,funcµia F ∗n : R −→ [0, 1], denit prin

F ∗n(x) =cardi; xi ≤ x

n. (9.4)

Page 63: Curs Statistica Aplicata

STATS 5 [Dr. Iulian Stoleriu] 62

Propoziµia de mai jos arat c funcµia de repartiµie empiric aproximeaz funcµia de repartiµie teoretic (vezi Figura 9.1).

Propoziµia 9.2 Fie Ω o colectivitate statistic ³i X o caracteristic a sa, ce se dore³te a studiat . Notezcu F (x) funcµia de repartiµie a lui X. Pentru o selecµie de valori ale lui X, x1, x2, . . . , xn, construimfuncµia de repartiµie empiric , F ∗n(x). Atunci:

F ∗n(x)prob−→ F (x), când n→∞, ∀x ∈ R.

Demonstraµie. Notez cu A evenimentul X ≤ x ³i cu p = P (A). Se fac n repetiµii ale acestui eveniment³i frecvenµa relativ a realiz rii evenimentului A este

νnn

=cardi; xi ≤ x

n= F ∗n(x).

Astfel, concluzia propoziµiei este o consecinµ imediat a teoremei lui Bernoulli, Teorema 7.4. 2

Figura 9.1: Funcµia de repartiµie empiric ³i funcµia de repartiµie teoretic pentru distribuµianormal .

(10) Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se dene³te prin

γ1 =µ3

µ3/22

.

O repartiµie este simetric dac γ1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac γ1 > 0³i negativ (sau la stânga) dac γ1 < 0. Vom avea:

γ1 =

n1/2n∑i=1

(xi − x)3

(

n∑i=1

(xi − x)2)3/2

(pentru selecµie) ³i γ1 =µ3

σ3=

N∑i=1

(xi − µ)3 (pentru populaµie).

Page 64: Curs Statistica Aplicata

STATS 5 [Dr. Iulian Stoleriu] 63

(11) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se dene³te prin

K =µ4

µ22

− 3.

Avem astfel:

K =

n

n∑i=1

(xi − x)4

(n∑i=1

(xi − x)2)2

− 3 (pentru selecµie)

³i

K =µ4

σ4− 3 =

1

nσ4

N∑i=1

(xi − µ)4 − 3 (pentru populaµie),

Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul (−3) apare pentruc indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentruK = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptul c ,în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decât clopotul luiGauss. PentruK < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss.

(12) Cuantile

Cuantilele (de ordin n) sunt valori ale unei variabile aleatoare care separ repartiµia ordonat în n p rµiegale.Dac n = 2, atunci avem o singur cuantil de ordin 2, numit mediana, notat prin x0.5 sau Me.Presupunem c observaµiile sunt ordonate, x1 < x2 < · · · < xn. Pentru aceast ordine, denim valoareamedian :

x0.5 =

x(n+1)/2 , dac n = impar;

(xn/2 + xn/2+1)/2 , dac n = par;

Dac n = 4, cuantilele se numesc cuartile (sunt în num r de 3). Prima cuartil , notat x0.25 sau Q1,se nume³te cuartila inferioar , a doua cuartil este mediana, iar ultima cuartil , notat x0.75 sau Q3, senume³te cuartila superioar . Diferenµa Q3 −Q1 se nume³te distanµa intercuartilic .Dac n = 10 se numesc decile (sunt în num r de 9), dac n = 100 se numesc percentile (sunt în num r de99), dac n = 1000 se numesc permile (sunt în num r de 999). Sunt m suri de poziµie, ce m soar locaµiaunei anumite observaµii faµ de restul datelor.

(13) Modul

Modul (sau valoarea modal ) este acea valoare x∗ din setul de date care apare cel mai des. În anumitecazuri, dac datele sunt deja grupate, putem doar estima modul sau, alternativ, s preciz m clasa careîl conµine, numit clasa modal . De exemplu, pentru datele din Tabelul 1.1 este 6, iar pentru datele dinTabelul 1.4 clasa modal este [35, 45). Un set de date poate avea mai multe module. Dac apar dou astfel de valori, atunci vom spune c setul de date este bimodal, pentru trei astfel de valori avem un setde date trimodal etc. În cazul în care toate valorile au aceea³i frecvenµ de apariµie, atunci spunem c nuexist mod. De exemplu, setul de date

1 3 5 6 3 2 1 4 4 6 2 5

nu admite valoare modal . Nu exist un simbol care s noteze distinctiv modul unui set de date.

Page 65: Curs Statistica Aplicata

STATS 5 [Dr. Iulian Stoleriu] 64

M suri descriptive ale datelor grupate

Consider m un set de date statistice grupate (de volum n), ce corespund celor n observaµii asupra variabileiX. Datele grupate sunt în genul celor prezentate în Figurile 1.1 ³i 1.4.

Pentru o selecµie cu valorile de mijloc x1, x2, . . . , xn ³i frecvenµele absolute corespunz toare, f1, f2,

. . . , fn, cun∑i=1

fi = n, denim:

xf =1

n

n∑i=1

xifi, media (empiric ) de selecµie, (sau, media ponderat )

s2 =1

n− 1

n∑i=1

fi(xi − xf )2 =1

n− 1

(n∑i=1

x2i fi − n x2

f

), dispersia empiric ,

s =√s2, deviaµia empiric standard.

Formule similare se pot da ³i pentru m surile descriptive ale întregii populaµii.Mediana pentru un set de date grupate este acea valoare ce separ toate datele în dou p rµi egale. Sedetermin mai întâi clasa ce conµine mediana (numit clas median ), apoi presupunem c în interiorulec rei clase datele sunt uniform distribuite (vezi Exerciµiu 10.3). O formul dup care se calculeaz mediana este:

Me = l +n2 − FMe

fMec,

unde: l este limita inferioar a clasei mediane, n este volumul selecµiei, FMe este suma frecvenµelor pân la (exclusiv) clasa median , fMe este frecvenµa clasei mediane ³i c este l µimea clasei.

Pentru a aa modul unui set de date grupate, determin m mai întâi clasa ce conµine aceast valoare (clas modal ), iar modul va calculat dup formula:

Mod = l +d1

d1 + d2c,

unde d1 ³i d2 sunt frecvenµa clasei modale minus frecvenµa clasei anterioare ³i, respectiv, frecvenµa claseimodale minus frecvenµa clasei posterioare, l este limita inferioar a clasei modale ³i c este l µimea claseimodale.

Observaµia 9.3 S consider m urm toarea problem . La brut ria din colµ a fost adus o ma³in nou defabricat pâine. Aceast ma³in de pâine ar trebui s fabrice pâini care s aiba în medie m = 400 de grame.Pentru a testa dac ma³ina respectiv îndepline³te norma de gramaj, am pus deoparte (la întâmplare)n pâini produse într-o zi lucratoare, în scopul de a le cânt ri. Spunem astfel c am facut o selecµie devolum n din mulµimea pâinilor produse în acea zi. Dorim s decidem dac , într-adev r, ma³ina este setat la parametrii potriviµi. În urma cânt ririi celor n pâini, obµinem datele (empirice): x1, x2, . . . , xn (îngrame). Calcul m media masei acestora ³i obµinem:

x =1

n

n∑i=1

xi.

Intuitiv, ar de a³teptat ca acest x s aproximeze (într-un anumit sens) masa medie (teoretic ) a pâinilorproduse de aceast ma³in . Pentru a putea obµine aceast aproximare, am avea nevoie de un criteriu care

Page 66: Curs Statistica Aplicata

STATS 5 [Dr. Iulian Stoleriu] 65

s ne spun c x ≈ m. Mai mult, am dori s m convin³i c aceast aproximare nu depinde de e³antionulde pâini ales, adic , dac am ales alte pâini ³i calculat media maselor lor, am obµinut din nou ovaloarea foarte apropiat de m. Pentru a construi un astfel de criteriu, avem nevoie de un cadru teoreticmai abstract pentru modelarea datelor statistice. Acest cadru îl vom construi în capitolele ce urmeaz .

În Tabelul 9.1, am prezentat câteva funcµii Matlab specice pentru m surile descriptive.

mean(x) % media valorilor elementelor lui x;geomean(x) % media geometric a elementelor lui x;harmmean(x) % media armonic a elementelor lui x;quantile(x,alpha) % cuantila de ordin α a vectorului x;iqr(x) % distanµa intercuantilic , x0.75 − x0.25;median(x) % valoarea median a lui x;std(x), var(x) % deviaµia standard ³i dispersia valorilor lui x;range(x) % amplitudinea (range) vectorului x;mode(x) % modul lui x;zscore(x) % realizeaz scorul elementelor lui x;moment(x,k) % momentul de ordin k al lui x;sort(x) % sorteaza crescator elementele vectorului x;max(x), min(x) % maximum ³i minimum pentru elementele lui x;skewness(x) % skewness pentru elementele lui x;kurtosis(x) % kurtosis pentru elementele lui x;prctile(x,p) % percentilele de ordin p ale lui x;cdfplot(x) % reprezint grac funcµia de repartiµie empiric a lui x;cov(x,y) % covarianµa dintre x ³i y;corrcoef(x,y) % coecientul de corelaµie dintre x ³i y;LEGEstat(<param>) % a³eaz media ³i dispersia pentru LEGE(<param>);

Tabela 9.1: Funcµii Matlab specice pentru m suri descriptive.

.

Page 67: Curs Statistica Aplicata

Laborator 5 [Dr. Iulian Stoleriu] 66

10 Statistic Aplicat (L5)

Justicare grac a teoremei limit central

Exemplu 10.1 În Figura 10.1 am reprezentat grac (cu bare) funcµiile de probabilitate pentru repartiµiilebinomial ³i Poisson, atunci când num rul de extrageri în schema binomial este un num r mare. Obser-v m c pentru un num r n sucient de mare, cele dou grace se suprapun. Aceasta este o "demonstraµie"grac a urm toarei convergenµe:

limn→∞p→0

λ=np

Ckn pk qn−k =

e−λλk

k!. (10.1)

0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12

Figura 10.1: B(n, p) ³i P(np) pentru n = 100, p = 0.15

În practic , proprietatea (10.1) este satisf cut pentru

n ≥ 30, p ≤ 0.1, λ = n p ≤ 0.1.

Din gura 10.1, observ m c gracul are forma clopotului lui Gauss, justicând grac faptul c funcµiilede probabilitate pentru binomial (albastru) ³i Poisson (ro³u) tind la densitatea de repartiµie pentrurepartiµia normal .

n = input('n='); p = input('p=');

lambda = n*p;

a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda));

% a si b sunt valorile din problema celor 3σx=a:b; fB=binopdf(x,n,p); fP=poisspdf(x,lambda);

bar(x',[fB',fP'])

Page 68: Curs Statistica Aplicata

Laborator 5 [Dr. Iulian Stoleriu] 67

Generare de numere aleatoare folosind metoda funcµiei de repartiµie inverse (Hincin-Smirnov)

Exemplu 10.2 Fie variabila aleatoareX ∼ exp(λ). Funcµia sa de repartiµie este F : R −→ [0, 1], F (x) =1− e−λx, x > 0, iar F−1 este:

F−1(u) =

−λ ln(1− u) , u ∈ (0, 1);

0 , altfel.

Atunci, dac u1, u2, . . . , un sunt numere aleatoare uniform repartizate în [0, 1], avem c F−1(u1),F−1(u2), . . . , F−1(un) formeaz o selecµie întâmpl toare de numere repartizate exp(λ).

În Figura 10.2, am reprezentat grac o dou selecµii de volum 150 de numere aleatoare repartizate exp(5);una generat prin metoda funcµiei de repartiµie inverse, cealalt generat de funcµia Matlab predenit exprnd. Selecµiile generate au fost ordonate descresc tor. Funcµia Matlab care genereaz gura esteprezentat mai jos.Apelarea funcµiei se face prin tastarea în fereastra de lucru în Matlab a comezii expsel(5).

function expsel(lambda) % functia expsel.m

% generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator

Y = sort(-lambda*log(1-rand(150,1)), 'descend');

plot(Y, 'bo'); hold on % desenez selectia si retin figura

% generez 150 de numere cu exprnd si le ordonez descrescator

Z = sort(exprnd(lambda, 150,1), 'descend');

plot(Z, 'r*') % desenez Z cu rosu

legend('metoda functiei inverse','generare cu exprnd')

Figura 10.2: Generare de numere aleatoare prin metoda funcµiei inverse.

Exerciµiu 10.1 Consider m v.a. X ∼ U(−π

2 ,π2

). Determinaµi densitatea de repartiµie a v.a. Y = tanX

³i simulaµi în Matlab o selecµie de observaµii independente asupra lui Y .

Page 69: Curs Statistica Aplicata

Laborator 5 [Dr. Iulian Stoleriu] 68

Generarea de numere aleatoare întregi

Funcµiile floor, ceil, round, fix

Sunt funcµii folosite pentru generarea de numere aleatoare întregi. De exemplu, funcµia floor(x) estepartea întreag a lui x. Astfel, comenzile

floor(11*rand(20,1));ceil(11*rand(20,1));

genereaz ecare câte 20 de numere întregi între 0 ³i 10, distribuite uniform discret. Diferenµa dintre celedou funcµii este ca floor(x) face rotunjirea la num rul întreg aat la stânga lui x, pe când ceil(x) facerotunjirea la num rul întreg aat la dreapta lui x.Funcµiile round(x) ³i fix(x) rotunjesc num rul real x la cel mai apropiat num r întreg, în direcµia lui±∞, respectiv, în direcµia lui zero.

Pentru generarea de numere întregi în Matlab, mai putem folosi urm toarele comenzi:

randsample(populatie, k)

randsample(n, k)

randsample(populatie, k, replace)

Prima comand genereaz o selecµie uniform (discret ) nerepetat de k numere naturale alese aleator dinvectorul populatie. Dac în locul vectorului populatie este n (comanda a doua), atunci se realizeaz oselecµie uniform nerepetat de k numere din mulµimea 1, 2, . . . , n. A treia comand ne d posibilita-tea s control m dac selecµia este sau nu este repetat . Dac variabila replace este true sau 1, atunciselecµia obµinut este una repetat , iar dac variabila replace este false sau 0, atunci selecµia obµinut este una nerepetat .De exemplu, comanda

randsample([50:2:100], 10, 0)

genereaz o selecµie nerepetat de 10 numere pare între 50 ³i 100:

66 72 50 68 88 74 82 80 94 76

Vectorul X dat de

X = randperm(n)

este o permutare aleatoare a elementelor mulµimii 1, 2, . . . , n.

Exerciµiu 10.2 Urm torul set de date reprezint preµurile (în mii de euro) a 20 de case, vândute într-o

Page 70: Curs Statistica Aplicata

Laborator 5 [Dr. Iulian Stoleriu] 69

anumit regiune a unui ora³:

113 60.5 340.5 130 79 475.5 90 100 175.5 100

111.5 525 50 122.5 125.5 75 150 89 100 70

Determinaµi amplitudinea, media, mediana, modul, cuartilele ³i distanµa intercuartilic pentru acestedate. Care valoare este cea mai reprezentativ ?

Soluµie: Rearanj m datele în ordine cresc toare:

50 60.5 70 75 79 89 90 100 100 100 111.5

113.5 122.5 125.5 130 150 175.5 340.5 475.5 525

Amplitudinea este 525 − 50 = 475, media lor este 154.15, mediana este 105.75, modul este 100, cuartilainferioar este Q1 = 84, cuartila superioar este Q3 = 140, Q2 = Me ³i distanµa intercuartilic ested = Q3 −Q1 = 56.Mediana este valoarea cea mai reprezentativ în acest caz, deoarece cele mai mari trei preµuri, anume340.5, 475.5, 525, m resc media ³i o fac mai puµin reprezentativ pentru celelalte date. În cazul în caresetul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. ÎnMatlab,

X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ...

111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70

a = range(X); m = mean(X); Me = median(X); Mo = mode(X);

Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;√

Exerciµiu 10.3 Consider m datele din Tabelul 2.2. Determinaµi amplitudinea, media, mediana, modul,dispersia ³i prima cuartil pentru aceste date.

Soluµie: Amplitudinea este a = 30. Media este

x =

∑(x · f)

n=

1

70(2.5× 5 + 7.5× 13 + 12.5× 23 + 17.5× 17 + 22.5× 10 + 27.5× 2) = 13.9286.

Dispersia este:

s2 =1

n− 1(∑

(x2 · f)− n · x2)

=1

69(2.52 × 5 + 7.52 × 13 + 12.52 × 23 + 17.52 × 17 + 22.52 × 10 + 27.52 × 2 − 70 · 13.92862)

= 37.06.

Clasa median este clasa [10, 15). Deoarece în clasele anterioare ([0, 5) ³i [5, 10)) se a deja 5 + 13 = 18date mai mici decât mediana, pentru a aa în lµimea median a plantelor (i.e., acea valoare care estemai mare decât în lµimea a 35 de plante ³i mai mic decât în lµimea a alte 35 de plante), va trebuis determin m acea valoare din clasa median ce este mai mare decât alte 17 valori din aceast clas .

Page 71: Curs Statistica Aplicata

Laborator 5 [Dr. Iulian Stoleriu] 70

A³adar, avem nevoie de a determina o fracµie 1723 dintre valorile clasei mediane. În concluzie, valoarea

median esteMe = 10 +

17

23× 5 = 13.6957.

Clasa modal este [10, 15), iar modul este valoarea central a clasei, 12.5.Calcul m acum prima cuartil . Împ rµim setul de date în patru. Prima cuartil este acea valoare dintrecele 70 care este mai mare decât alte 18 valori, adic Q1 = 10. Implementarea în Matlab:

x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor

f = [5; 13; 23; 17; 10; 2]; % frecventele

n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1); √

Exerciµiu 10.4 O companie de asigur ri a înregistrat num rul de accidente pe s pt mân ce au avut locîntr-un anumit sat, în decurs de un an (52 de s pt mâni). Acestea sunt, în ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,

4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

(a) Construiµi un tabel de frecvenµe care s conµin num rul de accidente, frecvenµele absolute ³i relative.(b) G siµi media empiric , mediana ³i deviaµia standard empiric .(c) Reprezentaµi prin bare rezultatele din tabelul de frecvenµe.(d) G siµi ³i reprezentaµi grac (cdfplot) funcµia de repartiµie empiric a num rului de accidente.(e) Aproximaµi probabilitatea ca într-o s pt mân aleas la întâmplare s avut cel puµin dou accidente.

Soluµie: (a) Tabelul de frecvenµe este Tabelul 10.1.

num rul 0 1 2 3 4frecv. abs. 7 9 14 12 10frecv. rel. 0.1346 0.1731 0.2692 0.2308 0.1923

Tabela 10.1: Tabel de frecvenµe pentru Exerciµiu 10.4

(b) Avem:

x =

52∑i=1

xi = 2.1731, s =

√√√√ 1

51

52∑i=1

(xi − x)2 = 1.3094, Me = 2.

(c) Reprezentarea prin bare a num rului de accidente ³i gracul lui F ∗n(x) sunt reprezentate în Figura10.3.(d) Funcµia de repartiµie empiric este:

F ∗n(x) = P (X ≤ x) =

0, dac x < 0;752 , dac x ∈ [0, 1);1652 , dac x ∈ [1, 2);3052 , dac x ∈ [2, 3);4252 , dac x ∈ [3, 4);

1, dac x ≥ 4.

Page 72: Curs Statistica Aplicata

Laborator 5 [Dr. Iulian Stoleriu] 71

Figura 10.3: Reprezentare pentru num rul de accidente.

Probabilitatea cerut la (e) este:

P (X ≥ 2) = 1− P (X < 2) = 1− P (X ≤ 1) = 1− F ∗n(1) = 1− 16

52= 0.6923.

Codul Matlab pentru calcule ³i grace este:

Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];

m = mean(Y); s = std(Y); Me = median(Y);

subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare

subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice √

Exerciµiu 10.5 Test m media notelor obµinute de studenµii din ultimul an al unei universit µi. S pre-supunem c pentru aceste note avem media de selecµie x = 7.24 ³i deviaµia standard s = 0.7. Media taeste 8.45. Care îµi este poziµia mediei tale, raportat la mediile colegilor t i? (i.e., câte deviaµii standard,s, dedesubtul sau deasupra mediei de selecµie te situezi?)

Soluµie: Calcul m scorul Z. Avem:

z =x− xσ

=8.50− 7.24

0.7= 1.8 deviaµii standard deasupra mediei de selecµie.

Page 73: Curs Statistica Aplicata

Anexa 1 [Dr. Iulian Stoleriu] 72

11 Anexa 1

Scurt introducere în Matlab

Matlab este un pachet comercial de programe de înalt performanµ produs de The MathWorks, Inc.,dedicat calculului numeric ³i reprezent rilor grace în domeniul ³tiinµelor ³i ingineriei. Elementul de baz cu care opereaz Matlab-ul este matricea (Matlab este acronim de laMATrix LABoratory). Matlabeste un software standard în mediile universitare, precum ³i în domeniul cercet rii ³i rezolv rii practice aproblemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelorexperimentale, matematici nanciare, matematici aplicate în diverse domenii etc. Cea mai important caracteristic a Matlab-ului este u³urinµa cu care poate extins. La programele deja existente înMatlab, utilizatorul poate ad uga propriile sale coduri, dezvoltând aplicaµii specice domeniului în carelucreaz . Matlab-ul include aplicaµii specice, numite Toolbox-uri. Acestea sunt colecµii extinse defuncµii Matlab (³iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolvaprobleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz , cuinterpretor propriu, în jurul c ruia sunt construite toolbox-urile.

Prezent m mai jos o scurt introducere în Matlab a principalelor funcµii ³i comenzi folosite în aceast lucrare. Pentru o tratare mai detaliat , puteµi consulta un manual de utilizare sau [9]. Mai menµion maici ³i lucrarea [1], unde puteµi g si diverse modalit µi de implementare în Matlab ale unor noµiuni deTeoria Probabilit µilor ³i Statistic matematic .Folosind comanda demo din Matlab, puteµi urm ri o demonstraµie a principalelor facilit µi din Matlab,cât ³i a pachetelor de funcµii (toolbox) de care aµi putea interesaµi. Dintre acestea, amintim Statistics

Toolbox, care este o colecµie de funcµii folosite pentru analiza, modelarea ³i simularea datelor. Conµine:analiza gracelor (GUI), diverse repartiµii probabilistice (beta, binomial , Poisson, χ2), generarea nume-relor aleatoare, analiza regresional , descrieri statistice.

• ComenzileMatlab pot scrise în ³iere cu extensia .m, ce urmeaz apoi a compilate. Un ³ier-mconst dintr-o succesiune de instrucµiuni, cu posibilitatea apel rii altor ³iere-M precum ³i a apel riirecursive. De asemenea, Matlab poate folosit ca pe un mediu computaµional interactiv, caz încare ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot vizualizate sauevaluate imediat. De exemplu, introducând la linia de comand

>> a = sqrt((sqrt(5)+1)/2)

Matlab dene³te o variabil de memorie a, c reia îi atribuie valoareaa =

1.2720

• Variabilele sunt denite cu ajutorul operatorului de atribuire, =, ³i pot utilizate f r a declarade ce tip sunt. Valoarea unei variabile poate : o constant , un ³ir de caractere, poate reie³i dincalculul unei expresii sau al unei funcµii.

• Pentru a g si informaµii imediate despre vreo funcµie predenit , comanda help va vine în ajutor.De exemplu,

Page 74: Curs Statistica Aplicata

Anexa 1 [Dr. Iulian Stoleriu] 73

>> help length

a³eaz urm toarele:

LENGTH Length of vector.

LENGTH(X) returns the length of vector X. It is equivalent

to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.

See also numel.

• Comanda help poate utilizat doar dac se cunoa³te exact numele funcµiei. Altfel, folosirea co-menzii lookfor este recomandat . De exemplu, comanda

>> lookfor length

produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name.

VARARGIN Variable length input argument list.

VARARGOUT Variable length output argument list.

LENGTH Length of vector.

• Matlab este un mediu computaµional orientat pe lucru cu vectori ³i matrice. O linie de cod deforma

>> v = [1,3,5,7,9] % sau v = [1 3 5 7 9]

dene³te un vector linie ce are componentele 1, 3, 5, 7, 9. Aceasta poate realizat ³i folosindcomanda v = 1:2:9 adic a³eaz numerele de la 1 la 9, cu pasul 2. Pentru un vector coloan ,folosim punct-virgul între elemente, adic

>> v = [1;3;5;7;9] % vector coloana

O alt variant de a deni un vector este

>> v = linspace(x1,x2,n)

adic v este un vector linie cu n componente, la intervale egale între x1 ³i x2.

• Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instruc-µiuni ³i funcµii. La denirea explicit , trebuie µinut cont de urm toarele: elementele matricei suntcuprinse între paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaµii libere sauvirgule, liniile se separ prin semnul punct-virgul . De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

Page 75: Curs Statistica Aplicata

Anexa 1 [Dr. Iulian Stoleriu] 74

dene³te matriceaA =

1 2 3

4 5 6

• Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele decoloan j) sau A(i,:) (elementele de linia i);

• Funcµia Matlab ones(m,n) dene³te o matrice m × n, având toate componentele egale cu 1.Funcµia zeros(m,n) dene³te o matrice zero m× n. Funcµia eye(n) dene³te matricea unitate deordin n.

• Dup cum vom vedea mai jos, Matlab permite denirea unor funcµii foarte complicate prin scri-erea unui cod. Dac funcµia ce o avem de denit este una simpl , atunci avem varianta utiliz riicomenzii inline. Spre exemplu, denim funcµia f(x, y) = e5x sin 3y:

>> f = inline('exp(5*x).*sin(3*y)')

f =

Inline function:

f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula f(7, π) prin

>> f(7,pi)

0.5827

• Un program Matlab poate scris sub forma ³ierelor script sau a ³ierelor de tip funcµie. Ambeletipuri de ³iere sunt scrise în format ASCII. Aceste tipuri de ³iere permit crearea unor noi funcµii,care le pot completa pe cele deja existente. Un ³ier script este un ³ier extern care conµine o sec-venµ de comenziMatlab. Prin apelarea numelui ³ierului, se execut secvenµaMatlab conµinut în acesta. Dup execuµia complet a unui ³ier script, variabilele cu care acesta a operat r mânîn zona de memorie a aplicaµiei. Fi³ierele script sunt folosite pentru rezolvarea unor probleme carecer comenzi succesive atât de lungi, încât ar putea deveni greoaie pentru lucrul în mod interactiv,adic în modul linie de comand .

Pentru a introduce date în Matlab, putem copia datele direct într-un ³ier Matlab, prin denirea unuivector sau a unei matrice de date. De exemplu, urm toarele date au fost introduse prin "copy-paste" înmatricea data:

>> data = [ % atribuirea valorilor matricei data

21.3 24.1 19.9 21.0 % prima linie a datelor copiate

18.4 20.5 17.5 23.2

22.1 16.6 23.5 19.7 % ultima linie a datelor copiate

]; % inchidem paranteza ce defineste matricea de date

Datele din Matlab pot salvate astfel:

Page 76: Curs Statistica Aplicata

Anexa 1 [Dr. Iulian Stoleriu] 75

>> cd('c:\fisierul_de_lucru'); % alegem fisierul unde salvam datele

>> save Timpi_de_reactie data; % salveaza in fisierul Timpi_de_reactie.mat

Datele pot reînc rcate folosind comanda

load Timpi_de_reactie % incarca datele din fisier

Timpi_de_reactie % afiseaza datele incarcate

Fi³ierele funcµie

Matlab creaz cadrul propice extinderii funcµiilor sale, prin posibilitatea cre rii de noi ³iere. Astfel,dac prima linie a ³ierului .m conµine cuvântul function, atunci ³ierul respectiv este declarat ca ind³ier funcµie. Variabilele denite ³i manipulate în interiorul ³ierului funcµie sunt localizate la nivelulacesteia. Prin urmare, la terminarea execuµiei unei funcµii, în memoria calculatorului nu r mân decâtvariabilele de ie³ire ale acesteia. Forma general a primei linii a unui ³ier este:

function[param_iesire] = nume_functie(param_intrare)

unde:

• function este este cuvântul care declar ³ierul ca ³ier funcµie;

• nume_functie este numele funcµiei, care este totuna cu numele sub care se salveaz ³ierul;

• param_iesire sunt parametrii de ie³ire;

• param_intrare sunt parametrii de intrare.

Comenzile ³i funcµiile care sunt utilizate de nou funcµie sunt înregistrate într-un ³ier cu extensia .m.

Exemplu 11.1 Fisierul medie.m calculeaz media aritmetic a sumei p tratelor componentelor unui vec-tor X (alternativ, aceast lucru poate realizat prin comanda mean(X.^2)):

function m2 = medie(X)

n = length(X); m2 = sum(X.^2)/n;

Matlab-ul include aplicaµii specice, numite Toolbox-uri. Acestea sunt colecµii extinse de funcµiiMatlab(³iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme dindomenii variate. Statistics Toolbox reprezint o colecµie de funcµii folosite pentru analiza, modelarea ³isimularea datelor ³i conµine: generarea de numere aleatoare; distribuµii, analiza grac interactiv (GUI),analiza regresional , descrieri statistice, teste statistice.

În Tabelul 11.1 am adunat câteva comenzi utile în Matlab.

Page 77: Curs Statistica Aplicata

Anexa 1 [Dr. Iulian Stoleriu] 76

% % permite adaugarea de comentarii in codhelp rand % help specic pentru funcµia randlookfor normal % cauta intrarile în Matlab pentru normalX=[2 4 6 5 2 7 10] % vector linie cu 7 elementeX=[3; 1; 6.5 ;0 ;77] % vector coloan cu 5 elementeX = -10:2:10 % vector cu numerele intregi de la −10 la 10, din 2 în 2length(X) % lungimea vectorului Xt=0:0.01:3*pi % dene³te o diviziune a [0, 3π] cu diviziunea 0.01X.^2 % ridic toate componentele vectorului X la puterea a douaX.*Y % produsul a doi vectoricumsum(X) % suma cumulat a elementelor vectorului Xcumprod(X) % produsul cumulativ al elementelor vectorului Xmin(X) % realizeaz minimum dintre componentele lui Xmax(X) % realizeaz maximum dintre componentele lu Xsort(X) % ordoneaz componentele lui X în ordine crescatoaresort(X, 'descend') % ordoneaz componentele lui X în ordine descrescatoareerf(X) % funcµia eroareexp(x) % calculeaz exponenµial ex

log(x) % calculeaz logaritmul natural ln(x)sqrt(x) % calculeaz radicalul ordinului doi dintr-un num rnum2str(x) % furnizeaz valoarea numeric a lui xfactorial(n) % n!A = ones(m,n) % A e matrice m× n, cu toate elementele 1B = zeros(m,n) % matrice m× n zeroI = eye(n) % matrice unitate, n× nA = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] % matrice 3× 3size(A) % dimensiunea matricei Adet(A) % determinantul matricei Ainv(A) % inversa matricei AA' % transpusa matricei AA(:,7) % coloana a 7-a a matricei AA(1:20,1) % scoate primele 20 de linii ale lui Anchoosek(n,k) % combin ri de n luate câte k1e5 % numarul 105

exp(1) % numarul ebar(X) sau barh(X) % reprezentarea prin barehist(X) % reprezentarea prin histogramehist3(x,y,z) % reprezentarea prin histograme 3-Dplot(X(1:5),'*m') % deseneaz primele 5 componente ale lui X, cu * magenta

plot(t,X,'-') % deseneaz gracul lui X versus t, cu linie continuaplot3(X,Y,Z) % deseneaz un grac în 3-Dstairs(X) % deseneaz o funcµie scarasubplot(m,n,z) % împarte gracul în m× n zone & deseneaz în zona zsemilogx ³i semilogy % logaritmeaz valorile de pe absci , resp., ordonatahold on % reµine gracul pentru a realiza o nou guraclf % ³terge guraclear all % ³terge toate variabilele denitetitle('Graficul functiei') % adaug titlu guriifind % g se³te indicii elementelor nenule ale unui vectorlegend % ata³eaz o legend la un grac

Tabela 11.1: Funcµii Matlab utile

Page 78: Curs Statistica Aplicata

Anexa 2 [Dr. Iulian Stoleriu] 77

12 Anexa 2

Exemple de repartiµii discrete

În dreptul ec rei repartiµii, în parantez , apare numele cu care aceasta care poate apelat în Matlab.

(1) Repartiµia uniform discret , U(n) (unid)

Scriem c X ∼ U(n), dac valorile lui X sunt 1, 2, . . . , n, cu probabilit µile

P (X = k) =1

n, k = 1, 2, . . . , n.

Media ³i dispersia sunt: E(X) = n+12 , D2(X) = n2−1

12 .Exemplu: num rul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat U(6).

(2) Repartiµia Bernoulli17, B(1, p) (bino)

Scriem X ∼ B(1, p). V.a. de tip Bernoulli poate lua doar dou valori, X = 1 (succes) sau X = 0(insucces), cu probabilit µile P (X = 1) = p; P (X = 0) = 1− p.Media ³i dispersia sunt: E(X) = p; D2(X) = p(1− p).Exemplu: aruncarea o singur dat a unei monede ideale poate modelat ca ind o v.a. B(1, 0.5).

(3) Repartiµia binomial , B(n, p): (bino)

Scriem X ∼ B(n, p) (schema bilei revenite sau schema extragerilor cu repetiµie) (n > 0, p ∈ (0, 1)),dac valorile lui X sunt 0, 1, . . . , n, cu probabilit µile

P (X = k) = Cknpk(1− p)n−k, k = 0, 1, . . . , n.

Media ³i dispersia sunt: E(X) = np; D2(X) = np(1− p).

Dac (Xk)k=1,n ∼ B(1, p) ³i (Xk)k independente stochastic, atunci X =

n∑k=1

Xk ∼ B(n, p).

Exemplu: aruncarea de 15 ori a unei monede ideale poate modelat ca ind o v.a. binomial B(15, 0.5).

(4) Repartiµia hipergeometric , H(n, a, b) (hyge)

X ∼ H(n, a, b) (schema bilei nerevenite sau schema extragerilor f r repetiµie) (n, a, b > 0) dac

P (X = k) =CkaC

n−kb

Cna+b

, pentru orice k ce satisface max(0, n− b) ≤ k ≤ min(a, n).

17Jacob Bernoulli (1654− 1705), matematician elveµian

Page 79: Curs Statistica Aplicata

Anexa 2 [Dr. Iulian Stoleriu] 78

Media ³i dispersia sunt: EX =n∑i=0

E(Xi) = np; D2(X) = np(1− p)a+ b− na+ b− 1

.

Observaµia 12.1 (i) Dac (Xk)k=0,n ∼ B(1, n), cu p = aa+b (v.a. dependente stochastic), atunci

X =

n∑i=1

Xi ∼ H(n, a, b).

În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între D2(X) ³in∑i=0

D2(Xi), deoarece (Xi)i

nu sunt independente stochastic.(ii) Pentru N = a+ b n, putem face aproximarea a+b−n

a+b−1 ≈a+b−na+b = 1− n

N , de unde

D2(X) ≈ np(1− p)(

1− n

N

). (12.1)

Observ m c repartiµiile binomial ³i hipergeometric au aceea³i medie, îns dispersiile difer prin terme-nul N−nN−1 . În cazul în care num rul de bile este mult mai mare decât num rul de extrageri (N n), atunciacest termen devine aproximativ

(1− n

N

). În plus, dac N este foarte mare, atunci trecând N → ∞ în

(12.1), g sim c ³i dispersiile celor dou repartiµii coincid. Cu alte cuvinte, când num rul de bile din urn este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiµie sau nu. Acest fapt îl vomutiliza în Teoria selecµiei, când extragerile se fac dintr-o colectivitate de volum foarte mare.

(5) Repartiµia Poisson18, P(λ) (poiss)

Valorile sale reprezint num rul evenimentelor spontane (cu intensitatea λ) realizate într-un anumit inter-val de timp. Pentru un λ > 0, spunem c X ∼ P(λ) (legea evenimentelor rare) dac X ia valori naturale,cu probabilit µile

P (X = k) = e−λλk

k!, ∀k ∈ N.

E(X) = λ; D2(x) = λ.

(6) Repartiµia geometric , Geo(p) (geo)

Valorile sale reprezint num rul de insuccese avute pân la obµinerea primului succes,stiind probabilitatea de obµinere a unui succes, p.

Spunem c X ∼ Geo(p), (p ∈ (0, 1)) dac X ia valori în N, cu probabilit µile

P (X = k) = p(1− p)k, pentru orice k ∈ N, unde p ≥ 0.

E(X) =1− pp

; D2(X) =1− pp2

.

Observaµia 12.2 Dac X ∼ Geo(p), atunci variabila aleatoare Y = X + 1 reprezint a³teptarea pân la

primul succes.

18Siméon-Denis Poisson (1781− 1840), matematician ³i zician francez, student al lui Laplace

Page 80: Curs Statistica Aplicata

Anexa 2 [Dr. Iulian Stoleriu] 79

(7) Repartiµia binomial cu exponent negativ, BN (m, p) (nbin)

Valorile sale reprezint num rul de insuccese obµinute înainte de a se realiza succesul de rang m.În cazul particular m = 1, obµinem repartiµia geometric .

Pentru m ≥ 1, p ∈ (0, 1), spunem c X ∼ BN (m, p) dac X ia valorile m, m + 1, m + 2, . . . , cuprobabilit µile

P (X = k) = Cm−1m+k−1p

m(1− p)k, ∀k ≥ m, p ≥ 0.

Media ³i dispersia sunt: E(X) =m(1− p)

p; D2(X) =

m(1− p)p2

.

Exemple de repartiµii continue

(1) Repartiµia uniform , U(a, b) (unif)

V.a. X ∼ U(a, b) (a < b) dac funcµia sa de densitate este

f(x; a, b) =

1b−a , dac x ∈ (a, b)

0 , altfel.

E(X) =a+ b

2, D2(X) =

(b− a)2

12.

Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), în cazul în care orice valoare areaceea³i ³ans de a aleas , urmeaz o repartiµie U(0, 1). Comanda rand din Matlab realizeaz acestexperiment (vezi capitolul urm tor).

(2) Repartiµia normal , N (µ, σ) (norm)

Spunem c X ∼ N (µ, σ), dac X are densitatea:

f(x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

E(X) = µ ³i D2(X) = σ2.Se mai nume³te ³i repartiµia gaussian . În cazul µ = 0, σ2 = 1 densitatea de repartiµie devine:

f(x) =1√2πe−

x2

2 , x ∈ R. (12.2)

În acest caz spunem c X urmeaz repartiµia normal standard, N (0, 1).Gracul densit µii de repartiµie pentru repartiµia normal este clopotul lui Gauss (vezi Figura 12.1). Dingrac (pentru σ = 1), se observ c majoritatea valorilor nenule ale repartiµiei normale standard se a în intervalul (µ− 3σ, µ+ 3σ) = (−3, 3). Aceast armaµie se poate demonstra cu ajutorul relaµiei (5.5).

Dac Z ∼ N (0, 1), atunci X = σZ + µ ∼ N (µ, σ). În mod similar, dac X ∼ N (µ, σ), atunci Z =X−µσ ∼ N (0, 1). Pentru o v.a. N (0, 1) funcµia de repartiµie este tabelat (valorile ei se g sesc în tabele)

³i are o notaµie special , Θ(x). Ea e denit prin:

Θ(x) =1√2π

∫ x

−∞e−

y2

2 dy. (12.3)

Page 81: Curs Statistica Aplicata

Anexa 2 [Dr. Iulian Stoleriu] 80

Figura 12.1: Clopotul lui Gauss pentru X ∼ N (0, σ), (σ = 1, 2, 3)

Funcµia de repartiµie a lui X ∼ N (µ, σ) este dat prin

F (x) = Θ(x− µσ

), x ∈ R. (12.4)

(3) Repartiµia log-normal , logN (µ, σ) (logn)

Repartiµia log-normal este foarte util în Matematicile Financiare, reprezentând o repartiµie de preµuriviitoare pentru un activ nanciar. Dac X ∼ N (µ, σ), atunci Y = eX este o v.a. nenegativ , avânddensitatea de repartiµie

f(x; µ, σ) =

1

xσ√

2πe−

(ln x−µ)2

2σ2 , dac x > 0

0 , dac x ≤ 0

A³adar, Y ∼ logN (µ, σ) dac lnY ∼ N (µ, σ).Media ³i dispersia sunt date de E(X) = eµ+σ2/2, D2(X) = e2µ+σ2

(eσ2 − 1).

(4) Repartiµia exponenµial , exp(λ) (exp)

Valorile sale sunt timpi realizaµi între dou valori spontane repartizate P(λ).

Spunem c X ∼ exp(λ) (λ > 0) dac are densitatea de repartiµie

f(x; λ) =

λe−λx , dac x > 00 , dac x ≤ 0

Media ³i dispersia sunt: E(X) =1

λ³i D2(X) =

1

λ2.

Observaµia 12.3 Repartiµia exponenµial satisface proprietatea a³a-numitei lips de memorie, i.e.,

P (X > x+ y|X > y) = P (X > x), ∀x, y ≥ 0.

Page 82: Curs Statistica Aplicata

Anexa 2 [Dr. Iulian Stoleriu] 81

Este unica distribuµie continu cu aceast proprietate. Distribuµia geometric satisface o variant discret a acestei propriet µi. [Vericaµi!]

(5) Repartiµia Gamma, Γ(a, λ) (gam)

O v.a. X ∼ Γ(a, λ), a, λ > 0, dac densitatea sa de repartiµie este:

f(x; a, λ) =

λa

Γ(a)xa−1e−λx , dac x > 0,

0 , dac x ≤ 0.

unde Γ este funcµia lui Euler,

Γ : (0, ∞)→ (0, ∞), Γ(a) =

∫ ∞0

xa−1e−xdx.

Media ³i dispersia sunt: E(X) =a

λ, D2(X) =

a

λ2.

Observaµia 12.4 (i) Γ(1, λ) ≡ exp(λ).

(ii) Dac v.a. Xkk=1,n ∼ exp(λ) sunt independente stochastic, atunci suma lorn∑k=1

Xk ∼ Γ(n, λ).

(6) Repartiµia Weibull19, Wbl(k, λ) (wbl)

Aceast repartiµie este asem n toare cu repartiµia exponenµial (aceast obµinându-se în cazul particulark = 1) ³i poate modela repartiµia m rimii particulelor. Când k = 3.4, distribuµia Weibull este asem n -toare cu cea normal . Când k →∞, aceast repartiµie se apropie de funcµia lui Dirac.Vom spune c X ∼Wbl(k, λ) (k > 0, λ > 0) dac are densitatea de repartiµie

f(x; k, λ) =

(xλ

)k−1e−( xλ)

k

, dac x ≥ 00 , dac x < 0.

Media pentru repartiµia X ∼Wbl(k, λ) este E(X) = λΓ

(1 +

1

k

).

(7) Repartiµia χ2, χ2(n) (chi2)

O v.a. X ∼ χ2(n) (se cite³te repartiµia hi-p trat cu n grade de libertate) dac densitatea sa de repartiµieeste:

f(x; n) =

1

Γ(n2

)2n2xn2−1e−

x2 , dac x > 0,

0 , dac x ≤ 0.

unde Γ este funcµia lui Euler. Gracul acestei repartiµii (pentru diverse valori ale lui n) este reprezentatîn Figura 12.2.Media ³i dispersia sunt: E(χ2) = n, D2(χ2) = 2n.

19Ernst Hjalmar Waloddi Weibull (1887− 1979), matematician ³i inginer suedez

Page 83: Curs Statistica Aplicata

Anexa 2 [Dr. Iulian Stoleriu] 82

Observaµia 12.5 (a) Repartiµia χ2(n) este, de fapt, repartiµia Γ(n2 ,12).

(b) Dac v.a. independente Xk ∼ N (0, 1) pentru k = 1, 2, . . . , n, atunci

X21 +X2

2 + · · ·+X2n ∼ χ2(n).

În particular, dac X ∼ N (0, 1), atunci X2 ∼ χ2(1).

Figura 12.2: Repartiµia χ2(n) pentru patru valori ale lui n.

(8) Repartiµia Student (W. S. Gosset20), t(n) (t)

Spunem c X ∼ t(n) (cu n grade de libertate) dac densitatea de repartiµie este:

f(x; n) =Γ(n+1

2

)√nπ Γ

(n2

) (1 +x2

n

)−n+12

, x ∈ R.

E(X) = 0, D2(X) =n

n− 2.

(9) Repartiµia Fisher21, F(m, n) (f)

Spunem c X ∼ F(m, n) (cu m, n grade de libertate) dac densitatea de repartiµie este:

f(x) =

(mn )m2 Γ(m+n

2 )Γ(m2 )Γ(n2 )

xm2−1(1 + m

n x)−m+n

2 , x > 0;

0 , x ≤ 0.

E(X) =n

n− 2, D2(X) =

2n2(n+m− 2)

m(n− 2)2(n− 4).

20William Sealy Gosset (1876− 1937), statistician britanic, care a publicat sub pseudonimul Student21Sir Ronald Aylmer Fisher (1890− 1962), statistician, eugenist, biolog ³i genetician britanic

Page 84: Curs Statistica Aplicata

Anexa 2 [Dr. Iulian Stoleriu] 83

(10) Repartiµia Cauchy22, C(λ, µ) (f r corespondent în Matlab)

Spunem c X ∼ C(λ, µ) dac densitatea de repartiµie este:

f(x; λ, µ) =λ

π[(x− µ)2 + λ2], x ∈ R.

NU admite medie, dispersie sau momente!!!

22Augustin Louis Cauchy (1789− 1857), matematician francez

Page 85: Curs Statistica Aplicata

Bibliografie [Dr. Iulian Stoleriu] 84

Bibliograe

[1] Petru Blaga, Statistic . . . prin Matlab, Presa universitar clujean , Cluj-Napoca, 2002.

[2] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[3] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[4] Gheorghe Ciucu, Virgil Craiu, Teoria estimaµiei ³i vericarea ipotezelor statistice, Editura Didactic ³i Pedagogic , Bucure³ti, 1968.

[5] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.

[6] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),

Duxbury Press, 2006.

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, PrenticeHall, 6th edition, 2004.

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic enciclopedie de sta-

tistic , Editura ³tiinµic ³i enciclopedic , Bucure³ti, 1985.

[9] http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu, Teoria probabilit µilor ³i statistica matematic , Bucuresti, 1980.

[11] Elena Nenciu, Lecµii de statistic matematic , Universitatea A. I. Cuza, Ia³i, 1976.

[12] Octavian Petru³, Probabilit µi ³i Statistica matematic - Computer Applications, Ia³i, 2000.

[13] Sanford Weisberg, Applied Linear Regression, Wiley series in Probability and Statistics, 3rd ed.,2005.

[14] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum's Outline Series, 2nd ed.,The McGraw-Hill Companies, Inc., 1998.

[15] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econometrics, Schaum'sOutline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002.

[16] Iulian Stoleriu, Statistic prin Matlab. MatrixRom, Bucure³ti, 2010.

[17] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Mathematics and itsApplications), Springer Verlag, 1987.

[18] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge UniversityPress, 2001.