VARIABILE ALEATOARE. DISTRIBUŢII DE PROBABILITATEileana.brudiu.ro/MVR/CURS/12. Distributii de...

Post on 26-Oct-2019

24 views 0 download

Transcript of VARIABILE ALEATOARE. DISTRIBUŢII DE PROBABILITATEileana.brudiu.ro/MVR/CURS/12. Distributii de...

VARIABILE ALEATOARE.

DISTRIBUŢII DE PROBABILITATE

1

Definiţie

Distribuţii de probabilitate

- Discrete

- Continue

2

Variabile aleatoare... despre

3

Definiţie Fie X o variabilă cantitativă măsurată sau observată rezultată dintr-un

experiment

Valoarea pe care o ia variabila X în urma experimentului este o

variabilă aleatoare

Exemple:

-Numărul de globule roşii dintr-un frotiu

-Numărul de bacterii de pe mâinile studenţilor

-Procentul de grăsime în lapte

-Temperatura la nivelul solului

Sunt variabile aleatoare:

Media aritmetică a eşantionului

Deviaţia standard

Proporţia

Frecvenţa

4

Variabile aleatoare

5 Tipuri de variabile aleatoare

Discrete: Poate lua un număr finit

măsurabil de valori

Numărul de persoane cu RH-

dintr-un eşantion

Numărul purceilor la o fătare

Numărul animalelor dintr-o

fermă

Pulsul

Continue: Poate lua orice valoare din

nenumăratele valori posibile

într-un interval definit

Variază în mod continuu în

intervalul dat

Temperatura corporală

Concentraţia zahărului în sânge

Tensiunea arterială

În general, mediile sunt variabile aleatoare continue iar frecvenţele sunt discrete. Ex.:

Media procentului de grăsime în lapte a vacilor din ferma x.

Numărul purceilor infectați din ferma y

6

Distribuţii de probabilitate

Discrete

Probabilităţile asociate fiecărei

valori specifice a variabilei

aleatoare

Continue

Probabilităţile asociate unui şir

de valori ale variabilei

aleatoare

7 Distribuţii de probabilitate.

VARIABILA ALEATOARE DISCRETĂ

Fie X numărul de feţe “cap” obţinute la aruncarea de 3 ori a unei

monede

X este o variabilă aleatoare care poate lua una din următoarele

valori {0,1,2,3}

Dintr-un sac care conţine bile albe şi negre sunt extrase 2 bile. La

extragerea unei bile albe se câştigă 1 Ron iar la extragerea unei bile

negre se pierde 1 Ron.

X este o variabilă aleatoare care poate lua una din valorile {-2,0,2}

Spaţiul unui eveniment

Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ

Probabilitatea distribuţiei lui X: listă de valori ale spaţiului de

evenimente şi probabilităţile asociate acestora

Xi Pri

1 1/6

2 1/6

3 1/6

4 1/6

5 1/6

6 1/6

8

Fie X rezultatul aruncării unui zar

X este o variabilă aleatoare care ia una din următoarele valori 1, 2, 3, 4, 5, 6

Probabilitatea distribuţiei lui X listează valorile spaţiului de

evenimente şi probabilităţile asociate

Xi Pri

1 1/6

2 1/6

3 1/6

4 1/6

5 1/6

6 1/6

9

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

1 2 3 4 5 6

spaţiul de evenimente

pro

bab

ilit

ate

aDistribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ

Fie X numărul de feţe „cap‟ rezultate la aruncarea a două monezi de două ori. Care este distribuţia de probabilitate?

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

0 1 2

spaţiul de evenimente

pro

bab

ilit

ate

a

Xi Pri

0 1/4

1 2/4

2 1/4

10

Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ

Legea de probabilitate: simbolistică

Proprietate: probabilităţile care apar în distribuţia unei variabile

aleatoare finite X verifică

11

)xPr(...)xPr()xPr(

X...XX:X

n21

n21

n

1i

i 1)XPr(

Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ

Media distribuţiei de probabilitate discretă (denumită şi valoare

expectată sau speranţa matematică) este dată de formula

Este media ponderată a valorilor posibile, fiecare valoare fiind

ponderată cu probabilitatea ei de apariţie

12

n

1i

ii )XPr(X)X(M

Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ

Exemplu:

Fie X o variabilă aleatoare reprezentând numărul de

episoade de otită în primii doi ani de viaţă într-o colectivitate.

Această variabilă aleatoare are distribuţia:

Care este numărul aşteptat (mediu) de episoade de otită în

primii doi ani de viaţă?

13

017.0039.0095.0185.0271.0264.0129.0

6543210:X

Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ

Care este numărul aşteptat (mediu) de episoade de otită în primii

doi ani de viaţă?

M(X) = 0·0.129 + 1·0.264 + 2·0.271 + 3·0.185 + 4·0.095 +

5·0.039 + 6·0.017

M(X) = 0 + 0.264 + 0.542 + 0.555 + 0.38 + 0.195 + 0.102

M(X) = 2.038

14

017.0039.0095.0185.0271.0264.0129.0

6543210:X

Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ

Variaţia: media ponderată a pătratului deviaţiei lui X

Abaterea standard sau ecartul tip:

15

n

1i

i

2

i )XPr())X(MX()X(V

n

1i

i

2

i )XPr())X(MX()X(V)X(

Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ

Variabila aleatoare discretă: V(X),σ(X)

Xi Pr(Xi) Xi*Pr(Xi) Xi-M(X) (Xi-M(X))2 (Xi-M(X))2*Pr(Xi)

0 0.129 0 -2.038 4.153 0.536

1 0.264 0.264 -1.038 1.077 0.284

2 0.271 0.542 -0.038 0.001 0.000

3 0.185 0.555 0.962 0.925 0.171

4 0.095 0.38 1.962 3.849 0.366

5 0.039 0.195 2.962 8.773 0.342

6 0.017 0.102 3.962 15.697 0.267

M(X)=2.038 V(X)=1.967

σ(X)=1.402

16

Bernoulli (cap versus pajură): două rezultate

posibile

Binomială (numărul de „cap‟ în n aruncări):

variabile aleatoare finite

Poisson (numărul de pacienţi care sunt consultaţi

în serviciul de urgenţă într-o zi): variabile aleatoare

discrete infinite

17

Principalele distribuţii de probabilitate: VARIABILE ALEATOARE DISCRETE

Un experiment e alcătuit din repetarea unei încercări

elementare de n ori (n = un număr natural dat)

Rezultatele posibile ale fiecărei încercări elementare sunt

două evenimente numite succes şi eşec

Probabilitatea de succes este notată cu p iar probabilitatea

de eşec este notată cu q (q = 1-p)

Cele n încercări repetate sunt independente

18

Distribuţia Binomială

Numărul X de succese obţinute în cele n încercări

este o variabilă aleatoare de tip binomial care

depinde de parametrii n şi p şi se notează cu

Bi(n,p)

Variabila aleatoare X poate să ia valorile 0,1,2,...n

Probabilitatea ca X să fie egal cu o valoare k este

dată de formula:

19

Distribuţia Binomială

knkk

n qpC)kXPr( )!kn(!k

!nCk

n

20

Distribuţia Binomială

21

Distribuţia Binomială

knkk

n qpC)kXPr(

Care este probabilitatea de

ca din 5 copii 2 să fie băieţi

dacă probabilitatea de a

naşte un băiat este de 0,47

pentru fiecare naştere şi

sexul copiilor născuţi

succesiv în familie este

considerat o variabilă

aleatoare independentă?

p=0.47

q=1-0.47=0.53

n=5

k=2

Pr(X=2)=10·0.472·0.533

Pr(X=2) = 0.33

1012

120

)123(12

12345

)!25(!2

!5C2

5

Variabila aleatoare POISSON ia o infinitate numărabilă de

valori: 0,1,2,...,k,... , care reprezintă numărul de realizări într-

un interval dat de timp sau spaţiu ale unui eveniment:

numărul de intrări pe an într-un spital

numărul de globule albe de pe frotiu

numărul de dezintegrări ale unei substanţe radioactive într-un

interval de timp T dat

22

Distribuţia POISSON

Variabila aleatoare POISSON

Este caracterizată de parametrul teoretic θ (numărul mediu

aşteptat de realizări ale evenimentului în intervalul

considerat)

Simbol: Po(θ)

Legea de distribuţie:

23

Distribuţia POISSON

!k

e)kXPr(

k

!ke

k:X

k

Speranţa matematică:

M(X) = θ

Varianţia:

V(X) = θ

24

Distribuţia POISSON

25

Distribuţia POISSON

Rata de mortalitate pentru a anumită patologie virală este de 7 la 1000 de cazuri. Care este probabilitatea ca într-un grup de 400 persoane această patologie să determine 5 decese?

n=400

p=7/1000=0,007

θ=n·p=400·0,007=2,8

e=2,718281828=2,72

Pr(X=5)

=(2,72-2,8·2,85)/(5·4·3·2·1)

=10,45/120

=0,09

!k

e)kXPr(

k

Vorbim despre probabilităţi pentru un şir de valori NU pentru o

valoarea din şir

Probabilitatea pentru un şir de valori este determinată de aria de sub

curba de distribuţie a probabilităţii

26

Distribuţii de probabilitate

VARIABILA ALEATOARE CONTINUĂ

Legea normala Z (Gauss)

Legea STUDENT (t)

Legea χ2 a lui PEARSON

Legea F a lui FISHER

27

Distribuţii continue de probabilitate

Distributia Normala

Legea distribuţiei normale (distribuţia Gauss sau

Gauss-Laplace) Distribuţia normală reprezintă o lege de distribuţie a unei mărimi aleatoare în

jurul mediei sale.

Cea mai importanta distributie continua

Multe distributii pot fi aproximate printr-o distributie normala.

Distributia normala este piatra de temelie a inferentei statistice.

Expresia analitică a legii lui Gauss

Distribuţia normală este cazul limitat al distribuţiei binomiale discrete pentru eşantioane

de volum mare

Curba funcţiei densitate de

probabilitate

Graficul densităţii de probabilitate pentru legea distribuţiei normale (Gauss-

Laplace)

Distribuţia de probabilitate normală

(pe scurt distribuţia normală)

Este o curbă sub formă de clopot, cu următoarele proprietăţi:

Aria totală de sub curbă este egală cu 1

Este simetrică în jurul mediei

Cozile ei se întind la infinit, nu ating niciodată planul orizontal

Standardizarea variabilelor. Scorul z.

Se folosește pentru a compara două variabile cu unităţi de măsură diferite.

Ex. avem doi indivizi:

– primul înalt de 1,8 m. care face parte dintr-un grup cu o înălţime

medie de 1,7 m. cu o abatere standard de 0,1 m.

– al doilea în greutate de 85 de kg. care face parte dintr-un grup

cu o greutate medie de 70 kg. cu o abatere standard de 10 kg

Întrebare: care dintre cei doi indivizi este mai departe de media

grupului din care face parte

Întrebare: care dintre cei doi indivizi este mai departe de media

grupului din care face parte

Dacă nu avem datele din populaţie, aproximăm cu:

Observaţii:

– se poate calcula un scor z pentru fiecare valoare xi a variabilei

– scorul z corespondent mediei este întotdeauna egal cu 0

– toate variabilele standardizate au exact aceeaşi medie (zero) şi exact aceeaşi

abatere standard (numită generic 1)

Distribuţia normală standard

Este un caz special al distribuţiei normale, unde toate valorile x ale

variabilei au fost înlocuite cu scorurile lor z corespondente.

În consecinţă, este o distribuţie normală cu o medie egală cu zero şi o

abatere standard egală cu 1

Atenţie: a nu se confunda media 0 şi abaterea standard 1, cu

probabilitatea care poate lua valori între 0 şi 1...!!!

Distribuţia normală are media μ şi variaţia σ2

Distribuţia normală standard este o distribuţie normală de medie 0 şi

variaţie 1

36

Distribuţia normală standard

Media ± 1 deviaţie standard: include ~ 68% din cazuri (34% din fiecare parte a distribuţiei)

Media ± 2 deviaţii standard: include ~ 95% din cazuri

Media ± 3 deviaţii standard: include ~ 99.7% din cazuri

37

Distribuţia normală standard

0 1 2 3 -1 -2 -3

aria = 0.3413

Distribuţia normală

Date importante

Distribuţia normală N(m, 2) Caracterizată de:

media teoretică m

varianţa teoretică 2

deviaţia standard teoretică

Calcule în Excel:

NORMDIST(x, m, 2, CUMULATIVE)

39

Criterii de normalitate a unei distribuții:

media > 2 SD, media > SD

comparare cu graficul de

clopot (curba lui Gauss)

media = mediana = modul

testul de normalitate Kolmogorov-Smirnov (p>0.10)

68% dintre valori sunt în intervalul ± 1 deviație standard de medie, iar 95% în intervalul ± 2 deviații standard de medie

0

0,5

1

1,5

2

2,5

-10 -8 -6 -4 -2 0 2 4 6 8 10

0 0,2

0 1

0 2

-3 0,5

Distribuţia normală pentru diferite valori ale mediei şi dispersiei

Distribuţia Student În statistică distribuţia Sudent (cunoscută şi sub denumirea de

distribuţie t) este o distribuţie de probabilitate care apare în probleme de estimare a mediei unei populaţii normal distribuite când volumul eşantionului este mic

42

Distribuţia normală este cazul limitat al distribuţiei

binomiale discrete pentru eşantioane de volum mare

Definiţie : se defineste ca raportul

intre o variabila standard normala si

radacina patrata a unei valori

independente X2 impartita la

numarul de grade de libertate.

Distribuţia Student t(n)

Simetrică

Vârful în 0

Densitatea lui t(10)

Pentru n>30 practic t(n) şi Z coincid

nnn

)()(t

2

Z

Distribuţia Student t(n)

Dacă populaţia este distribuită normal, cu media m, şi

dacă avem un eşantion „mic” de volum n cu media de

eşantion m şi cu abaterea standard de eşantion s, atunci

raportul

are o distribuţie de tipul t(n1) cu n1 grade de libertate.

(student)

Important!

𝑚 − 𝜇

𝑠𝑛

Distribuţia Student t(n)

Dacă avem la dispoziţie două eşantioane din aceeaşi populaţie (distribuită

normal), şi dacă primul eşantion de volum n1 are media de eşantion m1 şi

abaterea standard de eşantion s1, iar al doilea eşantion de volum n2 are

media de eşantion m2 şi

abaterea standard de eşantion s2, atunci raportul

are o distribuţie de tipul t(n1+ n22) cu n1+ n22 grade de libertate.

Aici

Important!

21

21

11

nns

mm

2

)1()1(

21

222

2112

nn

snsns

Distribuţia Student t(n)

Calcul direct în Excel cu funcţia TDIST(x, n, TAILS)

TDIST(x, n, 1) = aria haşurată TDIST(x, n, 2) = aria haşurată

47

Distribuţia t vs Gauss

Frecvent utilizată în testul 2

Compararea unei distribuţii observate cu o distribuţie

teoretică şi a independenţei a două criterii de clasificare a

unor date calitative

48

Distribuţia 2 (PEARSON)

49

Distribuţia 2 a lui PEARSON

Distribuţia hi-pătrat 2(n) Caracterizată de:

numărul de “grade de libertate” n

Calcule în Excel:

CHIDIST(x, n)

ATENŢIE LA INTERPRETARE

(este “invers” ca la NORMDIST)

Date importante:

Distribuţia hi-pătrat 2(n)

Asimetrică

Vârful în

n 2

Media

E(2(n))=n

CHIDIST(x, n) =

aria haşurată

Introdusă de R. A. Fisher, este definită pe [0, + ).

Descrie comportarea câtului a două variabile cu distribuţie 2

fiecare fiind împărţită prin numărul gradelor sale de libertate.

Utilizată în testele de comparaţie a variaţiilor (ANOVA).

52

Distribuţia F (FISHER)

Variabilele aleatoare pot fi discrete sau continue.

Distribuţiile de probabilitate pentru variabile discrete.

Distribuţii de probabilitate pentru variabile continue.

Medii şi variaţii pentru variabile aleatoare.

53

De reţinut!