11-12 Analiza de Regresie Si de Corelatie 151120111500

14
Master MSS – 2011 – 2012 1 Metode de analiza si prognoza pentru managementul sanitar Analiza de regresie 1 şi de corelaţie Efectuarea de prognoze economice privind valorile variabilei endogene Y în funcţie de diferitele valori exogene X presupune acceptarea ipotezei că legitatea de dependenţă dintre Y şi X este corect specificată şi identificată, având un caracter de relativă stabilitate şi repetabilitate. Primul scop al analizei de regresie este de arăta cum este legată o variabilă de una sau mai multe variabile Y cu ajutorul unei ecuaţii care dă posibilitatea de a previziona variabilele dependente în funcţie de valorile cunoscute ale variabilelor independente X (x 1 , x 2 , …, x n ). In general, prin analiza de regresie se face o comparaţie statistică a relatiilor anterioare între diferiţi factori. Dependenţa statistică este o dependenţă care se manifestă nu între elemente şi fenomene individuale, ci între colectivităţi de fenomene. Măsurile de asociere elaborate de statistica matematică permit depistarea şi ierarhizarea dependenţelor statistice, care se manifestă între fenomenele şi procesele istorice. Măsurile de asociere statistică deschid astfel posibilitatea descoperirii legităţilor statistice specifice acelor relaţii de condiţionare dintre fenomenele şi procesele istorice, care prezintă caracteristici statistice cuatificabile. Tabelul 1. Analiza de regresie şi analiza de corelaţie Prin analiza regresiei se înţelege o clasă de metode prin care, folosind o ecuaţie de regresie determinată pe baza unor date experimentale, pot fi estimate (previzionate) valorile unor variabile date, presupunând cunoscute ori previzionate valorile altor variabile. Analiza corelaţiei are ca obiectiv evaluarea gradului de interdependenţă (asociere) între variabilele considerate într- un model de regresie, în particular între variabila dependentă şi cele independente (obiectiv care se realizează prin estimarea coeficienţilor de corelaţie şi a coeficientului de determinare). Natura stochastică a modelului de regresie face ca valoarea lui Y să nu poată fi prevăzută exact, incertitudinea apărând ca rezultat la mărimea aleatoare e (eroarea). Distribuţia probabilistică a lui Y şi caracteristicile sale sunt determinate de valorile lui e şi de distribuţia sa probabilistică. Ipotezele de aplicare ale metodelor de regresie sunt: - variabilele Y şi X nu sunt afectate de erori de măsurare. Legitatea de dependenţă a lui y i este condiţionată de realizarea valorilor x 1 ,x 2 , …, x n ale variabilei exogene X; - variabila aleatoare (reziduală) este de medie 0, iar dispersia ei este independentă de X (ipoteza de homoscedasticitate 2 - se admite că legătura dintre Y şi X este relativ stabilă); - valorile variabilei reziduale nu sunt autocorelate (nu depind unele de altele); - legea de probabilitate a variabilei reziduale este legea normală cu media 0 şi abatere standard S y/x . Dacă aceste ipoteze se verifică, metoda celor mai mici pătrate asigură obţinerea unor estimatori de maximă verosimilitate. Respectarea acestor ipoteze permite aplicarea unor teste statistice: a. verificarea semnificaţiei estimatorilor funcţiei de regresie (aplicarea unor teste statistice 3 ); b. verificarea verosimilităţii modelului de ajustare 1 The equation used to draw the best-fit straight line is called a regression equation and was first used by Sir Francis Galton (1822-1911) to show that when tall or short couples have children their heights tend to “regress”, or revert to the mean height of their parents. 2 Homoscedasticitatea este o proprietate a variaţiei termenului de perturbare dintr-o ecuaţie de regresie în care această variaţie rămâne constantă în toate cazurile observate (condiţie impusă ca estimatorul celor mai mici pătrate să fie cel mai bun estimator liniar). 3 Un test statistic este o mărime calculată pentru testarea ipotezelor. In condiţiile ipotezei nule H 0 , această mărime statistică urmează o distribuţie de probabilitate pe care nu ar urma–o în condiţiile ipotezei alternative. Cu cât valoarea mărimii statistice de test se abate de la valorile critice ale distribuţiei, cu atât este mai puţin plauzibil ca ipoteza nulă să fie adevărată.

Transcript of 11-12 Analiza de Regresie Si de Corelatie 151120111500

Page 1: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       1

Metode de analiza si prognoza pentru managementul sanitar Analiza de regresie1 şi de corelaţie

Efectuarea de prognoze economice privind valorile variabilei endogene Y în funcţie de

diferitele valori exogene X presupune acceptarea ipotezei că legitatea de dependenţă dintre Y şi X este corect specificată şi identificată, având un caracter de relativă stabilitate şi repetabilitate.

Primul scop al analizei de regresie este de arăta cum este legată o variabilă de una sau mai multe variabile Y cu ajutorul unei ecuaţii care dă posibilitatea de a previziona variabilele dependente în funcţie de valorile cunoscute ale variabilelor independente X (x1, x2, …, xn). In general, prin analiza de regresie se face o comparaţie statistică a relatiilor anterioare între diferiţi factori. Dependenţa statistică este o dependenţă care se manifestă nu între elemente şi fenomene individuale, ci între colectivităţi de fenomene. Măsurile de asociere elaborate de statistica matematică permit depistarea şi ierarhizarea dependenţelor statistice, care se manifestă între fenomenele şi procesele istorice. Măsurile de asociere statistică deschid astfel posibilitatea descoperirii legităţilor statistice specifice acelor relaţii de condiţionare dintre fenomenele şi procesele istorice, care prezintă caracteristici statistice cuatificabile.

Tabelul 1. Analiza de regresie şi analiza de corelaţie Prin analiza regresiei se înţelege o clasă de metode prin care, folosind o ecuaţie de regresie determinată pe baza unor date experimentale, pot fi estimate (previzionate) valorile unor variabile date, presupunând cunoscute ori previzionate valorile altor variabile.

Analiza corelaţiei are ca obiectiv evaluarea gradului de interdependenţă (asociere) între variabilele considerate într-un model de regresie, în particular între variabila dependentă şi cele independente (obiectiv care se realizează prin estimarea coeficienţilor de corelaţie şi a coeficientului de determinare).

Natura stochastică a modelului de regresie face ca valoarea lui Y să nu poată fi prevăzută exact, incertitudinea apărând ca rezultat la mărimea aleatoare e (eroarea). Distribuţia probabilistică a lui Y şi caracteristicile sale sunt determinate de valorile lui e şi de distribuţia sa probabilistică. Ipotezele de aplicare ale metodelor de regresie sunt:

- variabilele Y şi X nu sunt afectate de erori de măsurare. Legitatea de dependenţă a lui yi este condiţionată de realizarea valorilor x1,x2, …, xn ale variabilei exogene X;

- variabila aleatoare (reziduală) este de medie 0, iar dispersia ei este independentă de X (ipoteza de homoscedasticitate2 - se admite că legătura dintre Y şi X este relativ stabilă);

- valorile variabilei reziduale nu sunt autocorelate (nu depind unele de altele); - legea de probabilitate a variabilei reziduale este legea normală cu media 0 şi abatere

standard Sy/x. Dacă aceste ipoteze se verifică, metoda celor mai mici pătrate asigură obţinerea unor

estimatori de maximă verosimilitate. Respectarea acestor ipoteze permite aplicarea unor teste statistice:

a. verificarea semnificaţiei estimatorilor funcţiei de regresie (aplicarea unor teste statistice3);

b. verificarea verosimilităţii modelului de ajustare 1 The equation used to draw the best-fit straight line is called a regression equation and was first used by Sir Francis Galton (1822-1911) to show that when tall or short couples have children their heights tend to “regress”, or revert to the mean height of their parents. 2 Homoscedasticitatea este o proprietate a variaţiei termenului de perturbare dintr-o ecuaţie de regresie în care această variaţie rămâne constantă în toate cazurile observate (condiţie impusă ca estimatorul celor mai mici pătrate să fie cel mai bun estimator liniar). 3 Un test statistic este o mărime calculată pentru testarea ipotezelor. In condiţiile ipotezei nule H0, această mărime statistică urmează o distribuţie de probabilitate pe care nu ar urma–o în condiţiile ipotezei alternative. Cu cât valoarea mărimii statistice de test se abate de la valorile critice ale distribuţiei, cu atât este mai puţin plauzibil ca ipoteza nulă să fie adevărată.

Page 2: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       2

c. elaborarea de prognoze pe baza unui interval de încredere.

In general, previziunile bazate pe analiza regresiei se referă la: - valori medii condiţionate ale variabilelor dependente (condiţionarea faţă de valori date ori

prognozate ale variabilelor independente); - valori individuale ale valorilor dependente Y.

Ambele tipuri de previziuni se obţin din ecuaţia de regresie determinată pe baza datelor experimentale: se obţin aceleaşi valori numerice, deosebirea constând în semnificaţia acestor valori şi în nivelul lor de precizie al estimărilor astfel obţinute. Pentru estimarea unei valori individuale a variabilei dependente, nivelul de precizie este mai mic decât în cazul estimării unei valori medii condiţionate a variabilei respective. Interpretarea statistică a rezultatelor regresiei

Baza informatională pentru modelul liniar xbaY *+= Serii de date neceesare ptr. regresia simplă:

- pentru variabila explicativă/independentă/exogenă: Y1, Y2, ...Yn - pentru variabila explicată/dependentă/endogena: x1, x2, ..., xn

Calculul coeficientului a: xbya ⋅−=

Calculul coeficientului b:

∑ ∑

∑ ∑ ∑

= =

= = =

⎟⎠

⎞⎜⎝

⎛−⋅

⋅−⋅⋅=

n

i

n

i

n

i

n

i

n

iiiii

xxn

yxyxnb

1 1

22

1 1 1  sau ∑

=

=

−⋅−= n

ii

n

iii

xx

yyxxb

1

2

1

)(

)()(

Calculul valorilor ajustate: ii xbaY *+= Evaluarea erorilor de previziune se realizează folosind estimări cu intervale de încredere,

o astfel de estimare fiind cu atât mai bună cu cât lungimea intervalului este mai mică şi nivelul de semnificaţie mai apropiat de 1. In general, un interval de încredere cu nivelul de încredere δ,

)1,0(∈δ , pentru o caracteristică numerică a unei variabile aleatoare este un interval de numere reale de forma: (α-t β, α+t β)

unde: α este o estimare a caracteristicii de interes, β este o măsură a împrăştierii estimărilor posibile, t se determină din tabelele asociate unor repartiţii probabilistice uzuale. Extremităţile βα ⋅± t ale unui interval de încredere cu nivel de încredere δ se stabilesc

astfel încât să se poată spune că există 100δ% şanse ca estimarea α a caracteristicii cercetate să se abată cu cel mult β⋅t de la valoarea reală a acestei caracteristici (în mod echivalent, se spune că există 100 (1-δ)% şanse să omitem o eroare mai mică decât β). Din acest motiv, nivelul de încredere β se alege apropiat de 1 (de regulă, 0,95 sau 0,99), echivalent cu faptul că diferenţa 1-δ (numită şi prag / nivel de semnificaţie) este apropiată de zero.

Prin analiza de corelaţie se urmăreşte: • măsurarea gradului de interdependenţă între variabila dependentă Y şi variabilele

independente Xi, interdependenţă explicată prin ecuaţia de regresie utilizată; • evaluarea gradului de asociere între variabilele independente, atunci când ecuaţia de regresie

conţine cel puţin două variabile independente Xi. Aceasta arată în ce măsură două valori sunt legate între ele intensitatea legăturii este exprimată cu ajutorul a doi indicatori:

◙ coeficientul de corelaţie (R) – măsoară „puterea” relaţiei de dependenţă liniară printr-o valoare numerică între –1 şi 1;

Page 3: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       3

∑ ∑∑

⋅−⋅⋅−

⋅⋅−⋅=

)yny()xnx(

yxnyxR

2k

2k

kk

o Dacă R = 0 nu există corelaţie de tip liniar între Y şi X (dar pot exista alte tipuri de dependenţă, de exemplu, neliniară)

o Dacă R > 0 şi apropiat de valoarea 1, atunci creşterile factorului X vor determina creşteri ale variabilei Y

o Dacă R < 0 şi apropiat de -1, atunci scăderi ale factorului X vor determina scăderi pentru Y.

◙ coeficientul de determinare (R2) care măsoară reducerea relativă în variaţia lui Y ce poate fi atribuită cunoaşterii factorilor Xi şi a relaţiei Y = f(X).

1n2n

S

S1R 2

2x/y

2tot

2exp2

−−

⋅−==σ

σ

De exemplu, o valoare R2=0.76 indică că aproximativ 76% din variaţia totală a variabilei Y poate fi explicată prin variabilele dependente X incluse în model (o valoare 0.8 este considerată acceptabilă).

◙ Coeficientul corectat de determinare ( 2R ) se foloseşte atunci când numărul de observări

este egal cu numărul coeficienţilor estimaţi (deoarece fiecare punct de observare se va situa pe funcţia de regresie, mărimea eşantionului trebuie să fie suficient de mare pentru a estima coeficienţii de regresie):

)R1(kn1kRR 222

−⋅−−

−= unde:

n reprezintă numărul de observaţii reale k este numărul coeficienţilor de regresie. In cazul regresiei multiple, R2 sau 2

R reprezintă o măsură a efectului combinat al ansamblului variabilelor independente asupra variabilei dependente.

Semnificaţia statistică a parametrilor modelului

Distribuţia t (Student)4 se foloseşte în testele ipotezelor pe eşantioane mici şi în care varianţa variabilei respective trebuie estimată în raport cu datele. Este o distribuţie de probabilitate în formă de clopot, în care valoarea medie este egală cu zero, dispersia variabilelor în jurul valorii medii fiind dependentă de gradele de libertate5 dictate de mărimea eşantionului. Gradele de libertate arată numărul de elemente informaţionale care pot varia independent unul de altul; se spune că un eşantion de n observaţii are n grade de libertate. De exemplu, calcularea unei medii simple a eşantionului implică pierderea unui grad de libertate deoarece variaţiile independente în n-1 din observaţiile din eşantion vor necesita o schimbare compensatorie în cel de al n lea grad de libertate, pentru a se menţine valoarea medie a eşantionului. Tot astfel, calcularea valorilor pentru un număr de k parametri în cadrul unui exemplu econometric implică pierderea a k grade de libertate, rămânând (n-k).

4 Testul t este testul cel mai des utilizat în analizele economice cantitative şi este definit ca raportul dintre o variabilă normală şi o variabilă împărţit la numărul gradelor de libertate. 2χ5 Gradele de libertate arată numărul de elemente informaţionale care pot varia independent unul de altul. Se spune că un eşantion de n observaţii are n grade de libertate. Totuşi, calcularea mediei simple a eşantionului implică pierderea unui grad de libertate deoarece variaţiile independente în n-1 din observaţiile din eşantion vor necesita o schimbare compensatorie în cel de al - n -lea grad de libertate, pentru a se menţine valoarea medie a eşantionului. Tot astfel, calcularea valorilor pentru un număr de k parametri în cadrul unui exemplu econometric implică pierderea a k grade de libertate, rămânând (n-k). Gradele de libertate intră adesea ca parametri în distribuţii de probabilitate (distribuţia t sau ) cărora le poate afecta alura în mod fundamental. 2χ

Page 4: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       4

Dacă erorile sunt distribuite normal se aşteaptă ca aproximativ 68% dintre valorile lui y să fie situate într-un interval mai mic de eσ (eroarea standard de previziune) unităţi faţă de valoarea medie, sau 95% la mai puţin de 2 eσ sau 99% la mai puţin de 3 eσ .

Fiecare din parametrii estimaţi este caracterizat de o eroare standard deoarece determinarea lor se face pe baza unui eşantion de date; probabil un alt eşantion ar duce la obţinerea altor valori ale parametrilor modelului.

Valoarea aproximativă a statisticii t de verificare a semnificaţiei coeficienţilor modelului se calculează cu relaţia:

uluicoeficientaestimatadardtanseroareaipotezaprinuluicoeficientvaloareaestimatcoeficientt −

=

Ca regulă, se realizează excluderea din model a oricărui coeficient pentru care 0,2t < . Orice coeficient pentru care 0,2t > este diferit de zero la un nivel de semnificaţie de aproximativ 5%. Includerea în model a unor coeficienţi cu valori absolute ale statisticii testului t substanţial mai mici decât 2,0 va spori numărul parametrilor modelului şi va duce la reducerea preciziei predicţiei.

Tabelul 1. Interpretarea valorilor p

p<0,01 Puternică evidenţă împotriva H0

0,01<p<0,05 Evidenţă moderată împotriva H0

0,05<p<0,1 Evidenţa sugerează H0 falsă 0,1<p Nu există evidenţe împotriva H0

Metoda regresiei simple

Pentru regresia liniară simplă X variabila explicativă - predictor Y variabila explicată – variabila raspuns

ii xbaY ⋅+= ,

X

Y

SDSDra =

xayb ⋅−= Unde: r coeficientul de corelatie intre X and Y; SDY şi SDX sunt deviatiile standard ale varibilelor Y şi X. Pentru a aprecia semnificaţia estimatorilor: - pentru un set de date de volum 30n ≤ se aplică testul t (Student) cu n-2 grade de

libertate; - pentru se aplică testul z al distribuţiei normale30n ≥ 6 formulând ipotezele:

H0: a=0 şi b=0 Ha: şi 0a ≠ 0b ≠

6 Teorema de limită centrală stabileşte că suma (şi media) unei mulţimi de variabile aleatoare urmează o distribuţie normală, dacă eşantionul este suficient de mare, indiferent de forma distribuţiei de la care provine variabila individuală. Teorema este folosită adesea pentru a explica ipoteza de normalitate a termenului de eroare în studiul econometric, care permite folosirea testului statistic t pentru testarea ipotezelor, deoarece acest termen de eroare se presupune că înglobează suma unei mulţimi aleatoare de factori necunoscuţi (omişi).

Page 5: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       5

Dacă ασtaat

acalc ≥=)( şi ασ

tbbtb

calc ≥=)( atunci ipoteza H0 se respinge şi se apreciază

ca a şi b sunt semnificativi din punct de vedere statistic. Tabelul 2. Interpretarea riscului de acceptare / respingere a H0

Concluzia Nu respinge Respinge

H0 este adevărată

Decizie corectă Eroare de tipul I (risc de tip α )

Situaţia reală

H0 este falsă

Eroare de tipul II (risc de tip β )

Decizie corectă

Eroare de tip I este dată de respingerea ipotezei nule atunci când, de fapt, aceasta ar fi trebuit acceptată;

- se confirmă/validează o ipoteză care nu este adevărată - impact: concluzii gresite care pot duce la identificarea unor soluţii/decizii inadecvate

Eroarea de tip II este urmarea acceptării ipotezei nule când, de fapt, aceasta trebuie respinsă: - în fapt, se ignoră/ se pierde un efect important - in consecintă, se pot trata două alternative/ opţiuni ca identice deşi, în realitate, acestea

sunt diferite. ● Verificarea veridicităţii modelului are la bază principiul analizei dispersionale.

Tabelul 3. Sursa de variaţie Măsura variaţiei Gradul de

influenţă Grade de libertate

Dispersii corectate

Explicată prin model

2i )yy(∑ −

2tot

2lexp

σ

σ

1

1

2lexpσ

Reziduală 2ii )yy(∑ −

2tot

2rez

σσ

n-2

2n

2rez

−σ

Totală 2i )yy(∑ −

1 n-1

Se poate demonstra că raportul ∑∑

−= 2

ii

2i

2rez

2exp/

)yy(

)yy(

σ

σ este o variabilă aleatoare cu o

distribuţie Fisher – Snedecor.

Dacă ασ

σFF 2

rez

2exp/ ≥= pentru n-k, respectiv k grade de libertate atunci variaţia lui y este

explicată de variaţia lui x.

Raportul ∑∑

−==

2i

2i2

)yy(

)yy(RR se numeşte raport de corelaţie şi exprimă gradul

de fidelitate a modelului faţă de dependenţa statistică dintre Y şi X. Semnificaţia statistică a lui R

se poate testa cu testul F (Fisher-Snedecor); dacă αFR1

R)2n(F 2

2

≥−

⋅−= pentru n-k,

respectiv k grade de libertate atunci R este semnificativ (în cazul regresiei liniare simple).

Page 6: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       6

)kn()R1()1k(R

)kn(licataexpneiatievar)1k(licataexpiatievar

F 2

2

−−−

=−

−=

Valoarea testului F se foloseşte pentru a testa semnificaţia coeficienţilor de regresie; se testează ipoteza potrivit căreia variabila dependentă este statistic necorelată cu variabilele independente incluse în model.

Ipoteza nulă H0 se formulează astfel: „varianţa explicată este egală cu varianţa reziduală”; testul F se calculează ca raport între cele două varianţe şi compară rezultatul cu o valoarea critică tabelată Fcrit. ○ dacă ipoteza H0 nu poate fi respinsă, atunci ponderea variaţiei explicate va avea o pondere mică în variaţia totală a modelului de regresie. La limită, dacă R2=0, atunci F=0. Pe măsură ce valoarea F creşte, ipoteza că variabila Y nu este dependentă statistic de variabilele X considerate devine mai uşor de respins.

○ dacă Fstat>Fcrit ipoteza nulă poate fi respinsă (coeficienţii de regresie au semnificaţie statistică).

Metoda regresiei multiple

Variabila dependentă Y este pusă în dependenţă de variabilele Xk considerate factori explicativi pentru nivelul i al caracteristicii :

inn2i21i10i xa...xaxaaY ⋅++⋅+⋅+= (ecuaţia de regresie în formă aditivă) sau

n21 ain

a2i

a1i0i x....xxaY ⋅⋅=

(în formă multiplicativă). Distincţia între cele două forme este fundamentală pentru interpretarea economică a

coeficienţilor de regresie:

- în cazul liniar, un coeficient ak, k=1,…,n reprezintă panta variaţiei variabile Y faţă de variabila explicativă Xk, adică modificarea lui Y ca urmare a variaţiei cu o unitate a nivelului lui Xk (în ipoteza că toţi ceilalţi factori rămân constanţi),

- în cazul neliniar, un coeficient ak reprezintă coeficientul de elasticitate al variabilei explicate Y în funcţie de variabila explicativă Xk (arată modificarea procentuală a variabilei rezultative Y atunci când factorul Xk variază cu un procent şi toţi ceilalţi factori sunt constanţi).

Metoda regresiei logistice Regresia logistică modelează relaţia dintre o mulţime de variabile independente xi (categoriale, continue) şi o variabilă dependentă dihotomică (nominală, binară) Y. O astfel de variabilă dependentă apare, de regulă, atunci când reprezintă apartenenţa la două clase, categorii – prezenţă/absenţă, da/nu etc. Ecuaţia de regresie obţinută, de un tip diferit de celelalte regresii discutate, oferă informaţii despre: • importanţa variabilelor în diferenţierea claselor, • clasificarea unei observaţii într-o clasă. De remarcat că diagrama de împrăştiere a valorilor nu oferă nici un indiciu în privinta dependenţelor. În asemenea cazuri, regresia liniară clasică nu oferă un model adecvat. Presupunem că valorile y (variabilă binară) sunt codificate 0/1, valoarea 1 exprimând în general apariţia unui anumit eveniment, astfel încât ceea ce se caută este o estimare a probabilităţii de producere a respectivului eveniment în funcţie de valorile variabilelor independente. Cazul unei singure variabile independente

Modelul este:

Page 7: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       7

x

x

eexyP ⋅+

⋅+

+== βα

βα

1)1(

Sau

xxyP

xyP⋅+=

=−

=βα)

)1(1)1(

ln( .

Cantitatea din partea stângă este numită (transformarea) logit a probabilităţii P(y=1|x). Semnificaţia expresiei P(y=1|x) este evidentă: probabilitatea de realizare a valorii y=1

condiţionată de valoarea x. Cu alte cuvinte, probabilitatea de clasare a observaţiei x în clasa y=1, sau probabilitatea ca valoarea x să fie asociată cu producerea evenimentului y=1. Se notează P(y=1|x) cu p, conform notaţiei de la modelul probabilist binomial (probabilitatea de “succes”).

Transformarea logit este necesară pentru a proiecta probabilitatea p din intervalul (0,1) în intervalul (- ∞, + ∞), fapt necesar în procesul de estimare a parametrilor. Modelul este legat direct de noţiunea de odds (raport de şanse), notat OR (odds report):

ppOR

−=

1

care reprezintă raportul dintre probabilitatea de « succes » şi probabilitatea de « insucces ».

Modelul se mai poate scrie: xe

pp ⋅+=−

βα

1.

de unde interpretarea coeficientului β: creşterea cantităţii logit atunci când x creşte cu o unitate sau OR creşte de eβ ori atunci când x creşte cu o unitate.

Cazul mai multor variabile independente Modelul general este

ppp

p xxxxxyP

xxyP⋅++⋅+⋅+=

=−

=βββα ...)

),...,1(1

),....,1(ln( 2211

1

1

unde p este P(y =1|x1,x2,…,xp). Se poate obţine imediat şi forma exponenţială echivalentă. Interpretarea coeficienţilor βi este evidentă: creşterea cantităţii logit (logaritm din OR) atunci când xi creşte cu o unitate (celelalte variabile x rămânând constante).

Page 8: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       8

Anexa: Metode bazate pe verificarea ipotezelor  

In diferite stadii de analiză a caracteristicilor numerice ale unei colectivităţi statistice apare deseori necesitatea formulării şi a verificării unor ipoteze privind natura sau valorile unor parametri pentru variabilele aleatoare teoretice asociate caracteristicilor studiate. Orice presupunere privind repartiţia sau caracteristicile variabilei aleatoare X, formulată pe baza unor informaţii apriorice privind variabila aleatoare X se numeşte ipoteză statistică.

Pe baza informaţiilor disponibile, analistul/cercetătorul face o ipoteză privind caracteristica numită „ipoteză de bază” şi notată H0, faţă de care pot exista una sau mai multe ipoteze alternative Ha. Pentru simplitate, putem considera că, faţă de ipoteza de bază H0, există o singură ipoteză alternativă Ha (dacă ipoteza H0 este falsă, atunci este adevărată alternativa sa Ha).

Dacă o ipoteză statistică urmează a fi acceptată sau respinsă în funcţie de datele uneia sau mai multor selecţii se spune că se testează această ipoteză, ipoteza testată fiind numită ipoteză de bază sau ipoteză nulă; prin ipoteza alternativă se înţelege o ipoteză care poate fi adevărată atunci când H0 este falsă şi care ar putea fi acceptată atunci când ipoteza de bază este respinsă.

Pentru verificarea ipotezelor statistice se folosesc metode specifice numite teste statistice. Prin test statistic se înţelege o metodă conform căreia, pe baza datelor unei selecţii, o ipoteză de bază este fie acceptată fie respinsă.

Dacă ipoteza nulă H0 are o singură alternativă Ha, iar în urma unui test statistic se decide respingerea ipotezei H0, atunci se acceptă ipoteza Ha. Dacă ipoteza nulă are mai multe alternative, atunci respingerea ipotezei nule implică acceptarea uneia dintre alternativele sale, fără a se preciza care dintre acestea este adevărată. Regula de decizie conform căreia se acceptă sau se respinge ipoteza nulă are la bază un

criteriu de testare (în general, se foloseşte o funcţie de selecţie aleasă în mod convenabil). Fie H0 o ipoteză statistică de bază; o funcţie de selecţie C(x,n) se numeşte criteriu de testare a ipotezei H0 dacă sunt îndeplinite următoarele condiţii:

a. repartiţia variabilei aleatoare C(X,n) depinde de faptul dacă ipoteza Ho este adevărată sau falsă;

b. în cazul în care H0 ar fi adevărată, atunci C(X,n) are repartiţia complet specificată.

In general în testarea ipotezei H0 decurge astfel: - se fixează o mulţime de valori de numere reale I, care, de regulă, este un

interval. Mulţimea I se numeşte regiune de respingere sau regiune critică; - se face o selecţie de volum n din colectivitatea studiată, obţinându-se succesiv

valorile x1, x2, ..., xn pentru caracteristica numerică analizată. Dacă , atunci ipoteza nulă HI) x..., , x,C(x n21 ∉ 0 este acceptată; în caz contrar, H0

este respinsă. Atunci când se testează o ipoteză statistică se pot produce erori:

- deşi ipoteza de bază H0 este adevărată, aceasta se respinge în urma testării; apare ceea ce se numeşte „eroare de tipul I”;

- deşi ipoteza H0 este falsă, aceasta se acceptă că ar fi adevărată; o astfel de eroare se numeşte eroare de tipul II.

Evident, atunci când se testează o ipoteză statistică, este de dorit ca pericolul comiterii unei erori să fie cât mai mic posibil.

Prin nivel de semnificaţie (alpha) al unui test statistic se înţelege probabilitatea maximă acceptată de comitere a unei erori de tipul I.

Probabilitatea comiterii unei erori de tipul II se numeşte risc de tipul II, se notează cu β. Modul în care a fost definit criteriul de testare oferă posibilitatea controlului erorilor de tipul I şi II.

Page 9: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       9

Pentru controlul erorilor de tipul II, în locul riscului de tipul II - β se mai foloseşte puterea testului π=1-β, definit ca probabilitatea respingerii ipotezei nule, atunci când aceasta este falsă. Anexa 2: Functii ptr. Aplicarea regresiei in EXCEL

Excel includes several array functions for performing linear regression—LINEST, TREND, FORECAST, SLOPE, and STEYX—and exponential regression—LOGEST and GROWTH. These functions are entered as array formulas and they produce array results. You can use each of these functions with one or several independent variables. The following list provides a definition of the different types of regression: Linear regression produces the slope of a line that best fits a single set of

data. Based on a year's worth of sales figures, for example, linear regression can tell you the projected sales for March of the following year by giving you the slope and y-intercept (that is, the point where the line crosses the y-axis) of the line that best fits the sales data. By following the line forward in time, you can estimate future sales, if you can safely assume that growth will remain linear.

Exponential regression produces an exponential curve that best fits a set of data that you suspect does not change linearly with time. For example, a series of measurements of population growth will nearly always be better represented by an exponential curve than by a line.

Multiple regression is the analysis of more than one set of data, which often produces a more realistic projection. You can perform both linear and exponential multiple regression analyses. For example, suppose you want to project the appropriate price for a house in your area based on square footage, number of bathrooms, lot size, and age. Using a multiple regression formula, you can estimate a price, based on a database of information gathered from existing houses.

=INTERCEPT(known_y's,known_x's) Known_y's is the dependent set of observations or data. Known_x's is the independent set of observations or data. Remarks

• The arguments should be either numbers or names, arrays, or references that contain numbers.

• If an array or reference argument contains text, logical values, or empty cells, those values are ignored; however, cells with the value zero are included.

• If known_y's and known_x's contain a different number of data points or contain no data points, INTERCEPT returns the #N/A error value.

The SLOPE function returns the slope of the linear regression line. The slope is defined as the vertical distance divided by the horizontal distance between any two points on the regression line. Its value is the same as the first number in the array returned by the LINEST function. In other words, SLOPE calculates the trajectory of the line used by the FORECAST and TREND functions to calculate the values of data points. The SLOPE function takes the form =SLOPE(known_y's, known_x's). =SLOPE(known_y's,known_x's) where: Known_y's is an array or cell range of numeric dependent data points. Known_x's is the set of independent data points. Remarks

• The arguments must be either numbers or names, arrays, or references that contain numbers.

• If an array or reference argument contains text, logical values, or empty cells, those values are ignored; however, cells with the value zero are included.

• If known_y's and known_x's are empty or have a different number of data points, SLOPE returns the #N/A error value.

LINEST Calculates the statistics for a line by using the "least squares" method to calculate a straight line that best fits your data, and then returns an array that describes the line. You can also combine LINEST with other functions to calculate the statistics for other types of models that are linear in the unknown parameters, including polynomial, logarithmic, exponential, and power series. Because this function returns an array of values, it must be entered as an array formula.

Page 10: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       10

The equation for the line is: y = mx + b or y = m1x1 + m2x2 + ... + b (if there are multiple ranges of x-values) where the dependent y-value is a function of the independent x-values. The m-values are coefficients corresponding to each x-value, and b is a constant value. Note that y, x, and m can be vectors. The array that LINEST returns is {mn,mn-1,...,m1,b}. LINEST can also return additional regression statistics. The LINEST and LOGEST functions return only the y-axis coordinates used for calculating lines and curves. The difference between them is that LINEST projects a straight line and LOGEST projects an exponential curve. LINEST(known_y's,known_x's,const,stats) Known_y's is the set of y-values you already know in the relationship y = mx + b.

• If the array known_y's is in a single column, then each column of known_x's is interpreted as a separate variable.

• If the array known_y's is in a single row, then each row of known_x's is erpreted as a separate variable. int

Known_x's is an optional set of x-values that you may already know in the relationship y = mx + b.

• The array known_x's can include one or more sets of variables. If only one variable is used, known_y's and known_x's can be ranges of any shape, as long as they have equal dimensions. If more than one variable is used, known_y's must be a vector (that is, a range with a height of one row or a width of one column).

• If known_x's is omitted, it is assumed to be the array {1,2,3,...} that is the same size as known_y's.

Const is a logical value specifying whether to force the constant b to equal 0. • If const is TRUE or omitted, b is calculated normally. • If const is FALSE, b is set equal to 0 and the m-values are adjusted to fit y =

mx. Stats is a logical value specifying whether to return additional regression statistics.

• If stats is TRUE, LINEST returns the additional regression statistics, so the returned array is

• {mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r2,sey;F,df;ssreg,ssresid}. • If stats is FALSE or omitted, LINEST returns only the m-coefficients and the

constant b.

Statistic Description

se1,se2,...,sen The standard error values for the coefficients m1,m2,...,mn.

seb The standard error value for the constant b (seb = #N/A when const is FALSE).

r2 The coefficient of determination. Compares estimated and actual y-values, and ranges in value from 0 to 1. If it is 1, there is a perfect correlation in the sample — there is no difference between the estimated y-value and the actual y-value. At the other extreme, if the coefficient of determination is 0, the regression equation is not helpful in predicting a y-value. For information about how r2 is calculated, see "Remarks" later in this topic.

sey The standard error for the y estimate.

F The F statistic, or the F-observed value. Use the F statistic to determine whether the observed relationship between the dependent and independent variables occurs by chance.

df The degrees of freedom. Use the degrees of freedom to help you find F-critical values in a statistical table. Compare the values you find in the table to the F statistic returned by LINEST to determine a confidence level for the model. For information about how df is calculated, see "Remarks" later in this topic. Example 4 below shows use of F and df.

ssreg The regression sum of squares.

ssresid The residual sum of squares. For information about how ssreg and ssresid are calculated, see "Remarks" later in this topic.

Page 11: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       11

You can use the F statistic to determine whether these results, with such a high r2 value, occurred by chance. Assume for the moment that in fact there is no relationship among the variables, but that you have drawn a rare sample of 11 office buildings that causes the statistical analysis to demonstrate a strong relationship. The term "Alpha" is used for the probability of erroneously concluding that there is a relationship. F and df in LINEST output can be used to assess the likelihood of a higher F value occurring by chance. F can be compared with critical values in published F-distribution tables or Excel’s FDIST can be used to calculate the probability of a larger F value occurring by chance. The appropriate F distribution has v1 and v2 degrees of freedom. If n is the number of data points and const=TRUE or omitted, then v1=n–df–1 and v2=df. (If const = FALSE, then v1=n–df and v2=df.) Excel’s FDIST(F,v1,v2) will return the probability of a higher F value occurring by chance. FDIST(x,degrees_freedom1,degrees_freedom2) X is the value at which to evaluate the function. Degrees_freedom1 is the numerator degrees of freedom. Degrees_freedom2 is the denominator degrees of freedom. Remarks

• If any argument is nonnumeric, FDIST returns the #VALUE! error value. • If x is negative, FDIST returns the #NUM! error value. • If degrees_freedom1 or degrees_freedom2 is not an integer, it is truncated. • If degrees_freedom1 < 1 or degrees_freedom1 ≥ 10^10, FDIST returns the #NUM!

error value. • If degrees_freedom2 < 1 or degrees_freedom2 ≥ 10^10, FDIST returns the #NUM!

error value. • FDIST is calculated as FDIST=P(F>x), where F is a random variable that has an F

distribution with degrees_freedom1 and degrees_freedom2 degrees of freedom. FINV Returns the inverse of the F probability distribution. If p = FDIST(x,...), then FINV(p,...) = x. The F distribution can be used in an F-test that compares the degree of variability in two data sets. For example, you can analyze income distributions in the United States and Canada to determine whether the two countries have a similar degree of diversity. =FINV(probability,degrees_freedom1,degrees_freedom2) Probability is a probability associated with the F cumulative distribution. Degrees_freedom1 is the numerator degrees of freedom. Degrees_freedom2 is the denominator degrees of freedom. Remarks

• If any argument is nonnumeric, FINV returns the #VALUE! error value. • If probability < 0 or probability > 1, FINV returns the #NUM! error value. • If degrees_freedom1 or degrees_freedom2 is not an integer, it is truncated. • If degrees_freedom1 < 1 or degrees_freedom1 ≥ 10^10, FINV returns the #NUM!

error value. • If degrees_freedom2 < 1 or degrees_freedom2 ≥ 10^10, FINV returns the #NUM!

error value. FINV can be used to return critical values from the F distribution. For example, the output of an ANOVA calculation often includes data for the F statistic, F probability, and F critical value at the 0.05 significance level. To return the critical value of F, use the significance level as the probability argument to FINV. FINV uses an iterative technique for calculating the function. Given a probability value, FINV iterates until the result is accurate to within ± 3x10^-7. If FINV does

verge after 100 iterations, the function returns the #N/A error value. not conExample FINV(0.01,6,4) equals 15.20675 Calculating the t-Statistics Another hypothesis test will determine whether each slope coefficient is useful in estimating the assessed value. The c itical value can also be foundTINV probability,degrees_freedom)

r using Excel’s TINV function. (

Probability is the probability associated with the two-tailed Student's t-distribution.

Page 12: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       12

Degrees_freedom is the number of degrees of freedom with which to characterize the distribution. Remarks

• If either argument is nonnumeric, TINV returns the #VALUE! error value. • If probability < 0 or if probability > 1, TINV returns the #NUM! error value. • If degrees_freedom is not an integer, it is truncated. • If degrees_freedom < 1, TINV returns the #NUM! error value. • TINV returns that value t, such that P(|X|>t) = probability where X is a random

variable that follows the t-distribution and P(|X|>t) = P(X<-t or X>t). • A one-tailed t-value can be returned by replacing probability with

2*probability. For a probability of 0.05 and degrees of freedom of 10, the two-tailed value is calculated with TINV(0.05,10), which returns 2.28139. The one-tailed value for the same probability and degrees of freedom can be calculated with TINV(2*0.05,10), which returns 1.812462. Note In some tables, probability is described as (1-p). Given a value for probability, TINV seeks that value x such that TDIST(x, degrees_freedom,2) = probability. Thus, precision of TINV depends on precision of TDIST. TINV uses an iterative search technique. If the search has not converged after 100 iterations, the function returns the #N/A error value.

The STEYX function calculates the standard error of a regression, a measure of the amount of error accrued in predicting a y for each given x. This function takes the form =STEYX(known_y's, known_x's). The TREND function LINEST returns a mathematical description of the straight line that best fits known data. TREND finds points that lie along that line and that fall into the unknown category. You can use the numbers returned by TREND to plot a trend line—a straight line that helps make sense of actual data. You can also use TREND to extrapolate, or make intelligent guesses about, future data based on the tendencies exhibited by known data. (Be careful. Although you can use TREND to plot the straight line that best fits the known data, TREND can't tell you if that line is a good predictor of the future. Validation statistics returned by LINEST can help you make that assessment.) The TREND function takes the form =TREND(known_y's, known_x's, new_x's, const). The first two arguments represent the known values of your dependent and independent variables. As in LINEST, the known_y's argument is a single column, a single row, or a rectangular range. The known_x's argument also follows the pattern described for LINEST. The third and fourth arguments are optional. If you omit new_x's, the TREND function considers new_x's to be identical to known_x's. If you include const, the value of that argument must be TRUE or FALSE (or 1 or 0). If const is TRUE, TREND forces b to be 0. To calculate the trend-line data points that best fit your known data, simply omit the third and fourth arguments from this function. The results array will be the same size as the known_x's range. To create these values, we selected the range ...... and entered =TREND(....., .....) as an array formula using Ctrl+Shift+Enter. Calculating exponential regression Unlike linear regression, which plots values along a straight line, exponential regression describes a curve by calculating the array of values needed to plot it. The equation that describes an exponential regression curve is y = b * m1 2 n

If you have only one independent variable, the equation is

x1 * m x2 * … * m xn

y = b * mx

The LOGEST function The LOGEST function works like LINEST, except that you use it to analyze data that is nonlinear, and it returns the coordinates of an exponential curve instead of a straight line. LOGEST returns coefficient values for each independent variable plus a value for the constant b. This function takes the form =LOGEST(known_y's, known_x's, const, stats). LOGEST accepts the same arguments as the LINEST function and returns a result array in the same fashion. If you set the optional stats argument to TRUE, the function also returns validation statistics. Note The LINEST and LOGEST functions return only the y-axis coordinates used for calculating lines and curves. The difference between them is that LINEST projects a straight line and LOGEST projects an exponential curve. You must be careful to match the appropriate function to the analysis at hand. The LINEST function might be more appropriate for sales projections, and the LOGEST function might be more suited to applications, such as statistical analyses or population trends.

Page 13: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       13

LOGEST(known_y's,known_x's,const,stats) Known_y's is the set of y-values you already know in the relationship y = b*m^x. If the array known_y's is in a single column, then each column of known_x's is

interpreted as a separate variable. If the array known_y's is in a single row, then each row of known_x's is

interpreted as a separate variable. Known_x's is an optional set of x-values that you may already know in the relationship y = b*m^x. The array known_x's can include one or more sets of variables. If only one

variable is used, known_y's and known_x's can be ranges of any shape, as long as they have equal dimensions. If more than one variable is used, known_y's must be a range of cells with a height of one row or a width of one column (which is also known as a vector).

If known_x's is omitted, it is assumed to be the array {1,2,3,...} that is the same size as known_y's.

Const is a logical value specifying whether to force the constant b to equal 1. If const is TRUE or omitted, b is calculated normally. If const is FALSE, b is set equal to 1, and the m-values are fitted to y = m^x. Stats is a logical value specifying whether to return additional regression statistics. If stats is TRUE, LOGEST returns the additional regression statistics, so the

returned array is {mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r 2,sey; F,df;ssreg,ssresid}.

If stats is FALSE or omitted, LOGEST returns only the m-coefficients and the constant b.

For more information about additional regression statistics, see LINEST. Remarks The more a plot of your data resembles an exponential curve, the better the

calculated line will fit your data. Like LINEST, LOGEST returns an array of values that describes a relationship among the values, but LINEST fits a straight line to your data; LOGEST fits an exponential curve. For more information, see LINEST.

When you have only one independent x-variable, you can obtain y-intercept (b) values directly by using the following formula: Y-intercept (b): INDEX(LOGEST(known_y's,known_x's),2) You can use the y = b*m^x equation to predict future values of y, but Microsoft Excel provides the GROWTH function to do this for you. For more information, see GROWTH.

Formulas that return arrays must be entered as array formulas. When entering an array constant such as known_x's as an argument, use commas to

separate values in the same row and semicolons to separate rows. Separator characters may be different depending on your locale setting in Regional Settings or Regional Options in Control Panel.

You should note that the y-values predicted by the regression equation may not be valid if they are outside the range of y-values you used to determine the equation.

The GROWTH function Where the LOGEST function returns a mathematical description of the exponential regression curve that best fits a set of known data, the GROWTH function finds points that lie along that curve. The GROWTH function works like its linear counterpart,

the form =GROWTH(known_y's, known_x's, new_x's, const). TREND, and takesGROWTH(known_y's,known_x's,new_x's,const) Known_y's is the set of y-values you already know in the relationship y = b*m^x. If the array known_y's is in a single column, then each column of known_x's is

interpreted as a separate variable. If the array known_y's is in a single row, then each row of known_x's is

interpreted as a separate variable. If any of the numbers in known_y's is 0 or negative, GROWTH returns the #NUM!

alue. error vKnown_x's is an optional set of x-values that you may already know in the relationship y = b*m^x. The array known_x's can include one or more sets of variables. If only one

variable is used, known_y's and known_x's can be ranges of any shape, as long as they have equal dimensions. If more than one variable is used, known_y's must be a vector (that is, a range with a height of one row or a width of one column).

Page 14: 11-12 Analiza de Regresie Si de Corelatie 151120111500

Master MSS – 2011 – 2012                                                                                                                                       14

If known_x's is omitted, it is assumed to be the array {1,2,3,...} that is the same size as known_y's.

New_x's are new x-values for which you want GROWTH to return corresponding y-values. New_x's must include a column (or row) for each independent variable, just as

known_x's does. So, if known_y's is in a single column, known_x's and new_x's must have the same number of columns. If known_y's is in a single row, known_x's and new_x's must have the same number of rows.

If new_x's is omitted, it is assumed to be the same as known_x's. If both known_x's and new_x's are omitted, they are assumed to be the array

{1,2,3,...} that is the same size as known_y's. Const is a logical value specifying whether to force the constant b to equal 1. If const is TRUE or omitted, b is calculated normally. If const is FALSE, b is set equal to 1 and the m-values are adjusted so that y

. = m^xRemarks Formulas that return arrays must be entered as array formulas after selecting

the correct number of cells. When entering an array constant for an argument such as known_x's, use commas

to separate values in the same row and semicolons to separate rows.