interpretare regresie

19
I. Sursa de date Ca bază de date pentru realizarea acestei aplicaţii am ales tipurile de evenimente care afectează riscul operaţional şi am dorit sa analizez modul în care influenţează pierderea aşteptată a băncii. În scopul facilitării calculelor pe care le presupune realizarea de prognoze bazate pe modele econometrice este indicată utilizarea programelor specializate. Un astfel de program este EViews a cărui aplicare, pe lângă faptul că reduce semnificativ timpul destinat analizelor econometrice, asigură şi o mare exactitate a calculelor, iar interpretarea rezultatelor este facilă. O condiţie fundamentală ce trebuie îndepliniă înainte de a realiza previziuni pe baza modelelor econometrice este verificarea caracterului staţionar al seriilor de timp 1 . Este esenţial ca seriile nestaţionare să fie tratate într-un mod diferit faţă de seriile staţionare. Corelaţia dintre seriile nestaţionare tinde să fie foarte ridicată (de obicei, în astfel de cazuri, coeficienţii R pătrat şi R pătrat ajustat sunt foarte ridicaţi), dar corelaţia nu este concludentă deoarece ea se poate datora unor trenduri comune (stohastice) existente în seriile respective. Există mai multe modalităţi de a defini o serie staţionară, dar se poate afirma în cel mai simplist scenariu că o serie staţionară este aceea ce nu îşi schimbă proprietăţile în 1 Caraterul staţionar al seriilor de timp pentru această analiză este ilustrat în Anexă 1

Transcript of interpretare regresie

Page 1: interpretare regresie

I. Sursa de date

Ca bază de date pentru realizarea acestei aplicaţii am ales tipurile de evenimente care

afectează riscul operaţional şi am dorit sa analizez modul în care influenţează pierderea aşteptată

a băncii. În scopul facilitării calculelor pe care le presupune realizarea de prognoze bazate pe

modele econometrice este indicată utilizarea programelor specializate. Un astfel de program este

EViews a cărui aplicare, pe lângă faptul că reduce semnificativ timpul destinat analizelor

econometrice, asigură şi o mare exactitate a calculelor, iar interpretarea rezultatelor este facilă.

O condiţie fundamentală ce trebuie îndepliniă înainte de a realiza previziuni pe baza

modelelor econometrice este verificarea caracterului staţionar al seriilor de timp1. Este esenţial ca

seriile nestaţionare să fie tratate într-un mod diferit faţă de seriile staţionare. Corelaţia dintre

seriile nestaţionare tinde să fie foarte ridicată (de obicei, în astfel de cazuri, coeficienţii R pătrat

şi R pătrat ajustat sunt foarte ridicaţi), dar corelaţia nu este concludentă deoarece ea se poate

datora unor trenduri comune (stohastice) existente în seriile respective. Există mai multe

modalităţi de a defini o serie staţionară, dar se poate afirma în cel mai simplist scenariu că o serie

staţionară este aceea ce nu îşi schimbă proprietăţile în timp. Are medie constantă, varianţa

constantă şi autocovarianţa pentru fiecare lag constantă.

Analiza staţionarităţii seriilor

Această etapă presupune verificarea măsurii în care procesul stohastic este staţionar

(medie şi dispersie constantă). Aceasta implică eliminarea componentei sezoniere a procesului

(dacă acesta conţine astfel de fluctuaţii). În cazul în care seria nu este staţionară, prin

diferenţiere, se obţine o serie staţionară. Astfel, ordinul de integrare a seriei reprezintă numărul

de diferenţieri succesive necesare pentru obţinerea unei serii staţionare (sau numărul de rădăcini

unitare al seriei). În economie, cele mai întâlnite serii nestaţionare sunt integrate de ordinul I

(necesită o singură diferenţiere, au o rădăcină unitară).

1 Caraterul staţionar al seriilor de timp pentru această analiză este ilustrat în Anexă

1

Page 2: interpretare regresie

Eviews pune la dispoziţie mai multe teste de staţionaritate printre care cel mai cunoscut este

Augumented Dickey-Fuller).

Prima parte a testului prezintă informaţii cu privire la tipul testului (AFD, variabilele

exogene introduse – constantă, trend) şi cuprinde rezultatul testului, valorile critice pentru fiecare

nivel de relevanţă (1, 5 şi 10 la sută), şi probabilitatea, p, asociată rezultatului testului.

Perechea de ipoteze este următoarea: H0 : seria este nestaţionară, are o radacină unitate

H1 : seria este staţionară

Utilizând valoarea p, este acceptată ipoteza nulă – seria este nestaţionară – pentru un

anumit nivel de relevanţă, ori de câte ori probabilitatea p este mai mare decât acel nivel de

relevanţă.

Trebuie menţionat că testele de radacină unitară folosesc ipoteza random-walk. Statistica ce

apare aici se numeşte “τ ”(tau), iar repartiţia ei a fost studiată de Dickey şi Fuller. Se calculează

din datele eşantionului valoarea τ , fie ea τ̂ , care se compară cu valorile critice τ crt

corespunzătoare unui prag de încredere de 1%, 5%, sau 10%. Apoi luăm decizia:

dacă τ̂ <τ crt , respingem ipoteza nulă, acceptăm că seria nu e RW (staţionară)

dacă τ̂ >τ crt , acceptam H0 : seria analizată este considerată RW, are o radacină unitate.

O consecinţă a nestaţionarităţii este regresia falsă, dată de faptul că seriile de timp

nestaţionare pot determina concluzii statistice neconforme cu realitatea. Punem în evidenţă toate

regulile de validare, prezenţa unei dependenţe liniare între două variabile observate prin serii de

timp, variabile care de fapt nu sunt dependente.

Decizia în testul ADF este la fel ca şi în cazul testului t-Student de semnificaţie pentru

coeficientul modulului de regresie, doar că aici statistica folosită este statistica τ. Testul prezintă

următorul output:

2

Page 3: interpretare regresie

Figura nr. 10 : Testul Augmented Dickey-Fuller

După cum se poate observa, constanta inclusă în testul ADF este semnificativă din punct

de vedere statistic (probabilitatea asociată testului t este mai mică decât 5%, și anume 0.00000).

3

Page 4: interpretare regresie

Durbin Watson statistic (DW) este un test statistic care testează corelaţia serială a

erorilor. Dacă erorile nu sunt corelate, atunci valoarea lui DW va fi în jur de 2. În exemplul de

mai sus acest indicator are valoarea 1,85, şi ca urmare, nu există corelaţie serială a erorilor.

Testul ADF are ipoteza nulă că seria analizată conține o rădăcină unitară, un unit root (nu

este staționară). După cum se poate observa în figura de mai sus, probabilitatea asociată acestui

test este 0.0000, deci ipoteza nulă se respinge și putem afirma că seria este staționară.

De asemenea decizia pe care o luăm în urma comparaţiei dintre τ̂ şi τ crt este

următoarea : Cum τ̂ <τ crt , adică -6.513623< -3.584743 , resping ipoteza nulă şi accept că seria

este staţionară. Cum valoarea testului este mai mică decât valoarea critică pentru oricare dintre

nivelele de relevanţă, alegând nivelul de relevanţă cel mai restrictiv, 1 la sută, se poate spune că

la 1% nivel de relevanţă, ipoteza nulă (seria este nestaţionară) este respinsă.

Din outputul testului DF putem obţine si coeficienţi modelului :

∆yt =- 3061139 – 1,024279* yt-1

Rezultatul regresiei

Forma generală a unui model de regresie liniară multiplă este: Yt=β0+β1*Xt+….βnXn+εRegresia modelului ales cuprinde două variabile independente, astfel forma modelului este: Yt=β0+β1X1 + β2X2 + β3X3 + β4X4 + ε; unde: Yt=variabila dependentă reprezentată de pierderea aşteptată; X1=variabila independentă reprezentată de frauda externă; X2=variabila independentă reprezentată de frauda internă; X3=variabila independentă reprezentată de perturbările în activitate şi defecţiuni de sistemX4=variabila independentă reprezentată de practicile angajaţilor şi măsurile de siguranţăβ0=termen liber; β1=senzitivitatea lui Y în raport cu X1 și arată cu câte unități se modifică Y (pierderea aşteptată) atunci când X1 (frauda externă) crește cu o unitate β2=senzitivitatea lui Y în raport cu X2 și arată cu câte unități se modifică Y (PIB-ul) atunci când X2 (frauda internă) crește cu o unitateβ3= senzitivitatea lui Y în raport cu X3 și arată cu câte unități se modifică Y (pierderea aşteptată) atunci când X1 (perturbările în activitate şi defectţuni de sistem) crește cu o unitateβ4= senzitivitatea lui Y în raport cu X3 și arată cu câte unități se modifică Y (pierderea aşteptată) atunci când X1 (practicile angajaţilor şi măsurile de siguranţă) crește cu o unitate

4

Page 5: interpretare regresie

În urma estimării parametrilor în Eviews,s-a obținut ecuația:

PIERDERE_ASTEPTATA = C(1) + C(2)*FRAUDA_EXTERNA(-1) + C(3)*FRAUDA_INTERNA(-1) + C(4)*PERTURBARI_ACT + C(5)*PRACTICI_ANG

Prin înlocuirea parametrilor obţinem:

PIERDEREA_ASTEPTATA = 5049642.862 + 0.9391557287*FRAUDA_EXTERNA(-1) + 1.121910904*FRAUDA_INTERNA(-1) - 0.349877787*PERTURBARI_ACT - 156.8919048*PRACTICI_ANG

Am folosit variabilele independente reprezentate de frauda internă şi frauda externă deoarece sunt mai greu de observant în timp real.

Figura nr. 11: Rezultatele regresiei

Verificarea ipotezei nule (testul t)Pentru a verifica ipoteza nulă, vom testa, parțial, modelul econometric cu ajutorul testului

t. Acest test verifică daca parametrii modelului diferă sau nu semnificativ de 0. în acest caz, emitem ipoteza nulă, conform căreia parametrii (β0,β1, β2) ar fi 0.

5

Page 6: interpretare regresie

b0= estimaţia parametrului β0= 5.049.643b1=estimaţia parametrului β1= 0,939156b2=estimaţia parametrului β2= 1,121911b3=estimaţia parametrului β3= -0,349878b4=estimaţia parametrului β4= -156,8919Testul t pentru b0 = 4,129812 Testul t pentru b1= 4,393366 Testul t pentru b2= 4.526475Testul t pentru b3 =-0,096365 Testul t pentru b4 = -3,698217Probabilitatea asociată parametrilor este: Pt β0=0.0002 < 0,05 ,ceea ce înseamnă că acest parametru este statistic semnificativ Pt β1=0.0001 < 0.05, adică și acest parametru diferă semnificativ de 0 Pt β2=0.001 < 0.05, ceea ce înseamnă că acest parametru este statistic semnificativ Pt β3=0,9237 >0,05 nu este semnificativ diferit de 0, adica perturbările în activitate şi defecţiuni de sistem nu sunt relevante în evaluarea modeluluiPt β4=0,007 <0.05, acest parametru este semnificativ diferit de 0

Ştim ca validitatea modelului de regresie este dată de testul F-statistic. Astfel,

probabilitatea testului F-statistic este de 0,0000 are o valoare foarte mică , deci acceptam ipoteza

alternativă conform căreia modelul de regresie construit este valid. Probabilitatea asociată

termenului liber este de 0,0002 şi se află în intervalul de incertitudine deoarece valoarea acestuia

este mai mică decat 5%. Valoarea testului Durbin-Watson este de 1,72 , fiind apropiat de

valoarea 2 rezultă că erorile sunt independente.

Raportul de determinaţie (R2) Acest raport se utilizează pentru a stabili calitatea modelului. Valorile posibile ale acestui raport se regăsesc în intervalul [0,1].Cu cât valorile sunt mai apropiate de valoarea 1,cu atît modelul este mai bun.

R2 = ∑t=1

18

(Ŷ i−Y )2

∑t=1

18

(Y i−Y )2

=VXVT

=SPAESPAT

=60,37%

Raportul de determinație ne arată ce procent din varianța lui Y poate fi atribuit factorilor semnificativi. În cazul nostru acesta are valoarea: 0.603714, fapt ce relevă că aproximativ 60,37% din Y (pierderea asteptata) se datorează variației fraudei externa ,fraudei interne, perturbarilor in activitate si defectiuni de system si practicilor angajatilor si masurile de siguranta, restul variației fiind influențată în proporție de 39,63 % de către alti factori. Coeficientul de determinatie nu este ajustat cu gradele de libertate. Vom calcula valoarea

ajustată a acestuia dupa formula: 1 – (T−1 )(1−R2)

T−k. (k=numărul de grade de libertate) Astfel

obținem R2 ajustat = 0,564085.

6

Page 7: interpretare regresie

Testul Jarque-Bera

Construirea ipotezelor {H 0: S=0 ş i K=3(seria rezidurilor urmeaz ă o reparti ţ ie normal ă)H 1: H 1 :S ≠0 sau K ≠3 ( seria nu este normal repartizat ă )

Testul Jarque-Bera măsoară diferenţa dintre Skewness şi Kurtosis-ul seriei faţă de

cele corespunzătoare distribuţiei normale. Statistica testului se calculează astfel:

JB= N−k6

[ S2+( K−3)2 ]

unde: S - Skewness

K- Kurtosis

k – numărul de coeficienţi estimaţi care sunt folosiţi pentru a crea seriile

Sub ipoteza nulă a unei distribuţii normale statistica Jarque-Bera este distribuită 2 cu 2

grade de libertate. Probabilitatea ataşată testului reprezintă probabilitatea ca statistica Jarque-

Bera să fie mai mare decât valoarea observată sau ipoteza nulă. Aşadar, o probabilitate mică

duce la respingerea ipotezei nule (de normalitate).

Figura nr.12 : Testul Jarque-Bera

7

Page 8: interpretare regresie

Coeficientul de asimetrie (skewness) este: 1.204771 ceea ce indica o asimetrie catre

dreapta kurtosis are valoarea de 4,34 inseamna ca distributia este mai inalta,seria este

leptocurtica,exista o abatere larga a valorilor extreme de la media lor.

Figura nr. 13: Evoluţia tipurilor de evenimente şi a pierderii aşteptate în perioada 2007-2010

8

Page 9: interpretare regresie

Testarea prezenţei heteroscedasticităţii-Testul White

Testul White se refera la egala împrastiere a erorii în raport cu ansamblul factorilor, motiv pentru care apeleaza la analiza de regresie a erorii în raport cu factorii.

Pasul 1. Se estimează parametrii din modelul liniar de regresie multiplă (sau unui alt

model de tip estimare a mediei):

9

Page 10: interpretare regresie

şi salvăm reziduurile .

Pasul 2. Folosim modelul de regresie

unde este termenul eroare (presupus

normal de medie 0).

Pasul 3. Testăm ipoteză nulă:

şi … şi cu alternativa

măcar unul dintre coeficienţi este diferit de zero.

Figura nr. 14: Rezultatul testului White:

10

Page 11: interpretare regresie

Folosim concluziile: 1) fiecare coeficient din regresia auxiliară este statistic diferit de

zero ( p-value corespunzătoare mici);

2) testul F ne spune acelaşi lucru pentru ansamblul coeficienţilor.

Deci, putem respinge ipoteza nulă:

şi

şi prin asta acceptăm ipoteza alternativă:

măcar unul dintre coeficienţi este diferit de zero.

Vom completa analiza termenilor reziduali cu testul White pentru a verifica urmele de

heteroschedasticitate. Pentru a ne asigura că nu mai există efecte de heteroschedasticitate (sau

efecte GARCH) reziduale din nou valoarea probabilităţii trebuie să fie mai mare de 0.05. În acest

11

Page 12: interpretare regresie

caz coeficientul vizat este STD_REZID^2(-1). Valoarea probabilităţii pentru acest coeficient de

0.1457 indică faptul că putem accepta ipoteza nulă „nu există efecte GARCH reziduale”.

Concluzionăm faptul că avem heteroscedasticitate în date.Cea mai importantă parte a

output-ului testului este prima parte care prezintă cele două teste statistice F-Statistic şi R-

squared şi probabilităţile asociate acestor teste. Ipoteza nulă a celor două teste este că nu există

corelaţie serială a erorilor ecuaţiei de regresie până la lag-ul k (specificat mai sus). Dacă

probabilitatea asociată celor două teste este inferioară nivelului de relevanţă la care se lucrează,

atunci ipoteza nulă este respinsă, deci se respinge inexistenţa corelaţiei seriale. În caz contrar

ipoteza nulă este acceptată, (nu există corelaţie serială).

4. Analiza coeficienţilor de autocolelaţie a erorilor

12

Page 13: interpretare regresie

Dacă coeficientul de autocorelaţie estimat j nu aparţine intervalului (−1,96∗1

√T;

1,96∗1

√T¿

, atunci ipoteza nulă este respinsă şi decidem că seria de timp nu provine dintr-un zgomot alb

Gaussian.

Având în vedere faptul că T=45 (numărul de valori al seriei de timp) un interval de

încredere 95% este I= (-0.292179; 0.292179)

Lag 1 : 0.122(-0.292179; 0.292179) ipoteza nulă este acceptată , iar coeficientul de

corelaţie estimate pentru lagul q este zero.

Lag 2 : -0.009 ( (-0.295481; 0.295481), ipoteza nulă este acceptată , iar coeficientul de

corelaţie estimate pentru lagul 2 este zero.

13

Page 14: interpretare regresie

În forma de mai sus intervalele de încredere 95% nu depind de lag. Acest aspect nu este natural,

în special pentru lag-urile apropiate de momentul final T. O corecţie în acest sens este obtinută prin

înlocuierea variaţei sj2 cu valoarea sj

2 = T− j

T (T +2) în descrierea intervalelor de încredere. De

exemplu, intervalul de încredere 95% pentru coeficientul de autocorelaţie j este (

−1,96∗√ T− jT (t+2)

;1,96∗√ T− jT (t +2)

).

Testul de multicoliniaritate

Multicoliniaritatea se referă strict la existenţa mai multor relaţii liniare, iar termenul dec oliniaritate se referă la existenţa unei singure relaţii liniare.Această distincţie nu se face în practică, folosindu-se în ambele situaţii termenul de multicoliniaritate.

In cazul a două variabile explicative, intercorelaţia lor se măsoară cu coeficientulde corelaţie simplă dintre ele. Intercorelaţia în cazul mai multor variabileexplicative se măsoară cu ajutorul coeficienţilor de corelaţie parţială sau princoeficientul de corelaţie multiplăR între variabilay şi variabilelexi.

14