interpretare regresie
-
Upload
elena-luiza -
Category
Documents
-
view
1.795 -
download
1
Transcript of interpretare regresie
![Page 1: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/1.jpg)
I. Sursa de date
Ca bază de date pentru realizarea acestei aplicaţii am ales tipurile de evenimente care
afectează riscul operaţional şi am dorit sa analizez modul în care influenţează pierderea aşteptată
a băncii. În scopul facilitării calculelor pe care le presupune realizarea de prognoze bazate pe
modele econometrice este indicată utilizarea programelor specializate. Un astfel de program este
EViews a cărui aplicare, pe lângă faptul că reduce semnificativ timpul destinat analizelor
econometrice, asigură şi o mare exactitate a calculelor, iar interpretarea rezultatelor este facilă.
O condiţie fundamentală ce trebuie îndepliniă înainte de a realiza previziuni pe baza
modelelor econometrice este verificarea caracterului staţionar al seriilor de timp1. Este esenţial ca
seriile nestaţionare să fie tratate într-un mod diferit faţă de seriile staţionare. Corelaţia dintre
seriile nestaţionare tinde să fie foarte ridicată (de obicei, în astfel de cazuri, coeficienţii R pătrat
şi R pătrat ajustat sunt foarte ridicaţi), dar corelaţia nu este concludentă deoarece ea se poate
datora unor trenduri comune (stohastice) existente în seriile respective. Există mai multe
modalităţi de a defini o serie staţionară, dar se poate afirma în cel mai simplist scenariu că o serie
staţionară este aceea ce nu îşi schimbă proprietăţile în timp. Are medie constantă, varianţa
constantă şi autocovarianţa pentru fiecare lag constantă.
Analiza staţionarităţii seriilor
Această etapă presupune verificarea măsurii în care procesul stohastic este staţionar
(medie şi dispersie constantă). Aceasta implică eliminarea componentei sezoniere a procesului
(dacă acesta conţine astfel de fluctuaţii). În cazul în care seria nu este staţionară, prin
diferenţiere, se obţine o serie staţionară. Astfel, ordinul de integrare a seriei reprezintă numărul
de diferenţieri succesive necesare pentru obţinerea unei serii staţionare (sau numărul de rădăcini
unitare al seriei). În economie, cele mai întâlnite serii nestaţionare sunt integrate de ordinul I
(necesită o singură diferenţiere, au o rădăcină unitară).
1 Caraterul staţionar al seriilor de timp pentru această analiză este ilustrat în Anexă
1
![Page 2: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/2.jpg)
Eviews pune la dispoziţie mai multe teste de staţionaritate printre care cel mai cunoscut este
Augumented Dickey-Fuller).
Prima parte a testului prezintă informaţii cu privire la tipul testului (AFD, variabilele
exogene introduse – constantă, trend) şi cuprinde rezultatul testului, valorile critice pentru fiecare
nivel de relevanţă (1, 5 şi 10 la sută), şi probabilitatea, p, asociată rezultatului testului.
Perechea de ipoteze este următoarea: H0 : seria este nestaţionară, are o radacină unitate
H1 : seria este staţionară
Utilizând valoarea p, este acceptată ipoteza nulă – seria este nestaţionară – pentru un
anumit nivel de relevanţă, ori de câte ori probabilitatea p este mai mare decât acel nivel de
relevanţă.
Trebuie menţionat că testele de radacină unitară folosesc ipoteza random-walk. Statistica ce
apare aici se numeşte “τ ”(tau), iar repartiţia ei a fost studiată de Dickey şi Fuller. Se calculează
din datele eşantionului valoarea τ , fie ea τ̂ , care se compară cu valorile critice τ crt
corespunzătoare unui prag de încredere de 1%, 5%, sau 10%. Apoi luăm decizia:
dacă τ̂ <τ crt , respingem ipoteza nulă, acceptăm că seria nu e RW (staţionară)
dacă τ̂ >τ crt , acceptam H0 : seria analizată este considerată RW, are o radacină unitate.
O consecinţă a nestaţionarităţii este regresia falsă, dată de faptul că seriile de timp
nestaţionare pot determina concluzii statistice neconforme cu realitatea. Punem în evidenţă toate
regulile de validare, prezenţa unei dependenţe liniare între două variabile observate prin serii de
timp, variabile care de fapt nu sunt dependente.
Decizia în testul ADF este la fel ca şi în cazul testului t-Student de semnificaţie pentru
coeficientul modulului de regresie, doar că aici statistica folosită este statistica τ. Testul prezintă
următorul output:
2
![Page 3: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/3.jpg)
Figura nr. 10 : Testul Augmented Dickey-Fuller
După cum se poate observa, constanta inclusă în testul ADF este semnificativă din punct
de vedere statistic (probabilitatea asociată testului t este mai mică decât 5%, și anume 0.00000).
3
![Page 4: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/4.jpg)
Durbin Watson statistic (DW) este un test statistic care testează corelaţia serială a
erorilor. Dacă erorile nu sunt corelate, atunci valoarea lui DW va fi în jur de 2. În exemplul de
mai sus acest indicator are valoarea 1,85, şi ca urmare, nu există corelaţie serială a erorilor.
Testul ADF are ipoteza nulă că seria analizată conține o rădăcină unitară, un unit root (nu
este staționară). După cum se poate observa în figura de mai sus, probabilitatea asociată acestui
test este 0.0000, deci ipoteza nulă se respinge și putem afirma că seria este staționară.
De asemenea decizia pe care o luăm în urma comparaţiei dintre τ̂ şi τ crt este
următoarea : Cum τ̂ <τ crt , adică -6.513623< -3.584743 , resping ipoteza nulă şi accept că seria
este staţionară. Cum valoarea testului este mai mică decât valoarea critică pentru oricare dintre
nivelele de relevanţă, alegând nivelul de relevanţă cel mai restrictiv, 1 la sută, se poate spune că
la 1% nivel de relevanţă, ipoteza nulă (seria este nestaţionară) este respinsă.
Din outputul testului DF putem obţine si coeficienţi modelului :
∆yt =- 3061139 – 1,024279* yt-1
Rezultatul regresiei
Forma generală a unui model de regresie liniară multiplă este: Yt=β0+β1*Xt+….βnXn+εRegresia modelului ales cuprinde două variabile independente, astfel forma modelului este: Yt=β0+β1X1 + β2X2 + β3X3 + β4X4 + ε; unde: Yt=variabila dependentă reprezentată de pierderea aşteptată; X1=variabila independentă reprezentată de frauda externă; X2=variabila independentă reprezentată de frauda internă; X3=variabila independentă reprezentată de perturbările în activitate şi defecţiuni de sistemX4=variabila independentă reprezentată de practicile angajaţilor şi măsurile de siguranţăβ0=termen liber; β1=senzitivitatea lui Y în raport cu X1 și arată cu câte unități se modifică Y (pierderea aşteptată) atunci când X1 (frauda externă) crește cu o unitate β2=senzitivitatea lui Y în raport cu X2 și arată cu câte unități se modifică Y (PIB-ul) atunci când X2 (frauda internă) crește cu o unitateβ3= senzitivitatea lui Y în raport cu X3 și arată cu câte unități se modifică Y (pierderea aşteptată) atunci când X1 (perturbările în activitate şi defectţuni de sistem) crește cu o unitateβ4= senzitivitatea lui Y în raport cu X3 și arată cu câte unități se modifică Y (pierderea aşteptată) atunci când X1 (practicile angajaţilor şi măsurile de siguranţă) crește cu o unitate
4
![Page 5: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/5.jpg)
În urma estimării parametrilor în Eviews,s-a obținut ecuația:
PIERDERE_ASTEPTATA = C(1) + C(2)*FRAUDA_EXTERNA(-1) + C(3)*FRAUDA_INTERNA(-1) + C(4)*PERTURBARI_ACT + C(5)*PRACTICI_ANG
Prin înlocuirea parametrilor obţinem:
PIERDEREA_ASTEPTATA = 5049642.862 + 0.9391557287*FRAUDA_EXTERNA(-1) + 1.121910904*FRAUDA_INTERNA(-1) - 0.349877787*PERTURBARI_ACT - 156.8919048*PRACTICI_ANG
Am folosit variabilele independente reprezentate de frauda internă şi frauda externă deoarece sunt mai greu de observant în timp real.
Figura nr. 11: Rezultatele regresiei
Verificarea ipotezei nule (testul t)Pentru a verifica ipoteza nulă, vom testa, parțial, modelul econometric cu ajutorul testului
t. Acest test verifică daca parametrii modelului diferă sau nu semnificativ de 0. în acest caz, emitem ipoteza nulă, conform căreia parametrii (β0,β1, β2) ar fi 0.
5
![Page 6: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/6.jpg)
b0= estimaţia parametrului β0= 5.049.643b1=estimaţia parametrului β1= 0,939156b2=estimaţia parametrului β2= 1,121911b3=estimaţia parametrului β3= -0,349878b4=estimaţia parametrului β4= -156,8919Testul t pentru b0 = 4,129812 Testul t pentru b1= 4,393366 Testul t pentru b2= 4.526475Testul t pentru b3 =-0,096365 Testul t pentru b4 = -3,698217Probabilitatea asociată parametrilor este: Pt β0=0.0002 < 0,05 ,ceea ce înseamnă că acest parametru este statistic semnificativ Pt β1=0.0001 < 0.05, adică și acest parametru diferă semnificativ de 0 Pt β2=0.001 < 0.05, ceea ce înseamnă că acest parametru este statistic semnificativ Pt β3=0,9237 >0,05 nu este semnificativ diferit de 0, adica perturbările în activitate şi defecţiuni de sistem nu sunt relevante în evaluarea modeluluiPt β4=0,007 <0.05, acest parametru este semnificativ diferit de 0
Ştim ca validitatea modelului de regresie este dată de testul F-statistic. Astfel,
probabilitatea testului F-statistic este de 0,0000 are o valoare foarte mică , deci acceptam ipoteza
alternativă conform căreia modelul de regresie construit este valid. Probabilitatea asociată
termenului liber este de 0,0002 şi se află în intervalul de incertitudine deoarece valoarea acestuia
este mai mică decat 5%. Valoarea testului Durbin-Watson este de 1,72 , fiind apropiat de
valoarea 2 rezultă că erorile sunt independente.
Raportul de determinaţie (R2) Acest raport se utilizează pentru a stabili calitatea modelului. Valorile posibile ale acestui raport se regăsesc în intervalul [0,1].Cu cât valorile sunt mai apropiate de valoarea 1,cu atît modelul este mai bun.
R2 = ∑t=1
18
(Ŷ i−Y )2
∑t=1
18
(Y i−Y )2
=VXVT
=SPAESPAT
=60,37%
Raportul de determinație ne arată ce procent din varianța lui Y poate fi atribuit factorilor semnificativi. În cazul nostru acesta are valoarea: 0.603714, fapt ce relevă că aproximativ 60,37% din Y (pierderea asteptata) se datorează variației fraudei externa ,fraudei interne, perturbarilor in activitate si defectiuni de system si practicilor angajatilor si masurile de siguranta, restul variației fiind influențată în proporție de 39,63 % de către alti factori. Coeficientul de determinatie nu este ajustat cu gradele de libertate. Vom calcula valoarea
ajustată a acestuia dupa formula: 1 – (T−1 )(1−R2)
T−k. (k=numărul de grade de libertate) Astfel
obținem R2 ajustat = 0,564085.
6
![Page 7: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/7.jpg)
Testul Jarque-Bera
Construirea ipotezelor {H 0: S=0 ş i K=3(seria rezidurilor urmeaz ă o reparti ţ ie normal ă)H 1: H 1 :S ≠0 sau K ≠3 ( seria nu este normal repartizat ă )
Testul Jarque-Bera măsoară diferenţa dintre Skewness şi Kurtosis-ul seriei faţă de
cele corespunzătoare distribuţiei normale. Statistica testului se calculează astfel:
JB= N−k6
[ S2+( K−3)2 ]
unde: S - Skewness
K- Kurtosis
k – numărul de coeficienţi estimaţi care sunt folosiţi pentru a crea seriile
Sub ipoteza nulă a unei distribuţii normale statistica Jarque-Bera este distribuită 2 cu 2
grade de libertate. Probabilitatea ataşată testului reprezintă probabilitatea ca statistica Jarque-
Bera să fie mai mare decât valoarea observată sau ipoteza nulă. Aşadar, o probabilitate mică
duce la respingerea ipotezei nule (de normalitate).
Figura nr.12 : Testul Jarque-Bera
7
![Page 8: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/8.jpg)
Coeficientul de asimetrie (skewness) este: 1.204771 ceea ce indica o asimetrie catre
dreapta kurtosis are valoarea de 4,34 inseamna ca distributia este mai inalta,seria este
leptocurtica,exista o abatere larga a valorilor extreme de la media lor.
Figura nr. 13: Evoluţia tipurilor de evenimente şi a pierderii aşteptate în perioada 2007-2010
8
![Page 9: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/9.jpg)
Testarea prezenţei heteroscedasticităţii-Testul White
Testul White se refera la egala împrastiere a erorii în raport cu ansamblul factorilor, motiv pentru care apeleaza la analiza de regresie a erorii în raport cu factorii.
Pasul 1. Se estimează parametrii din modelul liniar de regresie multiplă (sau unui alt
model de tip estimare a mediei):
9
![Page 10: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/10.jpg)
şi salvăm reziduurile .
Pasul 2. Folosim modelul de regresie
unde este termenul eroare (presupus
normal de medie 0).
Pasul 3. Testăm ipoteză nulă:
şi … şi cu alternativa
măcar unul dintre coeficienţi este diferit de zero.
Figura nr. 14: Rezultatul testului White:
10
![Page 11: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/11.jpg)
Folosim concluziile: 1) fiecare coeficient din regresia auxiliară este statistic diferit de
zero ( p-value corespunzătoare mici);
2) testul F ne spune acelaşi lucru pentru ansamblul coeficienţilor.
Deci, putem respinge ipoteza nulă:
şi
şi prin asta acceptăm ipoteza alternativă:
măcar unul dintre coeficienţi este diferit de zero.
Vom completa analiza termenilor reziduali cu testul White pentru a verifica urmele de
heteroschedasticitate. Pentru a ne asigura că nu mai există efecte de heteroschedasticitate (sau
efecte GARCH) reziduale din nou valoarea probabilităţii trebuie să fie mai mare de 0.05. În acest
11
![Page 12: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/12.jpg)
caz coeficientul vizat este STD_REZID^2(-1). Valoarea probabilităţii pentru acest coeficient de
0.1457 indică faptul că putem accepta ipoteza nulă „nu există efecte GARCH reziduale”.
Concluzionăm faptul că avem heteroscedasticitate în date.Cea mai importantă parte a
output-ului testului este prima parte care prezintă cele două teste statistice F-Statistic şi R-
squared şi probabilităţile asociate acestor teste. Ipoteza nulă a celor două teste este că nu există
corelaţie serială a erorilor ecuaţiei de regresie până la lag-ul k (specificat mai sus). Dacă
probabilitatea asociată celor două teste este inferioară nivelului de relevanţă la care se lucrează,
atunci ipoteza nulă este respinsă, deci se respinge inexistenţa corelaţiei seriale. În caz contrar
ipoteza nulă este acceptată, (nu există corelaţie serială).
4. Analiza coeficienţilor de autocolelaţie a erorilor
12
![Page 13: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/13.jpg)
Dacă coeficientul de autocorelaţie estimat j nu aparţine intervalului (−1,96∗1
√T;
1,96∗1
√T¿
, atunci ipoteza nulă este respinsă şi decidem că seria de timp nu provine dintr-un zgomot alb
Gaussian.
Având în vedere faptul că T=45 (numărul de valori al seriei de timp) un interval de
încredere 95% este I= (-0.292179; 0.292179)
Lag 1 : 0.122(-0.292179; 0.292179) ipoteza nulă este acceptată , iar coeficientul de
corelaţie estimate pentru lagul q este zero.
Lag 2 : -0.009 ( (-0.295481; 0.295481), ipoteza nulă este acceptată , iar coeficientul de
corelaţie estimate pentru lagul 2 este zero.
13
![Page 14: interpretare regresie](https://reader036.fdocumente.com/reader036/viewer/2022082809/5571fb574979599169949d38/html5/thumbnails/14.jpg)
În forma de mai sus intervalele de încredere 95% nu depind de lag. Acest aspect nu este natural,
în special pentru lag-urile apropiate de momentul final T. O corecţie în acest sens este obtinută prin
înlocuierea variaţei sj2 cu valoarea sj
2 = T− j
T (T +2) în descrierea intervalelor de încredere. De
exemplu, intervalul de încredere 95% pentru coeficientul de autocorelaţie j este (
−1,96∗√ T− jT (t+2)
;1,96∗√ T− jT (t +2)
).
Testul de multicoliniaritate
Multicoliniaritatea se referă strict la existenţa mai multor relaţii liniare, iar termenul dec oliniaritate se referă la existenţa unei singure relaţii liniare.Această distincţie nu se face în practică, folosindu-se în ambele situaţii termenul de multicoliniaritate.
In cazul a două variabile explicative, intercorelaţia lor se măsoară cu coeficientulde corelaţie simplă dintre ele. Intercorelaţia în cazul mai multor variabileexplicative se măsoară cu ajutorul coeficienţilor de corelaţie parţială sau princoeficientul de corelaţie multiplăR între variabilay şi variabilelexi.
14