Proiect Econometrie

Post on 08-Aug-2015

159 views 9 download

description

Proiect

Transcript of Proiect Econometrie

1.Specificarea modelului

Cu ajutorul regresiei liniare, se poate determina impactul pe care il au mai multe variabile independente asupra unei variabile dependente.

Am ales sa analizez prin intermediul unui model multifactorial in ce raport camioanele, motocicletele, noile inregistrari pentru motociclete si lungimea drumurilor influenteaza persoanele care decedeaza in urma unui accident rutier, in anul 2009.

Datele au fost preluate de siteul Eurostat.

Tabel centralizator:

1.Statisticile descriptive

Caracterizarea unei distribuţii - trebuie să surprindă trei aspecte:

a. tendinţa centrală (referită uzual ca "medie" deşi poate fi vorba de indicatori statistici diferiţi)

b. împrăştierea (cât de mult sunt repartizate sau depărtate valorile)

c. forma distribuţiei (simetria - asimetrie, aplatizare)

Rezumate pentru evaluarea tendinţei centrale - oferă o valoare de prognoză, încrederea depinde de gradul de împrăştiere a valorilor

1. Mod - cea mai frecventă valoare; este utilizată în special pentru date discrete. Pentru date continue se obişnuieşte gruparea datelor şi mijlocul intervalului modal.

2. Mediana - valoarea care depăşeşte jumătate dintre observaţii (quantila de ordin 0.5); este o valoare "negociată" pentru date ordinale (valoarea care împarte cel mai bine observaţiile). Deoarece presupune ordine între valori, nu se aplică datelor nominale. Este un indicator de tendinţă centrală preferat în locul mediei pentru distribuţii continue asimetrice.

3. Media - este media aritmetică a valorilor măsurate, utilizată pentru date continue.

2.Regresia multipla

Regresia liniară, prin metoda celor mai mici pătrate, este metoda de modelare cea mai des utilizată. Este metoda denumită “regresie”, “regresie liniară“, “regresie multiplă” sau “cele mai mici pătrate” atunci când se construieşte un model.

Scopul regresiei multiple este de a evidenţia relaţia dintre o variabilă dependentă şi o mulţime de variabile independente. Prin utilizarea regresiei

multiple se încearcă, adesea, obţinerea răspunsului la una dintre întrebările:“care este cea mai bună predicţie pentru …?”, “cine este cel mai bun predictor pentru …?” .

Multiple R = 0.68869082 reprezinta coeficientul de corelare intre variabilele x si y -> pozitiv, exista o legatura directa, destul de puternica.

R Square = 0.474295 reprezinta coeficientul de determinatie, reprezinta proportia in care variabilele x influenteaza y , restul pana la 53% o reprezinta influenta altor variabile.

Adjusted R Square = 0.401784 reprezinta R Square ajustat cu numarul de grade de libertate, este mai mic decat R Square

Significance F = 0.00070329 < 0.05 => modelul este semnificativ

P-value < 0,05 =>indicatori nesemnificativi.

Ecuatia modelului:

y = 993.5966 + 0.00047792X1 + -0.0290616X2 + 0.0002029X3 + 0.00464156X4 + e

Arata cu cat se modifica y la cresterea cu o unitatea a lui x.

3. Testarea homoscedasticitatii GQ

H :o erori homoscedasticeHı: erori heteroscedasice

Etape:1.Identificarea variabilelor x ce induc in model homoscedasticitatea2.Ordonam crescator variabilele x3.Se omit un set de valori .Setul poate fi n/3 sau n/4.

Raman doua parti egale, pentru acestea se calculeaza modelul de regresie si se calculeaza variatia reziduala(SSE).Se calculeaza statistica GQ = SSE max/ SSE min care se compara cu F tabelar.Daca valoarea calculata este mai mare decat valoarea din tabel se respinge ipoteza H .o

A doua serie de date :

4. Testul Glejser

Are la baza un model de regresie intre variabila reziduala si variabilele

independente.

Pentru decizia testului ne uitam la coeficientii ce apartin variabilelor independente care nu trebuie sa fie seminificativi pentru a accepta ipoteza de homoscedasticitate.

P-value > 0,05 => se indeplineste ipoteza de homoscedasticitate.

5.Testul White

În statistica, testul White este un test care stabileste daca varianta reziduala unei variabile într-un model de regresie este constant (homoscedasticitate). Pentru a testa constanta unei variatii se introduc intr-o regresie patratele reziduurilor de la un model de regresie, regresori si regresorii la patrat.

Ceea ce ne intereseaza este valoarea lui R Square pe care o vom inmulti cu numarul de observatii ale serie de date si il vom compara cu χ2

α,k unde k reprezinta numarul de variabile ale modelului nou definit.

Testul LM(White) este N*R2 = 33*0.19149 = 6.319270889 (χ2

α,k(0,05;k=5)=12,59) rezulta ca erorile modelului sunt homoscedastice (intrucat valoarea testului LM este mai mica decat valoarea tabelata a χ2

α,k).

6. Testul Jarque Bera

7. Testul Durbin-Watson

Statistica Durbin-Watson este o statistica de testare utilizate pentru a detecta prezenta a autocorelarii în reziduale de la o analiza de regresie.

Statistica DW este tabelata, valorile ei depinzand de nivelul de semnificatie precizat, denumarul de observatii in esantion si de numarul variabilelor de influenta din modelul deregresie. Statistica test DW pentru un nivel de semnificatie precizat are 2 valori critice dL si dU ce se obtin din tabele.

Specificarea ipotezelor:

Hₒ : p=0H₁ : p ≠0

p => coeficient de autocorelarep= 1=> autocorelare pozitivap= - 1 => autocorelare negativep= 0 => nu exista autocorelare

Nivelul de semnificatie este probabilitatea de respingere a ipotezei nule, atunci cand aceasta este adevarata. Nivelul de semnificatie ales pentru acest proiect este de 0,05.

Decizia:

Daca DW intre 0 si dL respingem H0 ,autocorelatia de ordinul I fiind pozitiva Daca DW intre 4-dL si 4, respingem H0 ,autocorelatia fiind negativa Daca DW intre dU si 4-dU nu se confirma prezenta autocorelatiei. Daca DW intre dL si dU sau intre 4-dL si 4-dUtest ul nu este concludent

8. Multicoliniaritate(Klein)

Pornind de la această regulă, testul lui Klein, constă în compararea R ² calculat pe modelul cu k variabile explicative cu r ².

Dacă R ²< r ², atunci există o prezumpţie de multicoliniaritate.

Există mai multe reguli de remediere a multicoliniarităţii, dar care nu reprezintă metode sigure de înlăturare a ei.

=>creşterea volumului eşantionului este eficientă numai dacă se adaugăobservări semnificativ diferite de cele care sunt deja considerate în model, încaz contrar, multicoliniaritatea se menţine;

=>înlăturarea variabilei puternic corelate poate conduce la o specificareincorectă a modelului. Eroarea de specificare duce la obţinerea de estimatorieronaţi, fiind mai dăunătoare decât acceptarea unei multicoliniarităţi mici;

=>transformarea variabilelor în serii ale diferenţelor de ordinul 1. Modelul de regresie pe diferenţele de ordinul 1, reduce severitatea multicoliniarităţii

Pentru acest test ne intereseaza ca variabilele independente sa nu fie corelate intre ele. Aplicam din Data Analysis-Correlation asupra variabilelor. Astfel vaoarea acestui coeficient trebuie sa fie mai mica decat R Square a modelului de regresie liniara.