MULTICOLINIARITATEA

13

Click here to load reader

Transcript of MULTICOLINIARITATEA

Page 1: MULTICOLINIARITATEA

• Multicoliniaritatea

• Consecinţele multicoliniarităţii

• Detectarea multicoliniarităţii

• Remedierea multicoliniarităţii

• Selecţia variabilelor explicative

MULTICOLINIARITATEA ŞI SELECŢIA VARIABILELOR EXPLICATIVE

Page 2: MULTICOLINIARITATEA

Multicoliniaritatea • O ipoteză a modelului liniar clasic de regresie: nu există multicoliniaritate printre

variabilele explicative incluse în model.

• Seriile x1 şi x2 sunt ortogonale sau independente când cov(x1,x2)=0. Multicoliniaritatea se referă strict la existenţa mai multor relaţii liniare, iar termenul de coliniaritate se referă la existenţa unei singure relaţii liniare. Această distincţie nu se face în practică, folosindu-se în ambele situaţii termenul de multicoliniaritate.

• În cazul a două variabile explicative, intercorelaţia lor se măsoară cu coeficientul de corelaţie simplă dintre ele. Intercorelaţia în cazul mai multor variabile explicative se măsoară cu ajutorul coeficienţilor de corelaţie parţială sau prin coeficientul de corelaţie multiplă R între variabila y şi variabilele xi.

• Multicoliniaritatea este un fenomen de eşantionare: chiar dacă în populaţie, variabilele xi sunt necorelate liniar, se poate ca într-un eşantion dat, ele să fie corelate. Astfel încât, deşi teoretic se poate considera că variabilele xi au o influenţă separată sau independentă asupra variabilei dependente y, se poate întâmpla ca în eşantionul dat pentru a testa funcţia de regresie a populaţiei, unele variabile xi, să fie atât de puternic corelate, încât să nu se poată izola influenţa lor individuală asupra lui y.

Page 3: MULTICOLINIARITATEA

Consecinţele multicoliniarităţii

• varianţe şi covarianţe mari ale estimatorilor coeficienţilor de regresie;• intervale mari de încredere ale estimatorilor, din cauza abaterilor standard

mari;• raţiile t Student nesemnificative, din cauza abaterilor standard mari;• un coeficient mare de determinaţie R2, dar raţiile t nesemnificative;• instabilitatea estimatorilor şi a abaterilor lor standard la mici schimbări ale

datelor;• în caz de multicoliniaritate perfectă matricea este singulară (determinatul

este 0), estimarea coeficienţilor este imposibilă şi varianţa lor, infinită.

Regresia y = f(x1, x2, x3, x4) din exerciţiul prezentat indică un coeficient de determinaţie mare, de 0.995, iar testul Fisher arată că regresia este global semnificativă cu o probabilitate de 100% (Significance F). Cu excepţia coeficientului variabilei x1, care este semnificativ, restul coeficienţilor au raţiile Student mai mici decât valoarea critică pentru un prag de semnificaţie de 5%. Intervalele de încredere ale estimatorilor, cu excepţia intervalului pentru , schimbă semnul de la minus la plus, conţinând valoarea 0 şi indicând faptul că sunt nesemnificativi.

1a

Page 4: MULTICOLINIARITATEA

y x1 x2 x3 x4

9.5 83.7 18 92.5 92.5

10.7 88.8 21.5 93.6 95.6

11.5 100.7 25.6 96.5 97.5

12.5 105.5 29.5 94 97.4

13.3 118.5 34.6 100.2 100.2

15.3 131.4 40.5 101.5 101.4

16.8 148.5 44.4 105.4 104.6

18.8 162 49.8 112.8 109.8

19.5 174.5 51.5 112.6 111.5

21.5 185.3 53.8 112.7 112.2

Exerciţiu – multicoliniaritatea

Page 5: MULTICOLINIARITATEA

SUMMARY OUTPUT

Regression Statistics

Multiple R 0.99748

R Square 0.994966

Adjusted R Square 0.990938

Standard Error 0.389094

Observations 10

ANOVA

  df SS MS FSignificance

F

Regression 4 149.607 37.40176247.049

3 6.27E-06

Residual 5 0.75697 0.151394

Total 9 150.364      

 Coefficient

sStandard

Error t Stat P-value Lower 95%Upper

95%

Intercept -4.15552 10.3724 -0.400630.70523

6 -30.8186 22.50753

X Variable 1 0.096456 0.035756 2.6976250.04290

6 0.004543 0.18837

X Variable 2 0.023858 0.066989 0.3561430.73626

8 -0.14834 0.196057

X Variable 3 -0.09621 0.100689 -0.95547 0.38322 -0.35504 0.162624

X Variable 4 0.151719 0.176617 0.8590260.42957

6 -0.30229 0.605726

Page 6: MULTICOLINIARITATEA

Detectarea multicoliniarităţii (1)Nu există o metodă unică de detectare şi măsurare a intensităţii sale. Există

câteva reguli pentru stabilirea existenţei sale:

• R2 mare, dar puţine raţii t semnificative. Testul F de semnificaţie globală a regresiei va fi în majoritatea cazurilor, mai mare decât F teoretic, astfel că se va respinge ipoteza nulă, conform căreia coeficienţii parţiali de regresie (estimatorii variabilelor explicative) sunt simultan egali cu zero. Dar raţiile t au valori mici şi arată că nici unul sau foarte puţini coeficienţi de regresie sunt statistic semnificativ diferiţi de 0. Multicoliniaritatea este dăunătoare numai când influenţele tuturor variabilelor explicative asupra lui y nu pot fi separate.

• Corelaţiile perechi puternice (perechi de câte două variabile explicative). Coeficienţii mari de corelaţie de ordinul 0 reprezintă condiţia suficientă, dar nu şi necesară pentru existenţa multicoliniarităţii, deoarece aceasta poate exista chiar dacă valorile lor sunt comparativ mici.

• Pornind de la această regulă, testul lui Klein, constă în compararea R2, calculat pe modelul cu k variabile explicative:

cu r2xixj, unde ij. Dacă R2 < r2

xixj pentru oricare ij, i,j =1,2,…,k, atunci există o prezumpţie de multicoliniaritate. Acest test nu este un test propriu-zis şi nici nu este concludent în toate cazurile.

exa...xaxaay kk22110

Page 7: MULTICOLINIARITATEA

• Examinarea corelaţiilor parţiale a fost propusă de Farrar şi

Glauber, tocmai datorită problemei menţionate pentru coeficienţii de

corelaţie simplă dintre regresori.

Ei susţin că, în regresia dintre y şi x1, x2, x3, dacă se găseşte că

R2yx1x2x3 este mare, şi comparativ r2

yx1.x2x3, r2yx2.x1x3, r2

yx3.x1x2 sunt mici,

aceasta poate sugera că variabilele x1, x2 şi x3 sunt puternic

intercorelate şi că cel puţin una din variabilele explicative este în

plus. Deşi studiul coeficienţilor de corelaţie parţială ar putea fi foarte

util, totuşi nu se poate garanta că va furniza un răspuns sigur în

ceea ce priveşte multicoliniaritatea.

Se poate întâmpla ca atât R2yx1x2x3 cât şi toate corelaţiile parţiale să

fie suficient de mari, încât să pună sub semnul întrebării afirmaţia lui

Farrar şi Glauber.

Detectarea multicoliniarităţii (2)

Page 8: MULTICOLINIARITATEA

Detectarea multicoliniarităţii (3)• Regresiile auxiliare. Aflarea variabilei explicative care este corelată cu alte variabile

x, prin efectuarea regresiilor pentru fiecare variabilă xi şi restul variabilelor x. Fiecare

din aceste regresii se consideră ca fiind auxiliară faţă de regresia principală,

considerată a fi regresia lui y în funcţie de toate variabilele explicative x.

Un coeficient mare de determinaţie sugerează că xi este puternic corelată cu celelalte

variabile x. Pentru fiecare din aceste regresii auxiliare se calculează statistica F, după

formula:

, unde

k este numărul de variabile regresori din modelul auxiliar, n este volumul eşantionului,

iar R2xi.x2x3…xk este coeficientul de determinaţie corespunzător fiecărei regresii.

Se compară Fi* cu valoarea critică din tabela Fisher, pentru un prag de semnificaţie

şi (k-1), (n-k-1) grade de libertate. Dacă Fi* > F αk-1,n-k-1 acesta înseamnă că acea

variabilă xi este coliniară cu celelalte variabile x. Dacă Fi* < Fk-1,n-k-1 se spune că

variabila xi nu este coliniară cu celelalte variabile x, caz în care respectiva variabilă xi

se reţine în model. Această metodă are neajunsurile ei, în sensul că atunci când

multicoliniaritatea presupune implicarea a mai multor variabile, este dificil să se

identifice interrelaţiile separate.

)1kn/()R1(

)1k/(RF

2xk...3x2x.xi

2xk...3x2x.xi

i

Page 9: MULTICOLINIARITATEA

Remedierea multicoliniarităţii (1)Există mai multe reguli de remediere a multicoliniarităţii, dar care nu reprezintă metode sigure de înlăturare a ei. • creşterea volumului eşantionului – este eficientă numai dacă se adaugă

observări semnificativ diferite de cele care sunt deja considerate în model, în caz contrar, multicoliniaritatea se menţine;

• înlăturarea variabilei puternic corelate poate conduce la o specificare incorectă a modelului. Eroarea de specificare duce la obţinerea de estimatori eronaţi, fiind mai dăunătoare decât acceptarea unei multicoliniarităţi mici;

• transformarea variabilelor în serii ale diferenţelor de ordinul 1. Modelul de regresie pe diferenţele de ordinul 1, reduce severitatea multicoliniarităţii. Dezavantajele sunt: – termenul eroare din forma transformată a diferenţelor de ordinul 1, s-ar

putea să nu respecte una din ipotezele modelului liniar clasic, şi anume erorile nu sunt serial corelate (corelaţie de ordinul 1). Dacă în seriile iniţiale erorile sunt independente sau necorelate, în seria transformată, acestea vor fi serial corelate în majoritatea cazurilor.

– se pierde o observare prin diferenţiere, ceea ce este important când volumul eşantionului este mic, şi numărul gradelor de libertate se micşorează cu 1. Mai mult, în seriile de date instantanee, procedura de diferenţiere nu este corespunzătoare, deoarece nu există o ordine logică a datelor observate.

• utilizarea altor metode: analiza factorială, analiza în componente principale, sunt deseori folosite pentru a rezolva problema multicoliniarităţii.

Page 10: MULTICOLINIARITATEA

• Se observă că nu în orice situaţie, când se obţin valori t nesemnificative pentru estimatorii coeficienţilor de regresie, există multicoliniaritate. Lipsa de semnificaţie se poate datora şi altor cauze, cum ar fi:– metoda folosită pentru culegerea datelor, de exemplu eşantionarea

variabilelor regresori peste valorile lor limită, pe care acestea le iau în populaţie;

– restricţii asupra modelului sau asupra populaţiei şi a metodei de eşantionare folosită;

– specificarea modelului;– supradimensionarea modelului, prin introducerea unui număr de

variabile explicative, mai mare decât numărul de observări (în domeniul medical, când numărul de pacienţi este mai mic decât informaţiile despre ei, cuprinse într-un număr mare de variabile).

Aplicarea în practică a uneia din modalităţile de remediere, depinde de natura datelor şi de severitatea multicoliniarităţii. Nu se recomandăutilizarea regresiei afectată de multicoliniaritate, pentru previziune.

Remedierea multicoliniarităţii (2)

Page 11: MULTICOLINIARITATEA

Selecţia variabilelor explicative (1)

Procedurile statistice de selecţie a variabilelor explicative permit determinarea acelor variabile, care se adaugă sau se retrag dintr-un model. Aceste demersuri exclud raţionamentul economic, permiţând găsirea unor modele, care deseori sunt bune din punct de vedere

statistic, dar a căror interpretare economică poate fi nulă sau aberantă. De aceea tehnicile automate de selecţie a variabilelor explicative se utilizează cu prudenţă, completându-se rezultatele cu raţionamentul economic.

Există cinci proceduri pentru selecţia variabilelor explicative - cele mai corelate cu variabile explicată şi - cel mai puţin corelate între ele.

Aceste proceduri sunt:• toate regresiile posibile;• eliminarea progresivă;• selecţia progresivă;• regresia pas cu pas;• regresia pe faze.

Page 12: MULTICOLINIARITATEA

• Toate regresiile posibile - constă în efectuarea tuturor regresiilor posibile (2k – 1), unde k este numărul variabilelor explicative, candidate la intrarea în model. Se reţine acel model care are R2 cel mai mare şi toate variabilele explicative semnificative. Dezavantajul este legat de numărul k, de variabile explicative, care cu cât este mai mare, cu atât duce la realizarea unui număr considerabil de regresii (de exemplu: k=10, număr regresii posibile = 1023).

• Eliminarea progresivă (Backward Elimination) - constă în efectuarea regresiei cu toate variabilele explicative şi apoi eliminarea pe rând, a acelora a căror raţie Student este mai mică decât valoarea critică. Procedura se utilizează, numai dacă se poate estima efectiv, modelul iniţial, ceea ce nu este mereu posibil. Modelul poate avea un număr mare de variabile explicative, şi atunci, riscul multicoliniarităţii este mare, iar matricea poate fi singulară.

• Selecţia progresivă (Forward Regression) - se parcurge un sens invers celui descris în eliminarea progresivă. – în prima etapă, se selectează în model o variabilă xi, care are

coeficientul de corelaţie simplă cu variabila y, cel mai mare.– în a doua etapă se calculează coeficienţii de determinaţie parţială

r2yxj.xi pentru j i şi se reţine acea variabilă xj, care are cel mai

mare coeficient de corelaţie parţială.Selecţia variabilelor se opreşte când raţiile t calculate devin mai mici decât valoarea critică citită din tabela Student.

Selecţia variabilelor explicative (2)

Page 13: MULTICOLINIARITATEA

• Regresia pas cu pas (Stepwise regression) - este identică cu cea precedentă, a selecţiei progresive, doar că înainte de a incorpora o nouă variabilă explicativă se examinează raţia t* a fiecăreia din variabilele explicative selecţionate în prealabil şi se elimină din model cele care au raţiile t* mai mici decât valoarea critică.

• Regresia pe faze sau pe stadii (Stagewise Regression) - permite minimizarea intercorelaţiilor dintre variabilele explicative, prin studiul reziduurilor. Etapele care se parcurg sunt următoarele:– etapa 1: se selecţionează acea variabilă explicativă, xi, care are

coeficientul de corelaţie simplă cu y, cel mai mare;– etapa a 2-a: se calculează reziduurile

şi coeficienţii de corelaţie simplă între e1t şi restul variabilelor explicative; se reţine aceea dintre ele, xj, care are acest coeficient cel mai mare, considerând că va explica în continuare, cel mai bine, varianţa reziduurilor;

– etapa a 3-a: se calculează reziduurile: şi coeficienţii de corelaţie simplă între e2t şi restul variabilelor explicative; se reţine aceea dintre ele, xk, care are acest coeficient cel mai mare, ceea ce duce la obţinerea altor reziduuri; procedura se termină când de coeficienţii de corelaţie simplă dintre reziduuri şi variabilele explicative rămase, devin nesemnificativ diferiţi de 0.

Selecţia variabilelor explicative (3)

)xaa(yyye it10tttt1

)xaxaa(yyye jt2it10tttt2