Interpretarea unui model de regresie linear e - simpla - multipl ă - multipl ă cu variabile dummy
description
Transcript of Interpretarea unui model de regresie linear e - simpla - multipl ă - multipl ă cu variabile dummy
Interpretarea unui model de regresie lineare- simpla
- multiplă- multiplă cu variabile dummy
Norbert Petrovici
Ipoteza: venitul asteptat este dependent de nivelul te consum
Teorie: în cadrul societăţii de consum, consumul stimulează consum. Cu cât cineva consumă mai mult, cu atât se aşteaptă la un venit mai mare.
regresie simplă
Consum -> Venit asteptat
Model Summary
.434a .189 .188 3.27521Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), rcon Consuma.
ANOVAb
3728.590 1 3728.590 347.589 .000a
16026.167 1494 10.727
19754.758 1495
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), rcon Consuma.
Dependent Variable: exinc Venit asteptatb.
Coefficientsa
3.277 .117 27.969 .000
.591 .032 .434 18.644 .000
(Constant)
rcon Consum
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: exinc Venit asteptata.
Modelul este generalizabil de la eşantion la populaţie: diferenţele dintre media variabilei dependente si panta dreptei de regresie nu se datorează erorilor de eşantionare sau şansei.
Corelaţia dintre cele doua variabile este pozitivă (în aceeaşi direcţie) si de marime medie.
Nivelul Consumului per membru de familie luna trecuta explică 18,9%, din varianţa variabilei dependente.
Dreapta de regresie nestand. Y* = 3.277 + 0.591*X
Sau standardizatY* = 0.434*X
Atât interceptul (constanta a) cât si coefcientul b sunt semnificativi
regresie simplă
Interpretare R Intensitatea medie a legăturii dintre consumul per membru de familie şi venitul asteptat per
membru de familie este de 0,434 (pe o scală de la -1 la 1, unde zero indică lipsa unei legături).
Interpretare R2
Dacă utilizăm ecuaţia lineară de predicţie ExInc = 3,277 + 0.591*RCon pentru a estima venitul aşteptat per mebru de familie comitem cu 18,9% mai puţine erori decât dacă am estima acest venit pe baza mediei.
Interpretarea coeficientului b Venitul asteptat per membru de familie creşte în medie cu 591 mii lei cu fiecare milion de lei în
plus de consum per membru de familie (admiţând că între cele două variabile există o dependeţă lineară).
Interpretarea coeficientului a cineva care nu a consumat deloc luna trecută se aşteaptă în medie la un venit de 3 220 mii de
lei (admiţând că între cele două variabile există o dependeţă lineară)
Interpretarea coeficientului β La o creştere cu o abatere standard a variabilei Consum îi corespunde o creştere de ,434
abateri standard a variabilei Venit aşteptat (admiţând că între cele două variabile există o dependenţă lineară)
regresie simplăinterpretare
Ipoteza: venitul asteptat este dependent de nivelul te consum şi venit
Teorie: în cadrul societăţii de consum, consumul stimulează consum. În plus cu cât cineva va avea un venit mai mare cu atât se va aştepta la un venit mai mare.
regresie multiplă
Model Summary
.543a .295 .294 3.04309Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Consum, Venit gospodariei permembru de familie
a.
ANOVAb
5595.726 2 2797.863 302.132 .000a
13362.752 1443 9.260
18958.478 1445
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Consum, Venit gospodariei per membru de familiea.
Dependent Variable: Venit asteptatb.
Coefficientsa
2.640 .119 22.224 .000
.259 .036 .191 7.174 .000
.607 .039 .414 15.567 .000
(Constant)
Consum
Venit gospodarie
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Venit asteptata.
Consum + Venit real -> Venit asteptat
Nou modelul este şi el generalizabil de la eşantion la populaţie
Introduc\nd o nou[ variabilî în analiză, venitul pe luna trecuta per membru de familie, a crescut varianţa explică de drepta de regresie de la 29,5%, de la 18,9%.
Dreapta de regresie nestand. Y* = 2.640 + 0.259*X1 + 0.607*X2
Sau standardizatY* = 0.191*X1 + 0.414*X2
Toţi coeficienţii sunt semnificativi
regresie multiplă
Interpretare R Intensitatea medie a legăturii dintre venitul gospodăriei per membru de familie, consumul per
membru de familie şi venitul asteptat per membru de familie este de 0,543 (pe o scală de la -1 la 1, unde zero indică lipsa unei legături).
Interpretare R2
Dacă utilizăm ecuaţia lineară de predicţie ExInc = 2,640 + 0.259*Consum+0.607*Venit gospodărie pentru a estima venitul aşteptat per mebru de familie comitem cu 29,5% mai puţine erori decât dacă am estima acest venit pe baza mediei.
Interpretarea coeficientului b Venitul asteptat per membru de familie creşte în medie cu 259 mii lei cu fiecare milion de lei în plus
de consum per membru de familie, dacă ţinem constant venitul gospodăriei per membru de familie (admiţând că între cele două variabile există o dependenţă lineară).
Venitul asteptat per membru de familie creşte în medie cu 607 mii lei cu fiecare milion de lei în plus la venitul gospodăriei per membru de familie, dacă ţinem constant consumul per membru de familie (admiţând că între cele două variabile există o dependenţă lineară).
Interpretarea coeficientului a Cineva care provine dintr-o gospodărie fără consum şi venit luna trecută se aşteaptă în medie la un
venit per membru de familie de 2 640 mii de lei (admiţând că între variabile există o dependenţă lineară)
Interpretarea coeficientului β La o creştere cu o abatere standard a variabilei Consum îi corespunde o creştere de ,191 abateri
standard a variabilei Venit aşteptat, dacă este ţinut constant venitul gospodăriei (admiţând că între variabile există o dependenţă lineară)
regresie multiplăinterpretare
Ipoteza: venitul asteptat este dependent de nivelul te consum, venitul gospodăriei şi mediu de rezidenţă
Teorie: Mediu urban comparativ cu mediul rural oferă mai multe oportunităţi de consum şi există mai multe stimulente de consum.
regresie multiplăcu variabile dummy
ANOVAb
6115.959 3 2038.653 228.907 .000a
12842.519 1442 8.906
18958.478 1445
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Mediu, Consum per membru de familie, Venit gospodarieper membru de familie
a.
Dependent Variable: Venit asteptatb.
Model Summary
.568a .323 .321 2.98430Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Mediu, Consum per membrude familie, Venit gospodarie per membru de familie
a.
Coefficientsa
2.157 .133 16.272 .000
.224 .036 .165 6.282 .000
.554 .039 .378 14.253 .000
1.270 .166 .174 7.643 .000
(Constant)
Consum
Venit gopodarie
Mediu
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Venit asteptata.
Consum + Venit real -> Venit asteptat
Nou modelul este şi el generalizabil de la eşantion la populaţie
Introduc\nd o nou[ variabilî în analiză, venitul pe luna trecuta per membru de familie, a crescut varianţa explică de drepta de regresie de la 29,5%, de la 18,9%.
Dreapta de regresie nestand. Y* = 2.157 + 0.224*X1 + 0.554*X2
+ 0.554*X3
Sau standardizatY* = 0.191*X1 + 0.414*X2 + 0.174*X3
Toţi coeficienţii sunt semnificativi
regresie multiplă
Interpretarea coeficientului bcantitative: Venitul asteptat per membru de familie creşte în medie cu 249 mii lei cu fiecare milion de lei în
plus de consum per membru de familie, dacă ţinem constant celellalte variabile (admiţând că între cele două variabile există o dependenţă lineară).
Venitul asteptat per membru de familie creşte în medie cu 554 mii lei cu fiecare milion de lei în plus la venitul gospodăriei per membru de familie, dacă ţinem constant celellalte variabile (admiţând că între cele două variabile există o dependenţă lineară).
dummy: Venitul asteptat per membru de familie este pentru cei din urban mai mare cu 1 270 mii lei
comparativ cu cei din rural, dacă ţinem constant celellalte variabile (admiţând că între cele două variabile există o dependenţă lineară)
Interpretarea coeficientului a Cineva care provine dintr-o gospodărie fără consum şi venit şi este din mediul rural se aşteaptă
în medie la un venit per membru de familie de 2 157 mii de lei (admiţând că între variabile există o dependenţă lineară)
Interpretarea coeficientului βdummy: Dacă mediul creşte cu o abatere standar, venitul asteptat per membru de familie creşte în
medie cu 0.174 abateri standard, dacă ţinem constant celellalte variabile (admiţând că între variabile există o dependenţă lineară)
regresie multiplăinterpretare
Venit = venit aşteptat per membru de familie
miss val incdec nrmem (“98.0”, “99.0”). /* setam valorile lipsa NS si NR pentru variabilele incdec si nrmemcomp venit = incdec/nrmem. /* creăm variabila venit aşteptat împărţind venitul aştepat al
gospodăriei (incdec) la numărul de membrii din gospodăriei (nrmem)miss val venit (“120.0”) . /* după ce am explorat noa variabila creata cu un grafic boxplot
constatăm că există o valoare extremă de 120 milioane lei pe lună si o excludem.
Consum = consum per membru de familie
miss val chel nrmem (“98.0”, “99.0”). /* setam valorile lipsa NS si NR pentru variabilele chel si nrmemcomp consum = chel/nrmem. /* creăm variabila consum împărţind cheltuielile pe luna trecută (chel) la
numărul de membrii din gospodăriei (nrmem)miss val consum (“100.0”) .. /* dupa ce am explorat noua variabila creata cu un grafic boxplot
constatăm că există o valoare extremă de 100 milioane lei pe lună si o excludem.
Vengosp = venit gospodărie per membru de familie
miss val ven nrmem (“98.0”, “99.0”). /* setam valorile lipsa NS si NR pentru variabilele ven si nrmemcomp vengosp= ven/nrmem. /* creeăm variabila consum împartind cheltuielile pe luna trecută (chel)
la numarul de membrii din gospodariei (nrmem)miss val vengosp (“33.0” thru “100.0 ”) . /* dupa ce am explorat noua variabila creata cu un grafic boxplot
constatăm că există câteva valori aberante între 33 milioane şi 100 milioane şi le excludem.
Mediu = tip localitate (0=rural; 1=urban)
Cum codăm variabile din analiză