Regresia Liniara Simpla Partea 1

9
 Modelul de regresie liniar simpl Partea I. Probleme rezolvate 1. Au fost reprezentate cu ajutorul norului de puncte observa iile cu privire la evolu ia exporturilor msurate lunar (EXP) din România din perioada ianuarie 2001 – septembrie 2010, în funcie cursul de schimb mediu lunar Euro/RON (CS), rezultând urm torul nor de  puncte: Comentai aspectul norului de puncte i formulai o ipotez cu privire la forma legturii dintre cele dou variabile. Solu   ie: Analiza modului în care sunt dispuse punctele pe suprafa a graficului permite studierea urmtoarelor aspecte, legate de: - existena legturii: întrucât punctele sunt grupate, sunt plasate pe o dreapt , ce reflect deci c cele dou variabile se modific simultan dup o anumit  regul, putem afirma faptul c între X i Y exist  o legtur  la nivel de eantion. Dac acestea ar fi împr tiate pe toat suprafaa graficului, f  o regul clar , între variabile nu ar exista nicio legtur . - sensul legturii: întrucât majoritatea punctelor sunt localizate pe o dreapt ascendent , legtura este direct , ceea ce înseamn  c o cretere a cursului de schimb Euro/RON determin creterea exporturilor. Dac punctele s-ar situa pe o dreapt descendent , legtura dintre variabile ar fi fost invers. - forma legturii: forma fâiei pe care sunt repartizate punctele sugereaz  forma legturii dintre cele dou variabile. În cazul nostru fâ ia este liniar  (se aseam cu o

Transcript of Regresia Liniara Simpla Partea 1

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 1/9

Modelul de regresie liniar simpl

Partea I.

Probleme rezolvate

1. Au fost reprezentate cu ajutorul norului de puncte observaiile cu privire la evoluiaexporturilor msurate lunar (EXP) din România din perioada ianuarie 2001 – septembrie2010, în funcie cursul de schimb mediu lunar Euro/RON (CS), rezultând urmtorul nor depuncte:

Comentai aspectul norului de puncte i formulai o ipotez cu privire la formalegturii dintre cele dou variabile.

Solu  ie:

Analiza modului în care sunt dispuse punctele pe suprafaa graficului permitestudierea urmtoarelor aspecte, legate de:- existena legturii: întrucât punctele sunt grupate, sunt plasate pe o dreapt, ce

reflect deci c cele dou variabile se modific simultan dup o anumit regul, putem afirmafaptul c între X i Y exist o legtur la nivel de eantion. Dac acestea ar fi împrtiate petoat suprafaa graficului, f  o regul clar, între variabile nu ar exista nicio legtur.

- sensul legturii: întrucât majoritatea punctelor sunt localizate pe o dreaptascendent, legtura este direct, ceea ce înseamn c o cretere a cursului de schimbEuro/RON determin creterea exporturilor. Dac punctele s-ar situa pe o dreaptdescendent, legtura dintre variabile ar fi fost invers.

- forma legturii: forma fâiei pe care sunt repartizate punctele sugereaz forma

legturii dintre cele dou variabile. În cazul nostru fâia este liniar (se aseam cu o

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 2/9

dreapt), fapt ce sugereaz o legtur liniar, Y = aX + b + ; dac punctele s-ar situa pe oparabol, legtura ar fi una de gradul doi, Y = aX2 + bX + c + .

- intensitatea legturii: limea fâiei pe care se afl punctele este inversproporional cu intensitatea legturii – o fâie lat indic o legtur de intensitate mic, ofâie îngust, una puternic, strâns. În cazul nostru fâia relativ îngust sugereaz existena

unei legturi de intensitate medie spre puternic la nivelul eantionului de valori.

2. Pentru caracterizarea potenialului economic al unei localiti, pentru anul 2010 s-au înregistrat valorile cifrei de afaceri (Y) i a numrului de angajai (X) la nivelul a 50 de firme.În urma prelucrrii seriilor de date i i=1,50

y i i i=1,50x , s-au obinut urmtoarele date:

Y XMedia în eantion 10 mil. RON 8,1 persoaneCoeficientul deomogenitate (abatere

medie ptratic /medie)

0,2 0,15

De asemenea, se cunoate valoarea t ty -Y x -X 2160

se estimeze parametrii modelului liniar de regresie folosit pentru analizacomportamentului variabilei Y în funcie de X.

Solu  ie:

Pentru determinarea valorii parametrilor modelului liniar de regresie se va folosimetoda celor mai mici ptrate. Formulele de calcul pentru estimatorii celor doi coeficieni aimodelului de regresie liniar simpl t t tY = aX + b + sunt:

t t

t t

2 2 2

Xt t

y -Y x -Xy -Y x -X cov X,YTa = =

x -X x -X

T

ˆ ˆb = Y - aX

Din enun se cunosc valorile:

X 8,1 , Y 10 , t ty -Y x -X 2160 . De asemenea, se tie c valoarea

coeficientului de omogenitate este

X

X

XV = 0,15

i

Y

Y

YV = 0,2

. Numrul de observaii

care a stat la baza efecturii calculelor este T = 50.

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 3/9

Pentru determinarea valorii estimatorului coeficientului a, vom folosi formula:

t t t t

2 2

Xt

y -Y x -X y -Y x -X

T Ta =x -X

T

În aceast formul se cunosc toate mrimile, mai puin

2

X , dar acesta se poate

determina din valoarea

X

X

XV = 0,15

.

X

X

X 8,1 54

V 0,15 deci

2

X =542=2916

Deci

t t

2

X

y -Y x -X 216050Ta 0,0148

2916

iar ˆ ˆb = Y - aX 10 0, 0148 8,1 9,8801

Deci modelul de regresie liniar simpl t t tY = aX + b + se scrie:

Yt = 0,0148Xt +9,8801.

3. În scopul evalurii impactului pe care variaia preului unui produs îl are asupravariaiei cantitilor vândute, a fost selectat un eantion reprezentativ de 100 de magazine, încare s-au urmrit valorile urmtoarelor variabile:

- Q - cantitatea vândut din produsul respectiv (kg);- P - preul produsului (RON)

A fost folosit pentru estimarea parametrilor urmtorul model, ale crui rezultateobinute în Excel sunt prezentate mai jos:

Q = a + b P +

SUMMARY OUTPUTRegression statistics

Multiple R 0,913173052R Squared 0,833885023

Adjusted R Squared 0,813120651Standard Error 10,73509502

Observations 100

Coefficients Standard Error

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 4/9

Intercept 29,32363674 20,687667Pret -0,068972606 0,0108839

a) Testai semnificaia raportului de corelaie al modelului de regresie la nivelulpopulaiei totale, cu probabilitatea de 95%, (Ftab = 5,32);

b) Testai semnificaia coeficienilor modelului, cu probabilitatea de 95%, (ttab = 1,96);c) Determinai intervalele de încredere pentru coeficienii modelului, cu probabilitateade 95%, (ttab = 1,96).

Solu  ie:

a) Pentru testarea semnificaiei raportului de corelaie se folosete testul Fisher.În cazul nostru, valorea raportului de corelaie la nivel de eantion obinut este

2

Y/XR =0,83 ( R squared din primul tabel) fapt care subliniaz existena unei puternice legturi

la acest nivel deoarece 2

Y/XR 0,75, 1 . Dac valoarea 2

Y/XR 0,5, 75 legtura este de

intensitate medie, iar dac 2Y/XR 0, 0,5 ea este de intensitate slab, sau chiar este

inexistent.Întrebarea pe care ne-o punem este dac la nivelul populaiei totale se menine aceeai

legtur puternic. În acest sens, dorim s stabilim dac valoarea corespunztoare a raportuluide corelaie la nivelul populaiei totale, notat cu 2

Y/XR difer sau nu semnificativ de zero. O

valoare a acestui raport egal cu zero sugereaz faptul c legtura dintre variabile la nivelulpopulaiei totale este practic inexistent.

Se emit deci ipotezele:H0:

2Y/XR = 0 cu alternativa

H1: 2Y/XR 0Pentru determinarea veridicitii uneia dintre aceste ipoteze se compar Fcalculat (F -

statistic) cu Ftabelar.

Valoarea Fcalculat se determin cu ajutorul relaiei

2

Y/X

calc 2

Y/X

R T-pF

p-11-R

undeT – numrul de observaiip – numrul de parametri estimai în model

În cazul nostru:

T = 100 (Observations = 100 , în primul tabel)p = 2 deoarece au fost estimai doi parametri, a i b.

Deci:

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 5/9

2

Y/X

calc 2

Y/X

R T-p 0.83 100 2F 478

p-1 1 0.83 2 11-R

Regulile de decizie sunt:

- dac calc tabF < F , nu se poate respinge ipoteza H0, ceea ce înseamn c valoarearaportului de corelaie la nivelul populaiei totale nu difer semnificativ de zero, acest lucrugarantându-se cu o probabilitate de 95%.

- dac calc tabF F , ipoteza H0 se respinge, i se accept ca fiind adevrat, cu o

probabilitate de 95%, ipoteza H1, ceea ce înseamn c valoarea raportului de corelaie lanivelul populaiei totale difer semnificativ de zero.

În cazul nostru, Fcalc>Ftab, 478 > 5,32, deci H1 este adevrat, putem afirma, cuprobabilitatea de 95%, c la nivelul populaiei totale exist o legtur între cele dou variabilealese i anume cantitatea vânduti preul produsului. Cu cât diferena dintre cele dou valori,cea calculati cea tabelar este mai mare, cu atât legtura dintre cele dou variabile este mai

puternic. În cazul nostru, diferena este foarte mare, deci intensitatea legturii la nivelulpopulaiei totale este foarte mare.

b) Testarea semnificaiei coeficienilor se face cu ajutorul testului Student. Vom aplicai noi acest test, pentru a verifica dac valoarea coeficientului a respectiv b este semnificativdiferit de 0. Valoarea tabelar pentru probabilitatea de 95% i 95 grade de libertate este 1,96.

Pentru coeficientul a se emit ipotezele:H0: a = 0 cu alternativaH1: a 0

calca

a 29,32

t = 1,41720,68

unde

a - termenul liber ( Intercept , al doilea tabel, prima linie, coloana 2)

a - abaterea medie ptratic a coeficientului a (Standard error , al doilea tabel, primalinie, coloana 3).

Regulile de decizie sunt:- dac calc tabt t , nu se poate respinge ipoteza H0, ceea ce înseamn c valoarea

termenului liber la nivelul populaiei totale nu difer semnificativ de zero, acest lucrugarantându-se cu o probabilitate de 95%.- dac calc tabt t , ipoteza H0 se respinge, ceea ce înseamn c valoarea termenului

liber la nivelul populaiei totale difer semnificativ de zero, acest lucru garantându-se cu oprobabilitate de 95%.

În cazul nostru ipoteza H0 nu se poate respinge, deoarece 1,417 1,96 , deci, cu o

probabilitate de 95%, se poate afirma c, la nivelul populaiei totale, valoarea coeficientului a

nu difer semnificativ de zero. Acest fapt nu afecteaz semnificativ modell deoarece a estetermenul liber.

Pentru coeficientul b se emit ipotezele:

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 6/9

H0: b = 0 cu alternativaH1: b 0

calc

b

b 0,068

t = 6,80,01

undeb - coeficientul variabilei independente (Pre  , al doilea tabel, a doua linie, coloana 2)

b - abaterea medie ptratic a coeficientului b (Standard error , al doilea tabel, a doualinie, coloana 3).

Regulile de decizie sunt:

- dac

calc tabt t

, nu se poate respinge ipoteza H0, ceea ce înseamn

c

valoareacoeficientului variabilei independente la nivelul populaiei totale nu difer semnificativ dezero, acest lucru garantându-se cu o probabilitate de 95%.

- dac calc tabt t , ipoteza H0 se respinge, ceea ce înseamn c valoarea

coeficientului variabilei independente la nivelul populaiei totale difer semnificativ de zero,acest lucru garantându-se cu o probabilitate de 95%.

În cazul nostru ipoteza H0 se respinge, deoarece -6,8 1, 96 , deci, cu o probabilitate

de 95%, se poate afirma c, la nivelul populaiei totale, valoarea coeficientului b difersemnificativ de zero, fapt ce confirm existena unei legturi între cele dou variabile.

c) Forma intervalului de încredere pentru coeficientul a al modelului este:

a atab tabP a t a a + t 1

unde

a - termenul liber ( Intercept , al doilea tabel, prima linie, coloana 2)

a - abaterea medie ptratic a coeficientului a (Standard error , al doilea tabel, prima

linie, coloana 3).

Din enun se cunoate a = 29,32, a = 20,68 i ttab = 1,96, iar probabilitatea de

garantare a rezultatelor este 95%, deci putem face calculele:

P 29,32 1,96 20,68 a 29,32 1,96 20,68 95%

P 11,23 a 69,85 95%

Putem garanta deci, cu o probabilitate de 95%, c valoarea coeficentului a, la nivelulpopulaiei totale, este cuprins între -11,23 i 69,85. Observm c acest inteval conine i

valoarea zero, acest fapt putând fi anticipat, întrucât testul Student a confirmat ca valoareaacestui coeficient nu difer semnificativ de zero, la nivelul populaiei totale.

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 7/9

Forma intervalului de încredere pentru coeficientul b al modelului este:

b btab tabP b t b b + t 1

undeb - coeficientul variabilei independente (Pre  , al doilea tabel, a doua linie, coloana 2)

b - abaterea medie ptratic a coeficientului b (Standard error , al doilea tabel, a doualinie, coloana 3).

Din enun se cunoate b = 0,068, b = 0,01 i ttab = 1,96, iar probabilitatea de

garantare a rezultatelor este 95%, deci putem face calculele:

P 0, 068 1,96 0, 01 b 0, 068 1, 96 0, 01 95%

P 0,0484 b 0,0876 95%

Putem garanta deci, cu o probabilitate de 95%, c valoarea coeficentului b, la nivelulpopulaiei totale, este cuprins între 0,484 i 0,0876.

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 8/9

Probleme propuse

1. Au fost reprezentate cu ajutorul norului de puncte observaiile cu privire la nivelulproduciei unei firme i costul total mediu al acesteia din perioada ianuarie 2000 – septembrie2010, rezultând urmtorul nor de puncte:

Comentai aspectul norului de puncte i formulai o ipotez cu privire la formalegturii dintre cele dou variabile .

2. Pentru studierea comportamenului consumatorilor legat de achiziionarea de bunuride folosin îndelungat, pentru anul 2010 s-au înregistrat valorile cheltuielilor lunare, înRON pentru achiziionarea acestui tip de bunuri (Y) i a nivelului lunar al veniturilor în RON(X) la nivelul a 50 de gospodrii. În urma prelucrrii seriilor de date i i=1,50

y i i i=1,50x , s-au

obinut urmtoarele date:

Y XMedia 650 RON 2000 RONCoeficientul deomogenitate (abateremedie ptratic /medie)

0,2 0,3

De asemenea, se cunoate valoarea t ty -Y x -X 10 000 000

se estimeze parametrii modelului liniar de regresie folosit pentru analizacomportamentului variabilei Y în funcie de X.

5/16/2018 Regresia Liniara Simpla Partea 1 - slidepdf.com

http://slidepdf.com/reader/full/regresia-liniara-simpla-partea-1 9/9

3. O firm ce organizeaz licitaii pentru vânzarea unor antichiti dorete sdetermine relaia dintre preul obinut pentru articolele licitate (Y, u.m.) i numrul depersoane (X) ce particip la licitaie. În acest sens firma a organizat un studiu, bazat pe 50 deobservaii cu privire la cele dou variabile. În ipoteza existenei unei legturi de form liniar

 între variabile, rezultatele prelucrrii în EXCEL sunt:

SUMMARY OUTPUT Regression Statistics

Multiple R 0,860271R Squared 0,740066

Adjusted R Squared 0,707575Standard Error 177,7908Observations 50

Coefficients Standard errorIntercept 1086,691 174,4825

rimea audienei 9,329102 1,954748

a) Testai semnificaia raportului de corelaie al modelului de regresie la nivelulpopulaiei totale, cu probabilitatea de 95%, (Ftab = 5,32);

b) Testai semnificaia coeficienilor modelului, cu probabilitatea de 95%, (ttab = 1,96);c) Determinai intervalele de încredere pentru coeficienii modelului, cu probabilitatea

de 95%, (ttab = 1,96).