Statistica II Seminar13 Regresia

5
Statistică II - Seminarul 13 PREDICŢIA. ECUAŢII DE REGRESIE 1. PREDICŢIA LINIARĂ SIMPLĂ Se bazează pe corelația Pearson. Corelația vizează descrierea relației dintre VI (predictor, notat cu X) şi VD (criteriu, notat cu Y). Cu ajutorul unei ecuații de regresie putem prezice scorul la criteriu cunoscând scorul la predictor şi putem determina procentul din varianța criteriului explicat de varianța predictorului (R 2 ). Ecuația de regresie: Forma generală: Y = a + bX „a” este constanta / interceptul (punctul de intersecție dintre linia de regresie şi axa OY) „b” este coeficientul de regresie / panta (arată cu cât creşte Y când X se modifică cu o unitate) Când r xy este pozitivă valoarea lui b este pozitivă, iar dreapta este crescătoare. Când r xy este negativă valoarea lui b este negativă, iar dreapta este descrescătoare. a) pentru note brute: Y= a + b XY * X, unde - Y este scorul prezis (criteriul), - X este scorul la testul predictor, 35 30 25 20 15 10 5 X 10.00 8.00 6.00 4.00 2.00 Y 35 30 25 20 15 10 5 X 8.00 6.00 4.00 2.00 Y 1

description

Statistica II_seminar13

Transcript of Statistica II Seminar13 Regresia

PAGE 2Statistic II - Seminarul 13

PREDICIA. ECUAII DE REGRESIE

1. PREDICIA LINIAR SIMPLSe bazeaz pe corelaia Pearson.

Corelaia vizeaz descrierea relaiei dintre VI (predictor, notat cu X) i VD (criteriu, notat cu Y).Cu ajutorul unei ecuaii de regresie putem prezice scorul la criteriu cunoscnd scorul la predictor i putem determina procentul din variana criteriului explicat de variana predictorului (R2).

Ecuaia de regresie: Forma general: Y = a + bX

a este constanta / interceptul (punctul de intersecie dintre linia de regresie i axa OY)

b este coeficientul de regresie / panta (arat cu ct crete Y cnd X se modific cu o unitate)

Cnd rxy este pozitiv valoarea lui b este pozitiv, iar dreapta este cresctoare.

Cnd rxy este negativ valoarea lui b este negativ, iar dreapta este descresctoare.

SHAPE \* MERGEFORMAT

a) pentru note brute: Y= a + bXY * X, unde Y este scorul prezis (criteriul),

X este scorul la testul predictor,

a este se calculeaz dup formula: ,

bXY este coeficientul de regresie nestandardizat i are formula: , (unde rXY este coeficientul de corelaie ntre predictor i criteriu)

Exemplu:

test de inteligen (predictor X): ; sX=7,8

performana la matematic (criteriu Y): ; sY=1,3

corelaia: rXY=0,71;

nota unui subiect la testul de inteligen: X=43

= 0,71*1,3/7,8 = 0,12

= 7,25 48,2*0,12 = 1,55Y= a + bXY * X = 1,55 + 0,12*43 = 6,63

Deci, putem prognoza nota la matematic 6,63 pentru un subiect care are nota brut de 43 la testul de inteligen. Eroarea standard de estimare: = 1,3 0,92

Putem spune c din subiecii care au 43 nota brut la predictor:

68% vor avea nota la matematic n intervalul: 6,630,92 adic (5,71; 7,55)

95% vor avea nota n intervalul: 6,631,96*0,92;

99% din subieci n intervalul 6,632,58*0,92

b) Pentru note standard ecuaia devine: ZY = * ZX, unde = rXYzX = (43 48,2)/7,8 = 0,67zY = 0,71*(-0,67) = 0,47

Y = (-0,47)*1,3 + 7,25 = 6,632. REGRESIA MULTIPL

Se realizeaz predicia unei VD (criteriu) n funcie de mai multe VI (predictori):

Identificarea celui mai bun set de VI pentru estimarea VD (cel mai bun model de predicie)

Introducerea unei noi VI aduce un plus explicativ? Ct anume?

Ecuaia de regresie multipl: Y= a + b1X1 + b2X2 +.............+ bnXn

ZY=1 zX1 + 2 zX2 + ...........+ n zXn

- coeficientul de corelatie multiplaSe urmrete predicia notei pe semestrul I a unor studeni la Informatic pe baza unei Baterii de teste, care cuprinde urmtoarele probe:

Comprehensiune Verbal (CV);

Raionament (RA);

Operatori Logici (OL);

Aptitudine Numeric (AN);

Diagrame (DG)

Matricea de corelaii ntre probe (predictori) + corelaiile probelor cu media pe sem I (criteriul):

CVRAOLANDG

CV10.7750.670.6250.733

.0000

4747474747

RA0.77510.60.5710.593

0.000

4747474747

OL0.670.610.4890.608

00.00

4747474747

AN0.6250.5710.48910.295

000.0.044

4747474747

DG0.7330.5930.6080.2951

0000.044.

4747474747

medie semestrul 10.6670.6260.3690.4470.655

Algoritmul lui Aitken pentru aflarea coeficienilor beta redui:

1 (CV)2 (RA)3 (OL)4 (AN)5 (DG)678910

11.000.820.860.750.831.000.000.000.000.00

20.821.000.630.600.690.001.000.000.000.00

30.860.631.000.840.780.000.001.000.000.00

40.750.600.841.000.640.000.000.001.000.00

50.830.690.780.641.000.000.000.000.001.00

60.670.630.370.450.660.000.000.000.000.00

7(3.03)0.33-0.07-0.020.01-0.821.000.000.000.001-2

81.00-0.22-0.050.03-2.483.030.000.000.00

9-0.070.270.200.07-0.860.001.000.000.001-3

10-0.020.200.440.02-0.750.000.001.000.001-4

110.010.070.020.31-0.830.000.000.001.001-5

120.08-0.20-0.050.10-0.670.000.000.000.001-6

13(4.01)0.250.200.07-1.040.221.000.000.008-9

141.000.790.29-4.170.904.010.000.00

150.200.440.02-0.790.050.021.000.008-10

160.07-1.04-0.79-0.81-0.030.000.001.008-11

17-0.18-0.050.10-0.47-0.240.000.000.008-12

18(3.52)0.28-0.040.03-0.13-0.771.000.0014-15

191.00-0.130.10-0.44-2.713.520.00

20-0.04-0.81-0.51-0.09-0.290.001.0014-16

210.100.15-1.24-0.080.740.000.0014-17

22(-0,16)-0.82-0.51-0.11-0.380.131.0019-20

231.000.620.130.47-0.16-1.22

240.16-1.25-0.031.00-0.340.0019-21

25-1.35-0.060.92-0.310.2023-24

12345

R = 0,984Y

2.00

4.00

6.00

8.00

X

5

10

15

20

25

30

35

35

30

25

20

15

10

5

X

10.00

8.00

6.00

4.00

2.00

Y

_1114847266.unknown

_1114847819.unknown

_1114848529.unknown

_1114849605.unknown

_1114847276.unknown

_1114846829.unknown