econometrie

14
1 ANALIZA DISCRIMINANT ANALIZA DE REGRESIE LOGISTICĂ Ungureanu Iulia-Cristina Universitatea “Al. I. Cuza”, Facultatea de matematică, Matematici financiare, Master, anul II [email protected] Prof. Dr. Elisabeta Jaba Abstract În vederea relizării proiectului, am utilizat programul SPSS. Pentru realizarea celor două tipuri de anaaliză am utilizat date privind salariul, vârsta, naționalitatea, sexul și anii de studiu din mai multe țări ale lumii. Regresia logistică este o metodă de analiză multivariată a datelor, din ce în ce mai utilizată datorită faptului că numărul condițiilor ce trebuiesc îndeplinite este mai redus decât în cazul analizei discriminante. În prezentul proiect vom urmări relația dintre obținerea informațiilor din ziare și anumiți factori. De asemenea în cadrul analizei discriminant vom urmări determinarea caracteristicilor persoanelor ce obțin noile informații cu ajutorul ziarului. Variabilele incluse în cele două analize sunt următoarele: Variabila dependentă: obținera noutăților din ziare (DA sau NU), Variabilele independente: Vârsta respondentului, Anii de studiu, Genul (masculin sau feminin), Salariul respondentului, Țara de proveniență (România și alte țări).

description

matematica

Transcript of econometrie

Page 1: econometrie

1

ANALIZA DISCRIMINANT

ANALIZA DE REGRESIE LOGISTICĂ

Ungureanu Iulia-Cristina

Universitatea “Al. I. Cuza”, Facultatea de matematică, Matematici financiare, Master, anul II

[email protected]

Prof. Dr. Elisabeta Jaba

Abstract

În vederea relizării proiectului, am utilizat programul SPSS. Pentru realizarea celor

două tipuri de anaaliză am utilizat date privind salariul, vârsta, naționalitatea, sexul și anii de

studiu din mai multe țări ale lumii.

Regresia logistică este o metodă de analiză multivariată a datelor, din ce în ce mai

utilizată datorită faptului că numărul condițiilor ce trebuiesc îndeplinite este mai redus decât

în cazul analizei discriminante.

În prezentul proiect vom urmări relația dintre obținerea informațiilor din ziare și

anumiți factori. De asemenea în cadrul analizei discriminant vom urmări determinarea

caracteristicilor persoanelor ce obțin noile informații cu ajutorul ziarului.

Variabilele incluse în cele două analize sunt următoarele: Variabila dependentă:

obținera noutăților din ziare (DA sau NU), Variabilele independente: Vârsta respondentului,

Anii de studiu, Genul (masculin sau feminin), Salariul respondentului, Țara de proveniență

(România și alte țări).

Page 2: econometrie

2

CUPRINS

1. Analiza discriminant

1.1 Introducere

1.1.1 Modelul analizei discriscriminant

1.1.2 Obiectivele analizei discriminant

1.2 Formularea problemei

1.3 Obiectivul proiectului

1.4 Estimarea coeficienţilor discriminantului

1.5 Determinarea semnificaţiei (sig)

1.6 Interpretarea rezultatelor

1.7 Validarea nalizei discriminant

1.7.1 Validarea modelului

1.7.2 Validarea coeficienţilor

2. Analiza de regresie logistică

2.1 Introducere

2.1.1 Similitudini cu regresia liniară

2.1.2 Diferenţe faţă de regresia liniară

2.1.3 Avantaje

2.2 Formularea ipotelor

2.2.1 Obiectivul proiectului

2.2.2 Identificarea sau definirea variabilelor

2.2.3 Estimarea parametrilor

2.2.4 Testul Omnibus

2.2.5 Rezultatele modelului

2.3 Aproximarea modelului de regresie

2.4 Estimarea modelului de regresie

2.4.1 Testarea coeficienților de regresie

2.4.2 Rata șanselor

2.5 Concluzii

3. Compararea modelului de regresie logistică cu analiza discriminant

4. Anexe

5. Bibliografie

Page 3: econometrie

3

1. ANALIZA DISCRIMINANT

1.1 Introducere

Analiza discriminant este o metodă ce face parte din grupa metodelor explicative de analiză a datelor. Ea utilizează o

variabilă de explicat (y) și mai multe variabile explicative, cantitative sau binare.

Acest tip de analiză mai este numită și metoda scorurilor.

Prin analiză se încearcă încadrarea elementului cercetat, în populația de care aparține. În acest caz se efectuează

măsurători similare efectuate anterior asupra unor elemente cunoscute ca origine.

Analiza are ca principal avantaj că nu lucrează cu elemente medii, generatoare de erori. Tehnica de bază a analizei este

estimarea poziției unui element față de linie, care separă cel mai bine două clase de populații distincte.

Cu ajutorul acestei metode se pot face estimații asupra apartenenței unor elemente la una sau mai multe categorii și de

asemenea, se poate testa dacă grupurile dintr-un eșantion apar într-o singură populație sau în mai multe.

Procedura analizei discriminant poate fi folosită pentru:

indicarea variabilelor ce sunt mai folositoare la diferențierea grupurilor;

dacă un set de variabile are rezultate la fel de bune ca celelalte;

care grupuri se aseamănă cel mai mult;

care cazuri sunt outlieri.

Analiza datelor prin folosirea discriminantului se poate efectua numai atunci când:

criteriul sau variabila dependentă este categorială;

predicatorul sau variabilele independente sunt intervale.;

1.1.1 Modelul analizei discriminant

Modelul analizei discriminant are la bază următoarea ecuație liniară:

unde :

D=valoarea discriminant sau scorul

=coeficienţii discriminant

=variabilele independente sau predictorii

Coeficienții sau ponderile sunt astfel estimate încât grupurile să difere la valoarea funcției discriminant cât de mult

posibil.

1.1.2 Obiectivele analizei discriminant

1. Alcătuirea funcțiilor discriminant sau a combinațiilor liniare independente, care caracterizează cel mai bine diferențele

dintre grupuri;

2. Examinarea diferențelor semnificative între grupuri în ceea ce privește variabilele independente;

3. Identificarea predictorilor care contribuie cel mai mult la diferențele intergrup;

4. Clasificarea cazurilor ca aparținând unui grup sau altuia pe baza valorilor predictorii;

5. Evaluarea preciziei clasificării

1.2 Formularea problemei

Lumea de azi este într-o continuă mișcare. O dată cu apariția noilor tehnologii tot mai mulți oameni renunță la vechile

metode de informare și le folosesc pe cele noi, care sunt mai practice, mai accesibile, mai comode și de ce nu, mai ieftine.

Cu toate acestea, un segment mai redus de persoane mai folosesc, pentru a obține noile informații, ziarul. Aceștia sunt

Page 4: econometrie

4

puțini, dar totuși suficienți pentru ca firmele de specialitate să nu dea faliment.

În continuare, se va încerca efectuarea analizei modului în care diverși factori sau variabile influențează sau nu,

informarea populației din tradiționalele ziare.

1.3 Obiectivul proiectului

Se urmărește determinarea caracteristicilor persoanelor din întreaga lume ce se informează cu ajutorul ziarelor.

Pentru a realiza acest lucru vom considera un eșantion de 2832 de persoane și vom avea următoarele variabile spre

analizat:

variabila dependentă (y): Obținerea noutăților din ziare;

variabilele indelendente: vârsta, sexul, naționalitatea, salariul și numărul anilor de școală a respondentului.

1.4 Estinarea coeficienților discriminantului

1.5 Determinarea semnificației (sig)

1.6 Interpretarea rezultatelor

1.7 Validarea analizei discriminante

1.7.1 validarea modelului

1.7.2 validarea coeficienților

Page 5: econometrie

5

2. ANALIZA DE REGRESIE LOGISTICĂ

2.1 Introducere

Analiza de regresie este analiza statistică prin care se studiază legătura dintre o variabilă pe care vrem să o modelăm

(variabila dependentă) și un set de variabile independente presupuse că ar influența variabila de modelat. În general, analiza de

regresie este folosită pentru modelarea legăturii dintre variabila dependentă și variabilele independente, pentru testarea ipotezelor

și pentru prognoza nivelului variabilei dependente.

Regresia logistică modelează relaţia dintre o variabilă dependentă dihotomică (nominală, binară) Y și o mulţime de

variabile independente Xi (categoriale, continue). O astfel de variabilă dependentă apare, de regulă, atunci când reprezintă

apartenența la două clase, categorii (de exemplu: prezență sau absență, da sau nu, adevărat sau fals).

Ecuația de regresie oferă informații despre:

importanța variabilelor în diferențierea claselor;

clasificarea unei observații într-o clasă.

Este de remarcat că diagrama de împrăștiere a valorilor nu oferă prea multe informațiiprivind dependența. În asemenea

cazuri, regresia liniară clasică nu ne oferă un model adecvat.

Aceste model de regresie poate fi studiat în cazul în care avem o variabilă independentă, dar și în situația în care avem

mai multe variabile independente. Însă noi vom trata doar cazul în care avem mai multe variabile independente, iar variabila

dependentă este dihotomică.

Regresia logistică binomială poate fi realizată pentru:

identificarea variabilelor care caracterizează două grupuri diferite;

efectuarea de predicții cu privire la probabilitatea ca un anumit individ sau caz să facă parte dintr-un grup sau altul.

2.1.1 Similitudini cu regresia liniară 1. Se realizează relația dintre o variabilă dependentă și una sau mai multe independente;

2. Variabilele independente pot fi exprimate pe scară cantitativă (numerică) sau calitativă (nominale sau ordinare);

3. Există teste de semnificație pentru relația individuală dintre fiecare variabilă dependentă și independentă;

4. Se calculează coeficienții de regresie care descriu contribuția fiecărul predictor;

5. Există o expresie grafică pentru fiecare predicție;

2.1.2 Diferențe față de regresia liniară 1. Variabilele dependente pot fi exprimate numai pe scară nominală;

2. Predictorii (variabilele independente) categoriali trebuie declarați ca atare;

3. Inpactul variabilelor independente asupra variabilei dependente este evaluat individual (însă există posibilită și evaluarea

aspectului combinat a unor predictori asupra criteriului (variabila dependentă));

4. Regresia logistică estimează probabilitatea ca fiecare caz să fie inclus într-una sau alta din categoriile definite de variabila

dependentă;

5. Nu se bazează pe minimalizarea sumei pătratelor, ci pe maximizarea șansei de apartenență a fiecărui caz la una sau alta

din categoriile variabilei dependente;

6. Modelul grafic de predicție are o formă specială, care decurge din natura logaritmică a relației dintre valorile variabilelor

independente și variabila dependentă

2.1.3 Avantaje Regresia logistică nu este condiționată de multe din restricțiile impuse de regresia liniară:

nu presupune existența unei relații liniare între criteriu și predictor;

variabila dependentă nu trebuie să aibă o distribuție normală;

variabila dependentă nu trebuie să aibă o variabilitate omogenă în raport cu valorile variabilelor independente;

nu presupune distribuția normală a valorilor reziduale;

suportă predictori măsurați pe orice tip de scară.

Page 6: econometrie

6

2.1.4 Modelul analizei de regresie logistică În situația în care avem mai multe variabile independente, modelul general este:

unde p este P(Y = 1 | )= , iar .

2.2 Formularea ipotezelor Modelul regresiv logistic va estima proporţia subiecţilor care vor avea aceeaşi caracteristică de interes pentru studiul

statistic, sau echivalent, probabilitatea ca un subiect oarecare din populaţie să aibă o anumită caracteristică (Erika KULCSÁR,

pag.51)

2.2.1 Obiectivul urmărit Dorim să vedem relația dintre informatiile obținute de către populație cu ajutorul ziarelor și anumiti factori. Astfel se

urmărește identificarea variabilelor ce caracterizează grupul persoanelor ce se informează cu ajutorul ziarelor și a grupului

persoanelor ce nu se informează cu ajutorul acestora.

2.2.2 Identificarea /definirea variabilelor Pentru realizarea acestui studiu vom considera următoarele variabile:

Variabila dependentă: Obținerea noutăților din ziare (este o variabilă binomială codată astfel: 0 pentru Nu, și 1

pentru Da);

Variabilele independente: Vârsta respondentului, Anii de studiu, Genul, Salariul respondentului, Țara de

proveniență.

Dintr-un eșantion de 2832 persoane, 1843 (65,1%) sunt inclușe în analiză, restul de 989 (34,9%) sunt cazuri pierdute. De

asemenea, 877 de persoane sunt de sex masculine, 966 de sex feminin, 1841 provin din alte țări, iar 2 persoane provin din țara

noastră.

Într-o primă etapă a analizei noastre vom folosi datele din Block 0: Beginning Block (ANEXA 1) în cadrul căruia avem

informațiile pe care le vom pune în modelul nostru.

Tabelul Classification Table ne arată ca1364 (74%) din persoanele respondente nu obțin noutățile din ziare și doar 479

fac acest lucru. Ceea ce arată că oamenii găsesc și alte moduri de a se informa decât cel traditional.

Pentru a vedea dacă coeficienții sunt semnificativi sau nu tabelul Variables in the Equation aplică statistica Wald pentru

estimarea parametrilor, care este semnificativă (sig.=0,000). Testul Wald este pătratul lui z (coeficientul sau eroarea standard )

Se observă (din tabelul Variables not in the Equation) că legătura dintre Obținerea noutăților din ziare și vârstă, educație,

sex, salariu este semnificativă (sig<0,05), pe când legătura dintre obținerea informatiilor din ziare și etnie (naționalitate) este

nesemnificativă (sig=0,402>0,05). Cu alte cuvinte, naționalitatea nu influențe

2.2.3 Estimarea parametrilor Se observă (din tabelul Variables not in the Equation) că legătura dintre Obținerea noutăților din ziare și vârstă, educație,

sex, salariu este semnificativă (sig<0,05), pe când legătura dintre obținerea informatiilor din ziare și etnie (naționalitate) este

nesemnificativă (sig=0,402>0,05). Cu alte cuvinte, naționalitatea nu influențe

Partea a doua a analizei unde vom folosi date din Block 1: Method=Enter arată rezultatele finale. Cele cinci variabile

independente au fost introduse împreună în analiză.

2.2.4 Testul Omnibus Testul omnibus este un test de „ansamblu”, de semnificație a modelului. Acesta ne spune că prin mijloacele noastre, unele

condiții diferă semnificativ unele de altele., însă nu ne spune care anume dintre ele.

Pe baza informațiilor obținute în tabelul Omnibus Test of Model Coefficients se poate constata că în urma introducerii

variabilelor independente modelul este semnificativ (sig.=0,000). De asemenea, avem cinci grade de libertate pentru fiecare

predictor.

2.2.5 Rezultatele modelului Rezultatele tabelului Model Summary ne spune cât la sută din variația variabilei dependente este explicat de combinația

Page 7: econometrie

7

variabilelor independente. Pentru aceasta SPSS furnizează doi indicatori: Cox &Snell R Square și Nagelkerke R Square.

Potrivit primului indicator, Cox &Snell R Square, cele cinci variabile independente explică în proporție de 7,1%, în timp

ce cel de-al doilea, Nagelkerke R Square, în proporție de 10,5% varianța variabilei dependente (potrivit specialiștilor, ne putem

baza pe cel de-al doilea indicator, deoarece primul subestimează valoarea reală).

Conform tabelului Classification Table 97,5% (1330 persoane) din subiecți nu obțin noutățile din ziare și acestia au fost

clasificate corect de către model, pe de altă parte, 8,1% (440 persoane) este proporția celor corect clasificați în czul persoanelor

care obțin noutățile din ziare.

Acest lucru înseamnă că în final 74,3% din cazuri erau corect clasificate, comparând aceasta cu succesul de clasificare

preconizat (74%) , se poate constata faptul că variabilele independente au contribuit în proporție de 0,3% la clasificarea corectă a

dependenței.

2.3 Aproximarea modelului de regresie Pentru fiecare variabilă independentă avem următoarele diagrame de împrăștiere:

Page 8: econometrie

8

Din tabelul Correlation Matrix observăm că cele mai strâns corelate variabile independente sunt sexul și educația având

un coeficient de corelație de 0,094, urmat de educație și vârstă (0,082), iar la polul opus este salariul și educația cu un coefficient

negative de -0,254.

2.4 Estimarea modelului de regresie Estimarea modelului este bazat pe principiul maximum likelihood.

Tabelul Variables in the Equation cuprinde efectul combinat al tuturor variabilelor independente (coeficienții B, raportul

de șanse, informații associate testului Wald).

Ecuația de aproximare a modelului nostru de regresie este:

,

unde p este probabilitatea de a obține informațiile din ziare.

Conform tabelului Variables in the Equation ecuația de predictie este:

.

Astfel probabilitatea de a obține noile informații din ziare este:

Aceste estimări ne spune despre relațiile dintre variabilele independente si variabila deendentă. Aceste estimări ne spun

suma de creștere (sau de descreștere în cazul în care avem coeficienți negativi). Cu alte cuvinte pentru:

vârstă- pentru fiecare creștere de o unitate în punctajul vârstă ne așteptăm la o creștere de 0,37 a șanselor de a

obține informațiile din ziare;

educație- pentru fiecare creștere cu o unitate a punctajului educație, ne așteptăm la o creștere de 0,131 a

șanselor de a obține informațiile din ziare;

sex- la creșterea cu o unitate a punctajului sex ne așteptăm la o creștere de 0,279 a șanselor de a obține noile

informații din ziare;

salar- la fiecare creștere cu o unitate a punctajului salar ne putem aștepta la o creștere de 0,046 a șanselor de a

obține noile informații din ziar;

de_etnie- pentru fiecare creștere cu o unitate a punctajului etnie, ne așteptăm la o creștere de 20,046 a șanselor

de a obține informațiile din ziare;

Page 9: econometrie

9

2.4.1 Testarea coeficienților de regresie

Testarea coeficienților de regresie se poate face cu ajutorul statisticii z. Această statistică este: z= , unde sunt

estimații ale coeficienților, iar este abaterea în medie pătratică.

Avem următoarele ipoteze:

,

Valorile lui z sunt reprezentată în SPSS ca valori ale statisticii Wald, .

Ipoteza nulă este respinsă deoarece sig<0,05 sau 0,01 (sig=0.000). Deci ipoteza nulă este respinsă, prin urmare coefiienții

de regresie sunt diferiți de zero.

2.4.2 Rata șanselor (OR_Odds Ratio) Exp(B) reprezintă modificarea OR (rata șanselor) a variabilei dependente la modificarea cu o unitate a variabilelor

independente, deci Exp(B) este aproximativ 1,4 pentru variabilele semnificative.

Deci Exp(B)>1, prin urmare avem o creștere a lui Y cu 1,038 pentru vârstă, 1,140 pentru educație, 1,322 pentru sex,

1,047 pentru salar și 5,082 pentru etnie ori de câte ori variabilele X se modifică cu o unitate, iar celelalte rămân constante.

2.4.3 Testarea asocierii

A. Dacă Obținerea informațiilor din ziare ar fi asociată cu vârsta, ne putem aștepta ca OR=1.

Ipoteza nulă este H0: OR=1 vs ipoteza alternativă H1: OR≠1;

95% IC pentru OR estimat este (1,029;1,047);

Deoarece IC nu conține 1, la 5% nivel de semnificație, se poate respinge ipoteza nulă;

Concluzia: vârsta nu este caracteristică esențială persoanelor care citesc ziarul. B. Dacă Obținerea informațiilor din ziare ar fi asociată cu educație, ne putem aștepta ca OR=1.

Ipoteza nulă este H0: OR=1 vs ipoteza alternativă H1: OR≠1;

95% IC pentru OR estimat este (1,093;1,190);

Deoarece IC nu conține 1, la 5% nivel de semnificație, se poate respinge ipoteza nulă; Concluzia: educația nu este o caracteristică esențială a persoanelor care obțin noile informații din ziare.

C. Dacă Obținerea informațiilor din ziare ar fi asociată cu sexul, ne putem aștepta ca OR=1.

Ipoteza nulă este H0: OR=1 vs ipoteza alternativă H1: OR≠1;

95% IC pentru OR estimat este (1,060;1,648);

Deoarece IC nu conține 1, la 5% nivel de semnificație, se poate respinge ipoteza nulă;

Concluzia: sexul nu este o caracteristică esențială pentru persoanele ce citesc ziarul. D. Dacă Obținerea informațiilor din ziare ar fi asociată cu salarul, ne putem aștepta ca OR=1.

Ipoteza nulă este H0: OR=1 vs ipoteza alternativă H1: OR≠1;

95% IC pentru OR estimat este (1,000;1,095);

Deoarece IC nu conține 1, la 5% nivel de semnificație, se poate respinge ipoteza nulă;

Concluzia: salarul nu este o caracteristică esențială pentru persoanele ce se informează cu ajutorul

ziarelor.

2.5 Concluzii Din studiu, se observă că ziarelor nu li se acorda o atenție prea mare când vine vorba de informare. Majoritatea

persoanelor respondente preferă un alt mijloc de informare. De asemenea vârsta, educația, sexul, salarul și etnia nu sunt în relație

strânsă cu obținerea noutăților din ziare. De altfel, se observă că etnia nici macar nu este semnificativă.

Page 10: econometrie

10

ANEXE

Anexa nr.1

Case Processing Summary

Unweighted Casesa N Percent

Selected Cases Included in Analysis 1843 65,1

Missing Cases 989 34,9

Total 2832 100,0

Unselected Cases 0 ,0

Total 2832 100,0

a. If weight is in effect, see classification table for the total number of

cases.

Dependent Variable Encoding

Original Value Internal Value

Nu 0

Da 1

Categorical Variables Codings

Frequency

Parameter

coding

(1)

Tara de provenientă altele 1841 1,000

Ro 2 ,000

Genul Masculin 877 1,000

Feminin 966 ,000

Block 0: Beginning Block

Iteration Historya,b,c

Iteration -2 Log likelihood Coefficients

Constant

Step 0 1 2114,574 -,960

2 2111,912 -1,045

3 2111,911 -1,046

4 2111,911 -1,046

Page 11: econometrie

11

a. Constant is included in the model.

b. Initial -2 Log Likelihood: 2111,911

c. Estimation terminated at iteration number 4

because parameter estimates changed by less than

,001.

Classification Tablea,b

Observed Predicted

Obtine noutatile din ziare

Percentage

Correct

Nu Da

Step 0 Obtine noutatile din ziare Nu 1364 0 100,0

Da 479 0 ,0

Overall Percentage 74,0

a. Constant is included in the model.

b. The cut value is ,500

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 0 Constant -1,046 ,053 388,225 1 ,000 ,351

Variables not in the Equation

Score df Sig.

Step 0 Variables age 76,288 1 ,000

educ 45,984 1 ,000

sex(1) 8,285 1 ,004

salar 26,124 1 ,000

de_etnie(1) ,703 1 ,402

Overall Statistics 132,108 5 ,000

Block 1: Method=Enter

Iteration Historya,b,c,d

Iteration -2 Log likelihood Coefficients

Constant age educ sex(1) salar de_etnie(1)

Step 1 1 1992,284 -4,699 ,028 ,098 ,209 ,021 ,964

2 1975,637 -6,863 ,036 ,128 ,273 ,041 1,976

3 1975,331 -8,052 ,037 ,131 ,279 ,046 3,018

4 1975,291 -9,072 ,037 ,131 ,279 ,046 4,036

Page 12: econometrie

12

5 1975,277 -10,079 ,037 ,131 ,279 ,046 5,043

6 1975,272 -11,081 ,037 ,131 ,279 ,046 6,045

7 1975,270 -12,082 ,037 ,131 ,279 ,046 7,046

8 1975,269 -13,082 ,037 ,131 ,279 ,046 8,046

9 1975,269 -14,082 ,037 ,131 ,279 ,046 9,046

10 1975,269 -15,082 ,037 ,131 ,279 ,046 10,046

11 1975,269 -16,082 ,037 ,131 ,279 ,046 11,046

12 1975,269 -17,082 ,037 ,131 ,279 ,046 12,046

13 1975,269 -18,082 ,037 ,131 ,279 ,046 13,046

14 1975,269 -19,082 ,037 ,131 ,279 ,046 14,046

15 1975,269 -20,082 ,037 ,131 ,279 ,046 15,046

16 1975,269 -21,082 ,037 ,131 ,279 ,046 16,046

17 1975,269 -22,082 ,037 ,131 ,279 ,046 17,046

18 1975,269 -23,082 ,037 ,131 ,279 ,046 18,046

19 1975,269 -24,082 ,037 ,131 ,279 ,046 19,046

20 1975,269 -25,082 ,037 ,131 ,279 ,046 20,046

a. Method: Enter

b. Constant is included in the model.

c. Initial -2 Log Likelihood: 2111,911

d. Estimation terminated at iteration number 20 because maximum iterations has been reached. Final solution

cannot be found.

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 1 Step 136,642 5 ,000

Block 136,642 5 ,000

Model 136,642 5 ,000

Model Summary

Step -2 Log likelihood

Cox & Snell R

Square

Nagelkerke R

Square

1 1975,269a ,071 ,105

a. Estimation terminated at iteration number 20 because

maximum iterations has been reached. Final solution cannot be

found.

Hosmer and Lemeshow Test

Step Chi-square df Sig.

1 8,526 8 ,384

Page 13: econometrie

13

Contingency Table for Hosmer and Lemeshow Test

Obtine noutatile din ziare = Nu Obtine noutatile din ziare = Da Total

Observed Expected Observed Expected

Step 1 1 168 166,756 16 17,244 184

2 160 158,456 24 25,544 184

3 151 152,862 33 31,138 184

4 138 146,930 45 36,070 183

5 153 142,668 31 41,332 184

6 141 137,560 44 47,440 185

7 128 130,191 56 53,809 184

8 115 122,465 69 61,535 184

9 116 112,538 68 71,462 184

10 94 93,573 93 93,427 187

Classification Tablea

Observed Predicted

Obtine noutatile din ziare

Percentage

Correct

Nu Da

Step 1 Obtine noutatile din ziare Nu 1330 34 97,5

Da 440 39 8,1

Overall Percentage 74,3

a. The cut value is ,500

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for

EXP(B)

Lower Upper

Step 1a age ,037 ,004 68,305 1 ,000 1,038 1,029 1,047

educ ,131 ,022 36,745 1 ,000 1,140 1,093 1,190

sex(1) ,279 ,113 6,132 1 ,013 1,322 1,060 1,648

salar ,046 ,023 3,890 1 ,049 1,047 1,000 1,095

de_etnie(1) 20,046 28043,175 ,000 1 ,999 5,082E8 ,000 .

Constant -25,082 28043,175 ,000 1 ,999 ,000

a. Variable(s) entered on step 1: age, educ, sex, salar, de_etnie.

Page 14: econometrie

14

Correlation Matrix

Constant age educ sex(1) salar de_etnie(1)

Step 1 Constant 1,000 ,000 ,000 ,000 ,000 -1,000

age ,000 1,000 ,082 ,030 -,090 ,000

educ ,000 ,082 1,000 ,094 -,254 ,000

sex(1) ,000 ,030 ,094 1,000 -,194 ,000

salar ,000 -,090 -,254 -,194 1,000 ,000

de_etnie(1) -1,000 ,000 ,000 ,000 ,000 1,000