Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

12
Proiect SPSS Am ales din Anuarul Statistic al României de pe site www.insse.ro/ 10 variabile aflate într-o oarecare dependenţă una de altă, pentru toate cele 42 de judeţe grupate pe regiuni şi macroregiuni. 1.Am efectuat grafice specifice acestor tipuri de variabile. 2.Am studiat corelaţia dintre 2 variabile. 3.Am analizat legătura dintre două variabile şi am stabilit cele mai potrivite metode de regresie. Rezolvare: Variabile alese de mine sunt :populaţia absolventă a învăţământului preşcolar pe judeţe, populaţia absolventă a învăţământului primar pe judeţe, populaţia absolventă a învăţământului gimnazial pe judeţe, populaţia absolventă a învăţământului special pe judeţe, populaţia absolventă a învăţământului liceal pe judeţe, populaţia absolventă a învăţământului profesional pe judeţe, populaţia absolventă a învăţământului postliceal pe judeţe, populaţia absolventă a învăţământului superior pe judeţe, câştigul salarial mediu brut pe judeţe ,câştigul salarial mediu net pe judeţe. Cele mei utilizate ferestre în SPSS sunt: Data Editor, care se deschide automat (în partea de jos a acestei ferestre se regăsesc două foi de lucru Data View şi Variable View), Syntax Editor şi Output Viwer (în care există toate rezultatele obţinute în urma analizei statistice. În Variable View(fig.1) am introdus informaţii despre variabilele de analizat, în acest caz aceste variabile fiind 1

description

proiect la statistca

Transcript of Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Page 1: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Proiect SPSS

Am ales din Anuarul Statistic al României de pe site www.insse.ro/ 10 variabile aflate într-o oarecare dependenţă una de altă, pentru toate cele 42 de judeţe grupate pe regiuni şi macroregiuni.

1.Am efectuat grafice specifice acestor tipuri de variabile.

2.Am studiat corelaţia dintre 2 variabile.

3.Am analizat legătura dintre două variabile şi am stabilit cele mai potrivite metode de regresie.

Rezolvare:

Variabile alese de mine sunt :populaţia absolventă a învăţământului preşcolar pe judeţe, populaţia absolventă a învăţământului primar pe judeţe, populaţia absolventă a învăţământului gimnazial pe judeţe, populaţia absolventă a învăţământului special pe judeţe, populaţia absolventă a învăţământului liceal pe judeţe, populaţia absolventă a învăţământului profesional pe judeţe, populaţia absolventă a învăţământului postliceal pe judeţe, populaţia absolventă a învăţământului superior pe judeţe, câştigul salarial mediu brut pe judeţe ,câştigul salarial mediu net pe judeţe.

Cele mei utilizate ferestre în SPSS sunt: Data Editor, care se deschide automat (în partea de jos a acestei ferestre se regăsesc două foi de lucru Data View şi Variable View), Syntax Editor şi Output Viwer (în care există toate rezultatele obţinute în urma analizei statistice.

În Variable View(fig.1) am introdus informaţii despre variabilele de analizat, în acest caz aceste variabile fiind următoarele: Judetul, Prescolar, Primar, Gimnazial, Special, Liceal, Profesional, Postliceal,Superior, Câştig mediu brut,Câştig mediu net. (fig.1). Am setat tipul variabilelor pentru prima String(caractere) iar pentru restul Numeric (numere), lungimea maximă a câmpului editabil,numarul de decimale(0).Am creat etichete pentru variabile în coloana Label unde se poate realiza o descriere explicită a variabilei.Iar pentru celelalte coloane au rămas setările implicite.

1

Page 2: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Fig.1

În fereastra Data Viewer am introdus datele brute ce urmează a fi analizate.(fig.2)

Fig.2Realizarea graficelor:

Graficele cele mai simple şi generale, valabile în aproape toate situaţiile sunt graficele cu bare. Ele pot fi folosite şi în cazul variabilelor nominale şi nici nu depind prea mult de numărul de valori pe care variabila le poate lua. Dimensiunea barelor trebuie să fie proporţională cu valoarea variabilei.

2

Page 3: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

În graficele cu bare pot apărea valorile pe baza căruia a fost construit fie procentual fie ca şi frecvenţe. Dimensiunea barelor va fi desigur aceiaşi fie că s-a ales reprezentarea pe baza valorilor absolute sau procentuale. Tot ce se schimbă este scala axei verticale. Forma şi culoarea barelor pot fi desigur diverse. Clar este că vizualizarea oferă un acces mai direct la informaţie şi permite aceasta şi unor cititori care preferă să nu aibă de a face cu valori numerice dacă nu este neapărat necesar.

Am realizat graficele cu bare simple pentru fiecare variabila în parte în funcţie de judeţ.Secvenţa specifică programului SPSS pentru realizarea acestui lucru este următoarea:

Graphs->Legacy Dialogs->Bar->Values of individual cases.In urma căreia se deschide fereastra următoare unde introducem variabilele.(Fig.3)

Fig.3

Cu ajutorul fişierului SPSS Statistics voi reprezenta pentru fiecare variabilă barele care defapt reprezintă judeţele.În Fig.4 se observă graficul pentru variabila învăţământ liceal pe judete.

3

Page 4: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Fig.4

În Fig.5 se observă graficul pentru variabila învăţământ superior pe judeţe.

Fig.5

Corelaţia şi coeficient de corelaţie

4

Page 5: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Problema corelaţie(ca de altfel şi cea a regresiei) se pune numai în cazul variabilelor cantitative, deci a caracteristicilor transpuse pe scale de interval sau de rapoarte.În cazul aceste am studiat corelaţia dintre variabila Superior care semnifica numărul de absolvenţi ai învaţamântului superior şi variabila Câştig-mediu-brut care semnifica venitul mediu brut al unei populaţii.

Presupunând că pe o populaţie statistică , de volum n,se definesc două variabile X şi Y ,problema care se pune este aceea de a vedea în ce măsură cele două seturi de valori ,cele după X şi respectiv Y sunt sau nu concordante, adică trebuie să urmărim dacă indivizii care iau valori mari după o variabilă ,iau în medie valori mari sau mici după cealaltă.În cazul de faţă dorim să urmărim dacă variabila venitul mediu brut al unei populaţii depinde de numărul de absolvenţi ai învăţământului superior,din acea polulaţie.

Indicatorul statistic care măsoară concordanţa dintre aceste două variabile se numeşte coeficientul de corelaţie Bravais-Pearson sau coeficientul de corelaţie liniară care se notează cu r şi se calculează după formula:

unde xi,yi reprezintă valorile variabilelor X şi Yx,y reprezintă mediile aritmetice ale variabilelor X şi Yбx,бy reprezintă deviaţiile standard ale variabilelor X şi Yn reprezintă numărul tptal de cazuri .

Proprietatea fundamentală a coeficientului de corelaţie este că el variază de la -1 la +1 în cazul în care se ating aceste valori extreme ,corelaţia se numeşte perfectă ,negativă sau pozitivă .Valoarea nulă indică situaţia în care variabilele se numesc necorelate.

Reprezentarea grafică a celor două variabile cantitative:Mai întâi pentru o imagine intuitivă a celor două variabile cantitative am reprezentat

graphic norul de puncte exprimând dispunerea indivizilor după două axe ,constituite din valorile celor două variabile.Secvenţa specifică programului SPSS pentru realizarea acestui lucru este următoarea: Graphs-> Scatter->Simple se introduc cele două variabile corespunzătoare celor două axe (yAxis şi xAxis).Obs. Mai putem seta culori diferite în norul de puncte pentru cele două variabile accesând Set Markers by , sau accesând Label Cases by valorile variabilei din Label Case by vor apărea în graphic lângă subiectul căruia îi corespund.

Cu ajutorul fişierului SPSS Statistics voi reprezenta norul de puncte definit de variabilele cantitative Superior (pe axa ordonatelor) şi Câştig_mediu_brut(pe axa absciselor.Norul de puncte rezultat este reprezentat în Fig.6.

5

Page 6: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Fig.6

Interpretarea rezultatului:

Observăm că cele două variabile variază simultan, şi anume unei populaţii cu un număr mare de absolvenţii ai învăţământului superior îi corespunde un câştig mediu brut mai ridicat.

Calculul coeficienţilor de corelaţie:

Calculul coeficienţilor de corelaţie între două variabile cantitative se realizează cu ajutorul secvenţei Analyze ->Correlate->Bivariate , se introduce cele două variabile în câmpul Variables (obs. Se pot introduce mai mult de două variabile însă programul va calcula corelaţţile între toate perechile de căte două variabile).Ţinând cont că lucrăm cu variabile cantiotative vom selecta tipul corelaţiei care dorim să o folosim , şi anume folosim coeficientul de corelaţie Bravais Pearson.Testul de semnificaţie a diferenţei faţă de zero ,pentru fiecare dintre coeficienţii de corelaţie calculaţi este unul bidirecţional astfel vom selecta opţiunea Two-tailed .Bifarea opţiunii Flag significant correlations face ca în dreptul corelaţiilor ce sunt semnificative să apară unul sau două asteriscuri(* sau **)

Cu ajutorul fişierului SPSS Statistics voi calcula coeficienţii de corelaţie Bravais Pearson între variabilele cantitative Superior şi Câştig_mediu_brut.Rezultatele sunt reprezentate în Fig.7.

6

Page 7: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Fig.7.Coeficienţii de corelaţie pentru variabilele din exemplu nostru

Interpretarea rezultatelor:

Trei sunt elementele ce contează în interpretarea coeficientului de corelaţie Bravais-Pearson : pagrul de semnificaţie semnul corelaţiei, care arată natura legăturii ce există :direct proporţională dacă semnul

este pozitiv , sau invers proporţională ,dacă semnul este negativ. mărimea absolută a coeficientului,descrie tăria legăturii ce există între variabile şi se

foloseşte în compararea valorilor ,care au acelaşi prag de semnificaţie.

În cazul nostru ,cei doi coeficienţi sunt foarte semnificativi ,aşa cum se specifică în nota ** de sub tabel.

De asemenea se observă că amândoi coficienţii sunt pozitivi ,ceea ce indică o legătura direct proporţională între variabilel analizate.Aceasta înseamnă că o creştere a numărului de absolvenţi ai învăţământului superior implică o creştere a salariului mediu brut.

În ceea ce priveşte tăria legăturii ,se constată ca ambele sunt legături puternice r=0,712.

Regresia liniară :

Modele de regresie cu două variabile:

Termenul de regresie a fost introdus de către statiscianul englez Francis Galton.Acesta a studiat legătura dintre înălţimea taţilor şi cea a fiilor acestora.Chiar dacă relaţia dintre cele două mărimi este directă , în sensul că taţii mai înalţi au în medie fii mai înalţi ea nu este proporţională.Aceasta înseamnă că înălţimea medie a fiilor proveniţi din cei mai înalţi 10% taţi este mai redusă decât înălţimea medie a primilor 10% fii.Galton a denumit acest fenomen regresie spre medie.

Modelele de regresie au ca scop prezentarea într-un plan a norului de puncte ,adică reprezentarea alurii distribuţiei a două variabile corelate.Legătura statistică între cele două variabile Y(variabila dependentă ) şi X (variabila independentă),se poate exprima într-o funcţie de regresie Y* =f(X).Determinarea curbei ce aproximează norul de puncte , respective a

7

Page 8: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

parametrilor funcţiei f(X) , înseamnă a rezolva o problemă de regresie.Curba ce corespunde funcţiei determinatre se numeşte curbă de regresie.

Regresia liniară a două variabile:

Cazul cel mai simplu al unei regresii este regresia aliniară, în care regresia variabilei Y în funcţie de variabila X este dată de expresia unei funcţii liniare Y*=a+bx.

Coeficientul b, care reprezintă panta dreptei de regresie, ne arată cu câte unităţi proprii creşte în medie Y atunci când X creşte cu o unitate proprie şi este dat de formula:

Coeficientul a este mult mai puţin important pentru interpretarea datelor , el arătând unde taie dreapta de regresie axa OY şi fiind dat de formula:

Modele de regresie:

Am folosit principalele două opţiuni ale programului SPSS pentru realizarea modelelor de regresie.

Prima opţiune realizează regresia liniară urmând secvenţa Analyze->Regression->Linear .

Cu ajutorul fişierului SPSS Statistics am calculat coeficienţii dreptei de regresie, pentru variabila independentă Superior şi variabila dependentă Câştig_mediu_brut. Am introdus variabila Câştig_mediu_brut în căsuţa Dependent şi varibila Superior în căsuţa Independent.Accesând butonul OK am avut următoarele rezultate Fig.8.

Fig.8. Coeficienţii dreptei de regresie pentru variabilele din exemplul nostrum

8

Page 9: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Interpretarea rezultatelor:

Primul tabel exemplifică adecvarea modelului, fiind calculat r2,care reprezintă fracţiunea din variaţia lui Y explicată de X,prin regresie liniară.În cazul nostru se observă ca 50,7% din variaţia variabilei Câştig_mediu_brut este explicată de variabila Superior.

Cel de-al doilea tabel prezintă coeficienţii de regresie calculaţi , precum şi rezultatele testelor de semnificaţie ale acestora .Constanta (coeficientul a) este egala cu 1222 ,în timp ce coeficientul b este 0.001???

A doua opţiune a programului SPSS pe care am folosit-o pentru realizarea modelelor de regresie este daă de secvenţa Analyze->Regression->Curve Estimation .Am introdus cele două variabile cea dependentă şi cea independentă în câmpurile Dependent(s) şi respectiv Independent.Am selectat tipul de model folosit la secţiunea Models şi anume Linear.

Cu ajutorul fişierului SPSS Statistics am modelat relaţia dintre variabila independent Superior şi cea dependentă Câştig_mediu_brut.Rezultatele estimărilor sunt prezentate în Fig.9 şi reprezentările grafice în Fig.10.

Fig.9.Coeficienţii modelului pentru variabilele din exemplu nostru.

9

Page 10: Proiect SPSS - Studiul Nivelului de Educatie Pe Judete

Fig.10.Reprezentările grafice ale curbei de regresie pentru modelul nostru

Interpretarea rezultatelor:

În primul tabel se oferă informaţii despre variabile.În tabelul al doilea se prezintă informaţii în ordinea următoare:variabila dependentă ,numele modelului, valoarea lui r2, numărul gradelor de libertate , testul de semnificaţie F pentru parametrii obţinuţi , nivelul de încredere al testului, şi coeficienţii(b0 reprezentând constanta).

10