Curs SPSS

UNIVERSITATEA UNIVERSITATEA UNIVERSITATEA UNIVERSITATEA “Vasile Alecsandri” “Vasile Alecsandri” “Vasile Alecsandri” “Vasile Alecsandri” din BACdin BACdin BACdin BACĂĂĂĂUUUU Facultatea de Facultatea de Facultatea de Facultatea de ŞŞŞŞtiintiintiintiinţţţţe Economicee Economicee Economicee Economice

Departamentul Departamentul Departamentul Departamentul MMMMarketing arketing arketing arketing şi Managementşi Managementşi Managementşi Management Specializarea MarketingSpecializarea MarketingSpecializarea MarketingSpecializarea Marketing, , , , Forma de învăţământ IDForma de învăţământ IDForma de învăţământ IDForma de învăţământ ID

AnaliAnaliAnaliAnaliza za za za informaţiilor de informaţiilor de informaţiilor de informaţiilor de markemarkemarkemarketttting ing ing ing utilizând SPSSutilizând SPSSutilizând SPSSutilizând SPSS

----suport de curssuport de curssuport de curssuport de curs----

Manager de curs, Manager de curs, Manager de curs, Manager de curs,

PPPProf. rof. rof. rof. univ. duniv. duniv. duniv. dr.r.r.r. Eugenia Eugenia Eugenia Eugenia HARJA HARJA HARJA HARJA

Asist. univ. drd.Asist. univ. drd.Asist. univ. drd.Asist. univ. drd.

OanaOanaOanaOana Ancuţa STÂNGACIUAncuţa STÂNGACIUAncuţa STÂNGACIUAncuţa STÂNGACIU

Editura Editura Editura Editura Alma MaterAlma MaterAlma MaterAlma Mater a Universităţii din Bacău, a Universităţii din Bacău, a Universităţii din Bacău, a Universităţii din Bacău,

2012201220122012

Alma Mater (Universitatea din Bacău, Calea Mărăşeşti 157, 600115 Bacău)

Editura Alma Mater a Universităţii din Bacău este acreditată de CONSILIUL NAŢIONAL AL CERCETĂRII ŞTIINŢIFICE DIN ÎNVĂŢĂMÂNTUL

SUPERIOR

Referenţi ştiinţifici: Prof.univ.dr. Elisabeta JABA – Universitatea “Alexandru Ioan Cuza” Iaşi Prof.univ.dr. Vergil VOINEAGU – A.S.E. Bucureşti / Preşedinte I.N.S. Bucureşti

Descrierea CIP a Bibliotecii Naţionale a României HARJA, EUGENIA Analiza informaţiilor de marketing utilizând SPSS / Eugenia Harja, Oana Ancuţa Stângaciu

Bacău, Alma Mater, 2012, ISBN 978 - 606 - 527 - 185 – 2

ISBN 978 - 606 - 527 - 185 – 2

CCCCUPRINSUPRINSUPRINSUPRINS

Pagina

Capitolul 1 559

1.2.1.Accesarea şi închiderea aplicaţiei SPSS 91.2.2. Principalele fişiere şi ferestre din SPSS 11 1.2.2.1. Fişierul şi fereastra Data Editor 11 1.2.2.2. Fişierul şi fereastra Viewer 12 1.2.2.3. Fereastra Pivot Table 13 1.2.2.4. Fereastra Chart Editor 14 1.2.2.5. Salvarea şi deschiderea fişierelor de date 151.2.3. Instrumentele utilizate în SPSS 17 1.2.3.1. Principalele pictograme din SPSS 17 1.2.3.2. Meniurile din SPSS 18

24

Capitolul 2 2525

2.1.1. Prelucrarea primară a datelor 252.1.2. Gruparea datelor obţinute din observare 26

282.2.1. Introducerea datelor 28

2.2.1.1. Definirea metadatelor din Variable View 28

2.2.1.2. Introducerea datelor în Data View 342.2.2. Sistematizare şi organizarea datelor 35

2.2.2.1. Gruparea pe intervale a datelor 35

2.2.2.2. Organizarea datelor pe categorii 38

2.2.2.3. Selectarea datelor 4044

Capitolul 3 454548

3.2.1. Tabelul pe grupe 483.2.2. Tabelul cu dublă intrare (Crosstabs ) 49

513.3.1. Elementele de bază ale unui grafic 513.3.2. Tipuri de grafice 52

3.3. Reprezentarea grafică a datelor statistice

3.2. Tabelele statistice în SPSS

Noţiunile de bază ale aplicaţiei SPSS1.1. Produsele şi modulele SPSS1.2. Prezentarea aplicaţiei SPSS

Teme propuse pentru studiul individual

Temă propusă pentru studiul individual

Prezentarea datelor în SPSS3.1. Tabelele statistice

Sistematizarea datelor în SPSS2.1. Sistematizarea datelor

2.2. Introducerea şi sistematizarea datelor în SPSS

CCCCUPRINSUPRINSUPRINSUPRINS

Pagina54

3.4.1. Graficul prin bare (Bar ) 543.4.2. Graficul prin linie (Line ) 593.4.3. Graficul “plăcintă” (Pie ) 623.4.4. Graficul Boxplot 643.4.5. Graficul Histogramă 663.4.6. Graficul Scatterplot 72

75

Capitolul 4 77

774.1.1. Mărimi medii 774.1.2. Indicatorii variaţiei 79 4.1.2.1. Indicatorii simpli ai variaţiei 79

4.1.2.2. Indicatorii sintetici ai variaţiei 80

4.1.3. Indicatorii medii de poziţie 83 4.1.3.1. Modul ( Mo ) sau dominanta 83

4.1.3.2. Cuantile 83 4.1.3.3 Mediana – Me 834.1.4. Asimetria 84

85

88

89

4.4.1.Construirea tabelului cu dublă intrare 894.4.2.Calcularea mediilor, dispersiilor şi abaterilor medii pătratice pe fiecare interval de grupare după factorul determinant

91

4.4.3. Verificarea regulii adunării dispersiilor folosind ANOVA

93

96

4.3. Mărimile medii şi indicatorii varia ţiei pentru o colectivitate împăr ţită în grupe


3.4. Reprezentarea grafică în SPSS

4.4. Determinarea mărimilor medii şi indicatorilor varia ţiei pentru o colectivitate împăr ţită în grupe în SPSS. Regula adunării dispersiilor

Mărimile medii şi indicatorii de poziţie şi variaţie în SPSS4.1. Mărimile medii şi indicatorii de poziţie şi variaţie


4.2. Determinarea mărimilor medii şi indicatorilor de poziţie şi variaţie în SPSS

CUPRINSCUPRINSCUPRINSCUPRINS

Pagina

Capitolul 5 9797

5.1.1. Tipuri de legături 975.1.2. Metode de studiere a legăturilor dintre fenomene 99 5.1.2.1. Metode elementare 99 5.1.2.2. Metode analitice 1005.1.3. Metoda corelaţiei 1035.1.4. Metode neparametrice de măsurare a legăturilor dintre fenomene

105

1075.2.1. Analiza regresiei folosind SPSS 107 5.2.1.1. Identificarea existenţei legăturii - construirea corelogramei

107

5.2.1.2. Stabilirea sensului şi formei legăturii prin metode analitice de studiere a legăturilor (stabilirea celor mai potrivite modele de regresie)

109

5.2.1.3. Estimarea parametrilor modelelor de regresie şi testarea semnificaţiei acestora

112

5.2.2. Analiza corelaţiei folosind SPSS 119122

Programa analitică 123

Bibliografie 125


Analiza seriilor interdependente în SPSS5.1. Analiza regresiei şi corelaţiei

5.2. Analiza regresiei şi corelaţiei folosind SPSS

Capitolul 1 - Noţiunile de bază ale aplicaţiei SPSS

5

CCCCapitolul apitolul apitolul apitolul 1111 –––– Noţiunile de bază Noţiunile de bază Noţiunile de bază Noţiunile de bază

ale aplicaţieale aplicaţieale aplicaţieale aplicaţie SPSS SPSS SPSS SPSS

________________________________________________________________________ Obiective Capitolul de faţă are drept principal obiectiv familiarizarea cu aplicaţia SPSS. Cuvinte cheie: ferestre: Data Editor (Data View şi Variable View), Viewer, Text Output Editor, Chart Editor şi Pivot Table; fişiere de tip .sav, .spv. ________________________________________________________________________ 1.1. Produsele şi modulele SPSS Programul SPSS (Statistical Package for the Social Sciences – Pachet de analize statistice pentru ştiinţe sociale) este unul dintre cele mai utilizate software în analiza datelor statistice. Prima versiune de program a fost creată în anul 1968 ajungându-se astăzi la versiunea 17. Varietatea de domenii în care se aplică acest software s-a extins de la o versiune la alta, astfel că programul este utilizat astăzi în marketing, psihologie, educaţie, sănătate etc. Pe lângă analizele statistice, programul oferă posibilităţi diverse de gestionare a datele (selectare, recodare, creare de date noi), de informare despre metadatele variabilelor dar şi de organizare a rezultatelor după preferinţele utilizatorului. Site-ul oficial românesc pe care se găsesc informaţii valoroase despre SPSS este www.spss.ro.

Analiza informaţiilor de marketing utilizând SPSS

6

Compania SPSS Inc. oferă mai multe tipuri de produse care sunt sub formă modulară, astfel încât fiecare utilizator îşi poate achiziţiona doar acele produse care îi sunt necesare.

În cadrul “Statistics Family” unul dintre cele mai utilizate programe este SPSS for Windows ce poate fi folosit într-o varietate de domenii.

SPSS for Windows permite gestionarea datelor şi fi şierelor, trasformarea datelor, precum şi prelucrarea şi analiza statistică a acestora folosind următoarele metode:


7


8

În concluzie principalele metode de analiză statistică ce se pot executa în SPSS for Windows sunt:

Pe lângă modulul de bază SPSS 16.0 for Windows SPSS Inc. oferă şi alte module ce permit analize mai complicate.


9

Celelalte produse oferite de SPSS se regăsesc pe site-ului www. spss.ro şi sunt prezentate în continuare:

� Produsele de tip “Statistics Family”

� Produsele de tip “Data, text and web mining”

� Produsele de tip “Survey, market research”

1.2. Prezentarea aplicaţiei SPSS 1.2.1. Accesarea şi închiderea aplicaţiei SPSS Mediul de programare SPSS oferă o interfaţă “prietenoasă” avantajând astfel şi un utilizator începător, în sensul că aceasta foloseşte click-urile de mouse pe pictogramele şi meniurile din ferestre pentru a da comenzi programului. Aplicaţia poate fi accesată în două moduri:

- dublu click pe pictograma SPSS de pe Desktop, în eventualitatea în care s-a creat un shortcut pentru program;

- click pe butonul Start -> All Programs -> SPSS Inc. -> SPSS 16.0 -> SPSS 16.0

(notă: pentru această lucrare s-a utilizat versiunea SPSS 16.0).


10

Închiderea programului SPSS se poate face folosind una din cele 2 modalităţi:

- click pe butonul din fereastră - se execută comanda File -> Exit


11

1.2.2. Principalele fişiere şi ferestre din SPSS Cele mai utilizate ferestre din SPSS sunt Data Editor şi Viewer la care se ataşează fişiere de tip .sav, .spv . Pe lângă aceste 2 principale tipuri de ferestre se mai utilizează şi alte ferestre specializate în editarea de text (Text Output Editor), grafice (Chart Editor) şi tabele (Pivot Table). 1.2.2.1. Fişierul şi fereastra Data Editor Această fereastră se deschide automat atunci când lansăm SPSS-ul, şi este folosită pentru introducerea, modificarea sau ştergerea datelor în format tabel (speadsheet). Coloanele tabelului reprezintă variabilele cercetării (var), iar rândurile tabelului sunt numerotate şi reprezintă cazurile (subiecţii sau indivizii pentru care deţin date).

În partea de jos a ferestrei găsim 2 foi de lucru: Data View şi Variable View, acestea fiind active pe rând, ceea ce înseamnă că pe ecran apare foaia în care este plasat cursorul. Trecerea de la o foaie la alta se face prin click cu mouse-ul pe eticheta foii respective.


12

La accesarea SPSS-ului se deschide fereastra Data View, iar aceasta este un spaţiu de lucru ce conţine datele brute ce trebuiesc analizate, în timp ce foaia Variable View nu conţine date, ci informaţii despre variabilele de analizat, respectiv metadatele.

Datele brute şi metadatele, respectiv informaţiile din fereastra Data Editor vor fi salvate sub forma unui fişier care va primi în mod automat de la aplicaţia SPSS extensia .sav 1.2.2.2. Fişierul şi fereastra Viewer


13

În fereastra Viewer regăsim toate rezultatele obţinute în urma analizei statistice şi se va crea automat la prima comandă care produce ieşiri (Analyze sau Graphs). Fereastra Viewer este structurată în două zone. În cadrul din stânga regăsim cuprinsul sub forma unei schiţe, iar în al doilea cadru, cel din dreapta ferestrei, găsim conţinutul unde sunt afişate rezultatele analizei. Rezultatele analizei statistice respectiv informaţiile din fereastra Viewer vor fi salvate sub forma unui fişier care va primi în mod automat de la aplicaţia SPSS extensia .spv Rezultatele analizei statistice se prezintă în SPSS sub formă de tabele sau grafice, de aceea SPSS mai are asociate încă două ferestre Pivot Table şi Chart Editor. 1.2.2.3. Fereastra Pivot Table Deschiderea ferestrei Pivot Table se poate face prin 2 modalităţi:

- clik dreapta cu mouse-ul pe tabelul din fereastra Viewer, alegerea din meniu a opţiunii Edit Content->In Viewer (în acest caz nu se deschide o fereastră distinctă pentru tabel, lucrându-se în cadrul ferestrei Viewer, şi doar oferă posibilitatea de a edita în tabel) sau In separate Window (se deschide o ferestra Pivot Table ce oferă posibitatea de a face modificări mai complexe tabelului).

- Din meniul Edit folosind comanda Edit Content->In Viewer sau In separate Window.


14

Modificările făcute în tabel respectiv informaţiile din fereastra Pivot Table nu vor fi salvate sub forma unui fişier ci doar în fereastra Viewer. 1.2.2.4. Fereastra Chart Editor Deschiderea ferestrei Chart Editor se poate face prin 3 modalităţi:

- clik dreapta cu mouse-ul, alegerea din meniu a opţiunii Edit Content-> In separate Window (se deschide o ferestra Chart Editor ce oferă posibilitatea de a face modificări la grafic). De menţionat ar fi că, în acest caz, spre deosebire de tabele, opţiunea In Viewer este inactivă;

- dublu-click pe grafic; - din meniul Edit folosind comanda Edit Content-> In separate Window.


15

Modificările făcute în grafic respectiv informaţiile din fereastra Chart Editor nu vor fi salvate sub forma unui fişier ci doar în fereastra Viewer. 1.2.2.5. Salvarea şi deschiderea fişierelor de date Salvarea unui fişier se realizează prin:

- pictograma Save din bara de instrumente - comanda File -> Save sau Save As

Aceste comenzi deschid fereastra Save Data As în care se pot stabili numele şi locaţia unde va fi salvat fişierul.


16

Deschiderea unui fişier se realizează prin:

- pictograma Open din bara de instrumente - comanda File -> Open Data sau Output în funcţie de tipul de fişier pe care dorim

să-l deschidem (aceasta în cazul în care în prealabil s-a salvat acel fişier)

Aceste comenzi deschid fereastra Open File în care este posibilă localizarea fişierului, în cazul în care acesta nu se află în folderul curent.


17

Deschiderea unui nou fişier se realizează prin comanda File -> New Data sau Output în funcţie de tipul de fişier pe care dorim să-l deschidem.

1.2.3. Instrumentele utilizate în SPSS 1.2.3.1. Principalele pictograme din SPSS Cele mai folosite pictograme de pe bara de instrumente atât în cazul Data Editor cât şi pentru Viewer sunt cele de salvare fişier, tipărire date şi rezultate, introducere date etc. În continuare prezentăm cele mai utilizate pictograme din Data Editor (în ordinea de pe bară):


18

- deschiderea unui fişier - salvarea fişierului - tipărirea fişierului - aminteşte cele mai recente dialoguri - anularea acţiunii precedente - revenirea la acţiunea precedentă - caută anumite cazuri (rânduri) - caută o anumită variabilă (coloane) - oferă informaţii despre variabile - caută - inserează un rând - inserează o coloană - accesează comanda Split File - accesează comanda Weight Cases - aceesează comanda Select Cases - arată eticheta valorii, etc

Cele mai apelate butoane din Viewer (în ordinea de pe bară):

- deschiderea unui fişier - salvarea fişierului - tipărirea fişierului - vizualizare înainte de tipărire - exportă fişierul - aminteşte cele mai recente dialoguri - anularea acţiunii precedente - revenirea la acţiunea precedentă - caută anumite cazuri (rânduri) - caută o anumită variabilă (coloane) - oferă informaţii despre variabile - accesează seturi pentru caseta de dialog Variables - arată toate variabilele - selectează ultimul rezultat, etc.

1.2.3.2. Meniurile din SPSS Bara de meniu conţine mai multe meniuri, si după cum se observă, sunt aproximativ aceleaşi pentru cele două fişiere Data Editor şi Viewer (acesta are 2 meniuri în plus Insert şi Format).


19

În continuare prezentăm meniuri comune ale fişierelor Data Editor şi Viewer.

File

Acest meniu este utilizat pentru operaţii curente asupra fişierelor: creare, deschidere, export de fişiere diverse: date, rezultate, comenzi, închiderea sesiunii de lucru etc.

Edit

Acest meniu este utilizat pentru editările curente pentru date numerice, text sau obiecte grafice: copieri, inserări etc..


20

View

Acest meniu controlează modul de afişare a uneltelor, a liniaturii, a etichetei valori (valorilor li se pot ataşa denumiri explicite).

Data

Prin comenzile acestui meniu este influenţat conţinutul ferestrei Data Editor, realizându-se modificări globale cum ar fi transpunerea variabilelor şi cazurilor, filtrarea cazurilor, împărţirea bazei de date pe categorii etc.

Transform

Acest meniu permite transformarea unor variabile (cum ar fi recodificare) şi obţinerea unor noi variabile prin calcule efectuate asupra variabilelor existente.


21

Analyze

Acesta este meniul care dă acces la metodele de analiză statistică.

Graphs

Comenzile acestui meniu permit crearea graficelor.


22

Utilities

În acest meniu sunt cuprinse cele mai utilizate instrumente şi permite afişarea informaţiilor despre variabile, definirea unor mulţimi de variabile, etc.

Add-ons În acest meniu găsim informaţii şi un ghid on-line despre produsele, serviciile SPPS.


23

Window

Comenzile acestui meniu asigură operaţii asupra ferestrelor precum şi controlul acestora pe ecran.

Help Acest meniu permite familiarizarea cu SPSS, find o fereastră standard de ajutor. Cele mai utilizate opţiuni sunt Topics (afişează meniul în funcţie de subiectul precizat de utilizator) şi Tutorial (oferă asistenţă în învăţarea SPSS).


24

Teme propuse pentru studiul individual

1. Descărcaţi de pe adresa de web www.spss.com versiunea trial cu licenţă pentru 2 săptămâni programul SPSS for Windows.

2. Deschideţi o sesiune de lucru în SPSS.

3. Scrieţi în Data Editor foaia Data View câteva cifre pe coloane şi rânduri şi

observaţi ce a apărut în foaia Variabile View.

4. Salvaţi fi şierul .sav.

5. Executaţi comanda Analyze->Descriptive Statistic-> Frequencies->fereastra Frequencies: din lista sursă se trece în caseta Variable(s) variabila pentru care se va construi graficul şi se activează butonul de comandă Charts ->fereastra Frequencies Charts: butonul de opţiuni Histogram. În urma executării acestei comenzi, ce fereastră s-a deschis?

6. Deschideţi ferestre Pivot Tabel şi Chart Editor din fişierul Viewer.

7. Salvaţi şi închideţi fi şierul .spv.

8. Familiarizaţi-vă cu meniurile şi submeniurile din fişierele .sav şi .spv

Capitolul 2 - Sistematizarea datelor în SPSS

25

Capitolul 2 Capitolul 2 Capitolul 2 Capitolul 2

SSSSistematizarea datelor în SPSSistematizarea datelor în SPSSistematizarea datelor în SPSSistematizarea datelor în SPSS

________________________________________________________________________ Obiective Capitolul de faţă are drept principal obiectiv înţelegerea modalităţilor de introducere a datelor în SPSS; divizarea fişierelor şi selectarea subiecţilor în SPSS; sistematizarea, codificarea şi crearea datelor în SPSS. Cuvinte cheie: atributele variabilelor: nume, tip, număr de caractere, număr de zecimale, eticheta, eticheta valorilor, valorile lipsă, alinierea şi scala de măsurare, comenzile: Split File, Select Cases, Recode ________________________________________________________________________ 2.1. Sistematizarea datelor 2.1.1. Prelucrarea primară a datelor Complexul de operaţii prin care se obţin informaţiile necesare alcătuieşte prelucrarea statistică în sens larg. Operaţiile de calcul ale caracteristicilor secundare derivate operaţii de grupare a datelor individuale, de centralizare/agregare a lor pe întreaga populaţie, prezentarea datelor sub formă de tabele/serii statistice şi reprezentarea lor grafică, determinarea indicatorilor sintetici absoluţi şi derivaţi sunt metode de prelucrare primară. Operaţiile de transformare pe mai departe cu ajutorul metodelor mai evoluate ca: metoda de repartiţie uni – bi şi multidimensionala, etc., împreuna cu metodele de prelucrare primara, formează prelucrarea în sens larg. Clasificarea şi gruparea statistică – este sistematizarea populaţiei pe părţi statistic omogene, în funcţie de variaţia unei caracteristici sau, simultan, a mai multor caracteristici. Gruparea/clasificarea se declanşează cu analiza teoretică a populaţiei studiate în vederea stabilirii grupelor/claselor calitativ distincte şi omogene statistic. În continuare, se stabileşte sistemul de caracteristici care permite delimitarea grupelor, deci se alege caracteristica de grupare. Când numărul de valori/variante este mare, gruparea se face pe intervale de valori sau pe grupe de variante, fiind necesară stabilirea intervalelor de grupare. Clasificarea statistică este deci o operaţie de sistematizare a unui ansamblu de elemente, obiecte, activităţi, pe baza atributelor comune, în clase, a claselor în “clase de clase” şi aşa


26

mai departe, astfel că fiecare clasă obţinută să ocupe un loc precis, iar elementele încadrate în ea să fie cat mai omogene. Cerinte ale unei clasificări:

-completitudine (fiecare element trebuie să aparţina unei clase); -unicitate (fiecare element aparţine numai unei singure clase); -omogenitate (elementele asemănătoare aparţin aceleaşi clase, iar elemente diferite

– claselor diferite). În practica statistică se utilizează sisteme standardizate de clasificări care constituie componente de bază ale Sistemului Informaţional Economic şi sunt instrumente indispensabile pentru organizarea culegerii, stocării, prelucrării şi analiza datelor statistice. Ansamblul acestora este sistemul unitar de clasificări şi nomenclatoare social-economice ce funcţionează la nivel macroeconomic. 2.1.2. Gruparea datelor obţinute din observare Gruparea datelor după modul de variaţie pentru caracteristicile exprimate numeric: - grupări pe variante (se foloseşte când numărul variantelor este redus şi centralizarea datelor se poate face pentru fiecare variantă în parte); ex: locuinţele se pot grupa dupa numărul de camere; - grupări pe intervale egale de variaţie (se foloseşte când gradul de variaţie al caracteristicilor permite alegerea unei mărimi egale a intervalelor astfel încât numărul grupelor să nu modifice forma ei de variaţie); - grupări pe intervale neegale (pentru cazul unui grad foarte mare de variaţie). Alegerea numărului de grupe şi stabilirea mărimii intervalului de grupare pentru caracteristicile exprimate numeric Alegerea numărului de grupe se face ţinând seama de scopul pentru care se foloseşte metoda grupării. Exemplu: Într-o echipă de muncitori s-au înregistrat următoarele valori ale producţiei individuale (număr piese realizate de fiecare muncitor): 125; 128; 130; 131; 142; 135; 136; 142; 136; 143; 125; 123; 135; 123; 132; 143; 133; 132; 122; 135; 128; 135; 124; 131; 134; 125. Mai întâi trebuiesc ordonate datele pentru a obţine frecventele de apariţie a diferitelor variante. În acest scop se porneşte de la amplitudinea variaţiei şi de la numărul unităţilor observate.


27

Dacă se notează caracteristica statistică după care se grupează cu “xi”, ea poate lua valori între limita minima xmin şi cea maximă xmax. Amplitudinea variaţiei (A) = xmax – xmin Unde: xmin = 122 şi x max = 143 A =143 - 122 = 21 Numărul de grupe (r) mărimea intervalului de grupare (k) se aleg în aşa fel încât să se cuprindă toate valorile individuale. Se rotunjeste întotdeauna în plus, pentru a nu rămâne unităţi ale populaţiei observate pe dinafară. Putem efectua urmatoarele 4 variante de grupare: Varianta I Nr. muncitori Varianta II Nr. muncitori Grupe după mărimea produselor obţinute 120-125 4 120-125 7 125-130 5 125-130 3 130-135 8 130-135 10 135-140 5 135-140 2 140-145 4 140-145 4 Nota: limita inferioară Nota: Limita superioară inclusă în interval inclusă în interval Comparând frecvenţele se observă că ele diferă tocmai datorita faptului că au fost suficiente valori ale caracteristicii egale cu una din limitele intervalelor de grupare. Acestea se numesc grupări pe intervale cu variaţie continuă şi întotdeauna trebuie precizat într-o notă care limita (inferioară sau superioară) se include în interval. Pentru a elimina această dificultate se fac grupări cu variaţia discontinuă în care limita inferioară a intervalului următor este deplasată cu o unitate de măsura faţă de limita superioară a intervalului precedent. Varianta III Nr. muncitori Varianta IV Nr. muncitori 120-124 4 121-125 7 125-129 5 126-130 3 130-134 8 131-135 10 135-139 5 136-140 2 140-144 4 41-145 4


28

La determinarea mărimii intervalului de grupare, în special pentru caracteristicile statistice cu tendinţe de variaţie sistematică şi cu un număr mare de observaţii se poate folosi formula lui Sturges:

unde N = nr. total al observaţiilor. În exemplul luat avem:

Funcţiile grupării statistice sunt: - determinarea structurii colectivităţii cercetate pe tipuri calitative diferenţiate în cadrul aceleiaşi colectivitaţi; - sesizarea mutaţiilor produse în structura colectivităţii statistice, pe plan teritorial şi în dinamică; - surprinderea tendinţelor de manifestare a variaţiei fenomenului studiat; - stabilirea şi interpretarea legăturilor dintre fenomene şi a factorilor care le influenţează. 2.2 Introducerea şi sistematizarea datelor în SPSS 2.2.1 Introducerea datelor Procesul de analiză statistică a datelor presupune, mai întâi, operaţiunea de pregătirea bazei de date. În SPSS aceasta înseamnă definirea şi introducerea datelor statistice în paginile din fişierul Data Editor: Data View şi Variable View. 2.2.1.1. Definirea metadatelor din Variable View Aceasta este prima etapă din procesul de pregătire a bazei de date şi presupune precizarea atributelor variabilelor în pagina Variable View din Data Editor. Atributele ce trebuiesc definite sunt următoarele (în ordine de la stânga la dreapta în pagina Variable View): numele variabilei, tipul acesteia, numărul de caractere ale variabilei, numărul de zecimale (doar pentru cele care s-au definit numerice), eticheta variabilei, eticheta valorilor variabilei, valorile lipsă, lăţimea coloanelor, alinierea şi sistemul de măsurare a variabilei (scala ordinală sau nominală).


29

Numele variabilei Numele variabilei, care vă recomandăm să fie scurt şi explicit, se va scrie în coloana Name. Atunci când se va alege numele variabilei trebuie să ţineţi cont de câteva restricţii impuse de SPSS:

- să fie unic - primul caracter să fie o literă - poate să conţină litere, cifre şi anumite simboluri: @, #,_, $ - să nu conţină spaţii sau alte simboluri folosite în SPSS

Tipul variabilei Tipul variabilei se va alege din coloana Type. În general, variabilele pot fi de 2 feluri: numerice (Numeric) şi text (String).

Numărul de caractere al variabilei

Indiferent dacă variabila este numerică sau text, numărul de caractere al acesteia va fi definit în coloana Width. Numărul de caractere stabilit implicit de SPSS este de 8, astfel trebuie avut în vedere ca valorile variabilei să nu fie mai mari. În caz contrar se va modifica valoarea definită implicit .


30

Numărul de zecimale Dacă variabila a fost definită numerică în coloana Decimals se va opta asupra numărului de zecimale pe care îl va avea variabila.

Eticheta variabilei Dacă numele variabilei trebuie să respecte anumite condiţii, în coloana Label se poate preciza un nume explicit al variabilei, până la 256 caractere, şi acesta va fi afişat în Viewer.

Etichetele valorilor variabilei Definirea acestui atribut în coloana Value Labels este utilă în două situaţii:


31

-când dorim să transformăm variabila nominală în variabilă numerică, astfel se vor preciza valorile luate de variabilă şi etichetele corespunzătoare acestora, în fereastra Value Labels. De exemplu pentru cele două valori ale variabilei mediul – urban respectiv rural – se va executa comanda: se va scrie 1 în Value şi urban în Label -> click pe butonul Add -> scriem 2 în Value şi rural în Label -> click pe butonul Add -> click pe butonul OK.

-când dorim ca variabila categorială ce pune seria pe intervale respectiv variabila a cărei valori reprezintă mijlocul intervalului, să afişeze defapt intervalele de grupare.


32

Valorile lipsă Există 2 tipuri de valori lipsă: system-missing values şi user-missing values. Când nu lipsesc valori, se alege butonul de opţiuni No missing values.

Lăţimea coloanei Lăţimea coloanei respectiv a numărului de caractere ce încap în coloane se va stabili în Columns – implicit de SPSS sunt definite un număr de 8 caractere, dar această valoare se poate schimba -.


33

Alinierea valorilor

Alinierea valorilor variabilei se va stabili în coloana Align - din care se pot alege opţiunile Left, Right sau Center.

Sistemul de măsurare a variabilei

Sistemul de măsurare a variabilei se va stabili în coloana Measure din care se pot aleg opţiunile Scale, Ordinal sau Nominal.


34

2.2.1.2. Introducerea datelor în Data View Odată definite variabilele în pagina Variable View acestea vor apare în pagina Data View ca şi cap de tabel al spaţiului de lucru organizat pe rânduri şi coloane. Astfel, pe fiecare rând se vor regăsii subiecţii analizei iar pe fiecare coloană o variabilă.

Datele statistice se vor introduce în celulele spaţiului de lucru din pagina Data View. Introducerea presupune scrierea unui număr sau a unui text folosind tastatura calculatorului în celula în care este cursorul şi are chenar îngroşat. Pentru a introduce mai multe date, succesiv în mai multe celule, se pot folosii mai multe modalităţi de mutare a cursorului:

-click în celula dorită, -tastele cu săgeţi de pe tastatură -tasta Tab (mută cursorul pe rând, în celula de pe coloana următoare) -tasta Enter (mută cursorul pe coloană, în celula de pe rândul următor).


35

2.2.2. Sistematizare şi organizarea datelor 2.2.2.1. Gruparea pe intervale a datelor În SPSS gruparea pe intervale a valorilor unei variabile numerice presupune transformarea acestei variabile în altă variabilă a cărei valori reprezintă mijlocele intervalelor de grupare. Pentru a face această transformare se va folosi comanda Transform->Recode În continuare vom recodifica variabila numărul de salariţi – nr_sal din baza de date a fişierului asa.sav, ce cuprinde 300 de unităţi locale active din judeţul Bacău. Pornind de la recomandările emise de Eurostat privind evaluarea mărimii întreprinderii după criteriul numărului mediu de salariaţi, care împart întreprinderile în 3 mari categorii:

- întreprinderile mici şi foarte mici au numărul de salariaţi mai mic de 49 de persoane

- întreprinderile mijlocii au numărul de salariaţi între 49 de persoane şi 249 de persoane

- întreprinderile mari au numărul de salariaţi de peste 249 de persoane regrupăm numărul mediu de salariţi în trei categorii: 0-50 persoane, 50-250 persoane şi peste 250 de persoane (limita superioară nu va fi inclusă în interval). Această regruparea a numărului mediu de salariaţi a presupus transformarea vechii variabile şi crearea uneia noi nr_sal_categ cu următoarele valori:

Intervale Mijlocul intervalului 0-50 25 50-250 150 Peste 250 (250-450) 350 Valorile variabilei vechi Valorile variabilei noi (old values) (new value) Pentru a realiza această recodare se execută comanda: Transform-> Recode into Different Variables->fereastra Recode into Different Variable: se execută următoarele operaţiuni:

-selectăm variabila pe care o dorim să o recodificăm, în exemplul nostru nr_sal, şi se mută în caseta Input Variable->Output Variable

-scriem numele noii variabile nr_sal_categ în caseta Name din zona Output Variable -click pe butonul Change din zona Output Variable -click pe butonul Old and New Values->fereastra Recode into Different Variables:

Old and New Values: se execută următoarele operaţiuni: -introducem pe rând în zona Old Value vechile valori prin 2 modalităţi:

- pentru primele intervale bifăm opţinea Range şi astfel devin active două casete. În prima casetă se va trece limita inferioară a intervalului iar în caseta a doua (de sub cuvântul through) limita superioară a intervalului - pentru ultimul interval bifăm opţiunea Range, value through HIGHEST iar în caseta ce a devenit activă se va scrie limita inferioară a intervalului


36

-introducem în zona New Value caseta Value noile valori respectiv mijlocul fiecărui interval aferent ->click pe butonul Add astfel vechile valori (intervalul) şi noile valori (mijlocul intervalului) se vor transfera în caseta Old -> New -click pe butonul Continue -> fereastra Recode into Different Variables-> clik pe butonul OK

Noua variabila nr_sal_categ apare în pagina Data View cu datele corespunzătoare fiecărei unităţi locale active.


37

Se observă că aceste date sunt defapt mijlocul intervalului, iar pentru a afişa intervalul aferent mijlocului vom defini atributul Value pentru noua variabilă creată.

valorile vechi valorile noi


38

2.2.2.2. Organizarea datelor pe categorii Împărţirea bazei de date pe categorii după o variabilă categorială este utilă spre exemplu, atunci când dorim ca rezultatele analizei statistice din Viewer să fie organizate pe fiecare categorie a variabilei studiate. Revenind la exemplu anterior, la baza de date din asa.sav, dorim să împărţim acest fişier în trei categorii după variabila nou creată nr_sal_categ. Realizarea acestei operaţiuni se face executând comanda: Data ->Split File -> fereastra Split File: bifăm opţiunea Organize output by groups, mutăm variabila categorială nr_sal_categ în caseta Groups Based On, ce a devenit activă la bifarea opţiunii->click pe butonul OK.

În urma acestei comenzi rezultatele analizei statistice (construirea de histograme) din Viewer sunt organizate în următoarea formă:


39

Principalul avantajul a acestei comenzi este uşurinţa în analiza statistică comparativă dintre categoriile studiate. Spre exemplu dacă analizăm aceste histograme se observă că cea mai simetrică categorie de salariaţi este cea a unităţilor locale active ce au numărul de salariaţi între 0 şi 50 persoane. Pentru a reveni la forma iniţială a fişierului de date se execută comnanda: Data ->Split File -> fereastra Split File: bifăm opţiunea Analyze all causes, do not create groups ->click pe butonul OK


40

2.2.2.3. Selectarea datelor Organizarea datelor statistice prin selectarea doar a anumitor cazuri (unităţi locale active) din baza de date poate fi utilă atunci când se doreşte ca analiza statistică să se refere doar la cazurile selecţionate. Spre exemplu, dorim ca în fişierul de date asa.sav să rămână doar unităţile locale active din mediul urban pentru ca rezultatele analizei statistice din Viewer să se refere doar la acestea. Realizarea acestei operaţiuni se face executând comanda: Data -> Select Cases -> fereastra Select Cases, bifăm opţiunea If condition is satisfied, şi click pe butonul If -> fereastră Select Cases: If, în care se introduce condiţia de selecţie respectiv se mută variabila mediul în caseta liberă şi se scrie ‘=1’ (ecuaţia matematică va avea forma mediul =1) pentru că aşa cum s-a precizat în definarea atributului Value al variabilei mediul, valoarea 1 corespunde zonei urbane, click pe butonul Continue -> fereastra Select Cases, click pe butonul OK.


41

Astfel, în pagina Data View cazurile anulate respectiv unităţile locale active din mediul rural, sunt evidenţiate în două moduri:

-sunt tăiate prin Slash , -în coloana nou înfiinţată filter_$ valoarea etichetei variabilei este Not Selected


42

În Viewer se observă că numărul de unităţi locale active analizate este de 276 pentru că în baza de date au rămas doar acele societăţi care îşi desfăşoară activitatea în mediul urban (fişierul originar are 300 de înregistrări).

Pentru a reveni la forma iniţială a fişierului de date se execută comanda: Data -> Select Cases -> fereastra Select Cases: bifăm opţiunea All cases, ->click pe butonul OK


43

Astfel, în pagina Data View cazurile care au fost anulate respectiv unităţile locale active din mediul rural, nu mai sunt tăiate prin Slash, dar variabila filter_$ cu cele două valori rămâne în baza de date.


44

Temă propusă pentru studiul individual Avem următoarea bază de date ce conţine informaţii privind sediul, cifra de afaceri şi numărul de salariaţi pentru 40 de societăţi comerciale.

Nr.crt. SC Localitatea CANr. de

Salariati

1 MUNICIPIUL BACAU 286958445 2772 MUNICIPIUL BACAU 120186639 6423 MUNICIPIUL BACAU 20647604 1184 MUNICIPIUL BACAU 17482738 1855 MUNICIPIUL BACAU 17464567 1926 MUNICIPIUL BACAU 16254481 2227 MUNICIPIUL BACAU 15800138 7228 MUNICIPIUL BACAU 11513560 369 MUNICIPIUL BACAU 9010313 34

10 MUNICIPIUL BACAU 5463503 10511 MUNICIPIUL BACAU 4712478 2012 MUNICIPIUL BACAU 2717217 1913 MUNICIPIUL BACAU 1756665 4514 MUNICIPIUL BACAU 1532557 2215 MUNICIPIUL BACAU 988611 1016 MUNICIPIUL BACAU 916253 1217 MUNICIPIUL BACAU 848032 418 MUNICIPIUL BACAU 291844 619 MUNICIPIUL BACAU 276630 620 MUNICIPIUL BACAU 187275 521 MUNICIPIUL BACAU 93280 122 MUNICIPIUL BACAU 51695 523 MUNICIPIUL ONESTI 2673144 2324 MUNICIPIUL ONESTI 2484704 4425 MUNICIPIUL ONESTI 2106221 81

26 MUNICIPIUL ONESTI 1559407 39

27 MUNICIPIUL ONESTI 188001 428 MUNICIPIUL MOINESTI 167746658 269929 ORAS BUHUSI 1971101 11030 ORAS COMANESTI 4773920 7731 ORAS COMANESTI 3977953 4832 ORAS TARGU OCNA 8142 433 BOGDANESTI 152226 234 FILIPESTI 3528380 835 LETEA VECHE 2073004 3036 MARGINENI 489822 1237 NICOLAE BALCESCU 470242 1838 PARJOL 781272 1439 SASCUT 7945656 740 ZEMES 867777 16

Se cere: - să se introducă datele în SPSS - să se grupeze în 4 categorii societăţile comerciale în funcţie de numărul de

salariaţi şi de cifra de afaceri

Capitolul 3 - Prezentarea datelor în SPSS

45


Prezentarea datelor Prezentarea datelor Prezentarea datelor Prezentarea datelor în SPSSîn SPSSîn SPSSîn SPSS

_________________________________________________________________________ Obiective Capitolul de faţă are drept principal obiectiv înţelegerea şi însuşirea metodelor de prezentare a datelor în SPSS Cuvinte cheie: comenzile: Frequencies, Crosstabs, Histogram, Boxplot, Q -Q Plot, Bar, Line, Pie, Scatterplot; opţiunile Summaries for groups of cases sau Summaries of Separate Variables _________________________________________________________________________ 3.1. Tabelele statistice Tabelele statistice – sunt forma de bază a oricărei prezentări, a rezultatelor prelucrării datelor de evidenţă, reprezentând un ansamblu de judecăti despre colectivitatea studiată şi orânduite în aşa fel încât cuvintele scrise să servească drept titluri comune pentru înţelegerea conţinutului expresiilor numerice. Subiectul tabelului este constituit din colectivitatea la care se referă datele şi se regăseşte de obicei în titlul general al tabelului. Predicatul tabelului se referă la sistemul de indicatori ce caracterizează colectivitatea prezentată în tabel. Felurile tabelelor statistice sunt extrem de variate, în funcţie de scopul prelucrării sau al analizei statistice. Cele mai des întâlnite sunt: Tabele simple sunt cele în care se prezintă indicatorii statistici ai unitatilor statistice la care se referă datele, ordonate după urmatoarele criterii: cronologic, teritorial sau organizatoric. Întocmirea acestui fel de tabele nu ridică probleme deosebite, ordonarea indicatorilor făcându-se în funcţie de scop. Tabelul pe grupe se foloseşte când se aplică gruparea simplă şi se centralizează frecvenţele şi valorile caracteristicilor care se găsesc într-o relaţie de dependenţă faţă de variaţia caracteristicii de grupare.


46

În acest tabel subiectul este reprezentat prin grupele formate pe baza caracteristicii de grupare “x”, iar predicatul din frecvenţele de apariţie ale diferitelor variante (x1, x2, … xm) şi din sumele parţiale ale valorilor înregistrate pentru caracteristicile y, z, v, condiţionate de variaţia valorilor variabilei x. Tabelul pe grupe poate fi folosit pentru: -caracterizarea independentă a gradului şi formei de variaţie a caracteristicii x; -interpretarea legăturilor dintre variaţia caracteristicii de grupare şi variaţia caracteristicilor care formează predicatul tabelului; -pentru aplicarea metodelor de calcul ale corelaţiei statistice. Tabelul combinat se foloseşte când subiectul se prezintă prelucrat după variaţia a cel puţin 2 caracteristici de grupare (x, y) şi predicatul este format din valorile centralizate ale variabilelor dependente (z, v) de factorii de grupare.


47

Tabelul cu dublă intrare se foloseşte atunci când colectivitatea a fost împărţită în grupe dupa variaţia a două caracteristici (x, y) şi au fost centralizate numai frecvenţele de apariţie ale valorilor x, y. Într-un tabel cu dublă intrare grupele formate dupa variaţia caracteristicii x reprezintă elementele componente ale subiectului, iar grupele formate după variaţia caracteristicii y elementele componente ale predicatului. În rubricile tabelului se trec frecvenţele valorilor x, y. Rezultă că unităţile la care s-a facut înregistrarea datelor se distribuie atât după variaţia lui x cât şi a lui y, pentru care deci numărul total al unităţilor observate (N) este egal cu suma frecventelor după x, cât şi cu cele după y .

Tabelul de asociaţie se foloseşte pentru a putea prezenta într-un tabel statistic legatura dintre două caracteristici alternative. Şi pentru subiect şi pentru predicat nu sunt decât doua variante x1, x2 pentru grupele formate pe baza variaţiei subiectului şi y1, y2 pentru grupele formate pe baza variaţiei predicatului.

Reguli de întocmire a tabelelor statistice: -stabilirea subiectului şi predicatului tabelului în funcţie de scopul sistematizării datelor statistice; -alegerea unităţilor de măsură în care se exprima indicatorii statistici; -completarea tuturor rubricilor tabelului; -evitarea unor tabele prea încărcate; -precizarea surselor de informaţie şi redactarea notelor explicative.


48

3.2. Tabelele statistice în SPSS 3.2.1. Tabelul pe grupe Construirea tabelului pe grupe în SPSS se realizează executând comanda: Analyse ->Descriptive Statistics ->Frequencie ->fereastra Frequencies: se selectează din listă variabila pentru care dorim să construim tabelul şi se trece în caseta Variable(s), click pe butonul OK.

În fereastra Viewer se va obţine Tabelul frecvenţelor în funcţie de distribuţia studenţilor pe grupe de medii obţinute la absolvirea liceului, plecând de la fişierul deja prezentat în capitolul anterior note.sav .


49

frecvenţe procentele procentele cumulate Interpretarea celor mai importante rezultate din Viewer :

Din cei 40 de studenţi analizaţi, 5 au obţinut media de absolvire la liceu între 8,40 şi 8,80, aceştia reprezentând 12,5% din total. Cei mai mulţi dintre studenţi au avut o medie între 8,80 şi 9,20, iar 45% dintre aceştia au obţinut o medie sub 9,20. 3.2.2. Tabelul cu dublă intrare (Crosstabs) Tabelul cu dublă intrare se obţine executând comanda: Analyse->Descriptive Statistics ->Crosstabs -> fereastra Crosstabs, din listă alegem variabilele pe care le vom muta pe rânduri (caseta Row(s)) şi pe coloane (caseta Column(s)). ->click pe butonul OK. Se recomandă ca variabila categorială independentă să se plaseze pe rânduri iar cea dependent pe coloane.


50

În fereastra Viewer se va obţine Tabelul cu dublă intrare ce reprezintă frecvenţele parţiale în funcţie de distribuţia studenţilor pe grupe de medii obţinute la absolvirea liceului şi pe scorul la admitere la facultate, plecând de la fişierul deja prezentat în capitolul anterior note.sav .


51

Interpretarea celor mai importante rezultate din Viewer : Din cei 40 de studenţi analizaţi, 5 au obţinut media de absolvire la liceu între 8,40 şi 8,80 şi scorul la admitere la facultate între 40 şi 48 puncte. Cei mai mulţi dintre studenţi au avut o medie între 8,80 şi 9,00 şi scorul la admitere la facultate între 48 şi 56 puncte. 3.3. Reprezentarea grafică a datelor Metoda grafică este folosită în teoria şi practica statistică atât pentru prezentarea unor date statistice cât şi ca instrument de analiză şi interpretare a fenomenelor studiate. Graficele constau în exprimarea datelor statistice din tabele prin linii sau puncte, figuri geometrice, hărţi, simboluri şi alte mijloace specifice. Ele se întâlnesc în aproape toate sectoarele de activitate deoarece ele au calitatea de a prezenta într-o forma simplă, sugestivă şi atrăgatoare trăsăturile esenţiale ale fenomenelor în condiţii determinate de timp şi spaţiu. 3.3.1. Elementele de bază ale unui grafic Titlul graficului – în el se sugerează ce relaţii trebuie interpretate vizual pe baza graficului. - este indicat să fie scurt, clar, precis şi complet şi pe cât posibil să corespundă cu titlul tabelului statistic ale cărui date le reprezintă; - el cuprinde indicaţii cu privire la obiectul reprezentat, timpul şi spaţiul la care se referă datele reprezentate şi unitatea de măsură; - de regulă, se trece deasupra figurii graficului, dar dacă graficul face parte dintr-un text, atunci poate fi inclus în fraza pe care-l precede. Reţeaua graficului are ca scop să uşureze identificarea în plan a punctelor care reprezintă mărimile variabilelor reprezentate grafic. Ea poate fi formată din linii paralele orizontale, verticale, oblice, cercuri concentrice, sectoare de cerc care servesc pentru plasarea corectă a punctelor pe grafic. În reprezentarea grafică a fenomenelor social-economice se folosesc: reţele rectangulare, reţele curbilinii şi reţele suplimentare. În majoritatea cazurilor se apelează la reţelele folosite pentru construirea graficului în sistemul coordonatelor rectangulare. Scara de reprezentare se alege ţinând seama de ordinul de mărime al indicatorilor de reprezentat, de gradul şi forma de variaţie dintre ei şi de scopul urmărit . Notele explicative şi legendele se folosesc pentru a putea interpreta corect graficul. Ele apar atunci când este necesar să se atragă atenţia asupra aspectelor metodologice ale calculării indicatorilor reprezentaţi sau asupra modului de prezentare a lor în grafic.


52

Sursa de informaţie a datelor din grafic este obligatorie în toate cazurile când se folosesc date reale. 3.3.2. Tipuri de grafice - grafice prin coloane şi benzi; - grafice prin figuri geometrice de suprafaţă sau volum, cronograme; - diagrame radiale (polare); - diagrame de distribuţie (histograma, poligon de frecvenţă, curba cumulativă a frecventei, curba de concentrare; - cartograme şi cartodiagrame; - grafice prin figuri naturale şi simbolice. Ele se mai pot grupa şi în funcţie de felul datelor utilizate sau domeniul de folosire: - diagrame ale unor date parţiale sau independente între ele; - diagrame de structura; - grafice ale seriilor cronologice (SCR); - graficele seriilor de distribuţie; - graficele seriilor teritoriale; - graficele de analiza a corelaţiei. Graficele prin coloane sau benzi– sunt cele mai frecvent întâlnite. Se folosesc în special pentru: - popularizarea datelor statistice sau a indicatorilor incluşi în programele de activitate elaborate la diferite nivele; - pentru SCR. Se recomandă mai ales când numărul datelor reprezentate nu este prea mare şi graficul este sugestiv. Reprezentarea graficului prin coloane presupune folosirea cadranului I din sistemul axelor rectangulare, unde scara de reprezentare se fixeaza pe axa Oy, iar pe Ox se construiesc atâtea coloane cu bazele egale caţi indicatori sunt de reprezentat. Între coloane se lasă un spaţiu liber egal cu aproximativ ˝din baza coloanelor. Înălţimea coloanei este proporţionala cu valoarea indicatorilor de reprezentat. Graficele prin figuri geometrice (Diagrama prin suprafete sau volum) se folosesc fie pentru reprezentările variaţiei unor indicatori de volum, fie pentru reprezentarea structurii colectivităţii. Este un grafic în care datele statistice sunt reprezentate prin figuri geometrice ca dreptunghiul, cercul, pătratul, etc. ale căror arii sunt direct proporţionale cu mărimile indicatorilor respectivi.


53

Diagramele de structură – sunt folosite frecvent în interpretarea mutaţiilor interGrafic în care este reprezentată structura unei colectivităţi, scotând în evidenţă raportul ce există între parţile componente ale colectivităţii şi colectivitatea luată ca întreg. Suprafeţele sunt direct proporţionale cu volumul colectivităţii, iar parţile acesteia sunt reprezentate prin porţiuni de suprafaţa. Astfel putem folosi spre exemplu cercul de structură, considerând suprafaţa cercului, exprimată prin 360° direct proporţională cu volumul colectivităţii. Numărul de grade corespunzator sectoarelor de cerc se determina pe baza regulii de 3 simple. Se haşureaza diferit fiecare pe cerc fiecare grupa din cadrul colectivităţii totale. Pe aceeaşi regula se bazeaza şi celelalte reprezentări grafice de structură. Dacă avem un dreptunghi, a cărei înalţime este proporţională cu 100%, se hasureaza (coloreaza) diferit pentru fiecare grupă, corespunzător procentului respectiv, marcat pe ordonaţa graficului. Boxplot – graficul medianei. Construcţia lui presupune, ca la aflarea medianei, ordonarea datelor şi împărţirea lor de această dată în patru grupe, fiecare reprezentând 25% din distribuţie. Sunt reprezentate valoarea minimă şi maximă fără outlieri (valorile variabilei care depăşesc de 1,5 ori intervalul interquartilic, respectiv Q3-Q1), Q1, Q3 şi mediana.

Histograma – grafic al seriilor de repartiţie cu intervale (variaţie continua). Pe axa abciselor este reprezentat prin segmente de dreaptă mărimea intervalelor de grupare, iar pe axa ortodanatelor se reprezintă frecventele. Pe axa abciselor se construiesc dreptunghiuri ale căror suprafete sunt direct proporţionale cu volumul grupelor. În SPSS se trasează şi curba distribuţiei normale pentru a compara distribuţie observată cu cea teoretică.

Valoarea maximă

Quartila 3

Mediana

Quartila 1

Valoarea minimă


54

3.4. Reprezentarea grafică în SPSS În SPSS găsim o multitudine de tipuri de grafice, organizate în principal în meniul Graphs, pe două module:

Cele mai utilizate grafice din meniul Graphs sunt următoarele: - Bar – graficul prin bare - Line - graficul prin linie - Pie – graficul de structură “plăcintă” - Boxplot – grafic folosit pentru a prezenta amplitudinea, intervalul interquartilic şi mediana unei serii - Histograma – graficul frecvenţelor de apariţie pentru diferite intervale de repartiţie ale variabilei observate - Scatterplot – graficul “nor de puncte” sau corelograma, este folosită pentru a reprezenta relaţiile dintre două variabile 3.4.1. Graficul prin bare (Bar) Acest tip de grafic poate reprezenta :

1. Datele statistice din baza de date

Se execută următoarea comandă: Graphs->Legacy Dialogs-> Bar ->fereastra Bar Charts: alegem opţiunea Simple şi în caseta Data in Chart Are bifăm Values of individual cases, click pe butonul Define ->fereastra Define Simple Bar - Values of individual cases: se

Grafice define– Legacy Dialogs

Grafice create– Interactive


55

alege din listă variabila pentru care dorim să construim graficul şi o mutăm în caseta Bar Represent -> click pe butonul OK


56

În fereastra Viewer se va obţine graficul prin bare ce reprezintă mediile obţinute la absolvirea liceului de cei 40 de studenţi, plecând de la fişierul deja prezentat în capitolul anterior note.sav .

Pentru a avea scrise în grafic şi valorile mediei de absolvire se va executa comanda: dublu click pe graficul din Viewer ->fereastra Chart Editor: click dreapta pe grafic şi se alege Show Data Labels .


57

2. Analiza datelor statistice din baza de date

Se execută următoarea comandă: Graphs->Legacy Dialogs-> Bar ->fereastra Bar Charts: alegem opţiunea Simple şi în caseta Data in Chart Are bifăm Summaries for groups of cases click pe butonul Define ->fereastra Define Simple Bar - Summaries for groups of cases: se alege din listă variabila pentru care dorim să construim graficul şi o mutăm în caseta Category Axis -> click pe butonul OK.


58


59

În fereastra Viewer se va obţine graficul prin bare a cărei înălţime reprezintă numărul de studenţi care au media în intervalul aferent (s-a plecat tot de la fişierul note.sav).

3.4.2. Graficul prin linie (Line) Acest tip de grafic poate reprezenta :

1. Datele statistice din baza de date

Se execută următoarea comandă: Graphs->Legacy Dialogs->Line ->fereastra Line Charts: alegem opţiunea Simple şi în caseta Data in Chart Are bifăm Values of individual cases click pe butonul Define->fereastra Define Simple Line - Values of individual cases: se alege din listă variabila pentru care dorim să construim graficul şi se mută în caseta Line Represent -> click pe butonul OK.


60

În fereastra Viewer se va obţine graficul prin linie ce reprezintă cifra de afaceri a primelor 10 unităţi locale active din baza de date asa.sav, plecând de la fişierul deja prezentat în capitolul anterior.

2. Analiza datelor statistice din baza de date

Se execută următoarea comandă: Graphs->Legacy Dialogs-> Line ->fereastra Line Charts: alegem opţiunea Simple şi în caseta Data in Chart Are bifăm Summaries for


61

groups of cases click pe butonul Define ->fereastra Define Simple Line - Summaries for groups of cases: se execută comenzile:

-se alege din listă variabila pentru care dorim să construim graficul, respectiv variabila de pe axa X, şi o mutăm în caseta Category Axis;

- în caseta Line Represents se bifează opţiunea Other statistics (e.g., mean) iar variabila pentru care dorim să calculăm un indicator statistic, respectiv variabila de pe axa Y, se mută în caseta Variable-> click pe butonul OK.


62

În fereastra Viewer se va obţine un grafic linie ce reprezintă cifrele de afaceri medii obţinute de cele 3 categorii de unităţi locale active distribuite în funcţie de numărul de salariaţi.

Intrepretarea graficului Se observă că cifra medie de afaceri obţinută de unităţile cu peste 250 de salariaţi este cu mult mai mare decât cifrele medii de afaceri realizate de unităţile cu un număr mai mic de salariaţi.

3.4.3. Graficul “plăcintă” ( Pie) Acest tip de grafic reprezintă structura după o variabilă categorială a bazei de date.

Se execută următoarea comandă: Graphs->Legacy Dialogs->Pie ->fereastra Pie Charts: în caseta Data in Chart Are alegem opţiunea Summaries for groups of cases click pe butonul Define ->fereastra Define Pie - Summaries for groups of cases: se alege din listă variabila categorială pentru care dorim să construim graficul şi se mută în caseta Define Slices by, iar în caseta Slices Represent se bifează % of cases-> click pe butonul OK.


63

În fereastra Viewer se va obţine graficul plăcintă ce reprezintă distribuţia pe medii de rezidenţă a unităţilor locale active din baza de date asa.sav, plecând de la fişierul deja prezentat în capitolul anterior.


64

Intrepretarea graficului Se observă că 92% din unităţile locale active îşi desfăşoară activitatea în mediul urban şi doar 8% în mediul rural.

3.4.4. Graficul Boxplot Boxplot-ul se poate construi executând comanda: Graphs -> Legacy Dialogs -> Boxplot-> fereastra Boxplot: alegem opţiunea Simple şi în caseta Data in Chart Are bifăm Summaries of Separate Variables click pe butonul Define ->fereastra Define Simple Boxplot: Summaries of Separate Variables: se alege din listă variabila pentru care vrem să construim Boxplot-ul şi se trece în caseta Boxes Represent, click pe butonul OK


65

În fereastra Viewer se va obţine graficul boxplot ce reprezintă distribuţia ierarhică a studenţilor în funcţie de scorul obţinut la admiterea la facultate, plecând de la fişierul note.sav.

Outlier - primul student înregistrat în baza de date


66

Interpretarea rezultatelor: distribuţia studenţilor după scorul obţinut este relativ omogeană cu o uşoară asimetrie spre stânga, studenţii aglomerându-se către valorile mici ale scorului.

3.4.5. Graficul Histogramă Histograma se poate construi executând următoarele comenzi: 1. comanda Graphs -> Legacy Dialogs -> Histogram -> fereastra Histogram: alegem din listă variabila pentru care dorim să construim histograma şi o trecem în caseta Variable şi bifăm opţiunea Display normal curve dacă se doreşte construirea curbei distribuţiei normale -> click pe butonul OK.

În fereastra Viewer se va obţine histograma ce reprezintă distribuţia studenţilor în funcţie de scorul obţinut la admiterea la facultate, plecând de la fişierul note.sav.

Se observă că SPSS a ales să îi distribuie pe cei 40 de studenţi pe 11 intervale egale iar mărimea intervalului este de 5 puncte.


67

Acesta este principalul dezavantaj a comenzi din Legacy Dialogs, SPSS alege în locul utilizatorului, acesta nu are nici un control asupra construiri graficului.

2. comanda Graphs -> Legacy Dialogs -> Interactiv ->Histogram -> fereastra Create Histogram în care se fac următoarele operaţiuni: - pagina Assign variables: alegem din listă variabila pentru care dorim să construim histograma şi se „trage” în caseta de pe axa X - pagina Histogram: în caseta Interval Size debifăm Set interval size automatically – dacă nu dorim să aleagă SPSS numărul de interval sau mărimea intervalelor - şi alegem una din opţiunile Number of intervals şi scriem în caseta alăturată cât intervale dorim sau Width of interval şi scriem în caseta alăturată mărimea dorită a intervalului->click pe butonul OK


68

În fereastra Viewer se va obţine histograma ce reprezintă distribuţia studenţilor pe 4 intervale egale în funcţie de scorul obţinut la admiterea la facultate, plecând de la fişierul note.sav. Se observă că SPSS a distribuit pe cei 40 de studenţi pe 4 intervale, cum a cerut utilizatorul, însă dezavantajul acestei opţiuni este că nu se ştie cu exactitate care este mărimea intervalului de grupare.


69

sau opţinea :

În fereastra Viewer se va obţine histograma ce reprezintă distribuţia studenţilor pe intervale egale a căror mărime este de 8 puncte în funcţie de scorul obţinut la admiterea la facultate, plecând de la fişierul note.sav.

am ales 4 intervale de grupare


70

Se observă că SPSS a distribuit pe cei 40 de studenţi pe intervale a căror mărime este de 8 puncte, însă dezavantajul acestei opţiuni este că nu se ştie pe câte intervale va fi pusă distribuţia. Interpretarea graficului: Cei mai mulţi studenţi, 25 din cei 40 analizaţi, au scorul la admitere la facultate între 48 şi 56 puncte, iar distribuţia studenţilor după scorul obţinut prezintă o uşoară asimetrie spre stânga. Deasemenea, tot din Interactive Histogram se mai poate construi şi histograma frecvenţelor cumulate. Acest grafic se obţine executând comanda : Graphs -> Legacy Dialogs -> Interactiv ->Histogram -> fereastra Create Histogram în care se fac următoarele operaţiuni: - pagina Assign variables: alegem din listă variabila pentru care dorim să construim histograma frecvenţelor cumulate şi se „trage” în caseta de pe axa X apoi se bifează opţiunea Cumulative histogram - pagina Histogram: în caseta Interval Size, am preferat să debifăm Set interval size automatically şi alegem opţiunea Width of interval (scriem în caseta alăturată mărimea dorită a intervalului)->click pe butonul OK

am ales mărimea intervalului de grupare de 8 puncte


71

Notă: Am preferat opţiunea (Width of interval) ca utilizatorul să alegă mărimea intervalului de grupare pentru că astfel va fi mai uşor de analizat rezultatele din Viewer respectiv de interpretat histograma cu frecvenţele cumulate.


72

Interpretarea rezultatelor: Din cei 40 de studenţi analizaţi 36 au obţinut un scor la admiterea la facultate de pâna la 64 de puncte . 3.4.6. Graficul Scatterplot

Acest grafic Scatterplot denumit nor de puncte sau corelogramă este utilizat în reprezentarea legăturii statistice exprimate cantitativ dintre 2 fenomene . Construirea graficului presupune comanda: Graph -> Legacy Dialogs -> Interactive -> Scatterplot -> fereastra Create Scatterplot în care se fac următoarele operaţiuni: -pagina Assign Variables: se mută, prin tragere, în caseta de pe axa X variabila independentă, iar în caseta de pe axa Y variabila dependentă, -pagina Fit alegem din caseta Method opţiunea Regression, click pe butonul OK. Am utilizat datele statistice din fişierul note.sav, astfel că în fereastra Viewer se va obţine corelograma (Scatterplot) ce va reprezinta legătura, ce ar trebui să existe, între media obţinută la absolvirea liceului (pe care o vom considera variabila independentă) şi scorul la admitere la facultate (aceasta va fi variabila dependentă).


73


74

Interpretarea rezultatelor: Legătura dintre media obţinută de un student la absolvirea liceu şi scorul obţinut de acesta la admiterea la facultate este puternică, directă si liniară.


75

Temă propusă pentru studiul individual Avem următoarea bază de date ce conţine informaţii privind distribuţia pe judeţe a numărului mediu de salariaţi în anii 2008-2010, a numărului mediu al salariaţilor bărbaţi şi femei în anul 2010 (mii persoane).

2008 2009 2010 bărbaţi femeiBihor 167 159 147 72 75Bistrita-Nasaud 61 57 52 25 27Cluj 199 187 179 92 87Maramures 94 92 86 45 41Satu Mare 77 76 71 35 36Salaj 48 44 39 19 20Alba 92 84 75 39 36Brasov 169 151 145 78 67Covasna 51 48 41 20 21Harghita 67 63 59 31 28Mures 131 125 115 61 54Sibiu 122 116 109 57 52Bacau 122 111 101 51 50Botosani 57 56 48 22 26Iasi 165 153 137 70 67Neamt 87 82 74 38 36Suceava 102 100 89 47 42Vaslui 61 55 50 23 27Braila 76 72 63 33 30Buzau 87 82 75 39 36Constanta 194 187 170 92 78Galati 128 118 106 60 46Tulcea 46 44 39 20 19Vrancea 60 55 51 23 28Arges 147 136 124 66 58Calarasi 47 44 41 20 21Dambovita 84 80 72 36 36Giurgiu 34 33 30 16 14Ialomita 48 48 41 22 19Prahova 183 180 161 85 76Teleorman 58 54 50 27 23Ilfov 104 106 99 53 46Municipiul Bucuresti 922 886 820 437 383Dolj 136 129 119 62 57Gorj 79 80 71 44 27Mehedinti 49 46 40 21 19Olt 75 67 60 32 28Valcea 85 79 73 40 33Arad 124 111 107 54 53Caras-Severin 64 59 51 27 24Hunedoara 129 118 109 55 54Timis 217 203 187 102 85Sursa datelor: baza de date TEMPO-Online, a I.N.S.

Numărul mediu al salariaţilor pe judeţeNumărul mediu total de salariaţi (mii

persoane) în anul:pentru anul 2010, din

care:


76

Se cere: - să se construiască histograma şi curba distribuţiei normale (prin 3 metode) pentru distribuţia pe judeţe a salariaţilor din 2010.(salariaţii vor fi grupaţi în 5 grupe) - să se construiască un grafic bară pentru judeţele regiunii de N-E ce reprezintă numărul de salariaţi total, salariaţi bărbaţi şi femei în anul 2010 - să se construiască un grafic line pentru judeţele regiunii de N-E ce reprezintă numărul de salariaţi în anii 2008, 2009 şi 2010 - să se construiască un boxplot (prin 2 metode) pentru variabilele numărul de salariaţi şi numărul de salariaţi femei pentru anul 2010 - să se construiască grafic pie ce reprezintă distribuţia procentuală a primelor 10 judete pe principalele 5 categorii de salariati - să se construiască un scatterplot pentru variabilele numărul de salariaţi şi numărul de salariaţi femei din anul 2010.

Capitolul 4 – Mărimile medii şi indicatorii de poziţie şi variaţie în SPSS

77


Mărimile medii şi iMărimile medii şi iMărimile medii şi iMărimile medii şi indicatorindicatorindicatorindicatorii i i i de poziţie de poziţie de poziţie de poziţie şi variaţie în SPSSşi variaţie în SPSSşi variaţie în SPSSşi variaţie în SPSS

________________________________________________________________________ Obiective Capitolul de faţă are drept principal obiectiv înţelegerea şi însuşirea comenzilor din SPSS necesare calculării indicatorilor tendinţei centrale şi dispersiei. Cuvinte cheie: comenzile: Case Summaries, Frequencies: Statistics One-Way ANOVA şi indicatorii: Mean, Sum, Std. Deviation, Variance, Range, Minimum, Maximum, Skewness, Sum of Squares Between Groups, Sum of Squares Within Groups, Sum of Squares Total; testului F respectiv valoare Sig. ________________________________________________________________________

4.1. Mărimile medii şi indicatorii de poziţie şi variaţie 4.1.1. Mărimi medii Mediile sunt mărimi statistice care exprimă în mod sintetic şi generalizat, ceea ce este normal, legic, esenţial, tipic, pentru toate unităţile colectivităţii distribuite după o caracteristică. Caracteristicile mediei: • se exprimă în mod sintetic (printr-o singură valoare) • are un caracter abstract (chiar dacă se măsoara în unitaţi de măsura concret) • este o mărime generalizată, dacă înlocuim fiecare termen cu

• sintetizează normalul (exprimă nivelul purtat de majoritatea unităţilor colectivităţii). Într-o distribuţie normală, ocupă o poziţie centrală spre care tinde majoritatea unităţilor colectivităţii. Rezultă că este considerată speranţa matematică a acestora. Obţinerea lor se face prin două operaţii: • cumularea termenilor seriei fie prin


78

• apoi revenirea (prin împărţire sau radical) la un nivel reprezentativ pentru toţi termenii incluşi în calcul. Mărimi medii de poziţie se află prin depistarea termenului ce ocupă poziţia centrală în distribuţia statistică. Mărimi medii simple se calculează în cazul seriilor statistice simple (fără frecvenţă), adică pentru seriile în care variantele caracteristicii de distribuţie sunt purtate de câte o singură unitate statistică sau când frecvenţele de apariţie sunt egale între ele. Mărimi medii ponderate se calculează când variantele caracteristicii au frecvenţe diferite (serii cu frecvenţă). 1. Media aritmetică Este cea mai cunoscuta medie şi se mai numeste simplu: medie. Este principalul indicator mediu al tendintei centrale. Definiţie Media este rezultatul sintetizării într-o singură expresie numerică a tuturor nivelurilor individuale observate, obţinută prin raportarea valorii totalizate a caracteristicii la numărul total al unităţilor. Astfel, media este valoarea pe care ar purta-o fiecare unitate statistică dacă distribuţia ar fi omogenă. • medie simplă când:

unde:

• medie ponderată când:

Un alt indicator mediu utilizat este: 2. Media geometrică Spre deosebire de media aritmetică, care se bazează pe relaţii de însumare directă între termenii seriei, media geometrică se bazează pe relaţia de produs dintre ei. Media


79

geometrică reprezintă acea valoare cu care, dacă se înlocuiesc toţi termenii seriei şi se face produsul lor, valoarea la care se ajunge este egală cu produsul termenilor reali, adică:

În cazul unei serii de distribuţie de frecvenţă, fiecare termen trebuie să fie luat în funcţie de frecvenţa sa. Aceasta înseamnă că, în cazul mediei geometrice, fiecare termen se înmulţeşte de un număr egal cu frecvenţa lui în cadrul seriei, deci frecvenţele devin puterile la care se ridică fiecare termen:

4.1.2. Indicatorii variaţiei Indicatorii variaţiei şi asimetriei pot fi folosiţi la caracterizarea independentă a fenomenelor, la estimarea erorilor de selecţie, în analiza corelaţiei statistice şi în general, în toate cazurile când se folosesc mărimi medii şi trebuie să se interpreteze măsura în care ele sunt reprezentative pentru toţi termenii individuali din care au fost calculate. Indicatorii variaţiei pot fi calculaţi ca indicatori simpli şi ca indicatori sintetici. 4.1.2.1. Indicatorii simpli ai variaţiei Indicatorii simpli ai varia ţiei servesc pentru a caracteriza gradul de împrăştiere a unităţilor purtătoare ale caracteristicilor înregistrate. Ei se calculează pentru a măsura amplitudinea variaţiilor şi abaterilor valorilor individuale de la media lor. Aceşti indicatori se pot exprima atât în mărimi absolute, folosind aceleaşi mărimi ca şi pentru caracteristica studiata, cât şi în mărimi relative, calculate în raport cu valoarea mediei. Amplitudinea absolută a variaţiei (A) se calculează ca diferenţă între nivelul maxim (xmax) şi nivelul minim (xmin) al caracteristicii:


80

A = xmax – xmin În cazul unei serii de distribuţie de frecvenţe, A se calculează ca diferenţă între limita maxima a intervalului superior şi limita inferioară a intervalului inferior. Dacă intervalele sunt deschise, atunci A se determină după ce s-au închis, în mod convenţional intervalele extreme. Amplitudinea relativ ă a variaţiei (A%) se exprimă de regulă în procente şi se calculează ca raport între amplitudinea absolută a variaţiei şi nivelul mediu al caracteristicii:

“A” nu este un indicator suficient de semnificativ deoarece nu ţine seama decât de valorile extreme ale caracteristicii ori asupra variaţiei unui fenomen influenţeaza toate valorile individuale şi frecvenţele lor de apariţie. “A” se foloseşte în prelucrarea statistică la alegerea nr. de grupe şi a mărimii intervalului de grupare. Abaterile individuale absolute (di) se calculează ca diferenţe între fiecare variantă înregistrată şi media aritmetică a acestora:

Numai în cazul distribuţiei perfect simetrice dmax.negativ = dmax.pozitiv. Indicatorii simpli ai variaţiei fiind calculaţi pe baza relaţiilor dintre doi termeni ai seriei sau între fiecare termen şi media lor, nu pot exprima întreaga variaţie a unei caracteristici înregistrate. De aceea este necesar să se calculeze şi indicatorii sintetici ai variaţiei care iau în consideraţie toate abaterile caracteristicii. 4.1.2.2. Indicatorii sintetici ai variaţiei Pentru a sintetiza într-o singura expresie numerică întreaga variaţie a unei caracteristici trebuie să se recurgă tot la o valoare medie calculată din abaterile individuale ale variantelor de la media lor. Indicatorii sintetici ai variaţiei sunt: abaterea medie liniară, abaterea medie pătratică, dispersia şi coeficientul de variaţie.


81

Abaterea medie liniară ( ) se calculeaza ca o medie aritmetică simplă sau ponderată din abaterile termenilor seriei de la media lor, luate în valoare absoluta; -pentru o serie simplă:

-pentru o serie de frecvenţe absolute:

- pentru o serie cu frecvenţe relative, exprimate în procente:

Abaterea medie liniară prezintă dezavantajul că nu ţine seama de faptul că abaterile mai mari în valoare absolută influenţează în mai mare măsură gradul de variaţie a unei caracteristici, în comparaţie cu abaterile mai mici. Abaterea medie pătratic ă sau abaterea standard (σ ) Se calculează ca o medie pătratică din abaterile individuale ale termenilor seriei de la media lor. -pentru o serie simplă:

-pentru o serie cu frecvenţe absolute:

-pentru o serie cu frecvenţe relative exprimate în procente:

σ va fi întotdeauna > abaterea medie liniară a aceleiaşi serii de date. În literatura de specialitate se apreciază că pentru o serie de distribuţie cu tendinţa clară de normalitate, abaterea medie liniară = 4/5 din valoarea abaterii medii pătratice. σ este un indicator de bază, care se foloseşte în analiza variaţiei, la estimarea erorilor de selecţie, în calculele de corelaţie. Atât σ cât şi se exprimă în aceleaşi unitaţi de măsură ca şi cele ale caracteristicii a cărei variaţie o studiază.


82

Pentru compararea gradului de variaţie a două sau mai multe caracteristici statistice se foloseşte coeficientul de variaţie. Coeficientul de variaţie ( v ) se calculează ca raport între abaterea medie pătratică şi nivelul mediu al seriei. De obicei se exprimă sub forma de procente.

Dacă se cunoaşte numai abaterea medie liniară se poate calcula şi astfel:

Se apreciaza pentru interpretare următoarele limite ale coeficientului de variaţie:

Coeficientul de variaţie - v - poate lua valori între 0 şi 100. Cu cât are o valoare mai mică, cu atât seria statistică este mai omogenă şi deci media este mai reprezentativă. Se apreciaza că, în cazul unui coeficient de peste 35-40% media nu este reprezentativă şi datele trebuie să fie separate în serii componente, pe grupe, în funcţie de variaţia unei alte caracteristici de grupare. Deci, v poate fi folosit ca un test de verificare în aplicarea metodei gruparilor.

Dispersia unei caracteristici se noteaza cu şi se calculeaza ca o medie aritmetică simplă sau ponderată a pătratelor abaterilor termenilor faţă de media lor. Deci se mai poate numi şi pătratul mediu al abaterilor termenilor faţă de media lor: -pentru o serie simplă:

-pentru o serie cu frecvenţe absolute:

-pentru o serie cu frecvenţe relative exprimate în procente:


83

4.1.3. Indicatorii medii de poziţie 4.1.3.1. Modul( Mo ) sau dominanta Modulul (Mo) sau dominanta reprezintă valoarea caracteristicii cu frecvenţa de apariţie cea mai mare. Deci este valoarea cea mai frecvent întâlnită. În cazul unei serii de repartiţie pe intervale egale, valoarea Mo se determină prin identificarea intervalul modal (cel cu fi cea mai mare, sau în cazul seriilor de distribuţie cu intervale inegale, intervalul cu frecvenţa redusă cea mai mare);

4.1.3.2.Cuantile Cuantilele sunt indicatori care descriu anumite poziţii particulare din cazul seriilor de distribuţie. Conceptul de “cuantila” indică o divizare a distribuţiei observaţiilor într-un număr oarecare de părţi. Prin urmare, cuantilele de ordin “r” ( Cr ) sunt valori ale caracteristicilor urmărite care împart distribuţia observaţiilor în “ r” părţi egale şi au

acelaşi efectiv din numărul total al unităţilor. Frecvent se utilizează urmatoarele cuantile: - mediana sau cuantila de ordin 2 ( r = 2 ); - quartilele sau cuantilele de ordin 4 ( r = 4 ); - decilele sau cuantilele de ordin 10 ( r = 10 ); - centilele sau cuantilele de ordinul 100 ( r = 100 ). Cuantile de ordin superior r = 4 se calculează în cazul distribuţiilor cu număr mare de grupe sau clase de valori individuale. 4.1.3.3 Mediana – Me Este acea valoare a caracteristicii unei serii ordonate crescător sau descrescător care împarte seria în 2 părţi egale: ˝ jumătate din unitaţi < Me , cealaltă jumătate ˝ > Me . Din această cauza, mediana se mai numeste valoarea echiprobabilă a caracteristicii. 1. În cazul unei serii simple: se ordoneaza crescător sau descrescător termenii: a) Dacă seria are un număr impar, atunci termenul de la mijloc, având rangul va fi valoarea Me. b) Dacă seria are un nr. par de termeni, Me se determina în mod convenţional, ca medie aritmetica între cei 2 termeni centrali. 2. În cazul seriilor de distribuţie cu frecvenţe: Calculul locului .

(unitatea mediana)


84

Dacă

Intervalul median va fi considerat intervalul în care frecvenţele cumulate depăşesc locul Me în serie. Mediana se exprimă în unitatea de măsură a caracteristicii studiate. 4.1.4. Asimetria În practica statisticii social-economice se pot întâlni serii de distribuţie de frecvenţe simetrice, uşor asimetrice sau cu tendinţa pronunţată de asimetrie. La interpretarea gradului de asimetrie se porneşte de la poziţia şi valorile pe care le au cei trei indicatori ai tendinţei centrale: Media, Me şi M0. În special calculul asimetriei se bazează pe relaţia dintre Me şi M0. Astfel, o serie poate fi în una din cele 3 situaţii:

Gradul de reprezentativitate al mediei creşte pe măsură ce seria se apropie mai mult de distribuţia simetrică şi are un câmp mai redus de variaţie a caracteristicii. De aceea este necesar ca pe lângă indicatorii variaţiei să se calculeze şi indicatorii de asimetrie. Pentru interpretarea asimetriei se foloseşte coeficientul de asimetrie (Cas) şi exprimă gradul de dezechilibru al unei distribuţii.

Cu cât Cas este mai mic în valoare absolută, cu atât asimetria este mai mică. Într-o serie perfect simetrica, Cas = zero, deoarece Me coincide în valoare cu M0 seriei. Dacă Me > M0 seriei, atunci Cas este cuprins între 0 şi 1, deci există o asimetrie pozitiva; Dacă M0 > Me, Cas este cuprins între –1 şi 0, deci există o asimetrie negativă. O valoare mare a Cas indică o distribuţie care diferă semnificativ de o distribuţie normală, simetrică.


85

4.2. Determinarea mărimilor medii şi indicatorilor de poziţie şi variaţie în SPSS În SPSS avem posibilitatea să calculăm următorii indicatori :

- Mean = media aritmetică - Median =mediana - Mode = modulul - Sum = suma tuturor cazurilor înregistrate - Quartiles = cuantilele de ordin 4 - Std. Deviation = abaterea medie pătratică - Variance = dispersia - Range = amplitudinea absolută a variaţiei - Minimum = valoarea minimă a variabilei alese - Maximum = valoarea maximă a variabilei alese - Skewness= coeficient de asimetrie

Determinarea în SPSS a mărimilor medii şi a indicatorilor de poziţie şi variaţie aferenţi unei colectivităţi simple se poate face executând următoarea comandă: Analyze -> Descriptives Statistics ->Frequencies ->fereastra Frequencies: alegem din listă variabila sau variabilele pentru care dorim să calculăm indicatorii şi le trecem în caseta Variable(s), click pe butonul Statistics -> fereastra Frequencies: Statistics: bifăm în casetele de lângă indicatorii pe care dorim să-i analizăm şi click pe butonul Continue ->fereastra Frequencies: debifăm opţiunea Display frequency tables şi click pe butonul OK.


86

În fereastra Viewer se va obţine un tabel Statistics în care sunt determinaţi indicatorii tendinţei centrale şi variaţie pentru variabilele media obţinută la absolvirea liceului şi scorul la admitere la facultate, din fişierul de date note.sav.


87

Interpretarea celor mai importante rezultate pentru variabila media obţinută la absolvirea liceului :

- N Valid = 40 -> Analiza statistică se face având la bază 40 de înregistrări valide - Missing = 0 -> Nu există valori lipsă - Mean = 9,29 -> media de absolvire la liceu a celor 40 de studenţi analizaţi este de

9,29 - Median = 9,30 -> jumătate din studenţi au obţinut o media de absolvire la liceu

de sub 9,30 şi jumătate peste - Mode = 8,79 -> cea mai mică medie de absolvire obţinută de cei mai mulţi dintre

studenţi este de 8,79 (seria este plurimodală) - Std. Deviation = 0,37 -> aproximativ 68% dintre studenţi au media obţinută la

absolvirea liceului cuprinsă într-un interval egal cu media plus sau minus valoarea abaterii medii pătratice, respectiv : 9,29 +/- 0,37

- Variance = 0,13 -> dispersia serie este de 0,13 puncte - Skewness= 0,07-> există o asimetrie pozitivă moderată - Range = 1,25-> diferenţa dintre cea mai mare medie de absolvire la liceu obţinută

de studenţii analizaţi şi cea mai mică este de 1,25 puncte - Minimum= 8,69-> cea mai mică medie obţinută la absolvirea liceului de studenţii

analizaţi este de 8,69 - Maximum= 9,94 -> cea mai mare medie obţinută la absolvirea liceului de studenţii

analizaţi este de 9,94 - Percentiles 25 = 8,98 -> 25% din studenţi au obţinut o media de absolvire la liceu

de sub 8,98 - 50 = 9,30 -> jumătate din studenţi au obţinut o media de absolvire la

liceu de sub 9,30 - 75 = 9,61 -> 75% din studenţi au obţinut o media de absolvire la liceu

de sub 9,61


88

4.3. Mărimile medii şi indicatorii varia ţiei pentru o colectivitate împăr ţită în grupe Cu cât fenomenele sunt mai complexe, cu atât gradul de variaţie este mai mare. Din această cauză unităţile la care s-a făcut observarea trebuie împărţite în grupe, în funcţie de variaţia factorilor determinanţi. Dacă s-a aplicat în prealabil metoda grupării, atunci se pot calcula atât indicatori ai tendinţei centrale şi variaţiei pe grupe, cât şi o medie a colectivităţii totale şi, corespunzător se vor calcula indicatorii de variaţie pentru fiecare grupă cât şi pe întreaga colectivitate. Indicatorii de variaţie pe întreaga colectivitate se pot calcula fie făcând abstracţie de faptul că ea este compusă din mai multe grupe, fie luând în calcul variaţia din interiorul grupelor şi între grupe. Între indicatorii de variaţie calculaţi la nivelul fiecărei grupe şi cei pe întreaga colectivitate există anumite relaţii, bazate pe regula adunării dispersiilor. Presupunând că s-au înregistrat datele pentru o caracteristică x şi unităţile au fost împărţite în “r” grupe, s-au obţinut următoarele distribuţii condiţionate de factorul de grupare. Putem calcula 3 feluri de indicatori care să caracterizeze: - variaţia valorilor în jurul mediei lor de grupă - variaţia valorilor mediilor de grupă în jurul mediei colectivităţii totale - variaţia valorilor în jurul mediei totale Pentru a măsura gradul de variaţie provocat de acţiunea combinată a celor 2 categorii de factori variabili se foloseşte metoda analizei dispersiei bazată pe descompunerea dispersiei. Dispersia totală:

Dispersia de grupă (parţială):

Pentru a sintetiza într-o singură valoare variaţia întregii colectivităţi se calculează media

dispersiei parţiale ( ):


89

Dispersia dintre grupe se calculează pe baza abaterilor mediilor de grupă de la media colectivităţii totale şi măsoară gradul de influenţă a factorului de grupare asupra variaţiei caracteristicii studiate.

Între cei 3 indicatori există relaţia: Dispersia colectivităţii totale = media dispersiei parţiale + dispersia dintre grupe

cunoscută şi sub numele de regula de adunare a dispersiilor. 4.4. Determinarea mărimilor medii şi indicatorilor varia ţiei pentru o colectivitate împăr ţită în grupe în SPSS. Regula adunării dispersiilor Pentru a calcula indicatorii tendinţei centrale şi ai variaţiei pentru o colectivitate împărţită în grupe parcurgem următoarele etape:

- construim tabelul cu dublă intrare - calculăm mediile, dispersiile şi abaterile medii pătratice pe fiecare interval de

grupare după factorul determinant - verificarea regulii adunării dispersiilor folosind ANOVA

4.4.1. Construirea tabelului cu dublă intrare Aşa cum s-a prezentat în capitolul 3, tabelul cu dublă intrare se foloseşte atunci când colectivitatea a fost împărţită în grupe după variaţia a două caracteristici (x, y) şi au fost centralizate numai frecvenţele de apariţie ale valorilor x, y. Într-un tabel cu dublă intrare grupele formate după variaţia caracteristicii x reprezintă elementele componente ale subiectului, iar grupele formate după variaţia caracteristicii y elementele componente ale predicatului. În rubricile tabelului se trec frecvenţele valorilor x, y.


90

Rezultă că unităţile la care s-a făcut înregistrarea datelor se distribuie atât după variaţia lui x cât şi a lui y, pentru care deci numărul total al unităţilor observate (N) este egal cu suma frecventelor după x, cât şi cu cele după y. Tabelul cu dublă intrare se obţine executând comanda: Analyse ->Descriptive Statistics ->Crosstabs-> fereastra Crosstabs: din listă selectăm variabilele pentru care dorim să construim un tabel cu dublă intrare (aceste variabile trebuie să fie categoriale) şi le trecem în casetele Row(s) şi Column(s), după care click pe butonul OK. Observaţie: se recomandă ca pe rânduri Row(s) să fie pusă variabila categorială independentă, iar pe coloane Column(s) cea dependentă.


91

În fereastra Viewer se va obţine Tabelul cu dublă intrare ce reprezintă frecvenţele parţiale în funcţie de distribuţia studenţilor pe grupe de medii obţinute la absolvirea liceului şi pe scorul la admitere la facultate, plecând de la fişierul deja prezentat în capitolul anterior note.sav . Pe rândurile Row(s) tabelului s-a pus variabila categorială independentă media pe categorii iar pe coloane Column(s) variabila categorială dependentă scorul pe categorii.

Între cele două variabile prezentate în tabel există o relaţie de cauzalitate pentru că frecvenţele parţiale se află pe diagonala tabelului cu dublă intrare şi în aceste condiţii putem calcula indicatorii de variaţie corespunzători. 4.4.2. Calcularea mediilor, dispersiilor şi abaterilor medii pătratice pe fiecare interval de grupare după factorul determinant Pentru calcularea acestori indicatori se execută următoarea comandă: Analyze -> Reports -> Case Summaries ->fereastra Summarize Case: alegem din listă variabilele pentru care dorim să calculăm indicatorii şi le trecem în caseta Variable(s) respectiv Grouping Variables, se debifează opţiunea Display cases şi click pe butonul Statistics -> fereastra Summary Reports: Statistics: selectăm din caseta Statistics indicatorii pe care dorim să-i analizăm şi îi trecem în caseta Cell Statistics, click pe butonul Continue ->fereastra Summarize Case: se apasă pe butonul OK. Observaţie: se recomandă ca în caseta Variable(s) să fie pusă variabila categorială dependentă, iar în caseta Grouping Variables cea independentă. Astfel, pornind de la fişierul note.sav în caseta Variable(s) s-a pus variabila dependentă scorul pe categorii iar în caseta Grouping Variables variabila independentă media pe categorii .


92


93

În fereastra Viewer se va obţine tabelul Case Summaries ce reprezintă frecvenţele în funcţie de distribuţia studenţilor pe grupe de medii obţinute la absolvirea liceului dar şi indicatorii aferenţi scorului la admitere la facultate pentru fiecare interval de grupare.

Interpretarea celor mai importante rezultate din output :

- N = 40 pe total-> În total au fost 40 de studenţi analizaţi din care cei mai mulţi au obţinut o medie la absolvirea liceului între 8,80 şi 9,20

- Mean = 53,4 puncte pe total -> scorul mediu obţinut la admiterea la facultate de toţi studenţii analizaţi a fost de 53,4 de puncte, iar scoruri mai mari au obţinut, în general, studenţii care au media de absolvire a liceului între 9,60 şi 10,00 ce au un scor mediu la admitere de 61,6 de puncte

- Std. Deviation = 6,0 puncte pe total -> aproximativ 68% din cei 40 de studenţi analizaţi au scorul la admitere cuprins într-un interval egal cu media plus sau minus valoarea abaterii medii pătratice, respectiv: 53,4 +/- 6,0 puncte, în timp ce aproximativ 68% din studenţii cu media la liceu între 9,60 şi 10,00 au un scor la admitere cuprins în intervalul 61,6 +/- 3,4 puncte

- Variance = 35,73 puncte pe total -> dispersia seriei pe total este de 35,73 puncte 4.4.3. Verificarea regulii adunării dispersiilor folosind ANOVA În SPSS pentru a verifica regula adunării dispersiilor respectiv calcularea dispersiilor de grupă şi dintre grupe se execută următoarea comandă: Analyze -> Compare Means -> One-Way ANOVA ->fereastra One-Way ANOVA: alegem din listă variabilele pentru care dorim să calculăm indicatorii şi le trecem în caseta Dependent List (variabila dependentă) şi în caseta Factor (variabila independentă), click pe butonul OK.


94

Observaţie: în caseta Dependent List se pune variabila categorială dependentă iar în caseta Factor variabila categorială independentă. Astfel, pornind tot de la fişierul note.sav în caseta Dependent List am pus variabila categorială dependentă scorul pe categorii iar în caseta Factor variabila categorială independentă media pe categorii .

În fereastra Viewer se va obţine următorul tabel ANOVA:

Suma pătratelor abaterilor

Grade de libertate

Media pătratelor

Valoarea F calculat

Semnificaţia testului F Între grupe

În interiorul grupelor


95

Interpretarea celor mai importante rezultate din output :

o Sum of Squares Between Groups (suma pătratelor abaterilor între grupe) = 1173,5-> plecând de la această valoare se poate calcula dispersia şi abaterea medie pătratică între grupe. Dispersia între grupe se calculeză împărţind Sum of Squares Between Groups la numărul total al studenţilor analizaţi, iar abaterea medie pătratică între grupe scoţând radical din dispersia între grupe (σ =5,4 puncte)

o Sum of Squares Within Groups (suma pătratelor abaterilor de grupă) = 220,1-> plecând de la această valoare se poate calcula dispersia şi abaterea medie pătratică de grupă. Dispersia de grupă se calculeză împărţind Sum of Squares Within Groups la numărul total al studenţilor analizaţi, iar abaterea medie pătratică din interiorul grupei scoţând radical din dispersie de grupă (σ =2,3 puncte)

o Sum of Squares Total (suma pătratelor abaterilor pe total) = 1393,6-> plecând de la această valoare se poate calcula dispersia şi abaterea medie pătratică pe total. Dispersia pe total se calculeză împărţind Sum of Squares Total la numărul total al studenţilor analizaţi, iar abaterea medie pătratică pe total scoţând radical din dispersie (σ =5,9 puncte)

o testului F respectiv valoarea Sig. = 0,000->cu această valoare mai mică decât 0,05, testul F este semnificativ, ceea ce înseamnă că există o diferenţă semnificativă între cele 4 grupe de medii la absolvirea liceului în raport cu nivelul scorului obţinut la admiterea la faculate.


96

Temă propusă pentru studiul individual Avem următoarea bază de date ce conţine informaţii privind media de absolvire a liceului şi scorul obţinut la admitere la facultate pentru 40 de studenţi.

Nr_crtMedia de

absolvire din liceu

Scorul la admitere

1 9,94 682 9,85 663 9,84 644 9,83 645 9,81 626 9,78 617 9,75 608 9,64 599 9,63 57

10 9,63 5711 9,57 5712 9,54 5613 9,53 5614 9,52 5515 9,42 5516 9,37 5517 9,36 5518 9,35 5519 9,32 5420 9,31 5321 9,30 5322 9,23 5223 9,19 5224 9,16 5225 9,16 5126 9,13 5127 9,10 5128 9,01 5129 9,00 5030 9,00 5031 8,97 5032 8,96 5033 8,94 5034 8,88 4935 8,85 4836 8,79 4837 8,79 4838 8,72 4839 8,71 4740 8,69 47

Se cere:

- Să se calculeze indicatorii medii ai tendinţei centrale şi ai variaţiei separat pentru cele două variabile ale seriei.

- Să se calculeze indicatorii medii ai tendinţei centrale şi ai variaţiei pentru distribuţia bivariată prezentată în tabel

- Construiţi tabelul Anova pentru distribuţia bivariată prezentată în tabel.

Capitolul 5 - Analiza seriilor interdependente în SPSS

97

Capitolul 5Capitolul 5Capitolul 5Capitolul 5

Analiza seriilor interdependente în SPSSAnaliza seriilor interdependente în SPSSAnaliza seriilor interdependente în SPSSAnaliza seriilor interdependente în SPSS

________________________________________________________________________ Obiective Capitolul de faţă are drept principal obiectiv înţelegerea şi însuşirea metodelor şi comenzilor necesare analizării unor serii interdependente în SPSS. Cuvinte cheie: comenzile: Bivariate Correlations, Regression ->Curve Estimation şi fereastra Curve Estimation, şi indicatorii: Correlation Coefficients Pearson, Spearman, Kendall, Test of Significance Two-tailed sau One-tailed, Models: Liniar, Logarithmic, Quadratic, Exponential, Power şi Cubic, R Square, Unstandardized Coefficients B, Standardized Coefficients Beta ________________________________________________________________________ 5.1. Analiza regresiei şi corelaţiei Asupra fenomenelor social-economice acţionează un număr diferit de factori principali şi secundari, esenţiali şi neesenţiali, care se găsesc în legatură reciprocă. De asemenea, nu toate relaţiile de cauzalitate se manifestă cu aceeaşi intensitate, în acelaşi sens. Cu cât fenomenul studiat este mai complex, cu atât numărul factorilor ce-l influenţează este mai mare, iar relaţiile de cauzalitate mai dificil de identificat şi măsurat. De cele mai multe ori, factorii se asociază între ei şi uneori apar o serie de cauzalităţi în lanţ. Nu toţi aceşti factori se pot exprima numeric însă şi, de asemenea, nu orice expresie numerică poate fi rezultatul unor relaţii de la cauză la efect. Identificarea legăturii dintre fenomene se poate realiza numai în urma unei analize calitative multilaterale, în care pe lângă statistică se folosesc şi cunoştinte din alte ştiinţe ce studiază acelaşi domeniu. Legăturile sunt specifice fenomenelor social-economice şi se manifestă în medie pentru un număr mare de cazuri şi nu pentru fiecare caz în parte. Astfel, variaţia variabilei rezultative (Yi) este determinată într-o anumită măsură de variaţia uneia sau a mai multor variabile factoriale (Xi), precum şi de influenţa altor factori întâmplători.

unde: Yi = variabila rezultativă (numită şi variabilă dependentă sau efect sau caracteristică endogenă sau variabilă determinată); Xi = variabile factoriale (numite şi variabile independente sau de cauzalitate sau variabile exogene sau variabile explicative);


98

e = variabila eroare (reziduu), care reprezintă influenţa tuturor factorilor neincluşi în model, consideraţi ca “eroare“ de modelare. 5.1.1. Tipuri de legături Legăturile statistice pot fi clasificate în funcţie de diferite criterii: a) După numărul caracteristicilor corelate avem: - legături simple (când o singură caracteristică factorială esenţială determină o caracteristică rezultativă):

(ex: suprafaţa comercială influenţează valoarea vânzărilor într-un magazin). - legături multiple (când avem mai mult de 2 caracteristici factoriale). (ex. se analizează volumul vânzărilor în funcţie de suprafaţa comercială exprimată în m2(X1) şi mărimea stocurilor (X2)). b) După modul de exprimare al caracteristicilor putem avea: - legături statistice exprimate cantitativ (numeric), numite şi legături de corelaţie; ex.: valoarea încasărilor la un spaţiu de cazare (Yi ) în funcţie de numărul locurilor de cazare (Xi). - legături statistice exprimate prin cuvinte (calitative), numite şi legături de asociere; ex.: legătura dintre studii şi ocupaţii. Legăturile dintre caracteristicile numerice se mai numesc şi corelaţii statistice, iar cele dintre caracteristici calitative se mai numesc asocieri statistice. c) După direcţia legăturii putem întâlni: - legături directe (când la creşterea valorii caracteristicii factoriale îi corespunde o creştere a valorii caracteristicii rezultative). ex.: la o creştere a salariului mediu va corespunde şi o creştere a vânzării bunurilor de uz îndelungat. - legături inverse (când la o creştere a valorii caracteristicii factoriale corespunde o scădere a valorii caracteristicii rezultative sau invers). ex.: o dată cu scăderea cheltuielilor materiale creşte eficienţa pe unitatea de produs. d) După forma legăturii putem avea: - legături liniare (când se exprimă sintetic prin ecuaţia dreptei). - legături curbilinii (când expresia analitică a legaturii este de alt tip decât liniar: parabola, hiperbola, exponenţiala, etc.). e) După timpul în care se realizează legăturile putem avea: - legături concomitente (sincrone); - legături cu decalaj (asincrone); Studierea legăturii dintre fenomene are la bază două metode: regresia şi corelaţia. Studiul regresiei urmăreşte a descrie modul în care o variabilă dependentă evoluează în funcţie de modificarea uneia sau a mai multor variabile cauzale, deci găsirea în final a unei funcţii matematice care să descrie cel mai bine legatura dintre variabile.


99

Metoda corelaţiei urmăreşte să stabilească gradul în care variabila cauzală influenţează modificarea variabilei efect. Probleme ce trebuiesc avute în vedere la cercetarea bazată pe regresie şi corelaţie a) Identificarea existenţei legăturii, printr-o analiză logică a posibilităţilor de existenţă a unei legături între variabilele considerate. Nu trebuie pornit la studiul statistic al regresiei şi corelaţiei decât după ce în prealabil s-a ajuns la concluzia că pot exista relaţii de la cauză la efect în domeniul studiat. b) Stabilirea sensului şi formei legăturii cu ajutorul metodelor analizei regresiei. c) Determinarea gradului de intensitate a legăturii cu ajutorul indicatorilor parametrici sau neparametrici ai intensităţii corelaţiei. 5.1.2. Metode de studiere a legăturilor dintre fenomene 5.1.2.1. Metode elementare a) Metoda seriilor statistice interdependente constă în compararea termenilor a 2 serii interdependente Xi şi Yi. Dacă comparăm 2 serii de timp, ordonăm termenii cronologic, iar când comparăm 2 serii de spaţiu sau de distribuţie, termenii se ordonează în ordinea crescătoare sau descrescătoare a variabilei independente xi. Prin compararea celor 2 serii putem evidenţia existenta şi direcţia legaturii. Dacă ambele variabile variază în acelaşi sens, avem o legatură directă, iar dacă variaţia lor este în sens diferit, corelaţia este inversă. Această metodă se aplică în cazul seriilor cu număr mic de variante. b) Metoda grupărilor statistice se foloseşte când avem un număr mare de variante. Se face gruparea valorilor variabilei xi pe intervale de variaţie şi se calculează valorile corespunzătoare ale variabilei yi sub forma unei mărimi derivate (de regulă ca nivel mediu). c) Metoda tabelului de corelaţie presupune gruparea simultană după ambele variabile corelate x şi y. Se recomandă folosirea intervalelor de grupare egale şi un număr aproximativ egal de grupe pentru ambele variabile. În funcţie de modul de distribuţie a frecvenţelor în tabel se poate aprecia existenta, direcţia şi intensitatea legăturii.Cu cât acestea se concentrează în jurul diagonalelor tabelului, cu atât corelaţia este mai intensă. d) Metoda grafică presupune reprezentarea grafică a perechilor de valori (xi,yi). Putem stabili existenţa, sensul, forma şi intensitatea corelaţiei folosind graficul numit corelogramă.


100

Cu ajutorul graficului se poate constata direcţia spre care se îndreaptă mulţimea (norul de puncte) cât şi apropierea punctelor faţă de o linie sau de o curbă ce pot fi trasate pe diagramă. În general pot exista următoarele situaţii:

1 şi 2 = corelaţie pozitivă, directă, valorilor crescătoare ale lui xi asociindu-li-se valori crescânde ale lui yi ; 3 şi 4 = corelaţie negativă, inversă, valorilor crescătoare ale lui xi li se asociază valori descrescânde pentru yi ; 5 şi 6 = inexistenţa legăturii, punctele fiind distribuite neuniform pe grafic; 2 şi 4 = ilustrează o relaţie strânsă între x şi y; 1 şi 3 = o legatură, dar mai slabă între cele 2 variabile corelate. 5.1.2.2. Metode analitice Mai întâi se construieşte corelograma şi se găseşte cel mai bun model teoretic corespunzător legăturii dintre cele 2 variabile. Apoi, se estimează parametrii ecuaţiei de regresie pe baza metodei celor mai mici patrate şi se interpretează regresia în funcţie de semnul şi valoarea lor.


101

Exemple de legături statistice 1. Tipuri de legături simple liniare

2. Legături de tip parabolic Parabola de gradul 2: Y=a+bx+cx2 prezintă un punct de maxim sau de minim în funcţie de semnul coeficientului de regresie “c“.

Parabola de gradul 3: Y=a+bx+cx2+ dx3


102

3. Legături de tip hiperbolic:

După ce s-a aproximat pe cale grafică funcţia care coincide cel mai bine legăturii dintre cele două fenomene corelate, urmează estimarea parametrilor modelului, testarea semnificaţiei acestora şi în final măsurarea intensităţii corelaţiei. Spre exemplu, în cazul modelului liniar cu două variabile:

Semnul parametrului “b” indică direcţia legăturii dintre cele 2 variabile corelate:

Valoarea parametrului “b” arată gradul de dependenţă dintre variabile, respectiv cu cât creşte sau scade “y” la o creştere sau la o scădere a variabilei “x” cu o unitate. Parametrii a şi b vor fi estimaţi prin metoda celor mai mici pătrate, al cărui principiu de bază constă în minimizarea sumei pătratelor abaterilor valorilor observate faţă de valorile calculate (teoretice).


103

Odată obţinute valorile parametrilor a şi b se calculează valoarea ecuaţiei de regresie pentru fiecare valoare a caracteristicii x. Aceste valori ale ecuaţiei de regresie se mai numesc şi valori teoretice ale caracteristicii y în funcţie de x, iar operaţia de înlocuire a termenilor reali cu valorile ecuaţiilor de regresie se numeşte ajustare. Cu alte cuvinte, prin ajustare se înţelege înlocuirea termenilor empirici (reali) obţinuţi din observare, cu termeni teoretici, care arată tendinţa medie de variaţie a caracteristicii rezultative, dacă aceasta ar fi depins numai de variaţia variabilei independente “x” considerate. 5.1.3. Metoda corelaţiei Prin metoda regresiei s-a găsit modelul matematic care corespunde cel mai bine legăturii dintre două sau mai multe fenomene din natură şi societate. Metoda corelaţiei vine să completeze metoda regresiei, stabilind cât de strânsă (intensă) este legătura dintre variabilele incluse în modelul de regresie. Altfel spus, cât de mult pot varia estimările făcute pe baza analizei de regresie. Intensitatea legăturii se poate măsura cu ajutorul raportului de corelaţie (Rxy ) sau a coeficientului de corelaţie (rxy). Contribuţii deosebite în studiul corelaţiei au fost aduse în special de Galton (coeficientul de corelaţie), Pearson (sistematizează analiza corelaţiei şi stabileşte teoria corelaţiei pentru 3 variabile), Yule (dezvoltă teoria corelaţiei multiple), Spearman (coeficientul de corelaţie a rangurilor). În cazul corelaţiei liniare simple se calculează fie raportul (indicele) de corelaţie (Rxy), fie coeficientul de corelaţie (rxy), în timp ce în cazul legăturii de tip curbiliniu nu se poate aplica decât raportul de corelaţie (Rxy). a) Calculul raportului de corelaţie: Dacă extragem rădăcina pătrată din raportul de determinaţie, obţinem raportul de corelaţie, indicator care măsoară intensitatea legăturii dintre fenomene.

Rxy poate lua valori de la 0 la 1 şi se interpretează astfel: - cu cât are o valoare mai apropiată de 1, cu atât legătura dintre cele două fenomene este mai strânsă; - cu cât este mai aproape de 0, legătura este mai mică sau nu există. Pot fi considerate următoarele limite orientative pentru interpretarea intensităţii legăturii dintre două fenomene:


104

Dacă se ridică la pătrat Rxy obţinem raportul de determinaţie 2

xyR . Acesta din urmă

transformat în procente ne poate spune în ce proporţie variabila xi influenţează (determină) variabila yi. b) Calculul coeficientului de corelaţie În cazul corelaţiei liniare, raportul de corelaţie se transformă în coeficient de corelaţie (rxy). Coeficientul de corelaţie propus de Pearson se notează cu “rxy “ şi este dat de relaţia:

Coeficientul de corelaţie poate lua valori între 0 şi +/-1 şi se interpretează astfel: - între (-1;0) legătura dintre cele două variabile este de sens invers, iar intensitatea legăturii se apreciază în funcţie de mărimea coeficientului, identic cu interpretarea raportului de corelaţie; - dacă valoarea sa se aproprie de 0, fenomenele corelate sunt independente sau tind către independenţă; - dacă se apropie de -1 atunci legătura este foarte strânsă şi de sens invers. - între (0;+1) legătura dintre fenomenele corelate este directă şi, cu atât mai intensă cu cât se apropie de 1. Semnul lui rxy va fi acelaşi cu semnul parametrului “b” din cazul ecuaţiei de regresie simplă liniară, având aceeaşi semnificaţie, respectiv:

Interpretarea este similară cu cea a raportului de corelaţie, iar ridicând la pătrat valoarea coeficientului de corelaţie obţinem coeficientul de determinaţie ( 2

xyr ),care ne arată în ce

proporţie variabila independentă o determină pe cea rezultativă. Dacă în cazul legăturilor curbilinii nu se poate calcula decât raportul de corelaţie, în cazul legăturilor de tip liniar pot fi calculaţi ambii indicatori pentru analiza intensităţii dintre fenomene.


105

5.1.4. Metode neparametrice de măsurare a legăturilor dintre fenomene Metodele analitice (parametrice) de calcul al corelaţiilor se utilizează în cazul în care există posibilitatea de a se determina o formă de manifestare a legăturii, verificată pentru un număr suficient de date care tind să se distribuie normal. Dar, există numeroase cazuri când distribuţia caracteristicilor nu este normală şi nici nu există informaţii despre parametrii funcţiilor studiate. În acest caz, nu se pot întrebuinţa formulele indicatorilor analitici de corelaţie, ci trebuie să se folosească alte metode pentru a putea determina existenţa, direcţia şi intensitatea anumitor legături ce se stabilesc între 2 sau mai multe caracteristici. Aceste metode trebuie să elimine ipoteza privind tipul curbei de distribuţie şi să dea posibilitatea unor estimări la cele mai variate tipuri de distribuţie. Metodele prin care se rezolvă aceste probleme sunt cunoscute sub denumirea de metode neparametrice. Metodele neparametrice, pe lângă faptul că pot stabili intensitatea unei legături făcând abstracţie de tipul de distribuţie, permit de asemenea, măsurarea intensităţii legăturilor nu numai pentru caracteristicile cantitative, dar şi pentru caracteristici calitative, deoarece în cazul metodelor neparametrice se lucrează cu un număr de ordine numit rang. 1. Tabelul de asociere şi coeficientul de asociere Această metodă se utilizează în special când unităţile purtătoare ale caracteristicilor sunt separate în 2 grupe sau sunt de forma unor caracteristici alternative (de tipul ‘’da - nu’’). Tabelul de asociere este format din 2 rânduri şi 2 coloane în care: în capetele rândurilor şi coloanelor se trec variantele celor 2 caracteristici care se supun asociaţiei, iar în interiorul lui, în rubricile lui, se trec frecvenţele corespunzătoare.

Produsul ad arată gradul de realizare a legăturii dintre x şi y, iar cb lipsa legăturii dintre aceste 2 caracteristici cercetate. Pentru stabilirea coeficientului de asociere care să indice existenţa şi intensitatea legăturii, cea mai utilizată formulă este cea propusă de Yule.


106

Ca orice coeficient de corelaţie şi acesta poate lua valori -1<Q<1, aratând nu numai gradul de intensitate al celor 2 caracteristici, dar şi sensul ei. Are avantajul de a se calcula uşor şi de a se folosi şi în cazul în care datele provin de la unităţi statistice complexe, care în interiorul lor pot prezenta forme diferite de distribuţie, dar pot fi transformate în variabile alternative, spre exemplu: sub şi peste nivelul mediu. 2. Coeficientul de corelaţie a rangurilor Rangul este o anumită treaptă de ordine a variantelor variabilei în serie. Pentru stabilirea rangurilor, valorile empirice ale variabilelor corelate sunt aşezate după mărimea lor în ordinea crescătoare sau descrescătoare. De obicei, în funcţie de variabila independentă se ordonează şi variabila dependentă. Coeficienţii de corelaţie ai rangurilor prezintă avantajul că ei pot fi utilizaţi şi în cazul unor distribuţii asimetrice, în cazul unui număr restrâns de unităţi pentru care nu se poate verifica reprezentativitatea datelor parţiale sau în cazul distribuţiilor unor unităţi complexe. De asemenea se poate utiliza în cazul corelării fenomenelor şi caracteristicilor calitative, care prin natura lor nu se pot exprima numeric, dar pot fi ierarhizate pe baza unui anumit rang. Pornind de la ipoteza că între cele 2 serii de ranguri există concordanţă, seria a II-a care reprezintă rangurile caracteristicii rezultative ar trebui să se ordoneze şi ea tot crescător (în cazul legăturii directe) şi descrescător (dacă legatura este inversă). În cazul existentei legăturii dintre acelaşi număr de unităţi care au rang mai mare sau mai mic decât ele. În cazul lipsei de legatură, ordinea de distribuţie a rangurilor celor 2 caracteristici este diferită. Similar se pot cuprinde în analiză şi distribuţiile paralele ale mai multor caracteristici, cu care se pot realiza mai multe combinaţii, stabilindu-se coeficienţii de corelaţie ai rangurilor simpli, parţiali şi multipli. Coeficienţii de corelaţie ai rangului Spearman

d = diferenţa de rang între caracteristicile cercetate =Rx-Ry n = numărul de unităţi cercetate; Coeficientul de corelaţie al rangurilor al lui Kendall

P = numărul de ranguri mai mari în continuarea rangului considerat; Q = numărul de ranguri mai mici în continuarea fiecărui rang considerat (se ia cu semn - ); S = se calculează pentru rangurile variabilei dependente (y), ordonate dupa rangurile variabilei factoriale (x). Ambii coeficienţi variază între [-1,1], cu aceleaşi semnificaţii.


107

5.2. Analiza regresiei şi corelaţiei folosind SPSS 5.2.1. Analiza regresiei folosind SPSS În analiza regresiei în SPSS se parcurg următorii paşi:

- Identificarea existenţei legăturii prin metoda grafică ceea ce presupune construirea corelogramei;

- Stabilirea sensului şi formei legăturii prin metode analitice de studiere a legăturilor (stabilirea modelului de regresie, estimarea parametrilor modelului şi testarea semnificaţiei acestora).

5.2.1.1. Identificarea existenţei legăturii - construirea corelogramei Construirea corelogramei sau a norului de puncte presupune construirea graficului de tip Scatterplot. Construirea graficului presupune comanda: Graph -> Legacy Dialogs -> Interactive -> Scatterplot -> fereastra Scatteplot, în pagina Assign Variables: se mută, prin tragere, pe axa X variabila independentă, iar pe axa Y variabila dependentă, în pagina Fit alegem metoda Regression, iar în pagina Spikes putem bifa Fit Line, după care se apasă pe butonul OK.


108

În continuare se va studia legătura dintre variabila numărul de salariaţi – nr_sal (variabilă independentă) şi variabila cheltuieli cu personalul – chelt_pers (variabilă dependentă), folosindu-se baza de date din fişierul asa.sav ce conţine 300 de unităţi locale active din judeţul Bacău. Graficul Scatterplot construit în Viewer are următoarea formă:


109

Aşa cum rezultă din graficul Scatterplot, legătura dintre cele două variabile considerate a fost aproximată, printr-o legătură simplă liniară. Modelul liniar de regresie ales de diagrama Scatterplot explică legătura dintre variabile, pentru că R Sq Liniar (raportul de determinaţie) ia o valoare ce se apropie de 1 (0,790), iar dacă vom calcula şi raportul de corelaţie (scoţând radical din R Sq Liniar) valoarea de 0,889 a acestuia, va confirma că între numărul de salariaţi şi cheltuielile cu personalul există o legătură liniară, directă şi foarte strânsă. 5.2.1.2. Stabilirea sensului şi formei legăturii prin metode analitice de studiere a legăturilor (stabilirea celor mai potrivite modele de regresie) Alegerea celui mai bun model de regresie, utilizând SPSS, presupune executarea comenzii: Analyze -> Regression ->Curve Estimation ->fereastra Curve Estimation unde executăm următoarele operaţiuni:

-alegem din listă variabilele numărul de salariţi – nr_sal (variabilă independentă) şi cheltuieli cu personalul – chelt_pers (variabilă dependentă) şi le trecem cu ajutorul săgeţii în casetele Independent Variable (variabila independentă) şi Dependent(s) (variabila dependentă)

-în caseta Models bifăm tipurile de modele pentru care dorim să calculăm ecuaţia de regresie (în cazul de faţă am ales Liniar – funcţia liniară, Logarithmic – funcţia logaritmică, Quadratic – funcţia de gradul 2, Cubic – funcţia de gradul 3, Exponential – funcţia exponenţială)

-casetele Includ constant in equation şi Plot models se bifează, dar în general acestea sunt bifate implicit când se deschide fereastra, şi au ca efect afişarea coeficienţilor din ecuaţia de regresie şi construirea graficului de aproximare a modelului.

- se apasă butonul OK


110

Rezultatele obţinute în Viewer sunt următoarele:


111


112

Interpretarea celor mai importante rezultate din output, din punctul de vedere al alegerii modelului de regresie cel mai potrivit: Se observă că în tabelul Model Summary and Parameter Estimates pentru fiecare model de regresie găsim în coloanele Model Summary raportul de determinaţie (R Square) şi testarea acestuia cu testul F, iar în coloanele Parameter Estimates coeficienţii ecuaţiei de regresie. Pe baza R Square din Model Summary se va decide cel mai bun model de regresie, respectiv cu cât R Square se apropie mai mult de valoarea 1 cu atât acel model de regresie este mai potrivit. Analizând tabelul se observă că cea mai mare valoare pentru R Square dintre toate modelele de regresie se înregistrează la funcţia cubic - funcţia de gradul 3- (R Square=0,971) şi Quadratic - funcţia de gradul 2- (R Square=0,971) dar valori pentru R Square apropiate de 1: regăsim şi la funcţia Liniar - funcţia de gradul 1- (R Square=0,970). 5.2.1.3. Estimarea parametrilor modelelor de regresie şi testarea semnificaţiei

acestora În SPSS estimarea şi testarea parametrilor unei ecuaţie de regresie presupune executarea comenzii: Analyze -> Regression ->Curve Estimation ->fereastra Curve Estimation unde executăm următoarele operaţiuni :

-alegem din lista sursă variabilele numărul de salariţi – nr_sal (variabila independentă) şi variabila cheltuieli cu personalul – chelt_pers (variabila dependentă) şi le trecem cu ajutorul săgeţii în casetele Independent Variable (variabila independentă) şi Dependent(s) (variabila dependentă)

-în caseta Models bifăm tipurile de modele pentru care dorim să calculăm ecuaţia de regresie (în cazul de faţă am ales Liniar – funcţia liniară, Logarithmic – funcţia logaritmică, Quadratic – funcţia de gradul 2, Cubic – funcţia de gradul 3, Exponential – funcţia exponenţială)

-casetele Display ANOVA table, Includ constant in equation, Plot models se bifează şi au ca efect testarea modelului de regresie cu ANOVA, afişarea coeficientului aferent variabilei independente din ecuaţia de regresie, construirea graficului de aproximare a modelului.

-se apasă butonul Save -> fereastra Curve Estimation: Save: selectăm opţiunile dorite din caseta Save Variables, după care se dă click pe butonul ->fereastra Curve Estimation: se apasă pe butonul OK.


113

Odată cu crearea rezultatelor în output, în Data Editor, în foaia Data View, găsim noile variabilele create de SPSS ca urmare a opţiunilor exprimate în fereastra Curve Estimation: Save, care reprezintă valorile estimate ale variabilei dependete (FIT), valorile reziduale respectiv diferenţa dintre valorile observate şi cele estimate(ERR) şi limitele inferioare şi superioare ale intervalului de încredere (LCL şi UCL) pentru fiecare model de regresie ales.


114

Rezultatele obţinute în Viewer sunt următoarele:


115

..


116


117

Analizând cele mai importante rezultate din output se observă că pentru fiecare model de regresie ales sunt prezentate trei tipuri de tabele :

- Model Summary prezintă valoarea raportul de corelaţie R, raportul de determinaţie (R Square), valoarea ajustată a lui R Square şi eroarea standard a estimaţiei.

- ANOVA prezintă rezultatele analizei dispersiei variabilei dependente sub influenţa variabilei factoriale şi de estimare, adică prezintă informaţii asupra sumei pătratelor abaterilor variabilei dependente datorate modelului de regresie şi erorii de modelare (Sum of Squares), gradele de libertate (df), media dispersiilor datorate celor două surse de variaţie (Mean Square), raportul testului F şi semnificaţia acestuia (Sig.). Dacă valoarea Sig. corespunzătoare testului F este mai mică decât 0,05, atunci variabila independentă explică variaţia variabilei dependente drept urmare modelul de regresie corespunde unei legături între cele două variabile

- Coefficients prezintă coeficienţii nestandardizaţi a modelului de regresie estimat

(Unstandardized Coefficients B), erorile standard ale acestora (Unstandardized Coefficients Std. Error), coeficienţii de regresie standardizaţi (Standardized Coefficients Beta), valorile statisticii testului t şi semnificaţia acestuia (Sig.). Coeficienţii standardizaţi sunt folosiţi atunci când într-un model de regresie sunt mai multe variabile independente exprimate în unităţi de măsură diferite. Dacă valoarea Sig. corespunzătoare testului t este mai mică decât 0,05, atunci parametrii modelului de regresie diferă semnificativ de valoarea zero şi modelul de regresie corespunde unei legături semnificative între cele două variabile.

Revenind la exemplul nostru, şi în această formă de prezentarea a rezultatelor, se confirmă că legătura dintre cele două variabile este directă şi puternică şi că cele mai potrivite modele de regresie conform lui R Square sunt cubic, quadratic şi liniar. În continuare vom interpreta rezultatele pentru modelul de regresie cubic - funcţia de gradul 3 - , cel mai potrivit modelul de regresie conform lui R Square, iar în mod asemănător se pot analiza rezultatele şi pentru celelalte funcţii.


118

Tabelul Model Summary cu valorile apropiate de 1 a lui R (0,889) şi R Square (0,791) ne arată că între numărul de salariaţi şi cheltuielile cu personalul există o legătură de tip parabolă de gradul 3, directă şi puternică.

Tabelul ANOVA cu valoarea Sig. pentru F = 0,000, deci mai mică decât 0,05, ne confirmă faptul că relaţia de tip parabolă de gradul 3 dintre cele două variabile considerate este semnificativă.

Tabelul Coefficients cu valorile prezentate în Unstandardized Coefficients B ne ajută să scriem ecuaţia de regresie pentru modelul nostru:

y= a+bx+cx2+dx3

unde: a = (Constant) b = numărul de salariaţi c = numărul de salariaţi **2 d = numărul de salariaţi **3 Deci ecuaţia devine:

y= -77477,876 + 11261,144x + 2,622x2 - 0,000x3

Dacă, se testează aceşti parametri ai ecuaţiei de regresie cu ajutorul testului t, pentru a testa ipoteza conform căreia ei ar fi semnificativ diferiţi de zero, se observă că pragul de semnificaţie pentru parametrii b şi d este mai mare decât 0,05, prin urmare cu aceşti parametri nu se poate construi o ecuaţie de regresie care să definească clar o legătură semnificativă de tip parabolă de gradul 3 pentru cele două variabile.

În concluzie pentru a alege cel mai potrivit model de regresie trebuie să se îndeplinească concomitent cele trei condiţii din tabele:


119

- un R Square mare - o valoare la analiza ANOVA pentru Sig. F mai mică decât 0,05 - valorile Sig. t pentru parametrii ce însoţesc variabila independentă în ecuaţie să fie

sub 0,05 Analizând tabelele aferente celorlalte 2 modele de regresie rămase în calcul, quadratic şi liniar , putem afirma că cel mai potrivit model de regresie este cel liniar, pentru că R Square este mare (0,790) şi gradul de semnificaţie al testelor F şi t sunt 0,000.

Deci, ecuaţia de regresie cea mai potrivită pentru cele două variabile este cea liniară şi are următoarea formă:

Y= -144640,486 + 12527,754X adică:

cheltuieli cu personalul = 12528 X numărul de salariaţi -144640 Interpretarea modelului de regresie liniar, respectiv a parametrului b: la o creştere cu o persoană a numărului de salariaţi, cheltuielile cu personalul vor creşte în medie cu 12528 lei. 5.2.2. Analiza corelaţiei folosind SPSS Pentru a stabili cât de strânsă este legăturii dintre două variabile în SPSS există posibilitatea de a calcula o corelaţie bivariată respectiv de a măsurara intensitatea legăturii dintre două variabile, dintre care una este dependentă şi cealaltă independentă (factorială).


120

Pentru corelaţia bivariată se pot calcula în SPSS trei coeficienţi de corelaţie: Pearson (atunci când există o legătură liniară simplă), Kendall şi Spearman (atunci când se folosesc metode neparametrice de măsurare a legăturilor dintre fenomene), precum şi niveluri de semnificaţie corespunzătoare unui test bilateral. Pentru analiza unei corelaţii bivariate se execută comanda: Analyze -> Correlate ->Bivariate ->fereastra Bivariate Correlations unde executăm următoarele operaţiuni:

-alegem din lista de variabile pe acelea pentru care dorim să calculăm corelaţia şi le trecem cu ajutorul săgeţii în caseta Variable(s),

-în caseta Correlation Coefficients bifăm coeficientul de corelaţie pe care dorim să-l calculăm (în cazul de faţă am ales Pearson).

-click pe butonul OK .

Continuând exemplul anterior, mai departe se va studia corelaţia dintre variabila numărul de salariţi – nr_sal (variabila independentă) şi variabila cheltuieli cu personalul – chelt_pers (variabila dependentă), folosindu-se aceeaşi bază de date din fişierul asa.sav ce conţine 300 de unităţi locale active din judeţul Bacău. Pentru că legătura dintre cele duoă variabile este una liniară se poate calcula coeficientul de corelaţie al lui Pearson. Rezultatele obţinute în Viewer sunt următoarele:


121

Interpretarea celor mai importante rezultate din Viewer: În tabelul Correlations este prezentată matricea coeficienţilor de corelaţie, valorile fiind distribuite de o parte şi de alta a diagonalei tabelului. Coeficienţii corelaţiei egali cu 1 reprezintă corelaţia fiecărei variabile cu ea însăşi, în timp ce pe cealaltă diagonală a tabelului sunt valorile coeficienţilor de corelaţie dintre variabile. Coeficientul de corelaţie Pearson este egal cu 0,636, ceea ce înseamnă că între variabile există o corelaţie directă de intensitate medie spre puternică. Testarea semnificaţiei coeficientului de corelaţie este realizată cu ajutorul testului t. Valoarea Sig. (2-tailed) corespunzătoare, egală cu 0,000 şi este mai mică decât 0,05, ceea ce înseamnă că între cele două variabile există o corelaţie semnificativă.


122

Temă propus ă pentru studiul individual Avem următoarea bază de date ce conţine informaţii privind efectivul de studenţi şi efectivul de cadre didactice la începutul anului universitar 2010/2011, în învăţământul public pe judeţe (facem menţiunea că au fost excluse filialele din teritoriu ale unor universităţi).

Efectivul de studen ţi înscri şi la începutul anului universitar 2010/2011 şi efectivul de cadre didactice în

învăţământul superior public, pe jude ţe

Judeţul Efectiv cadre

didactice Efectiv studenţi

Alba 186 4674 Arad 238 8934 Arges 468 10622 Bacau 247 5319 Bihor 1257 15574 Brasov 852 18874 Caras-Severin 109 3077 Calarasi 9 797 Cluj 3535 54378 Constanta 887 22606 Dambovita 321 7758 Dolj 1401 20503 Galati 572 12429 Gorj 145 4083 Hunedoara 260 5241 Iasi 2962 49929 Maramures 210 4721 Mures 678 9010 Prahova 351 8246 Sibiu 739 18037 Suceava 342 9350 Timis 2038 33497 Municipiul Bucuresti 7811 95161

Sursa datelor: baza de date TEMPO-Online, a I.N.S.

Analizaţi legătura dintre cele 2 variabile (efectivul de studenţi şi efectivul de cadre didactice la începutul anului universitar 2010/2011, în învăţământul public pe judeţe) şi stabiliţi care este cel mai potrivit model de regresie.

Bibliografie

123

BibliografieBibliografieBibliografieBibliografie

1 Anghelache, Constantin;

Bugudui, Elena; Gresoi, Sorin; Niculescu, Emanuela

“Statistică aplicată – indicatori, sinteze şi studii de caz”, Editura Economică, 2006

2 Anghelache, Constantin; Badea, Sorin Gabriel; Capanu, Ion; Wagner, Pavel

“Bazele statisticii teoretice şi economice”, Editura Economică, 2005

3 Biji, Elena; Lilea, Eugenia, Wagner, Pavel

“Statistică”, Editura Univers Titu Maiorescu, Bucureşti, 1995

4 Biji, Mircea; Biji, Elena

“Statistica teoretică”, Editura Didactică şi Pedagogică Bucureşti, 1979

5 Biji, Elena; Baron, Tudor, Tövissi, L.; Wagner, Pavel; Isaic-Maniu, Al.; Korka,M.; Porojan, Dumitru

“Statistică teoretică şi Economică”, Editura didactică şi pedagogică, Bucureşti, 1996

6 Biji, Elena; Lilea, Eugenia; Anghelache C.

“Tratat de Statistică”, Editura Economică, Bucureşti, 2002

7 Georgescu - Roegen, N., “Metoda statistică - elemente de statistică matematică”, I.S.C.S., Bucureşti, 1998

8 Harja, Eugenia “Statistică aplicată în economie”, Editura Alma Mater, Bacău, 2009

9 Harja, Eugenia “Statistică şi econometrie”, Editura MatrixRom, Bucureşti, 2004

10 Harja, Eugenia (coordonator) “Anuarul statistic al judeţului Bacău”, Editura MatrixRom, Bucureşti, Ediţiile 2007, 2008, 2009, 2010 şi 2011

11 Harja, Eugenia "Changes in Romania's population distribution on localities in 1990-2007 period"; Annals of the University of Oradea, Economic Science, 2008

12 Harja, Eugenia; Stângaciu, Oana, Ancuţa

“Analiza datelor statistice utilizând SPSS”, Editura Alma Mater, Bacău, 2009

13 Howitt Dennis, Cramer Duncan „Introducere în SPSS pentru Psihologie”, Editura Polirom, Bucureşti, 2006

14 Isaic-Maniu, Alexandru; Mitruţ, Constantin; Voineagu, Vergil

“Statistică”, Editura Universitară, Bucureşti, 2004

15 Jaba, Elisabeta; “Statistica. Sistem metodologic. Aplicaţii”, Universitatea "Al.I.Cuza", Iaşi, 1986

16 Jaba, Elisabeta “Statistica”, Ediţia a III-a, Editura Economică, Bucureşti, 2002

17 Jaba, Elisabeta; Jemna, Dănuţ “Econometrie”, Editura Sedcom Libris, Iaşi, 2006


124

18 Jaba, Elisabeta; Pintilescu, Carmen; Jemna, Dănuţ

“Statistică inferenţială. Teste grilă şi probleme”, Editura Sedcom Libris, Iaşi, 2002

19 Jaba, Elisabeta; Grama Ana “Analiza statistică cu SPSS sub Windows”, Editura Polirom, Iaşi, 2004

20 Lungu Ovidiu „Ghid Introductiv pentru SPSS 10.0”, Seria Psihilogie Experimentală şi aplicată, Bucureşti, 2001

21 Mallinvaud, E. “Méthodes statistiques de l'économétrie”, Dunod, Paris, 1981

22 Maniu, I., Mitruţ, C.A., Voineagu, Vergil

“Statistica pentru managementul afacerilor”, Editura Economică, Bucureşti, 1995

23 Onicescu, O.; Ştefănescu, V. “Elemente de statistică informaţională cu aplicaţii”, Editura Tehnică, Bucureşti, 1979

24 Voineagu, Vergil; Ţiţan, Emilia; Ghiţă, Simona; Boboc, Cristina; Todose, Daniela

“Statistică – Baze teoretice şi aplicaţii”, Editura Economică, 2007

25 Voineagu, Mariana; Ţiţan, Emilia; Ghiţă, Simona

“Statistică aplicată”, Editura Fundaţiei “România de mâine”, 2000

26 Voineagu, Vergil; Lilea, Eugenia; Vătui, Mihaela

“Statistica Economică”, Editura Tribuna Economică, Bucureşti, 2001

27 Wagner Pavel; Capanu Ion; Secareanu, Constantin

“Statistica macroeconomica”, Editura Economica, Bucureşti, 1997.

28 *** “Dic ţionar Macmillan de Economie Moderna”, Editura Codecs, 1999.

29 *** „Anuarul Statistic al României, - Institutul Naţional de Statistică, colecţie

30 *** "InfoSTAT" (colecţie) – INS Direcţia Judeţeană de Statistică Bacău

31 *** Baza de date TEMPO – Institutul Naţional de Statistică

32 *** http://www.insse.ro(site-ul Institutului Naţional de Statistică)

33 *** http://www.prefecturabacău.ro/portal/djs (site-ul Direcţiei Judeţene de Statistică Bacău)

34 *** http://www.spss.ro (site-ul în limba română cu informaţii despre programul SPSS)

35 *** http://www.spss.com (site-ul firmei SPSS Inc.)

Programa analitică

125

PROGRAMA ANALITIC Ă

Denumirea disciplinei

ANALIZA INFORMA ŢIILOR DE MARKETING UTILIZÂND SPSS

Codul disciplinei UB05MK06OS05 Semestrul 6 Numărul de credite 4

Facultatea FACULTATEA DE ŞTIINŢE ECONOMICE

Numărul orelor pe semestru/activităţi

Domeniul de licenţă MARKETING Total SI TC AT AA

Programul de studii de licenţă (specializarea)

MARKETING

36 24 9 3 0

Categoria formativă a disciplinei DF-fundamentală, DG-generală, DS-de specialitate, DE-economică/managerială, DU-umanistă

DS

Categoria de opţionalitate a disciplinei: DI-impusă, DO-opţională, DL-liber aleasă (facultativă) DI

Obligatorii (condiţionate)

Statistică, Econometrie, Marketing Discipline anterioare

Recomandate

Obiective

Obiectivele cursului vizează însusirea unor procedee automate de analiză a datelor în vederea elaborării programelor de marketing. Studenţii se vor familiariza cu modul de lucru în SPSS for Windows, pentru o mai bună analiză a datelor necesară soluţionării unei varietăţi de probleme necesare unui analist de marketing. Procedee şi metode învăţate la disciplinele statistică şi econometrie vor putea fi automat aplicate asupra datelor colectate şi interpretate de către studenţi.

Conţinut (descriptori)

Capitolul 1 – Noţiuni de bază ale aplicaţiei SPSS 1.1. Produsele şi modulele SPSS 1.2. Prezentarea aplicaţiei SPSS Capitolul 2 - Sistematizarea datelor în SPSS 2.1. Sistematizarea datelor 2.2. Introducerea şi sistematizarea datelor în SPSS Capitolul 3 - Prezentarea datelor în SPSS 3.1. Tabele statistice 3.2. Tabele statistice în SPSS 3.3. Reprezentarea grafică a datelor 3.4. Reprezentarea grafică în SPSS Capitolul 4 – Mărimile medii şi indicatorii de poziţie şi variaţie în SPSS 4.1. Mărimile medii şi indicatorii de poziţie şi variaţie 4.2. Determinarea mărimilor medii şi indicatorilor de poziţie şi variaţie în SPSS 4.3. Mărimile medii şi indicatorii variaţiei pentru o colectivitate împărţită pe grupe 4.4. Determinarea mărimilor medii şi indicatorilor variaţiei pentru o colectivitate împărţită pe grupe în SPSS. Regula adunării dispersiilor


126

Capitolul 5 - Analiza seriilor interdependente în SPSS 5.1. Analiza regresiei şi corelaţiei 5.2. Analiza regresiei şi corelaţiei folosind SPSS Teme propuse Exemplu de analiză a unei baze de date folosind SPSS Proiectul ce va fi susţinut la colocviu/verificare. Alegeţi din „Anuarul Statistic al României” sau din baza de date TEMPO online – serii de timp a I.N.S. de pe site www.insse.ro/ 2 variabile de marketing aflate într-o oarecare dependenţă una de alta, pentru toate cele 41 de judeţe (fără municipiul Bucureşti). Folosind SPSS, introduceţi datele şi analizaţi:

o Indicatorii medii şi ai variaţiei pentru fiecare din cele două variabile, folosind metode diferite de analiză;

o Efectuaţi grafice specifice pentru cele 2 distribuţii şi pentru indicatorii calculaţi;

o Efectuaţi o analiză bivariată a datelor selectate; o Analizaţi legătura dintre cele 2 variabile şi stabiliţi care este cel mai

potrivit model de regresie.

Forma de evaluare (E-examen, C-colocviu/test final, LP-lucrări de control) Verificare

- răspunsuri la examen/colocviu/lucrări practice 4 (40%)

- activităţi aplicative atestate/laborator/lucrări practice/proiect, etc.

- teste pe parcursul semestrului

Stabilirea notei finale (procentaje)

- teme de control 6 (60%)

Bibliografia

1. Harja Eugenia, Statistică şi econometrie, Ed. Alma Mater, Bacău, 2009; 2. Harja Eugenia, Stângaciu Oana Ancuţa, „Analiza informaţiei de marketing utilizând SPSS”-suport de curs ID, Ed. Alma Mater, Bacău, 2012; 3. Harja Eugenia, Stângaciu Oana Ancuţa, „Analiza datelor statistice utilizând SPSS”, Ed. Alma Mater, Bacău, 2009; 4. Jaba Elisabeta, Grama Ana, „Analiza statistică cu SPSS sub Windows”, Editura Polirom, Bucureşti, 2004; 5. Lungu Ovidiu, „Ghid Introductiv pentru SPSS 10.0”, Seria Psihologie Experimentală şi aplicată, Bucureşti, 2001; 6. Howitt Dennis, Cramer Duncan, „Introducere în SPSS pentru Psihologie”, Editura Polirom, Bucureşti, 2006; 7. ***, http://www.spss.ro (site-ul în limba română cu informaţii despre programul SPSS) 8. ***, http://www.spss.com (site-ul firmei SPSS Inc.)

Lista materialelor didactice necesare PC cu soft SPSS

Coordonator de

Disciplina Grad didactic, titlul, prenume, numele Semnătura

Analiza informaţiilor de marketing utilizând SPSS Profesor univ.dr. Eugenia HARJA

Legenda: SI - studiu individual, TC - teme de control, AT - activităţi tutoriale, AA - activităţi aplicative aplicate

Curs SPSS

Documents

Transcript of Curs SPSS