Proiect spss

52

description

using spss for data analysis

Transcript of Proiect spss

Page 1: Proiect spss

IAŞI

Page 2: Proiect spss

- 2012-

1

Page 3: Proiect spss

CUPRINSCUPRINS............................................................................................................................1CAPITOLUL I.....................................................................................................................2Introducere...........................................................................................................................2

1.1.Definirea problemei...................................................................................................21.2.Obiectivul proiectului................................................................................................2

CAPITOLUL II...................................................................................................................3Construirea bazei de date.....................................................................................................3

2.1.Alegerea variabilelor analizate..................................................................................32.2.Definirea variabilelor şi introducerea datelor în SPSS..............................................3

CAPITOLUL III..................................................................................................................5Verificarea bazei de date.....................................................................................................5

3.1.Depistarea outlierilor.................................................................................................53.2.Verificarea normalităţii distribuţiilor.........................................................................8

CAPITOLUL IV................................................................................................................11Analiza statistică univariată a datelor................................................................................11

4.1. Descrierea statistică a variabilelor nominale..........................................................114.2 Descrierea statistică a variabilelor numerice...........................................................15

CAPITOLUL V.................................................................................................................19Analiza statistică bivariată a datelor..................................................................................19

5.1 Analiza statistică a gradului de asociere între două variabile..................................195.2 Analiza de regresie şi corelaţie................................................................................21

CAPITOLUL VI................................................................................................................25Estimarea şi testarea statistică...........................................................................................256.1 Estimarea parametrilor prin interval de încredere......................................................25

6.1.1 Estimarea prin interval de încredere a unei medii şi a unei proporţii...............256.2 Testarea statistică.....................................................................................................31

6.2.1 Testarea unei medii şi a unei proporţii.............................................................316.2.2 Testarea diferenţei dintre două medii şi două proporţii....................................37

CONCLUZII......................................................................................................................40BIBLIOGRAFIE................................................................................................................41

2

Page 4: Proiect spss

CAPITOLUL I

Introducere

1.1.Definirea problemei

Piata firmelor listate pe Bursa de Valori Bucuresti, este una in continua miscare, deoarece mereu se listeaza noi firme,aducand cu ele posibilitati noi de investitii , iar cele existente isi modifica valoarea catodata si de cateva ori intr-o zi. Aceasta dinamica nu impiedica insa tot mai multi investitori sa caute sa dea lovitura si tot mai multe firme sa se expuna in incercarea de atragere de capital.

Un segment mai restrans il reprezinta firmele din judetul Iasi ce sunt listate pe bursa, acestea snt relativ putine dar au o dinamica variata, in functie de vechimea pe bursa si de evolutia lor in segmentele lor de piata.

1.2.Obiectivul proiectului

O cere ridicata de jeansi se inregistreaza in randul tinerilor mai ales a studentilor si asta deoarece ei sunt cei care poarta cel mai adesea acest produs.Exista si tineri care sunt reprezentanti a unor firme mentionate printre care KENVELO, LEVIS, MOTOR, D&G, ce se gasesc in compexul de magazine Mall sau in oricare centru de oras din tara de la noi sau din afara pentru ca sunt firme cunoscute si acceptate in general de tinerii ce vor sa fie in rand cu moda si care vor lucruri de calitate. In cadrul acestui proiect se va incerca analiza modului in care diversi factori (variabile) influenteaza cererea de jeansi.

Ca urmare a privatizarilor companiilor de stat, ca masura de atragere de capital sau doar ca atragere de publicitate, din ce in ce mai multe firme se listeaza pe bursa, fie ca este vorba de companii cu o putere financiara mare ce sunt listate pe lista BVB sau de companiile mici si mijlocii listate pe lista RASDAQ.

In cadrul acestui proiect se va incerca analiza evolutiilor cat si a firmelor din judetul Iasi ce sunt listate pe bursa.

3

Page 5: Proiect spss

CAPITOLUL II

Construirea bazei de date

2.1.Alegerea variabilelor analizate

Pentru a putea analiza problema considerata s-au prelevat datele overite de site-ul

www.bvb.ro pentru unu esantion de 32 de firme listate, sortate dupa judetul unde isi

desfasoara activitatea, selectat fiind judetul Iasi. Datele ce au fost prelevate se refera la

denumire, oras, domeniu de activitate (cod CAEN), ultimul pret la care s-a incheiat

ultima sedinta de tranzactionare, sectiunea de bursa unde este listata, starea tranzactiilor.

Variabilele ce vor constitui baza de date din SPSS vor fi: Simbol, Denumire,

Sectiunebursa, Categorie, CAENCAENRev.2,Oras,u_pret,site şi stare_T. Acestea vor

constitui baza de date FirmeIasi.sav.

2.2.Definirea variabilelor şi introducerea datelor în SPSS

Atributele acestor variabile sunt definite în fereastra Data Editor – Foaia VariableView:

Figura 2.1 Fereastra Data Editor – Foaia Variable View pentru baza de date: FirmeIasi.sav.

4

Page 6: Proiect spss

Astfel baza de date ce va fii analizata este urmatoarea:

Figura 2.2 Fereastra Data Editor – Foaia Data View pentru baza

5

Page 7: Proiect spss

CAPITOLUL III

Verificarea bazei de date

3.1.Depistarea outlierilor

Outlierile reprezintă valorile aberante înregistrate la nivelul unui eşantion şi se pot

depista pe baza graficelor care verifică normalitatea distribuţiilor variabilelor.

Pentru această analiză se vor analiza ca variabile numerice ultimul preţ

tranzactionat şi variatia pe care firma a inregistrat-o in ultima sedinta de tranzactionare,

iar ca variabile nominale sectiunea de bursa unde este listata şi starea de tranzactionare.

Outlierile se pot depista în cazul variabilelor numerice, iar valorile acestora se vor

depista urmând demersul Analyze – Descriptive Statistics – Explore, outlierile fiind

depistate implicit.

Figura 3.1. Selectarea opţiunii Analyze – Descriptive Statistics - Explore

6

Page 8: Proiect spss

Pentru variabila”u_pret” :

Figura 3.2 Diagrama Boxplot pentru variabila „u_pret”

7

Page 9: Proiect spss

Interpretare: Aşa cum se observă, există valori ce ies din tipar, lucru acceptabil pe

piata de actiuni. Aceste valori reprezinta o valoare foarte mare a pretului unei actiuni.

Pentru variabila „Var”:

În cazul acestei variabile în fereastra Explore se înlocuieşte în Dependent List

variabila „u_pret” cu variabila „Var” şi se obţine următorul rezultat:

Figura 3.3 Diagrama Boxplot pentru variabila „Var”

8

Page 10: Proiect spss

Interpretare: De asemenea, se poate observa că şi în cazul variabilei „Var” există outlieri, aratand astfel ca fluctuatiile pot avea valori foarte mari.

3.2.Verificarea normalităţii distribuţiilor

Pentru a verifica normalitatea distribuţiilor variabilelor „u_pret” şi „Var” se

folosesc procedeele grafice Q-Q Plot, P-P Plot, Boxplot, histograma, testul Kolmogorov-

Smirnov-Lilliefors.

Pentru a putea depista şi outlierile se va folosi procedeul Q-Q Plot. Q-Q Plot

compară valorile ordonate ale variabilei observate cu valorile quantilice ale distribuţieie

teoretice specificate (în acest caz distribuţia normală). Dacă distribuţia variabilei testate

este normală, atunci punctele Q-Q conturează o linie care se suprapune cu dreapta care

reprezintă distribuţia teoretică, adică trece prin origine şi are panta egală cu 1.

Pentru acesta se va urmări demersul: Analyze–Descriptive Statistics – Q-Q Plots

la Variables se introduce variabila de analizat, iar la Test Distribution se alege Normal.

Pentru cele două variabile numerice rezultatele sunt următoarele:

Figura 3.4 Selectarea opţiunii Descriptive Statistics – Q-Q Plots

9

Page 11: Proiect spss

Figura 3.5 Selectarea variabilelor de analizat pentru „u_pret”

Figura 3.6 Q-Q Plot pentru variabila „u_pret”

10

Page 12: Proiect spss

Interpretare: Se observă că punctele sunt deviate de la linia dreaptă, ceea ce

indică o distribuţie anormală, acest fapt se datoreaza atat diferentelor dintre BVB si

RASDQ cat si faptului ca multe firme nu au mai avut activitate pe bursa.

Pentru „Var”:

Figura 3.7 Q-Q Plot pentru variabila „Var”

Interpretare: Se observă că punctele desi sunt deviate de la linia dreaptă,deviatia

este mai mica decta in cazul ultimului pret ceea ce indică o distribuţie ce se apropie mai

mult de o distribuţie normală.

11

Page 13: Proiect spss

CAPITOLUL IV

Analiza statistică univariată a datelor

4.1. Descrierea statistică a variabilelor nominale

Cele două variabile nominale ce vor fi analizate sunt sectiunea de bursa in care este listata firma şi orasul de provenienta.Pentru a descrie aceste variabile se vor urma paşii: meniul Analyze – Descriptive Statistics – Frequencies – Statistics (unde la Central Tendency se bifează Mode) şi Charts (unde la Chart Type se bifează Pie sau Bar, iar la Chart Value Frequencies sau Percentages). Astfel, se obţin următoarele rezultate:

12

Page 14: Proiect spss

Figura 4.1 Selectarea variabilelor şi a indicatorilor

Pentru variabila „Sectiune” se obţin rezultatele:

Tabelul 4.1 Sectiune bursa

13

Page 15: Proiect spss

Figura 4.2 Diagrama Pie pentru variabila „Sectiune bursa”

Interpretare: Se observă şi din tabel şi din grafic că proporţie firmelor listate la RASDAQ

din eşantion este de 87.5%, iar cea a firmelor listate la BVB este de 12,5%

Pentru variabila „Oras”:

14

Page 16: Proiect spss

Figura 4.3 Diagrama Pie pentru variabila „Oras”

Interpretare: Se observă atât din tabel cât şi din grafic proporţiile oraselor din

care provin firmele lista sunt: CIORTESTi(3.1%), CIUREA(3.1%), IASI(75%),

PASCANI(12.5%), TARGU FRUMOS(6.3%).

4.2 Descrierea statistică a variabilelor numerice

În cazul variabilelor numerice se foloseşte acelaşi demers ca în cazul variabilelor

nominale, cu diferenţa că se bifează toţi indicatorii din Statistics, iar la Charts se bifează

Histograms. Astfel, se obtin următoarele rezultate:

15

Page 17: Proiect spss

Figura 4.4 Prezentarea demersului

16

Page 18: Proiect spss

Figura 4.5 Histograma pentru variabila „u_pret”

17

Page 19: Proiect spss

Pentru variabila „Var”:

Figura 4.6 Histograma pentru variabila „Var”

Interpretare: Pentru ambele variabile se citesc în tabel principalii indicatori:

media, mediana, varianţa, modul, valorile minime şi valorile maxime.

18

Page 20: Proiect spss

CAPITOLUL V

Analiza statistică bivariată a datelor

5.1 Analiza statistică a gradului de asociere între două variabile

Gradul de asociere se poate studia pentru variabilele nominale, în acest caz starea

firmei şi orasul unde isi desfasoara activitatea. Gradul de asociere presupune obţinerea

tabelului de asociere, în care sunt prezentate relaţiile dintre variabilele categoriale. În

fiecare celulă a tabelului este prezentată frecvenţa parţială, adică efectivul care poartă

simultan o valoare a fiecărei variabile. Obţinerea acestui tabel presupune următorul

demers: Analyze – Descriptive Statistics – Crosstabs.

19

Page 21: Proiect spss

Figura 5.1 Prezentarea demersului

20

Page 22: Proiect spss

Gradul de asociere se poate testa folosind testul Chi – Square, care se bifează în

Crosstabs: Statistics. Se obţine rezultatul:

Interpretare: În eşantionul analizat majoritatea firmelor ce sunt inca

tranzactionabile sunt din Iasi (17) apoi urmeaza Pascani si Targu Frumos,in celelalte

orase nu sunt firme tranzactionabile.

5.2 Analiza de regresie şi corelaţie

Analiza de corelaţie presupune măsurarea gradului de intensitate a legăturii dintre variabilele numerice, precum şi testarea semnificaţiei legăturii. Acest lucru se realizează urmând paşii: Analyze – Correlate – Bivariate. În cazul celor două variabile numerice studiate (preţul şi numărul de jeansi cumpărati) se obţine următorul output:

21

Page 23: Proiect spss

Figura 5.2 Prezentarea demersului:

22

Page 24: Proiect spss

Tabelul 5.3 Correlations

Interpretare: Se observă că s-a obţinut un coeficient de corelaţie Pearson egal cu 0.012, ceea ce înseamnă că între cele două variabile nu există o corelaţie directa, valoarea coeficientului ne fiind apropiata de unu.

Testarea semnificaţiei coeficientului de corelaţie este realizată cu ajutorul testului

t. Valoarea Sig. corespunzătoare, egală cu 0.952, evidenţiază că s-a obţinut un coeficient

de corelaţie semnificativ la un prag de 0.952, adică sunt şanse mai mari de 90% (α = 0.9)

de a nu gresi in a afirma ca intre cele doua variabile nu exista o corelatie semnificativa.

Analiza de regresie presupune aproximarea modelului de regresie, estimarea şi

testarea parametrilor modelului de regresie. Între cele două variabile numerice se poate

stabili o legătură liniară dată prin ecuaţia de regresie liniară simplă, care are forma:

Yi = α + Βxi + εi

în care:

Y – variabila dependentă (ultimul pret)

X – variabila independentă (variatia)

ε – variabila aleatorie eroare sau reziduu

Aproximarea modelului de regresie se realizează din meniul Reggresion apoi

selectand optiunea potrivita, pentru a testa valorile gasite mai sus am ales Curve

estimation ,deoarece nu exista o corelatie intre cele doua valori grficul va arata in felul

urmator:

23

Page 25: Proiect spss

Figura 5.3 Prezentarea demersului

Se optine outputul:

Figura 5.4 Regresia între „Var” şi „Ultimul pret”

24

Page 26: Proiect spss

CAPITOLUL VI

Estimarea şi testarea statistică

Estimarea este procedeul prin care se generalizează rezultatele observate pe un

eşantion, la nivelul populaţiei din care este extras, adică se află valoarea unui parametru

al unei populaţii pe baza datelor înregistrate la nivelul unui eşantion extras din aceasta.

Estimarea poate fi punctuală sau prin interval de încredere. În acest caz se va

estima prin interval de încredere.

6.1 Estimarea parametrilor prin interval de încredere

. Acest lucru presupune aflarea limitelor de încredere ale unui interval care

acoperă valoarea adevărată a unui parametru al populaţiei (media sau proporţia în acest

caz). Calculul intervalului de încredere pentru o medie sau pentru o proporţie presupune

parcurgerea următorilor paşi:

Calculul valorii tipice de sondaj (media sau proporţia);

Determinarea variabilităţii estimatorului considerat;

Alegerea intervalului de încredere (95% şi 99%);

Calculul limitelor intervalului de încredere.

6.1.1 Estimarea prin interval de încredere a unei medii şi a unei proporţii

În cazul mediei SPSS calculează valoarea tipică de sondaj, scorul Z

corespunzător, eroarea standard a mediei, limita inferioară şi limita superioară a

intervalului de încredere. Pentru baza de date FirmeIasi.sav se va calcula media variatiei

şi intervalul de încredere corespunzător. Pentru aceasta se parcurge demersul: meniul

25

Page 27: Proiect spss

Analyze – Descriptives Statistics – Explore. Se stabileşte nivelul de încredere de 95%, şi

apoi de 99%.

Figura 6.1 Prezentarea demersului

Se obţin rezultatele:

- nivelul de încredere: 95%

26

Page 28: Proiect spss

Tabelul 6.1 Case Processing Summary

Interpretare: Se poate spune cu o încredere de 95% că variatia a fost cuprinsa intre

-19.509 si 9.013.

- nivelul de încredere: 99%

27

Page 29: Proiect spss

Tabelul 6.3 Case Processing Summary

Tabelul 6.4 Descriptives

Interpretare: Se poate spune cu o încredere de 95% că variatia a fost cuprinsa

intre -24.550 si 14.05.

Cazul proporţiei.

SPSS nu calculează direct intervalul de încredere pentru o proporţie. Estimarea

intervalului de încredere presupune efectuarea mai multor operaţii, şi anume:

calculul estimaţiei proporţiei, prin demersul Analyze – Descriptive

Statistics – Frequencies. După selectarea variabilei se bifează Display

frequency tables;

se află valoarea variabilei Z pentru intervalul de încredere considerat.

Pentru un nivel de încredere de 95%, Z = 1.96; pentru un nivel de

încredere de 99%, Z = 2.55;

28

Page 30: Proiect spss

se calculează eroarea standard Sp = s/n, unde s= f(1 – f) este abaterea

standard, iar n este volumul eşantionului;

se calculează limitele intervalului folosind formula f ± 1.96Sp, respectiv f

± 2.55Sp.

Urmând aceşti paşi se va estima proporţia firmelor ce inca tranzactioneaza.

29

Page 31: Proiect spss

Figura 6.2 Prezentarea demersului

Frequencies

Figura 6.3 Tabelele 6.5 Statistics şi 6.6 stare_t

30

Page 32: Proiect spss

Interpretare: Se observă că proporţia firmelor care inca tranzactioneaza este de

68,8%.

Calculul erorii Sp: pentru f = 68,8%, înlocuind în formula prezentată mai sus se

obţine valoarea 0.006708.

Calculul limitelor intervalului de încredere:

pentru z = 1.96, se obţine:

Li = f – 1.96*SP = 0.688 – 1.96*0. 006708= 0.674

Ls = f + 1.96*Sp = 0. 688 + 1.96*0. 006708= 0.701

Interpretare: Ne putem aştepta, cu o încredere de 95%, ca procentul firmelor ce

inca tranzactineaza să fie cuprins între 67.4% şi 70.1%.

Pentru z = 2.55, se obţine:

Li = f – 2.55*0. 006708= 0.688 – 2.55*0. 006708= 0.670

Ls = f + 2.55*0. 006708= 0. 688 + 2.55*0. 006708= 0.70.5

Interpretare: Ne putem aştepta, cu o încredere de 95%, ca procentul firmelor ce

inca tranzactineaza să fie cuprins între 67% şi 70.5%.

6.2 Testarea statistică

Testele asupra mediilor, respectiv a proporţiilor, sunt folosite pentru a verifica

dacă o medie sau o proporţie diferă semnificativ de o valoare specificată (ipotetică) sau

pentru a compara două sau mai multe medii sau proporţii între ele pentru a testa dacă

există diferenţe semnificative între ele.

6.2.1 Testarea unei medii şi a unei proporţii

Testarea mediei.

Testarea mediei cu o valoare specificată se realizează utilizând procedeul One-

Sample T Test. Acest lucru presupune parcurgerea demersului: Analyze – Compare

31

Page 33: Proiect spss

Means – One-Sample T Test. Se va analiza dacă valoarea medie avariatiei diferă sau nu

de 0.

32

Page 34: Proiect spss

Figura 6.4 Prezentarea demersului

Se obţine outputul:

Figura 6.5 Tabelele 6.7 One-Sample Statistics şi 6.8 One-Sample Test

Interpretare: Valoarea medie observată este -5.24808; valoarea specificată este 0;

diferenţa dintre valoarea medie observată şi valoarea ipotetică este -5.24808. Intre

valoarea medie observată şi valoarea ipotetică există diferenţe semnificative.

33

Page 35: Proiect spss

Testarea proporţiei.

Pentru realizarea acestui lucru se foloseşte Binomial Test. Acesta este un procedeu

prin carese testează ipoteze cu privire la o variabilă cu distribuţie binomială, variabilă

care poate lua doar două valori, cum ar fi starea.Binomial Test este folosit pentru a

compara o proporţie cu o valoare specificată şi presupune parcurgerea demersului:

Analyze – Nonparametric Tests – Binomial. Se va verifica dacă proporţia uneia din cele

două grupe de firme definite prin variabila „stare”, tran şi susp diferă semnificativ de

0.50. În Test Variable List se introduce variabila „stare”.

34

Page 36: Proiect spss

Figura 6.6 Prezentarea demersului

Se obţine outputul:

Interpretare: Proporţia observată în eşantion pentru grupa 1 (susp) este de 31%,

proporţia specificată este 50%. Valoarea Sig. asociată testului este egala cu 0.05; astfel

se poate concluziona cu o încredere de 95% că proporţia firmelor în eşantion diferă

semnificativ de proporţia specificată de 50%.

35

Page 37: Proiect spss

6.2.2 Testarea diferenţei dintre două medii şi două proporţii

Testarea diferenţei dintre două medii.

Acest lucru est echivalent cu a testa egalitatea mediilor a două eşantionae

independente. Testarea se realizează cu ajutorul testului Independent-Samples T Test.

Demersul este: Analyze – Compare Means – Independent-Samples T Test. Se va testa

dacă var este aceeaşi pe cele două categorii de firme: susp şi tran.

36

Page 38: Proiect spss

Figura 6.7 Prezentarea demersului

Se obţine outputul:

37

Page 39: Proiect spss

Figura 6.8 Tabelele 6.10 Group Statistics şi 6.11 Independent Samples Test

Interpretare: Întrucât nivelul de semnificaţie observat pentru acest test este mai

mare decât pragul α = 0.05 (0.415), se folosesc varianţe reunite . În acest caz testul t este

egal cu 1.542 cu o probabilitate Sig. de 0.154 >0.05, ceea ce arată că variatii pentru cele

două grupe (10.75 pentru susp şi -9.05 pentru tran) diferă semnificativ.

38

Page 40: Proiect spss

CONCLUZII

În urma realizării analizei firmelor din judetul Iasi listate pe bursa se poate

concluziona ca variatia preturilor actiunilor nu depinde de pretul efectiv al actiunilor. De

asemenea se observa ca multe din firmele prezente pe bura nu mai sunt active iar cele mai

multe firme ce inca au actiuni tranzactionabile sunt din Iasi.

39

Page 41: Proiect spss

BIBLIOGRAFIE

Jaba, Elisabeta, Statistica, ediţia a III-a, Editura Economică, Bucureşti,

2002;

Jaba, Elisabeta; Grama, Ana, Analiza statistică cu SPSS sub Windows,

Editura Polirom, 2004

40