Proiect SPSS - Analiza Datelor

13
1. MOTIVATIA TEMEI 2. OBIECTIVUL PROIECTULUI 3. DESCRIEREA INSTRUMENTELOR 4. ANALIZA SI PRELUCRAREA DATELOR - Definirea variabilelor şi introducerea datelor în SPSS - Verificarea bazei de date -Analiza statistică univariată a datelor -Analiza statistică bivariată a datelor -Testarea diferenţei dintre două proporţii. 5. CONCLUZII 1. MOTIVATIA TEMEI Piata adidasilor se diversifica mereu aparand firme noi producatoare , de diferite modele menite sa satisfaca gusturile variate ale sportivilor, tineri si batrani, dar si a celor ce-i utilizeaza ca “pantof de strada”. Pe langa frumusetea modelelor, ei trebuie sa fie si buni din punct de vedere calitativ. Dintre firmele renumite de adidasi amintim: NIKE, ADIDAS, LOTUS, PUMA. Nu isi permite toata lumea sa se incalte cu aceste marci renumite, originale, exista insa diversi producatori de adidasi contrafacuti ce se gasesc pe piata, in “Bazar” la preturi accesibile tuturor. O cerere ridicata de adidasi “de firma” exista din partea tinerilor, din randul lor fiind si cei mai multi practicanti de sport, majoritatea studenti, ei cauta produse cat mai frumoase, confortabile si rezistente in timp. Aceste branduri de adidasi: NIKE, ADIDAS, LOTUS si PUMA, se gasesc de obicei in moll-uri sau prin reprezentante si distribuitori in marile orase din tara.

description

Proiect SP SS - Analiza Datelor

Transcript of Proiect SPSS - Analiza Datelor

Page 1: Proiect SPSS - Analiza Datelor

1. MOTIVATIA TEMEI2. OBIECTIVUL PROIECTULUI3. DESCRIEREA INSTRUMENTELOR4. ANALIZA SI PRELUCRAREA DATELOR - Definirea variabilelor şi introducerea datelor în SPSS - Verificarea bazei de date -Analiza statistică univariată a datelor -Analiza statistică bivariată a datelor -Testarea diferenţei dintre două proporţii.5. CONCLUZII

1. MOTIVATIA TEMEIPiata adidasilor se diversifica mereu aparand firme noi producatoare , de diferite modele menite sa satisfaca gusturile variate ale sportivilor, tineri si batrani, dar si a celor ce-i utilizeaza ca “pantof de strada”. Pe langa frumusetea modelelor, ei trebuie sa fie si buni din punct de vedere calitativ.Dintre firmele renumite de adidasi amintim: NIKE, ADIDAS, LOTUS, PUMA.Nu isi permite toata lumea sa se incalte cu aceste marci renumite, originale, exista insa diversi producatori de adidasi contrafacuti ce se gasesc pe piata, in “Bazar” la preturi accesibile tuturor.O cerere ridicata de adidasi “de firma” exista din partea tinerilor, din randul lor fiind si cei mai multi practicanti de sport, majoritatea studenti, ei cauta produse cat mai frumoase, confortabile si rezistente in timp. Aceste branduri de adidasi: NIKE, ADIDAS, LOTUS si PUMA, se gasesc de obicei in moll-uri sau prin reprezentante si distribuitori in marile orase din tara. 2. OBIECTIVUL PROIECTULUIIn cadrul acestui proiect se va incerca analiza modului in care diversi factori (variabile) influenteaza cererea de jeansi in randul studentilor.

3. DESCRIEREA INSTRUMENTELORPentru a putea analiza problemele considerate s-a aplicat un chestionar (Anexa 1) unui esantion de 35 de persoanae, studenti, in Compexul Studentesc Regie R1, R2, R3 si in caminele de de la Agronomie A1 si A2, cat si in Campusul Studentesc Leu, caminele A, B si C. Chestionarul a presupus răspunderea la un set de întrebări referitoare la vârstă, anul de studiu, preferinţa pentru o anumită firma de adidasi conform preferintelor, venitul lunar al studentului, preţul pe care acesta este dispus sa îl plătească pentru o pereche de adidasi şi cantitatea de produse cumpărate in intervalul unui an calendaristic.

Page 2: Proiect SPSS - Analiza Datelor

Variabilele ce vor constitui baza de date din SPSS vor fi: vârsta, sexul persoanei, venitul, firma producatoare de adidasi, preţul acestora şi cantitatea. Acestea vor constitui baza de date Adidas.sav

4. ANALIZA SI PRELUCRAREA DATELOR-Definirea variabilelor şi introducerea datelor în SPSSAtributele acestor variabile sunt definite în fereastra Data Editor – Foaia VariableView:

Figura 1 Fereastra Data Editor – Foaia Variable View pentru baza de date:Adidas.sav.

Astfel baza de date ce va fii analizata este urmatoarea:

Figura 2 Fereastra Data Editor – Foaia Data View pentru baza -Verificarea bazei de date.Depistarea outlierilorOutlierile reprezintă valorile aberante înregistrate la nivelul unui eşantion şi se pot depista pe baza graficelor care verifică normalitatea distribuţiilor variabilelor. Pentru această analiză se vor analiza ca variabile numerice preţul adidasului şi cantitatea pe care studenţii sunt dispuşi să o achiziţioneze într-un an, iar ca variabile nominale sexul şi firma adidasului preferata.Outlierile se pot depista în cazul variabilelor numerice, iar valorile acestora se vor depista astfel Analyze – Descriptive Statistics – Explore – Plots sau Analyze – Descriptive Statistics – Q-Q Plots, outlierile fiind depistate implicit. Pentru variabila „Cantitate”:În cazul acestei variabile în fereastra Explore se înlocuieşte în Dependent List variabila „Preţ” cu variabila „Cantitate”

Page 3: Proiect SPSS - Analiza Datelor

Figura 4 Diagrama Boxplot pentru Figura 3 Diagrama Boxplot pentru variabila „Cantitate”variabila „Preţ”Interpretare: Aşa cum se observă, nu există valori aberante.

Verificarea normalităţii distribuţiilorPentru a verifica normalitatea distribuţiilor variabilelor „Preţ” şi „Cantitate” se folosesc procedeele grafice Q-Q Plot, P-P Plot, Boxplot, histograma, testul Kolmogorov-Smirnov-Lilliefors.Pentru a putea depista şi outlierile se va folosi procedeul Q-Q Plot. Q-Q Plot compară valorile ordonate ale variabilei observate cu valorile quantilice ale distribuţieie teoretice specificate (în acest caz distribuţia normală). Dacă distribuţia variabilei testate este normală, atunci punctele Q-Q conturează o linie care se suprapune cu dreapta care reprezintă distribuţia teoretică, adică trece prin origine şi are panta egală cu 1.Pentru acesta se va urmări demersul: Analyze – Descriptive Statistics – Q-Q Plots,– la Variables se introduce variabila de analizat, iar la Test Distribution se alege Normal. Pentru cele două variabile numerice rezultatele sunt următoarele:

Figura 5 Q-Q Plot pentru variabila „Preţ”

Page 4: Proiect SPSS - Analiza Datelor

Figura 6 Q-Q Plot pentru variabila „Cantitate”Interpretare: Se observă că punctele nu sunt serios deviate de la linia dreaptă, ceea ce indică o distribuţie normală.-Analiza statistică univariată a datelor. Descrierea statistică a variabilelor nominale.Cele două variabile nominale ce vor fi analizate sunt sexul persoanei chestionate şi firma de adidasi folosita.Pentru a descrie aceste variabile se vor urma paşii: meniul Analyze – Descriptive Statistics – Frequencies – Statistics (unde la Central Tendency se bifează Mode) şi Charts (unde la Chart Type se bifează Pie sau Bar, iar la Chart Value Frequencies sau Percentages). Astfel, se obţin următoarele rezultate:Pentru variabila „Sexul persoanei” chestionate se obţin rezultatele:

Sexul persoanei

Frequency Percent Valid Percent

Cumulative

Percent

Valid F 21 60.0 60.0 60.0

M 14 40.0 40.0 100.0

Total 35 100.0 100.0

Tabelul 7 Sexul persoanei

Figura 8 Diagrama Pie pentru variabila „Sexul persoanei”

Interpretare: Se observă şi din tabel şi din grafic că proporţie persoanelor de sex feminin din eşantion este de 60%, iar cea a persoanelor de sex masculin este de 40%Pentru variabila „Firma adidasului”:

Page 5: Proiect SPSS - Analiza Datelor

Firma de adidasi

Frequency Percent Valid Percent Cumulative Percent

Valid ADIDAS 14 40.0 40.0 40.0

Bazar 10 28.6 28.6 68.6

LOTUS 2 5.7 5.7 74.3

NIKE 5 14.3 14.3 88.6

PUMA 4 11.4 11.4 100.0

Total 35 100.0 100.0

Tabelul 9Firma de adidasi

Figura 10 Diagrama Pie pentru variabila „Firma adidasului”Interpretare: Dupa cum se observă atât din tabel cât şi din grafic proporţiile firmelor de adidasi sunt: PUMA(11.4%), LOTUS(5.7%), ADIDAS(40.0%), NIKE(14.3%), BAZAR(28.6%).-Descrierea statistică a variabilelor numerice.În cazul variabilelor numerice se foloseşte acelaşi demers ca în cazul variabilelor nominale, cu diferenţa că se bifează toţi indicatorii din Statistics iar la Charts se bifează Histograms. Astfel, se obtin următoarele rezultate:

Figura 11 Histograma si tabelul pentru variabila „Preţul produsului”

Statistics

Pretul adidasilor

N Valid 35

Missing 0

Mean 3.06

Std. Error of Mean .272

Median 3.00

Mode 2

Std. Deviation 1.608

Variance 2.585

Skewness .487

Std. Error of Skewness .398

Kurtosis -.829

Std. Error of Kurtosis .778

Range 5

Minimum 1

Maximum 6

Page 6: Proiect SPSS - Analiza Datelor

Figura 12 Histograma si tabelul pentru

variabila “Cantitate”

Interpretare: Pentru ambele variabile se citesc în tabel principalii indicatori: media, mediana, varianţa, modul, valorile minime şi valorile maxime.

-Analiza statistică bivariată a datelor.Analiza statistică a gradului de asociere între două variabileGradul de asociere se poate studia pentru variabilele nominale, în acest caz sexul persoanei şi firmele de adidasi folosite. Gradul de asociere presupune obţinerea tabelului de asociere, în care sunt prezentate relaţiile dintre variabilele categoriale. În fiecare celulă a tabelului este prezentată frecvenţa parţială, adică efectivul care poartă simultan o valoare a fiecărei variabile. Obţinerea acestui tabel presupune următorul demers: Analyze – Descriptive Statistics – Crosstabs. La „rows”-completam „firma de adidasi”iar la „columns”-completam „sex persoana”. La „statistics”-bifam „Chi-square”:

Tabel 14 Testarea gradului de asociere

folosind testul Chi – Square

Tabel 13 Statistică a gradului de asociere între firmele producatoare si sexul

cumparatorilor

Statistics

Numarul de perechi

N Valid 35

Missing 0

Mean 1.97

Std. Error of Mean .133

Median 2.00

Mode 2

Std. Deviation .785

Variance .617

Skewness .824

Std. Error of Skewness .398

Kurtosis .992

Std. Error of Kurtosis .778

Range 3

Minimum 1

Maximum 4

Firma de adidasi * sexpers Crosstabulation

Count

sexpers

Total.00 1.00

Firma

de

adidasi

ADIDAS 10 4 14

Bazar 6 4 10

LOTUS 1 1 2

NIKE 3 2 5

PUMA 1 3 4

Total 21 14 35

Chi-Square Tests

Value df Asymp. Sig. (2-sided)

Pearson Chi-Square 2.887a 4 .577

Likelihood Ratio 2.898 4 .575

N of Valid Cases 35

a. 7 cells (70.0%) have expected count less than 5. The

minimum expected count is .80.

Page 7: Proiect SPSS - Analiza Datelor

Interpretare: În eşantionul analizat sunt 6 persoane de sex feminin care folosesc cu precădere adidasi din BAZAR, 3 persoane de firma NIKE, 10persoane de la firma ADIDAS, o persoana de la firma LOTUS si o persoana de la firma PUMA. Persoanele de sex masculin care folosesc cu precădere adidasi sunt 4 persoane din BAZAR, 2 persoane de la firma NIKE, 4 persoane de la firma ADIDAS, o persoana de la firma LOTUS si 3 persoane de la firma PUMA.Analiza de regresie şi corelaţieAnaliza de corelaţie presupune măsurarea gradului de intensitate a legăturii dintre variabilele numerice, precum şi testarea semnificaţiei legăturii. Acest lucru se realizează urmând paşii: Analyze – Correlate – Bivariate. În cazul celor două variabile numerice studiate (preţul şi numărul de adidasi cumpărati) se obţine următorul rezultat:

Tabelul 15 Corelatia Interpretare: Se observă că s-a obţinut un coeficient de corelaţie Pearson egal cu 0.514, ceea ce înseamnă că între cele două variabile există o corelaţie directa, valoarea coeficientului fiind apropiata de unu.Testarea semnificaţiei coeficientului de corelaţie este realizată cu ajutorul testului t. Valoarea Sig. corespunzătoare, egală cu 0.002, evidenţiază că s-a obţinut un coeficient de corelaţie semnificativ la un prag de 0.002, adică sunt şanse mai mici de 1% (α = 0.01) de a gresi in a afirma ca intre cele doua variabile exista o corelatie semnificativa.

Analiza de regresie presupune aproximarea modelului de regresie, estimarea şi testarea parametrilor modelului de regresie. Între cele două variabile numerice se poate stabili o legătură liniară dată prin ecuaţia de regresie liniară simplă, care are forma:Yi = α + Βxi + εi

în care:Y – variabila dependentă (numărul de adidasi)X – variabila independentă (preţul adidasilor)ε – variabila aleatorie eroare sau reziduu

Aproximarea modelului de regresie se realizează prin Scatterplot (din meniul Graphs - Interactive). Se optine outputul:

Correlations

Numarul

de perechi

Pretul

adidasilor

Numarul

de perechi

Pearson Correlation 1 .514**

Sig. (2-tailed) .002

N 35 35

Pretul

adidasilor

Pearson Correlation .514** 1

Sig. (2-tailed) .002

N 35 35

**. Correlation is significant at the 0.01 level (2-tailed).

Page 8: Proiect SPSS - Analiza Datelor

Figura 16 Regresia între „Numărul de

adidasi” şi „Preţul adidasilor”Estimarea parametrilor modelului de regresie presupune parcurgerea demersului: Analyze – Regession – Linear, prin care se deschide fereastra de dialog Linear Regession. Urmând paşii necesari, în output se analizează Model Summary, ANOVA, Coefficients.

Model Summary

Model

R

R

Square

Adjusted R

Square

Std. Error of the

Estimate

Change Statistics

R Square

Change

F

Change df1 df2

Sig. F

Change

dimension0

1 .514a .264 .242 1.400 .264 11.835 1 33 .002

a. Predictors: (Constant), Numarul de perechi

Tabelul 17 Model Summary prezintă valoarea coeficientului de corelaţie R, valoarea raportului de determinaţie R2 şi eroarea standard a estimaţiei. Interpretare: Valoarea lui R este 0.514, ceea ce indică faptul că între cele două variabile există o legătură directă. Valoarea lui R2 este 0.264, ceea ce indică faptul că 26.4% din variaţia variabilei Y este explicată prin variaţia variabilei X. Aceasta este o valoare destul de mică, ceea ce înseamnă că modelul ales nu explică foarte bine legătura dintre variabile.

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 23.199 1 23.199 11.835 .002a

Residual 64.687 33 1.960

Total 87.886 34

a. Predictors: (Constant), Numarul de perechi

b. Dependent Variable: Pretul adidasilor

Tabelul 18 Regession ANOVA prezintă rezultatele analizei varianţei variabilei dependente sub influenţa factorului de regresie şi a factorului reziduu. Prezintă informaţii asupra sumei pătratelor abaterilor variabilei dependente, gradele de libertate, estimaţiile varianţelor datorate celor două surse de variaţie, raportul F şi Sig

Linear Regression

1 2 3 4

Numarul adidasi cumparat pe an

1

2

3

4

5

6

Pretul adidasilori

Pretul adidasului = 0.98 + 1.05 * cantitR-Square = 0.26

Page 9: Proiect SPSS - Analiza Datelor

Interpretare: În cazul variabilelor considerate, valoarea Sig. pentru F este mai mică decât 0.05, fiind 0.02, prin urmare relatia liniară dintre cele două variabile considerate este semnificativă.

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) .984 .648 1.519 .138

Numarul de perechi 1.052 .306 .514 3.440 .002

a. Dependent Variable: Pretul adidasilor

Tabelul 19 Coefficients prezintă coeficienţii nestandardizaţi ai modelului de regresie estimat, erorile standard ale acestora, coeficienţii de regresie standardizaţi cu erorile standard corespunzătoare, precum şi valorile statisticii test t şi valorile Sig. corespunzătoare.Interpretare: Pentru o încredere de 95% se observă că în cazul ambilor coeficienţi valoarea lui Sig. este mai mică decât 0.05, ceea ce înseamnă că aceştia sunt semnificativ diferiţi de 0. Astfel, ecuaţia de regresie are următoarea formă:Y =1.204+ 0.251 X-Estimarea şi testarea statisticăEstimarea este procedeul prin care se generalizează rezultatele observate pe un eşantion, la nivelul populaţiei din care este extras, adică se află valoarea unui parametru al unei populaţii pe baza datelor înregistrate la nivelul unui eşantion extras din aceasta.Estimarea poate fi punctuală sau prin interval de încredere. În acest caz se va estima prin interval de încredere.-Testarea diferenţei dintre două proporţii.Acest lucru presupune folosirea testului Chi-Square, urmând demersul: Analyze – Nonparametric Tests – Chi-Square Test. Se va verifica dacă proporţia persoanelor de sex feminin este egală cu proporţia persoanelor de sex masculin.

Observed N Expected N Residual.00 21 17.5 3.51.00 14 17.5 -3.5Total 35

Test Statisticsa 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 17.5

Tabelele 20 Sexul persoanei si Test statisticsInterpretare: Se observă că sunt 21 de persoane de sex feminin şi 14 de sex masculin. Conform ipotezei de nul (de egalitate a proporţiilor), pentru fiecare categorie ar trebui să fie câte 17.5 persoane. În tabelul Chi-Square Test valoarea semnificaţiei este mai mare decât 0.05 şi, prin urmare se acceptă ipoteza de nul.

5. CONCLUZIIÎn urma realizării anchetei privind cererea de adidasi in Complexul studenţesc Regie, in caminele de de la Agronomie si in Campusul Studentesc Leu, se poate concluziona că aceasta este relativ constantă, depinzând în oarecare măsură de preţul acestora. De

SEXPERSChi-Square(a)

1.400

df 1Asymp. Sig. .237

Page 10: Proiect SPSS - Analiza Datelor

asemenea se observă că la nivelul întregii populaţii nu există diferenţe semnificative între proporţia persoanelor de sex feminin care cumpara jeansi şi proporţia persoanelor de sex masculin, întrucât multe dintre produse reprezintă o necesitate.

BIBLIOGRAFIE

Jaba, Elisabeta, Statistica, ediţia a III-a, Editura Economică, Bucureşti, 2002;Jaba, Elisabeta; Grama, Ana, Analiza statistică cu SPSS sub Windows, Editura Polirom, 2004