Curs 2 statistica

12
6.2.1. Analiza unei variabile nominale A.1. Tabele de frecvenţe Utilizând din bara de comenzi următoarele opţiuni Analyze – Descriptive Statistics – Frequencies , se obţine tabelul de frecvenţe corespunzător repartiţiei eşantionului în raport cu variabila considerată. ( ex: modalitati de servire). Interpretare: Numărul celor care au răspuns la această întrebare este 319 persoane, numărul non-răspunsurilor este 35, iar volumul eşantionului n = 354 . Dintre cei care au răspuns, 58 servesc berea la halba, 233 la sticla ăi 28 la doza. ( Frequency = frecvenţe absolute ). Cea de-a doua coloană prezintă frecvenţele relative, exprimate în procente. Datorita faptului că există şi non-răspunsuri, frecvenţele relative se vor citi din coloana a treia (Valid Percent): 73 % din totalul repondenţilor beau bere la sticla. Tabelul 6.2 Tabel de frecvenţe Modalităţi de servire Frequen cy Percent Valid Percent Cumulati ve Percent la halba 58 16.4 18.2 18.2 la sticla 233 65.8 73.0 91.2 la doza 28 7.9 8.8 100.0 Total 319 90.1 100.0 Missing 35 9.9 Total 354 100.0 A.2. Grafice graficele adecvate variabilelor ale căror stări sunt exprimate prin cuvinte sunt diagramele de structură

description

Curs 2 statistica

Transcript of Curs 2 statistica

Page 1: Curs 2 statistica

6.2.1. Analiza unei variabile nominale

A.1. Tabele de frecvenţe

Utilizând din bara de comenzi următoarele opţiuni Analyze – Descriptive Statistics – Frequencies, se obţine tabelul de frecvenţe corespunzător repartiţiei eşantionului în raport cu variabila considerată. ( ex: modalitati de servire).

Interpretare: Numărul celor care au răspuns la această întrebare este 319 persoane, numărul non-răspunsurilor este 35, iar volumul eşantionului n = 354 . Dintre cei care au răspuns, 58 servesc berea la halba, 233 la sticla ăi 28 la doza. ( Frequency = frecvenţe absolute ). Cea de-a doua coloană prezintă frecvenţele relative, exprimate în procente. Datorita faptului că există şi non-răspunsuri, frecvenţele relative se vor citi din coloana a treia (Valid Percent): 73 % din totalul repondenţilor beau bere la sticla.

Tabelul 6.2 Tabel de frecvenţe

Modalităţi de servire

Frequency Percent Valid Percent

Cumulative

Percent

la halba 58 16.4 18.2 18.2

la sticla 233 65.8 73.0 91.2

la doza 28 7.9 8.8 100.0

Total 319 90.1 100.0

Missing 35 9.9

Total 354 100.0

A.2. Grafice – graficele adecvate variabilelor ale căror stări sunt exprimate prin cuvinte sunt diagramele de structură sau diagramele prin coloane. Din meniul Graphs se alege opţiunea Pie (cerc de structură)

Page 2: Curs 2 statistica

Figura 6.1 Cercul de structură (pie)

În cazul în care avem valori care lipsesc (Missing) datorită non răspunsurilor se recomandă excluderea acestora în momentul editării graficului. De asemenea in acest grafic e nevoie sa fie trecute procentele aferente starilor variabilei analizate. In cazul în cazul în care variabila nominală rezultă dintr-o întrebare deschisă şi s-a ales modalitatea de scriere string atunci se va realiză o analiză de conţinut, respectiv se vor studia răspunsurile primite, se vor alege si codifica răspunsurile cele mai frcvente, cele mai putin întâlnite se vor reuni intr-o stare denumită “alte răspunsuri”. In consecinţă se va forma o nouă variabilă nominală codificată numeric ce va putea fi prelucrată ca mai sus.Ca de exemplu avem variabila Mărci de bere preferate. Dintre mărcile enunţate au fost reţinute cele care aveau o cotă de cel puţin 5%. Din Chart Editor- Properties- Categories se alege opţiunea Collapse (sum) categories less than ... %. Celelalte mărci au fost grupate in starea Other.

Page 3: Curs 2 statistica

Figura 6.2 Cercul de structura- marci de bere

6.2.2 Analiza unei variabile ordinale

B.1. Tabele de frecvenţe

În meniul Analyze – Descriptive Statistics – Frequencies introducem o variabilă ordinală, ex: venitul pe intervale, pentru a obţine tabelul de frecvenţă trebuie sa bifăm opţiunea Display frequency tables.

Tabelul 6.3 Venitul pe intervale

Interpretare: cei mai mulţi repondenţi (174) au un venit de sub 2000, ceea ce reprezintă 49,6% din totalul celor intervievaţi. Se observă că 89,5% din totalul repondenţilor au un venit de cel mult 5000.

B.2. Parametrii repartiţiei unidimensionale: valoare mediană (Me), modală (Mo),

valori quartile (Q1 ,Q2 ,Q3 ).Comanda Analyze – Descriptive Statistics – Frequencies – Statistics ne conduce la

deschiderea unei ferestre în care selectăm parametrii doriţi a se calcula referitor la variabila studiată. În fereastra Charts selectăm şi opţiunea Bar Charts pentru a realiza graficul.

Frequency PercentValid

PercentCumulative

Percentsub 2000 174 49.2 49.6 49.6

[2000 - 5000]

140 39.5 39.9 89.5

peste 5000 37 10.5 10.5 100.0 Total 351 99.2 100.0

Missing 3 0.8 Total 354 100.0

Page 4: Curs 2 statistica

Interpretare: ţinând cont de modul de codificare a variabilei observăm că jumătate dintre cei chestionati au un venit de până la 2000-5000, iar ceilalţi 50% în acest interval şi peste. Cei mai mulţi au un venit de sub 2000 (Mo). Folosind valorile quartile, distribuţia eşantionului în raport cu variabila “venitul pe intervale” se prezintă astfel : 25% dintre repondenţi au un venit până în 2000, iar 75% au un venit în intervalul 2000-5000.

B.3. Grafice –

În cazul variabilelor ordinale graficele adecvate sunt diagramele de structură (Pie) şi diagramele prin benzi (Barchart).

Figura 6.3 Diagrama prin coloane

Calcularea şi interpretarea parametrilor în cazul variabilelor ordinale nu este spectaculosă si uneori nici nu se aduce un plus de informaţie (a se vedea cazul în care toţi parametrii au aceeaşi valoare), dar atunci când dorim să ierarhizăm variabilele în funcţie de răspunsurile primite ne folosim de parametrii (Me, Mo, Q).

Tabelul 6.4 Parametrii gradului de importanţă

N Valid 351 Missing 3Median 2.00Mode 1Percentiles 25 1.00 50 2.00 75 2.00

Page 5: Curs 2 statistica

importanta

gustului

importanta

ambalajului

importanta

pretului

importanta

disponibilitatii

importanta

notorietatii

N 347 347 347 347 347

Median 3.00 2.00 2.00 2.00 2.00

Mode 3 2 3 2 2

Percentiles 3.00 1.00 2.00 1.00 1.00

3.00 2.00 2.00 2.00 2.00

3.00 2.00 3.00 2.00 3.00

Se poate observa că în rândul consumatorilor pe primul loc ca importanţă în alegerea mărcii de bere este Gustul deoarece Me are cea mai mare valoare, 3. Celelalte variabile au valoarea 2 pentru Me, in consecinta ne folosim de Mo şi Q, astfel Importanţa preţului este pe locul doi deaorece are Mo=3 si Q1=2. Pe locul trei se situează Importanţa notorietăţii, are Q3=3, pe următoarele locuri fiind disponibilitatea şi ambalajul.

6.2.3 . Analiza unei variabile cantitative (scale)

C.1. Tabele de frecvenţe

În meniul Analyze – Descriptive Statistics – Frequencies introducem o variabilă de tip scale, ex: „Note acordate pentru gustul berii Z”, la nivelul căruia se impune calcularea parametrilor, reprezentarea grafică (histograma), uneori tabelul de frecvenţe dacă numărul de stări nu este prea mare.

Page 6: Curs 2 statistica

Cea mai mare frecvenţă pentru gustul berii Keller o înregistrează nota 7, 34,7% (adică 41 de persoane) dintre respondenţi au acordat această notă. De asemenea, 80,5% au acordat o notă de cel mult 8.

Tabelul 6.5Note acordate pentru gustul berii Keller

Frequency Percent Valid Percent

Cumulative

Percent

Valid 5 13 3.7 11.0 11.0

6 21 5.9 17.8 28.8

7 41 11.6 34.7 63.6

8 20 5.6 16.9 80.5

9 12 3.4 10.2 90.7

10 11 3.1 9.3 100.0

Total 118 33.3 100.0

Missing 236 66.7

Total 354 100.0

C.2. Parametrii repartiţiei unidimensionale – se obţin accesând comanda Analyze – Descriptive Statistics – Frequencies – Statistics şi selectând următorii parametrii: valoarea medie (mean), mediana, modala, valorile quartile, abaterea medie pătratică (std. deviation), varianţa, coeficientul de asimetrie (skewness), de boltire (kurtosis). În fereastra Charts selectăm şi opţiunea Histogram/With normal curve.

Page 7: Curs 2 statistica

Tabelul 6.6 Statistici descriptive

Interpretare: nota medie acordata pentru gustul berii Keller este de 7,25; jumătate din cei intrebati au acordat o nota de sub 7, cealaltă jumătate peste 7 (median ); cei mai mulţi repondenţi au acordat nota 7 pentru gustul berii Keller (mode ); cu 1,53 se abate în medie nota acordata de catre fiecare persoana intervievata de la nota medie de 7,17. (std. deviation ).

În ceea ce priveşte parametrii formei, se observă că seria este usor asimetrică negativ, (skewness<0 ); în ceea ce priveşte boltirea seriei, avem o serie leptocurtică, existând mai multe valori în jurul valorii medii decât în cazul distribuţiei normale.

Ultimele trei rânduri ale tabelului prezintă valorile quartile, valori care împart repartiţia în patru părţi egale. Pachetul de programe SPSS permite şi calculul valorilor decile.

C.3. Grafice – în cazul variabilelor cantitative continue graficul relevant este histograma. Construirea acestui grafic presupune următorul demers: Graphs – Histogram, selectând şi opţiunea Display normal curve.

Mean 7.250Median 7.0000Mode 7.00Std. Deviation 1.409Variance 2.364Skewness -0.243Std. Error of Skewness 0.221Kurtosis 1.239Std. Error of Kurtosis 0.438Percentiles 25 6.0000 50 7.0000 75 8.0000

Page 8: Curs 2 statistica

Figura 6.4 HistogramaHistograma permite vizualizarea distribuţiei variabilei, fiind folosită pentru a diagnostica cu uşurinţă dacă distribuţia este normală prin compararea histogramei variabilei observate cu graficul curbei Gauss. În acest sens este utilă şi interpretarea valorilor parametrilor formei. Se observă că distribuţia variabilei „Nota acordată pentru gustul berii Keller” se apropie de distribuţia legii normale.

Deşi coeficienţii de asimetrie şi boltire exprimă numeric în ce măsură o distribuţie se abate de la normalitate, nu dau posibilitatea interpretării gradului de semnificaţie a deviaţiei de la normalitate.

Boxplot-ul este un grafic relevant, reprezintă descrierea cazurilor ordonate de la valoarea cea mai mică până la valoarea cea mai mare. Dreptunghiul din mijlocul graficului

conţinte 50% din valorile distribuţiei; lăţimea acestuia reprezintă abaterea interquartilică (Q3 -Q1 ), linia din mijlocul dreptunghiului reprezintă mediana. Punctele ce apar in afara graficului reprezintă valorile marginale (marcate cu un cerc) şi valorile extreme (marcate cu *) ale distributiei.

Page 9: Curs 2 statistica

Figura 6.5 BoxplotC.4 Procedura Explore - este cea mai complexa si permite analizarea in detaliu a

variabilei.

Dependent List: includem variabila de analizat

Factor List: includem o variabila nominala, în funcţie de care dorim să realizăm analiza Label cases by : permite etichetarea cazurilor în momentul afişării rezultatelor Display: alegem opţiunile de afişare a rezultatelor: Statistics, Plots, Both

Statistics: permite alegerea indicatorilor ce vor fi calculaţi.

Tabelul Extreme Values prezintă câte 5 valori de la marginea distribuţiei. Aceste valori trebuie analizate pentru a vedea dacă se abat semnificativ de la tendinţa centrală a distribuţiei şi pentru a vedea dacă sunt erori în baza de date.

Page 10: Curs 2 statistica

Tabelul 6.7 Extreme Values

Case Number ValueNote acordate pentru gustul sortimentului

Highest 17 25.00

2 161 17.00 3 28 14.00 4 13 10.00 5 17 10.00 Lowest 1 241 3.00 2 240 3.00 3 170 4.00 4 148 5.00 5 236 5.00

C5 – Daca dorim ierarhizarea unor variabile scale exprimate în aceeaşi unitate de măsurăIn acest caz ne folosim de optiunea Analyze – Descriptive Statistics/Descriptives, selectăm variabilele ce urmează a fi prelucrate iar la Options bifăm mean, std. Deviation, minimum, maximum şi Ascending means sau Descending means.