Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared...

13
1 al.isaic-maniu www.amaniu.ase.ro http://www.ase.ro/ase/studenti/index.asp?item=Fisiere&ID=288 Cercetarea prin sondajul – II Note de curs – prelegere master data 24 oct.2013 20.oct.2013 1 2 Distributia Normala 20.oct.2013 Distributia Normala Cea mai importanta distributie continua : Numeroase variabile aleatoare pot fi adecvat modelate daca sunt normal distribuite. Multe distributii pot fi aproximate printr-o distributie normala. Distributia normala este piatra de temelie a inferentei statistice. 3 20.oct.2013

Transcript of Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared...

Page 1: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

1

al.isaic-maniu

www.amaniu.ase.ro

http://www.ase.ro/ase/studenti/index.asp?item=Fisiere&ID=288

Cercetarea prin

sondajul – II Note de curs – prelegere master data 24 oct.2013

20.oct.2013 1

2

Distributia Normala

20.oct.2013

Distributia Normala

Cea mai importanta distributie continua :

– Numeroase variabile aleatoare pot fi adecvat modelate daca sunt normal distribuite.

– Multe distributii pot fi aproximate printr-o distributie normala.

– Distributia normala este piatra de temelie a inferentei statistice.

3 20.oct.2013

Page 2: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

2

Legea normală (Gauss-Laplace)

• Una din ipotezele fundamentale in sondajul statistic este

normalitatea (apartenenţa la legea Gauss-Laplace) a caracterizării investigate este necesar să discutăm despre această lege statistică.

• Modelul Gauss-Laplace uzual, din punct de vedere matematic reprezintă o repartiţie statistică definită de

• funcţia de repartitie

unde

dx

xxF

x

2

2

2

2exp

2

1;;

R x0,σ R,μ

20.oct.2013 4

Respectiv functia de frecventa

sau funcţia de densitate a repartitiei variabilei aleatoare X

• X – mărimea fizică măsurată şi care reprezentată grafic are binecunoscuta formă de „clopot” (aşa-numitul „clopot al lui Gauss”)

• Se ştie că o funcţie de densitate trebuie să îndeplinească următoarele cerinţe:

(i) şi

(ii) unde D este domeniul de definiţie al variabilei X, în

cazul nostru dreapta reală, R.

2

2

2exp

2

1

xxf

Dx 0,xf

D

dxxf 1

20.oct.2013 5

Scurt istoric – legea normala (1)

Originea acestui model o găsim în lucrarea „Dialog despre cele două sisteme fundamentale ale lumii” a lui Galileo GALILEI (1564-1642), în care el îşi expune părerile referitoare la măsurarea distanţelor dintre diferite corpuri cereşti:

Galilei considera că:

• erorile întâmplătoare sunt inevitabile în observaţiile obţinute cu diverse mijloace de măsurare

• erorile mici au şanse mai mari de apariţie decât cele mari sau foarte mari

• măsurările tind să se distribuie aproximativ egal la stânga şi la dreapta unei valori „de referinţă”

• majoritatea valorilor observate tind să se grupeze („să se aciuiască”) în jurul acestei valori de referinţă

20.oct.2013 6

Page 3: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

3

( 2 ) • Repartiţia normală apare de fapt pentru prima oară în 1733

într-o lucrare a lui Abraham de MOIVRE (1667-1754), matematician cunoscut mai curând prin „formula Moivre” referitoare la numerele complexe

• Abia odată cu lucrările lui Carl Friedrich GAUSS (1777-1855) şi cele ale lui Pierre Simon, Marquis de LAPLACE (1749-1827) se pun în lumină proprietăţile şi importanţa deosebită a acestei legi statistice ca descriptor – iniţial al comportării erorilor de observaţie (Gauss, 1809 în „Theoria Motus Corpum Caelestium”

• Laplace (1810/1811 în „Theorie analitique des Probabilites” din 1812) arată rolul teoretic (şi practic) excepţional jucat de legea normală prin aşa-numita TEOREMĂ LIMITĂ CENTRALĂ.

20.oct.2013 7

Cateva proprietati ale legii normale graficul funcţiei are un singur maximum pentru

si două inflexiuni de abscise

parametrii descriptori şi au semnificaţia mediei şi dispersia teoretice: ;

intervalul conţine aproximativ 99,73% din valorile mărimii X.

x

x

2 xM 2var x

3,3

20.oct.2013 8

Variabila se numeste variabila normală standard (sau standardizată) şi are funcţia de densitate respectiv de repartiţie

variabila U are media O şi dispersia 1.

Aceste funcţii au fost tabelate iniţial de către Laplace.

2/exp2

1 2

0 uuf

dteuF

u

t

2/

0

2

2

1

/ xU

20.oct.2013 9

Page 4: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

4

Grafice ale legii normale

20.oct.2013 10

20.oct.2013 11

Erori in verificarea ipotezelor statistice (Hypothesis testing errors)

Erori în procesul de verificare a ipotezelor statistice:

H0 / H1

• Eroare de genul întâi: ipoteza H0 se respinge, când ea

este adevărată.

• Eroare de genul al doilea: ipoteza H1 se admite, când

ea este falsă.

• Probabilităţile de a fi comise cele două tipuri de erori sunt:

probabilitatea erorii de genul întâi – risc de genul I şi respectiv

probabilitatea erorii de genul al doilea-risc de genul II .

20.oct.2013 12

Page 5: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

5

Nivel de încredere (Confidence level)

Valoarea P = )1( a probabilităţii asociate unui interval de încredere.

Prob = )1( poate fi exprimat în procente [ )1( 100].

Nivel (prag) de încredere ( ) (Confidence level or significance level)

Termen folosit pentru a indica probabilitatea erorii de genul întâi ( ).

Sinonim: nivel de semnificaţie.

Nivel de semnificaţie (Signifiance level)

Valoarea dată a limitei superioare a probabilităţii de eroare de tipul I.

Nivelul de semnificaţie se notează cu .

20.oct.2013 13

Test statistic (Statistical test)

• Procedura statistică prin care se decide dacă ipoteza nulă poate fi respinsă în favoarea ipotezei alternative sau nu

• În general, un test preia apriori o anumită ipoteză, care trebuie verificată (de exemplu, ipoteza de independenţă a observaţiilor, ipoteza de normalitate etc.).

• Testele pot fi construite cu ajutorul mediei aritmetice şi cu ajutorul altor variabile aleatoare de sondaj, acestea numindu-se de regulă statistici decizionale ale testului statistic

20.oct.2013 14

Testarea normalităţii

• Verificarea faptului că datele experimentale obţinute sunt repartizate după legea Gauss-Laplace se poate face în mai multe moduri, şi anume:

–algebric (utilizând indicatorii de eşantionaj cu proprietăţile lor specifice în cazul legii normale);

–grafic (folosind aşa-numitele „hârtii” sau reţele de tip probabilist)

–analitic (utilizând procedee statistice speciale – aşa numitele „teste de concordanţă”).

20.oct.2013 15

Page 6: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

6

Testul hi-pătrat - testul 2 (Chi-squared test)

Testul statistic în care, pentru validarea ipotezei nule, statistica utilizată presupune

existenţa repartiţiei 2 . Testul este aplicat, de exemplu, la următoarele probleme:

a. testul de egalitate între varianta unei populaţii normale şi o valoare specificată, statistica

testului având la bază varianta eşantionului;

b. comparaţia între efectivele teoretice şi cele observate;

c. în validarea unei legi de repartiţie, ca de pildă cea normală.

O formă clasică de construire a regiunii critice a testului 2 este următoarea:

Fie X o variabilă care poate lua valorile x1, x2, …, xm, cu probabilităţile p1, p2, …, pm. Fie

n1, n2, …,nm frecvenţele de apariţie a valorilor x1, x2, …, xm, într-un eşantion de volum n.

Regiunea critică a testului 2 pentru verificarea ipotezei p1 = p2 = … = pm se construieşte pe

baza indicatorului statistic de forma:

n

1i i

2

ii

np

)npn(

care pentru n are repartiţia 2 cu n – 1 grade de libertate.

20.oct.2013 16

Distributii de esantionare

1.Introducere • In practica , parametrii unei populatii nu se

calculeaza deoarece populatiile sunt foarte mari

• Decat sa se investigheze intreaga populatie, se ia un esantion, se calculeaza o statistica legata de un parameteru de interes, si se realizeaza o inferenta.

• Distributia de esantionare a statisticii este un instrument care ne arata cat de apropiata este statistica de parametru

17 20.oct.2013

Distributia de esantionare a mediei • Un exemplu:

– Un zar este aruncat de foarte multe ori. Fie X numarul oricarei aruncari.

– Probabilitatea de distributie a lui X este:

18

x 1 2 3 4 5 6 p(x) 1/6 1/6 1/6 1/6 1/6 1/6

M(X) = 1(1/6) + 2(1/6) + 3(1/6)+ ………= 3.5 V(X) = (1-3.5)2 + (2-3.5)2 + ……… ………. = 2.92

20.oct.2013

Page 7: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

7

• Presupunem ca dorim sa estimam din media unui esantion de dimensiune n = 2.

• Care este distributia pe care o urmeaza ?

19

x

xEsantion Medie Esantion Mean Esantion Medie

1 1,1 1 13 3,1 2 25 5,1 32 1,2 1,5 14 3,2 2,5 26 5,2 3,53 1,3 2 15 3,3 3 27 5,3 44 1,4 2,5 16 3,4 3,5 28 5,4 4,55 1,5 3 17 3,5 4 29 5,5 56 1,6 3,5 18 3,6 4,5 30 5,6 5,57 2,1 1,5 19 4,1 2,5 31 6,1 3,58 2,2 2 20 4,2 3 32 6,2 49 2,3 2,5 21 4,3 3,5 33 6,3 4,510 2,4 3 22 4,4 4 34 6,4 511 2,5 3,5 23 4,5 4,5 35 6,5 5,512 2,6 4 24 4,6 5 36 6,6 6

20.oct.2013

20

Esantion Medie Esantion Medie Esantion Medie1 1,1 1 13 3,1 2 25 5,1 32 1,2 1,5 14 3,2 2,5 26 5,2 3,53 1,3 2 15 3,3 3 27 5,3 44 1,4 2,5 16 3,4 3,5 28 5,4 4,55 1,5 3 17 3,5 4 29 5,5 56 1,6 3,5 18 3,6 4,5 30 5,6 5,57 2,1 1,5 19 4,1 2,5 31 6,1 3,58 2,2 2 20 4,2 3 32 6,2 49 2,3 2,5 21 4,3 3,5 33 6,3 4,510 2,4 3 22 4,4 4 34 6,4 511 2,5 3,5 23 4,5 4,5 35 6,5 5,512 2,6 4 24 4,6 5 36 6,6 6

1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0

6/36

5/36

4/36

3/36

2/36

1/36

x

M( ) =1.0(1/36)+ 1.5(2/36)+….=3.5 V(X) = (1.0-3.5)2(1/36)+ (1.5-3.5)2(2/36)... = 1.46

x

2

2

2:

x

xsixxNotam

20.oct.2013

Distributia de esantionare a mediei esantionului

mare desuficient uiesantionul al volumunpentr normala

vaproximati este ) mediu X(-normala este nu Xdaca

normala. este x normala, .3

22

.2

.1

n

estexDaca

n

xx

xx

20.oct.2013 21

Page 8: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

8

Terminologie

n

X

X

n

i

i 1

xx XXX 0

• Media de eşantion (de selecţie) – estimator pentru media populaţiei investigate

• Dispersia populaţiei investigate

• Dispersia de eşantion (de selecţie) – estimator pentru dispersia populaţiei investigate

• Media populaţiei investigate N

X

X

N

i

i 1

0

N

XXN

i

i

1

2

02

)(

1

)(1

2

2

n

XX

S

n

i

i

• Interval de încredere – dublă inegalitate probabilistă ce apare în urma inferenţei statistice

20.oct.2013 22

Erorile specifice cercetărilor prin sondaj

x

x

1. Eroarea datorată inferenţei statistice probabiliste (Z)

2. Eroarea medie de reprezentativitate ( ).

•Mediile de selecţie se distribuie normal. Media mediilor de

selecţie este chiar media populaţiei investigate.

•Urmare a distribuţiei normale, în funcţie de nivelul de

probabilitate stabilit, valoarea lui Z se culege din tabele.

• Folosind programul Excel: =NORMSINV( )

• volumul eşantionului

Depinde de:

• dispersia populaţiei investigate • tipul de selecţie folosit (cu revenire/ fără revenire) • metoda de eşantionare folosită (SAS, SS, cluster etc.)

3. Eroarea limită sau maxim admisibilă ( )

Zxx Întotdeanuna între cele trei tipuri de erori există relaţia: 20.oct.2013 23

Sondajul aleator simplu cu revenire

Zxx

xx XXX 0

nx

2

22 S

1. Intervalul de încredere pentru media aritmetică

3. Eroarea medie de reprezentativitate

2. Eroarea limită sau maxim admisibilă

dacă n>30 atunci: n

Sx

2

vom avea:

Zn

Sx

2

rezultă: 2

22

x

SZn

4. Stabilirea volumului eşantionului

20.oct.2013 24

Page 9: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

9

Sondajul aleator simplu fără revenire

Zxx

xx XXX 0

nx

2

1. Intervalul de încredere pentru media aritmetică

3. Eroarea medie de reprezentativitate

2. Eroarea limită sau maxim admisibilă

dacă n>30 atunci: 22 S

N

n

n

Sx 1

2

vom avea:

ZN

n

n

Sx

1

2

rezultă:

N

SZ

SZn

x

222

22

4. Stabilirea volumului eşantionului

Nn1

(factor de corecţie)

20.oct.2013 25

Sondajul stratificat Repartizarea volumului eşantionului pe straturi

(grupe)

• repartizarea egală

i

i

N

N

iy

repartizarea proporţională

repartizarea optimă

Să presupunem că avem un eşantion de volum n unităţi statistice

dintr-o populaţie de N unităţi statistice grupate în r grupe (straturi)

după o anumită variabilă:

În fiecare dintre cele r grupe se repartiza câte n/r unităţi statistice

În fiecare dintre cele r grupe se repartiza unităţile statistice proporţional cu

ponderile yi celor r grupe.

Formula pentru ponderi: Formula de repartizare: ii ynn

ii

ii

NS

NS

iy 2

2* *

ii ynn Formula de repartizare: Formula pentru ponderi:

În fiecare dintre cele r grupe se repartiza unităţile statistice proporţional cu ponderile

yi celor r grupe şi ţinând cont şi de mărimea dispersiei din interiorul fiecărei grupe.

20.oct.2013 26

Aplicaţie (1)

Pentru a cunoaşte nivelul mediu al producţiei zilnice obţinute de angajaţii unei firme, s-a extras aleator, proporţional şi nerepetat un eşantion de 100 de angajaţi ce reprezintă 10% din numărul total de angajaţi ai firmei.

În prealabil angajaţii au fost împărţiti, în funcţie de vechime, în trei grupe: I) angajaţi cu vechime mai mică de 5 ani; II) angajaţi cu vechime între 5 şi 10 ani şi III) angajaţi cu vechime mai mare de 10 ani.

S-au cules informaţiile, s-au efectuat prelucrările şi s-au obţinut următoarele rezultate:

20.oct.2013 27

Page 10: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

10

Aplicaţie (2)

I) în prima grupă de vechime, cei 25 de angajaţi au

produs în medie 15 bucăţi pe zi cu o dispersie de 12;

II) în a doua grupă de vechime, cei 50 de angajaţi au

produs în medie 20 bucăţi pe zi, cu un coeficient de

variaţie de 20%;

III) în a treia grupă, dintre cei 25 de angajaţi cei mai

mulţi au produs 27 de bucăţi, media aritmetică a fost

de 25 bucăţi iar coeficientul de asimetrie (Pearson) a

înregistrat o valoare de -0,33;

20.oct.2013 28

Aplicaţie (3)

Cu o probabilitate de 95,45% (Z=2) se cere:

a) Să se stabilească limitele între care se va încadra

producţia medie la nivelul întregii firme

b) Să se stabilească un interval de încredere

pentru producţia totală a fabricii într-o zi

c) Să se determine volumul noului eşantion dacă

dorim să reducem eroarea limită de 1,5 ori şi să

se repartizeze optim pe grupe (straturi)

20.oct.2013 29

Aplicaţie (4)

• Sistematizarea informaţiei disponibile n=100 angajaţi

n=10%*N N=1000 angajaţi

Grupa de vechime I (vechime sub 5 ani)

P=95,45% Z=2

nI=25 angajaţi bucxI 15 S2I=12

20.oct.2013 30

Page 11: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

11

Aplicaţie (5)

bucxII 20 %20IICV

%20100 II

II

x

S

IICV

Grupa de vechime II (vechime între 5 şi 10 ani)

nII=50 angajaţi

bucSII 4100

2020 S2II=16

Grupa de vechime III (vechime peste 10 ani)

nIII=25 angajaţi Mo=27 bucăţi bucxIII 25 Cas=-0,3333

333,0

III

IIIIII

III S

Mox

asCIIIS2725333,0 S2

III=36 SIII=6 bucăţi

20.oct.2013 31

Aplicaţie (6)

Tabel 1. Informaţiile calculate şi sistematizate

• coloana 1 reprezintă împărţirea iniţială (proporţională a eşantionului pe straturi/ grupe)

• coloana 2 reprezintă valoarea medie pentru fiecare strat/ grupă

• coloana 3 reprezintă dispersia din interiorul fiecărui strat/ grupă

20.oct.2013 32

Aplicaţie (7)

• Cerinţe

xx XXX 0

a) Interval de încredere pentru media întregii populaţii

Din teorie intervalul

de încredere este: Zxx

N

n

n

Sx 1

2

eroarea

limită:

eroarea medie de reprezentativitate pentru

un sondaj aleator stratificat fără revenire:

.20100

252550202515buc

n

nxx

j

jj

20100

2536501625122

2

j

jj

n

nsS

20.oct.2013 33

Page 12: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

12

Aplicaţie (8)

424264,01000

1001

100

201

2

N

n

n

Sx

848528,02424264,0 Zxx

85,02085,020 0 X 85,2015,19 0 X

Eroare medie de reprezentativitate va fi:

Eroarea limită va fi:

Intervalul de încredere pentru media populaţiei generale va fi:

În concluzie, utilizând un sondaj stratificat fără revenire, cu o

probabilitate de 95,45% putem garanta că producţia medie la

nivelul întregii firme va fi cuprinsă între 19,15 şi 20,85 bucăţi. 20.oct.2013 34

Aplicaţie (9)

b) Interval de încredere pentru producţia totală a firmei într-o zi.

85,2015,19 0 X

Avem interval de încredere pentru producţia medie medie:

Dacă înmulţim dubla inegalitate cu volumul populaţiei (N) vom

obţine interval de încredere pentru producţia totală a firmei într-o

zi:

NX 85,2015,19 0 2085019150 ix

În concluzie, utilizând un sondaj stratificat fără revenire, cu o

probabilitate de 95,45% putem garanta că producţia totală firmei

într-o zi va fi cuprinsă între 19150 şi 20850 bucăţi. 20.oct.2013 35

Aplicaţie (10)

c) Să se calculeze volumul noului eşantion dacă dorim să reducem eroarea limită de 1,5 ori. Să se repartizeze optim pe straturi rezultatul obţinut.

565685,05,1

848528,0

5,1

'

xx

Noua eroare limită va fi:

angajati

N

SZ

SZn

x

200565685,0

202

10002022

2

222'

22'

2

Volumul noului eşantion se va calcula:

20.oct.2013 36

Page 13: Cercetarea prin sondajul II - ASE · 2013-10-18 · 6 Testul hi -SW UDW - testul F2 (Chi -squared test) ¡ 7HVWXO VWDWLVWLF vQ FDUH SHQWUX YDOLGDUHD LSRWH]HL QXOH VWDWLVWLFD XWLOL]DW

13

Aplicaţie (11) • Repartizarea optimă pe straturi a eşantionului

ii

ii

NS

NS

iy 2

2*

Din enunţ se precizează că iniţial repartizarea a fost

proporţională. Rezultă că iniţial în fiecare strat au fost

selectaţi 10% din numărul de angajaţi ai stratului resptiv.

Se calculează uşor coloana 4 din tabelul 1 (Nj).

Se calculează ponderile optime de repartizare (coloana 6

din tabelul 1)

Se repartizează optim volumul noului eşantion pe straturi

(coloana 7 din tabelul 1) cu ajutorul formulei:

*

ii ynn 20.oct.2013 37