Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista...

5
Revista Informatica Economica, nr. 3 (15)/2000 95 Tehnici de esantionare cu probabilitati neegale Prof.dr. Vergil VOINEAGU, conf.dr. Tudorel ANDREI Catedra de Statistica si Previziune Economica, A.S.E. Bucuresti În cadrul acestui articol sunt prezentate principalele aspecte teoretice ale esantionarii cu probabilitati neegale. Sunt descrise avantajele acestei tehnici, comparativ cu tehnicile de esantionare cu probabilitati egale. Sunt descrise câteva tehnici de implementare a unei tehnici de esantionare cu probabilitati neegale. Cuvinte cheie: esantionare, volum, variabila, estimare, probabilitati, estimatori. santionarea cu probabilitati neegale fara revenire Se considera cazul în care esantionul este de volum 1 > n , iar alocarea unitatilor în esantion se realizeaza cu tehnica esanti- onarii cu revenire. Probabilitatea ca o unitate sa fie inclusa în esantion este calculata pe baza relatiei: , ) alocata este unitatea ( 1 = = = N i i i i X X i P p [1] unde X este variabila pentru care estimam o serie de parametri pentru caracterizarea tendintei centrale sau gradului de disper- sare. Cum valorile acestei variabile nu sunt cunoscute, atunci pentru definirea acestor probabilitati se considera realizarile altei variabile, corelata cu aceasta. Probabilitatea ca o unitate sa fie inclusa într- un esantion de volum n este notata prin . i p Aceasta este determinata prin relatia: . ) 1 ( 1 ) , 1 , ( 1 ) ( n i i i n i i p n j u u P E u P j - - = = - = = p [2] Pentru cazul în care 1 = n se obtine egali- tatea . i i p = p În cazul acestei tehnici de esantionare fiecare extragere este indepen- denta de cele precedente, întrucât structura populatiei nu se schimba de la o alocare la alta. Se noteaza prin i q numarul de aparitii ale unitatii i u în cadrul unui esantion de volum . n Variabila i q are urmatoarele caracteristici: ) 1 ( ) var( , ) ( i i i i i p np q np q E - = = , iar . , ) , cov( j i p np q q j i j i - = Aceste trei caracte- ristici sunt evidente, întrucât ) 2 1 2 1 ,..., , ; ( ) ,..., , ( N N p p p n B q q q . Un estimator natural pentru volumul total al caracteristicii X este: . 1 ˆ = n E i i i i q p X n T [3] Proprietatea 1. Estimatorul mai sus defi- nit este nedeplasat. Pentru a demonstra aceasta proprietate se aplica operatorul de medie termenilor egalitatii [3]: . ) ( ) ( 1 ) ˆ ( 1 T p p p X np p X E n T E E i E i N k i k k k i i i = = = = [4] Proprietatea 2. Varianta estimatorului în cazul esantionarii cu probabilitati neegale este mai mica decât în cazul esantionarii cu probabilitati egale. Pentru a demonstra aceasta proprietate se tine seama de expre- siile celor doua variante. Astfel, pentru cazul esantionarii simple cu probabilitati egale, cu revenire s-a obtinut: ] / 1 [ 1 ) ( ) ˆ var( 2 1 2 1 2 2 T N X n T N X n N T N i i N i i - = - = = = [5] pentru cazul esantionarii cu probabi- litati neegale: = = - = - = N i i i N i i i i T p X n p T p X n T 1 2 2 1 2 ] [ 1 ) ( 1 ) ˆ var( [6] Verificarea relatiei de ordine dintre cele doua variante revine la a compara termenii = N i i i p X 1 2 si = N i i N X 1 2 / 1 . Se obtine apoi forma echivalenta a inegalitatii variantelor: = < - N i i i N p X 1 2 . 0 ) / 1 1 1 ( Ultima inegalitate este îndeplinita, daca pentru valori mari ale variabilei X sunt va- labile inegalitatile , 1 i p N < iar pentru valori mici, inegalitatile sunt de sens contrar. În acest caz regasim fundamentul sondajului cu probabilitati neegale, ca valorile carac- E

Transcript of Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista...

Page 1: Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista Informatica Economica, nr. 3 (15)/2000 95 Tehnici de esantionare cu probabilitati

Revista Informatica Economica, nr. 3 (15)/2000 95

Tehnici de esantionare cu probabilitati neegale

Prof.dr. Vergil VOINEAGU, conf.dr. Tudorel ANDREI Catedra de Statistica si Previziune Economica, A.S.E. Bucuresti

În cadrul acestui articol sunt prezentate principalele aspecte teoretice ale esantionarii cu probabilitati neegale. Sunt descrise avantajele acestei tehnici, comparativ cu tehnicile de esantionare cu probabilitati egale. Sunt descrise câteva tehnici de implementare a unei tehnici de esantionare cu probabilitati neegale. Cuvinte cheie: esantionare, volum, variabila, estimare, probabilitati, estimatori.

santionarea cu probabilitati neegale fara revenire

Se considera cazul în care esantionul este de volum 1>n , iar alocarea unitatilor în esantion se realizeaza cu tehnica esanti-onarii cu revenire. Probabilitatea ca o unitate sa fie inclusa în esantion este calculata pe baza relatiei:

,)alocataesteunitatea(

1∑=

==N

ii

ii

X

XiPp [1]

unde X este variabila pentru care estimam o serie de parametri pentru caracterizarea tendintei centrale sau gradului de disper-sare. Cum valorile acestei variabile nu sunt cunoscute, atunci pentru definirea acestor probabilitati se considera realizarile altei variabile, corelata cu aceasta. Probabilitatea ca o unitate sa fie inclusa într-un esantion de volum n este notata prin .iπ Aceasta este determinata prin relatia:

.)1(1

),1,(1)(

ni

iinii

p

njuuPEuPj

−−=

=≠−=∈=π [2]

Pentru cazul în care 1=n se obtine egali-tatea .ii p=π În cazul acestei tehnici de esantionare fiecare extragere este indepen-denta de cele precedente, întrucât structura populatiei nu se schimba de la o alocare la alta. Se noteaza prin iq numarul de aparitii ale unitatii iu în cadrul unui esantion de volum .n Variabila iq are urmatoarele caracteristici: )1()var(,)( iiiii pnpqnpqE −== , iar

.,),cov( jipnpqq jiji ≠−= Aceste trei caracte-ristici sunt evidente, întrucât

)2121 ,...,,;(),...,,( NN pppnBqqq → .

Un estimator natural pentru volumul total

al caracteristicii X este: .1ˆ ∑

∈=

nEii

i

i qpX

nT [3]

Proprietatea 1. Estimatorul mai sus defi-nit este nedeplasat. Pentru a demonstra aceasta proprietate se aplica operatorul de medie termenilor egalitatii [3]:

.)()(1)ˆ(1

TpppXnp

pXE

nTE

Ei Ei

N

kik

k

ki

i

i === ∑ ∑ ∑∈ ∈ =

[4]

Proprietatea 2. Varianta estimatorului în cazul esantionarii cu probabilitati neegale este mai mica decât în cazul esantionarii cu probabilitati egale. Pentru a demonstra aceasta proprietate se tine seama de expre-siile celor doua variante. Astfel, • pentru cazul esantionarii simple cu probabilitati egale, cu revenire s-a obtinut:

]/1

[1)()ˆvar( 2

1

2

1

22

TN

Xn

TNXn

NTN

i

iN

ii −=⋅−= ∑∑

== [5]

• pentru cazul esantionarii cu probabi-litati neegale:

∑∑==

−=−=N

i i

iN

ii

i

i TpX

npT

pX

nT

1

22

1

2 ][1

)(1

)ˆvar( [6]

Verificarea relatiei de ordine dintre cele doua variante revine la a compara termenii

∑=

N

i i

i

pX

1

2 si ∑

=

N

i

i

NX

1

2

/1. Se obtine apoi forma

echivalenta a inegalitatii variantelor:

∑=

<−N

i ii Np

X1

2 .0)/111(

Ultima inegalitate este îndeplinita, daca pentru valori mari ale variabilei X sunt va-

labile inegalitatile ,1

ipN

< iar pentru valori

mici, inegalitatile sunt de sens contrar. În acest caz regasim fundamentul sondajului cu probabilitati neegale, ca valorile carac-

E

Page 2: Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista Informatica Economica, nr. 3 (15)/2000 95 Tehnici de esantionare cu probabilitati

Revista Informatica Economica, nr. 3 (15)/2000 96

teristicii sa fie corelate pozitiv cu probabi-litatile de alocare în esantion. Varianta estimatorului definita prin relatia [6] se scrie sub forma echivalenta:

.)(1

)ˆvar(1 1

2∑ ∑= =

<

−=N

i

N

jji

j

j

i

i

ji

ppp

X

pX

nT [7]

Un estimator al variantei volumului total al caracteristicii este:

.)ˆ()1(

1)ˆar(v̂ 2∑

∈−

−=

nEi i

i Tpx

nnT [8]

Proprietatea 3. Estimatorul variantei vo-lumului total al caracteristicii este un esti-mator nedeplasat. Pentru a demonstra pro-prietatea se tine seama ca [8] se scrie sub forma echivalenta:

∑∈

−−

−−−

=nEi i

i TTn

Tpx

nnT 22 )ˆ(

11

)()1(

1)ˆar(v̂ [9]

Aplicând operatorul de medie egalitatii [9] se obtin succesiv rezultatele urmatoare:

).ˆvar()ˆvar(1

1)ˆvar(

)1(1

))ˆ((1

1))((

)1(1

))ˆar(v̂( 22 TTn

Tnn

TTEn

Tpx

Enn

TEn nEi Eii

i =−

−−

=−−

−−−

= ∑ ∑∈ ∈

Se prezinta, în cele ce urmeaza, metoda frecventelor cumulate pentru definirea unui esantion, ce are la baza tehnica esantionarii simple cu probabilitati neegale, cu reveni-re. Pentru aplicarea acestei tehnici se parcurg urmatoarele etape: • Se genereaza un sir de numere alea-toare folosind un generator al repartitiei uniforme pe intervalul [0, 1]. Consideram sirul de numere );,...,,( 21 nuuu • Folosind realizarile unei variabile alea-toare, pentru care dispunem de seria de da-te, se calculeaza probabilitatile );,..,,( 21 Nppp • Este inclusa în esantion unitatea statistica pentru care este satisfacuta relatia de ordine: .,1),()( 1 nkpCupC iki =≤<− , unde

∑=

=i

jji ppC

1)( reprezinta seria probabilitatilor

cumulate crescator. Exemplul 1. Pentru 5 magazine de vânzare a produselor alimentare se cunosc datele din tabelul 1. Se considera cazul în care, pentru estimarea volumului total al vânzarilor, în situatia în care nu se cunosc vânzarile pentru fiecare magazin, se organizeaza un sondaj statistic cu dimensiunea esantionului n=1.

Tabelul 1. Magazin Nr. de

angajati Vânzari (mld. lei)

A 2 100 B 5 240 C 3 159 D 10 461 E 20 1 040

Total 40 2 000 Pentru fiecare magazin se cunoaste numarul de angajati. Se va estima volumul total al vânzarilor folosind tehnica simpla de esantionare si esantionarea cu proba-bilitati inegale. Pentru cazul din urma se considera ca volumul vânzarilor este dete-rminat în mod direct de numarul de angajati. Pentru a caracteriza performan-tele estimatorilor în conditiile folosirii uneia din cele doua tehnici de esantionare se calculeaza indicatorii: ).ˆ(),ˆvar(),ˆ( TEMPTTB • Esantionarea simpla. Estimatiile pen-tru volumul total al vânzarilor sunt trecute în tabelul 1. Se observa ca, în situatia folosirii acestei metode de esantionare, estimatorul folosit este nedeplasat, deci

,2000)ˆ( =TE iar varianta este:

.2935010

])20005200()20002305()2000795()20001200()2000500[(51

)ˆvar( 22222

=

−+−+−+−+−=T

Rezultatele obtinute sunt putin performan-te, chiar daca estimatorul este nedeplasat.

Dealtfel, pentru datele de mai sus, se obtine o valoare foarte mare a coeficien-

Page 3: Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista Informatica Economica, nr. 3 (15)/2000 95 Tehnici de esantionare cu probabilitati

Revista Informatica Economica, nr. 3 (15)/2000 97

tului de variatie a estimatorului, egal cu 85.66%. Pentru a diminua varianta estima-torului se recurge la o alta metoda de esantionare, care tine seama de importanta fiecarei unitati în cadrul populatiei. Pentru a caracteriza dimensiunea fiecarei unitati se considera realizarile pentru variabila numar de angajati. • Esantionarea cu probabilitati neega-le. Se calculeaza pentru fiecare unitate pro-

babilitatea de a accede în esantion, prin relatia: .

∑=

jj

ii n

np

Rezultatele sunt prezentate în tabelul 2. În cazul acestei metode de esantionare cele 5 estimatii, precum si deplasarea acestora, sunt trecute în tabelul 2. Urmarind rezul-tatele de mai sus se obtine, pentru fiecare esantion, marimea deplasarii, iar pe ansam-blu se evalueaza deplasarea estimatorului, aceasta fiind zero. Astfel,

.02000]21

208041

1844403

212081

1920201

2000[)ˆ( =−⋅+⋅+⋅+⋅+⋅=TB

Se calculeaza varianta estimatorului

.928021

)20002080(

41)20001844(

403)20002120(

81)20001920(

201)20002000()ˆvar(

2

2222

=⋅−+

⋅−+⋅−+⋅−+⋅−=T

Tabelul 2. in ∑=

iiii nnp / Esan-

tionul ∑∈

=Ei i

i

px

T̂ TTTB −= ˆ)ˆ(

A 2 2/40 100 2000)2/40(100 =⋅ 0 B 5 5/40 240 1920)5/40(240 =⋅ -80 C 3 3/40 159 2120)3/40(159 =⋅ 120 D 10 10/40 461 1844)10/40(461 =⋅ -156 E 20 20/40 1 040 2080)20/40(1040 =⋅ 80

Total 40 1 2 000 - - În acest caz varianta estimatorului este cu mult mai mica decât cel al esantionarii simple. Deplasarile estimatorilor în condi-tiile aplicarii celor doua tehnici de esan-tionare sunt reprezentate grafic în figura 1.

-2000-1000

01000200030004000

1 2 3 4 5Esantionul

B(to

tal)

PEPIN

Fig. 1. Deplasarea estimatorilor cele doua

tipuri de esantionari Se observa o mai mare stabilitate a esti-matiilor în jurul valorii reale, în cazul tehnicilor de esantionare cu probabilitati neegale.

Esantionarea cu probabilitati neegale, cu revenire Tehnica de esantionare cu revenire, mai sus prezentata, ofera o serie de avantaje în privinta definirii estimatorilor si proprieta-tilor acestora, dar rezultatele obtinute sunt mai putin eficiente comparativ cu tehnica de esantionare fara revenire. În cazul acestei tehnici, probabilitatile de alegere a unitatilor simple în cadrul esantionului se modifica de la o etapa la alta în functie de unitatile care au fost deja incluse în cadrul esantionului pâna la o anumita etapa. Se noteaza si în acest caz prin ip pro-babilitatea ca unitatea i sa fie inclusa în cadrul esantionului. Definim prin )( jip pro-babilitatea de a selectiona la a doua extragere unitatea i , stiind ca la prima s-a extras unitatea j. Aceasta se calculeaza pe baza relatiei: .

1)(j

iji p

pp

−=

Page 4: Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista Informatica Economica, nr. 3 (15)/2000 95 Tehnici de esantionare cu probabilitati

Revista Informatica Economica, nr. 3 (15)/2000 98

Se calculeaza probabilitatea de a alege la prima extragere unitatea i, iar la a doua

unitatea j pe baza relatiei: .1)2,1(

j

jiji p

ppp

−=−−

Se determina atunci probabilitatea, ca dupa doua extrageri, unitatile incluse în cadrul esantionului sa fie i si j:

.11)2,1()2,1(),(

i

ij

j

jiijjiji p

pp

p

ppppp

−+

−=+= −−−− [10]

Pentru un esantion de volum 2 se calcu-leaza probabilitatea ca o unitate sa fie inclusa în cadrul esantionului pe baza

relatiei: .1

∑≠=

=N

jiji

ij

ππ [11]

Pentru un esantion de volum n sunt valabile urmatoarele doua egalitati:

nN

ii =∑

=1π si .)1(

,∑≠

−=

jiji

ij nnπ [12]

Ultimele doua relatii sunt evidente, tinând seama de formula de calcul a probabilita-tilor ce intervin în aceste relatii. Se defi-neste variabila binara ,iZ astfel:

.,0,1

∉∈

=ni

nii Eu

EuZ

Cele doua probabilitati care intervin în cadrul relatiilor [12] sunt determinate pe baza formulelor: ).(si),( jiijii ZZEZE == ππ În aceste conditii se demonstreaza egalitatile din [12]: • Pentru prima relatie se obtine succe-

siv: .)()(111

nZEZEN

ii

N

ii

N

ii === ∑∑∑

===π

• Pentru a doua relatie se stabilesc urmatoarele rezultate:

== ∑∑≠=≠=

N

jiijji

N

jiijij ZZE

,1,1)(π

∑∑∑≠≠

−==ij

ji

iN

jijiji nnZZEZZE ).1()()(

,,

În general, pentru un esantion de volum n se defineste probabilitatea:

.)...(1

...)(11

),...,2,1(12121

3

1

2121

−++−+−−=−−−

n

nn ppp

ppp

pp

ppnuuuP [13]

Exemplul 2. Pentru datele din exemplul 1 se calculeaza iji ππ , . Rezultatele sunt pre-

zentate în cadrul tabelului 3. Urmarind

datele din acest tabel, se observa ca .25

1∑=

=i

Tabelul 3. Calcularea probabilitatilor ijπ si iπ . A B C D E iπ

A - 0.013722 0.008001 0.029825 0.076316 0.127864 B 0.013722 - 0.020849 0.077381 0.196429 0.308381 C 0.008001 0.020849 - 0.04527 0.115541 0.189662 D 0.029825 0.077381 0.04527 - 0.416667 0.569142 E 0.076316 0.196429 0.115541 0.416667 - 0.804952

iπ 0.127864 0.308381 0.189662 0.569142 0.804952 2 Se defineste pentru volumul total al ca-racteristicii urmatorul estimator:

.ˆ1

∑∑=∈

==N

ii

i

i

Ei i

iHT Z

XXT

nππ

[14]

Proprietatea 1. Estimatorul Horvitz-Thompson este un estimator nedeplasat. Daca se aplica operatorul de medie esti-matorului H-T se obtine:

.)()()()()ˆ(1 1

TXENXEZEX

ETE iN

i

N

iii

i

iHT =⋅=== ∑ ∑

= =π [15]

Proprietatea 2. Varianta estimatorulului [14] este reprezentata prin expresia:

∑<

−−=jiji

ijjij

j

i

i XXT

,,

2 ).()()ˆvar( πππππ

[16]

Pentru a demonstra aceasta relatie se aplica operatorul de varianta celor doi termeni ai egalitatii [16]. Se obtine rezultatul urmator:

Page 5: Tehnici de esantionare cu probabilitati neegalerevistaie.ase.ro/content/15/Voineagu.pdf · Revista Informatica Economica, nr. 3 (15)/2000 95 Tehnici de esantionare cu probabilitati

Revista Informatica Economica, nr. 3 (15)/2000 99

∑∑∑

∑∑∑

∑∑∑∑

<

= >=

= >=

= >==

−−=

−+−=

+=

+==

N

jijiijji

j

j

i

i

jiijN

i

N

ij j

j

i

iii

N

i i

i

jiN

i

N

ij j

j

i

ii

N

i i

i

jj

ji

i

iN

i

N

ij

N

ii

i

iN

ii

i

iHT

XX

XXX

ZZXX

ZX

ZX

ZX

ZX

ZX

T

,,

2

1

2

12

2

112

2

111

)()(

)(2)(

),cov()var(

),cov()var()var()ˆvar(

πππππ

πππππ

πππ

πππ

ππππ

Un estimator natural al variantei volumului total al caracteristicii este:

∑<=

−−=

n

jiji ij

ijji

j

j

i

i XXT

,1,

2 .)()ˆar(v̂π

πππ

ππ [17]

Cazul în care probabilitatile sunt egale nu este decât un caz particular al tehnicii de esantionare cu probabilitati neegale, fapt care se demonstreaza. Dealtfel, în acest caz sunt valabile urmatoarele:

.)1()1(

)1,1(,/1−

−=====

NNnn

ZZPN jiiji ππ

Particularizând [14] pentru acest caz se obtine: ∑

∈==

nEi

iHT XN

NnX

T ./

ˆ [18]

În mod asemanator se procedeaza în cazul variantei. Pentru cazul în care probabili-tatile sunt calculate în raport cu repar-

tizarea pe unitati a valorilor unei variabile corelata cu prima, atunci ./∑= iii YYp Se ob-tin în aceasta situatie urmatoarele rezultate: • volumul total al caracteristicii X este estimat prin ∑

∑∈∈

=n

n

EiEk

ki

iHT YY

XT

/ˆ ;

• varianta acestui estimator este estimata

prin ∑<∈

−=jiEji

jij

j

i

i

n

YYY

X

YX

nT

,,

2)(1

)ˆar(v̂ .

Prezentam în cele ce urmeaza esantionarea sistematica în conditiile folosirii metodei de esantionare cu probabilitati neegale fara revenire. Reamintim ca, ii pn⋅=π , iar pen-tru calcularea probabilitatilor ip se recurge

la urmatoarea formula de calcul:∑

=

i

ii

Y

Yp .

Pentru generarea unui esantion de volum stabilit se parcurg urmatoarele etape: • se genereaza un numar aleator ];1,0[Uu ∈ • se calculeaza frecventele cumulate

crescator ;,1,)(1

NiCi

hhi == ∑

=ππ

• unitatea iu este inclusa în esantion, daca este satisfacuta relatia:

.,2),()1()( 1 NiCiuC ii =≤−+<− ππ [19] Se verifica aceasta relatie, pâna la alocarea tuturor unitatilor esantionului. Exemplul 3. Consideram o populatie con-stituita din 7 unitati elementare. Proba-bilitatile de introducere a fiecarei unitati în esantion si seria cumulata a probabilitatilor sunt trecute în tabelul 4.

Tabelul 4. Unitatea

ip iπ )( iC π

1 0.050 0.100 0.100 2 0.075 0.150 0.250 3 0.155 0.310 0.560 4 0.265 0.530 1.090 5 0.275 0.550 1.640 6 0.150 0.300 1.940 7 0.030 0.060 2.000

Folosind un generator de numere aleatoare se obtine numarul 382.0=u . Pentru a con-stitui un esantion de volum 2 se parcurg mai multe iteratii. Se obtin succesiv rezultatele urmatoare:i) ]250.0100.0(382.0 ∈ , deci a doua unitate este inclusa în esantion; ii) ]640.1090.1(382.1 ∈ , deci a patra unitate este inclusa în esantion. Bibliografie 1. Andrei, T., Stancu, S. Statistica-teorie si aplicatii-editia a II-a. Editura All, Bucuresti, 2000. 2. Mihoc, Gh., Urseanu, V. Sondaje si estimatii statistice-teorie si aplicatii. Editura Tehnica, Bucuresti, 1977 3. Sharon, L.,L. Sampling: Design and Analysis. Brooks/Cole Publishing Company. London. 1999.