Sondaje Anchete Niculescu Aron

1

ACADEMIA DE STUDII ECONOMICE DIN BUCUREŞTI FACULTATEA DE CIBERNETICĂ, STATISTICĂ ŞI INFORMATICĂ

ECONOMICĂ

ILEANA GABRIELA NICULESCU-ARON

SONDAJE ŞI ANCHETE

Suport de curs pentru învăţământul la distanţă

BUCUREŞTI 2011

2

Copyright © 2011, Ileana Gabriela Niculescu-Aron Toate drepturile asupra acestei ediţii sunt rezervate autorului Editura ASE Piaţa Romană nr. 6, sector 1, Bucureşti, România cod 010374 www.ase.ro www.editura.ase.ro [email protected]

Referenţi:

Prof. univ. dr. Constantin MITRUŢ Prof. univ. dr. Emilia ŢIŢAN

ISBN 978-606-505-457-8

3

CUPRINSUL CURSULUI INTRODUCERE 5 Unitatea de învăţare 1. NOŢIUNI DE BAZĂ ÎN TEORIA SONDAJELOR 6 1.1 Obiectivele unităţii de învăţare 6 1.2 Metode de observare utilizate în domeniul economico-social 6 1.3 Rolul Sondajului statistic în sistemul informaţional statistic 7 1.4 Definirea conceptelor de bază utilizate în sondajele statistice. 8 1.5 Procedee de eşantionare utilizate 9 Unitatea de învăţare 2. ORGANIZAREA SONDAJELOR STATISTICE 14 2.1 Obiectivele unităţii de învăţare 14 2.2 Etape preliminare în organizarea unui sondaj 14 2.3 Elaborarea chestionarului 18 2.4 Ancheta pilot 26 2.5 Extragerea eşantionului 26 2.6 Culegerea şi verificarea datelor 28 Unitatea de învăţare 3. ASPECTE PRACTICE ÎN REALIZAREA UNUI SONDAJ STATISTIC 29 3.1. Obiectivele unităţii de învăţare 29 3.2. Problematica non-răspunsurilor 29 3.3. Tipuri de erori întâlnite în cercetarea selectivă 34 3.4. Verificarea reprezentativităţii eşationului 38 3.5. Aplicaţii 39 Unitatea de învăţare 4 PLANURI DE SONDAJ SIMPLE 47 4.1. Obiectivele unităţii de învăţare 47 4.2. Sondajul simplu aleator 47 4.2.1. Sondajul simplu aleator cu probabilităţi egale 48 4.2.2. Sondajul de volum redus 54 4.3. Sondajul stratificat 55 4.4. Sondajul de serii 61 4.5. Aplicaţii 69

4

Unitatea de învăţare 5 PLANURI DE SONDAJ COMPLEXE 87 5.1. Obiectivele unităţii 87 5.2. Sondajul multistadial 87 5.3. Sondajul multifazic 90 5.4. Sondajul pe bază de eşantioane fixe 91 5.5. Aplicaţii 95 Unitatea de învăţare 6 SONDAJE NEPROBABILISTICE 101 6.1. Obiectivele unităţii de învăţare 101 6.2. Tipuri de sondaje neprobabilistice 101 6.3. Sondajul pe cote 102 BIBLIOGRAFIE 107

5

INTRODUCERE

Cursul de SONDAJE ŞI ANCHETE se adresează studenţilor înscrişi la programul de studiu ID, organizat de facultatea Cibernetică, Statistică şi Informatică Economică şi face parte din planul de învăţământ aferent anului III, semestrul 1. Obiectivele principale ale acestui curs, concretizate în competenţele dobândite după parcurgerea şi asimilarea lui: Însuşirea tehnicilor de proiectare a anchetelor şi sondajelor statistice; Codificarea, culegerea şi verificarea completitudinii datelor; Însuşirea tehnicilor de proiectare a sondajelor complexe; Prelucrarea şi analiza datelor obţinute cu ajutorul metodelor statistice superioare. Cursul SONDAJE SI ANCHETE este structurat pe şase unităţi de învăţare (capitole). Pentru ca procesul de instruire să se desfăşoare într-un mod riguros, dar şi atractiv, se vor putea utiliza un set de resurse suplimentare indicate pe parcursul cursului. Evaluarea cunoştinţelor se va realiza sub două forme: • evaluare continuă, pe baza a două proiecte realizate în conformitate cu modelele prezentate

în resursele de pe platformă; • evaluare finală, realizată prin examenul susţinut în perioada de sesiune. Criteriile de evaluare constau în: 1. Punctajul obţinut la cele două proiecte menţionate; 2. Gradul de implicare în discuţiile tematice organizate prin opţiunea “Forum” a platformei

electronice; 3. Punctajul obţinut la examenul susţinut in sesiune. Ponderile asociate fiecărui criteriu precizat sunt următoarele: criteriul 1 (C1) Proiect 1: 1 punct

Proiect 2: 2 puncte. criteriul 2 (C2) 1 punct pentru grad de implicare de 100%; criteriul 3 (C3) 6 puncte pentru examenul susţinut în sesiune.

6

1.1. Obiectivele unităţii de învăţare

1.2. Metode de observare utilizate în domeniul economico-social

Pentru satisfacerea nevoii de informaţii în vederea analizării fenomenelor şi proceselor

din sfera socială este necesar să se organizeze cercetări statistice. Cercetarea statistică se realizează prin prelucrarea datelor preluate din alte forme de evidenţiere a fenomenelor sociale sau prin prelucrarea datelor obţinute prin observări statistice special organizate.

Observarea statistică se ocupă de înregistrarea datelor individuale de masă, ceea ce presupune soluţionarea unor probleme metodologice şi organizatorice complexe.

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre: Importanta sondajului statistic in obținerea informaţiilor în timp real Conceptele de bază utilizate în cercetarea selectivă Procedeele ce stau la baza formarii eşantioanelor

Ce cuprinde această unitate de învăţare?

1.1 Obiectivele unităţii de învăţare 1.2 Metode de observare utilizate în domeniul economico-social 1.3 Avantajele cercetării selective 1.4 Definirea conceptelor de bază utilizate în sondajele statistice 1.5 Procedee de eşantionare utilizate

Unitatea de învăţare 1 NOŢIUNI DE BAZĂ ÎN TEORIA

SONDAJELOR

7

Principalele metode de culegere a datelor

• Recensământul • cea mai veche forma de observare statistică • se culeg datele de la toate unităţile colectivităţii • cheltuieli mari caracter periodic • rezolvarea unor probleme delicate prin complexitatea lor:

• scopul observării • scopul culegerii datelor • timpul la care se referă datele • sfera de cuprindere • elaborarea de definiţii, clasificări şi nomenclatoare etc.

• Rapoarte statistice • observări totale, permanente • datele statistice referitoare la diferitele fenomene şi procese sociale se culeg pe

cale administrativă • Sondaje statistice

• observări parţiale • Ancheta statistică

• nu presupune reprezentativitatea eşantionului • se realizează pe baza chestionarului completat direct sau prin poştă

• Observarea părţii principale (masivul principal sau panelul) • culegere a datelor numai de la cele mai semnificative (masivul principal)

unităţi ale colectivităţii • Panelul eşantion cu caracter stabil • cercetarea se face longitudinal

• Monografia • metodă de observare aprofundată a fenomenelor şi proceselor sociale

1.3 Avantajele cercetării selective

„Cele mai evidente avantaje ale cercetării prin sondaj faţă de observarea tuturor elementelor populaţiei apar în două cazuri: când observarea implică distrugerea elementelor observate (de exemplu controlul calităţii produselor) şi când cercetarea totală implică cheltuieli foarte mari.”1

Alte avantaje:

• operativitate, economii de resurse (financiare şi umane), calitate superioarş a rezultatelor pentru populaţii totale foarte mari

• erori de înregistrare mai mici şi mai uşor de înlăturat pentru o populaţie cercetată mai mică decât cea totală şi folosind personal specializat calitate şi fiabilitate a rezultatelor net superioară celor obţinute printr-o cercetare exhaustivă

• caracterizarea mai aprofundată a fenomenelor studiate datorită posibilităţii de a include un număr mai mare de caracteristici decât în programul observării totale

1 Porojan D., 1993, Statistica şi Teoria Sondajului, Ed. Şansa SRL Bucureşti p. 184.

8

Sondajul statistic poate fi folosit şi la verificarea datelor culese printr-o observare totală de mare amploare precum şi la prelucrarea datelor dintr-o cercetare exhaustivă într-o primă fază selectiv şi mai târziu total.

Sfera de cuprindere a informaţiilor statistice este foarte largă incluzând toate fenomenele cu caracter de masă. Totodată, informaţia statistică este utilizată de către organele de conducere la nivel micro şi macroeconomic în exercitarea funcţiilor de previzionare, execuţie şi control.

1.4. Definirea conceptelor de bază utilizate in sondajele statistice.

Realizarea unui sondaj statistic presupune parcurgea a două faze.

9

* M(X) se mai notează şi cu ** m(x) se mai notează şi cu

10

1.5. Procedee de eşantionare utilizate

Pentru a se asigura reprezentativitatea eşantionului este necesar să se respecte următoarele principii:

În teoria şi practica sondajului pentru formarea eşantionului se folosesc mai multe

procedee şi anume: eşantionare aleatoare, eşantionare dirijată şi eşantionare mixtă.

12

Toate aceste procedee de eşantioane se pot aplica direct populaţiei totale sau pe grupe ceea ce înseamnă că se pot obţine sondaje simple sau stratificate. La aplicarea procedeului de selecţie se pot folosi unităţi simple numerotate de la 1 la N sau unităţi complexe, denumite serii numerotate de la 1 la R. În cel de-al doilea caz vom avea un sondaj de serii.

15

2.1. Obiective

2.2 Etape preliminare în organizarea unui sondaj

Sondajele statistice se bazează pe concepte, metode şi procedee clar definite şi se aplică unei fracţiuni mai mari sau mai mici din populaţie. Calitatea rezultatelor depinde de formularea corectă a problemei, de selectarea unităţilor din eşantion, de precizia estimării parametrilor de interes. Efectuarea unui sondaj presupune un lanţ de lucrări complexe.

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre: Stabilirea obiectivelor unui sondaj pornind de la scopul urmarit de

beneficiar Alegerea variabilelor auxiliare necesare in stabilirea planului de sondaj Formularea intrebarilor pornind de la obiectivele propuse


2.1 Obiectivele unităţii de învăţare 2.2 Etape preliminare în organizarea unui sondaj 2.3 Elaborarea chestionarului 2.4 Ancheta pilot 2.5 Extragerea eşantionului 2.6 Culegerea şi verificarea datelor

Unitatea de învăţare 2 ORGANIZAREA SONDAJELOR

STATISTICE

16

Prima sarcină este formularea obiectivelor sondajului. În general cei care comandă sondajul vin doar cu o formulare vagă a problemelor care îi interesează şi cu o imagine neclară asupra modului cum vor utiliza rezultatele obţinute. În dialogul beneficiar-statistician, sociologului îi revine rolul de a îi ajuta pe aceştia să stabilească obiectivele. Aceste probleme vor fi apoi analizate pentru a structura forma de prezentare a rezultatelor şi pentru a evalua resursele financiare şi umane necesare.

Când vorbim despre populaţie avem în vedere înţelesul statistic al noţiunii care denotă mulţimea unităţilor simple sau complexe pe care le are în vedere cercetarea efectuată. Fiecare sondaj are problemele sale proprii legate de delimitarea populaţiei în timp şi în spaţiu.

Este foarte important să stabilim dacă populaţia cercetată este sau nu omogenă şi care

este structura acesteia în vederea realizării unei eventuale stratificări. Tot aici este important să delimităm unităţile din care este constituită populaţia. Facem distincţie între:

• Unitate de observare unitatea despre care se culege informaţia • Unitatea de eşantionare unitatea de la care se culege informaţia

Baza de sondaj – orice sistematizare a unităţilor astfel încât să permită selectarea lor

întâmplătoare în vederea formării eşantionului. Bazele de sondaj pot fi elaborate de către cel care organizează selecţia sau pot fi preluate din listele electorale, lista abonaţilor posturilor telefonice, lista adreselor poştale, registre ale populaţiei, registrul statistic al agenţilor economici, fişierul bilanţurilor contabile, baze de date, hărţi, etc.

17

Condiţiile pe care trebuie să le îndeplinească o bază de sondaj sunt:

• să fie adecvată scopului urmărit şi să cuprindă întreaga populaţie care va fi supusă sondajului;

• să nu conţină înregistrări repetate; • să fie exactă, evitându-se includerea unor unităţi care n-ar trebui să figureze din

diferite motive; • să fie cât mai actuală posibil. Chiar dacă în momentul întocmirii ei a fost completă şi

exactă timpul a erodat-o.

În funcţie de resursele financiare şi umane disponibile, dar şi în funcţie de acurateţea dorită a rezultatelor, se trece la stabilirea metodei de colectare a informaţiei, care se poate realiza sub următoarele forme:

Variante utilizate în practică:

1. la domiciliul său, persoana intervievată completează chestionarul pe loc sau operatorul poate veni după un timp pentru a recupera chestionarul completat;

2. chestionarele se aplică simultan unui număr mai mare de indivizi cuprinşi într-o sală;

18

3. chestionarele sunt trimise prin poştă, fax; 4. chestionarul este publicat în ziare sau reviste 5. chestionarele sunt completate prin intermediul internetului (interviul online).

• inovaţie bine-venită în lumea sondajelor • număr mare de respondenţi posibili şi arie largă de acoperire într-un timp

foarte scurt • chestionarele online pot fi dinamice şi contingente, cu salturi şi ramificaţii în

funcţie de răspunsurile primite • pot oferi respondenţilor materiale vizuale • nu este încă foarte clar dacă în cazul sondajelor online calitatea informaţiilor

este mai bună sau nu decât în alte cazuri • se aseamănă cu sondajele administrate neasistat prin faptul că ne putem aştepta

la niveluri crescute de non-răspunsuri – nu este prezent nici un intervievator care să îi îndemne pe respondenţi să răspundă. Dar există de asemenea dovezi cum că respondenţii iau chestionarul mai în serios şi consumă mai multă energie cognitivă pentru sondajele online decât pentru cele prin telefon.

• Problema principală: cum să reuşeşti să ai un sondaj la care a răspuns eşantionul dorit;

Sumarul considerentelor mai importante în alegerea metodei de culegere a datelor este

prezentat în Tabelul urmator. Costul este aproape întotdeauna o problemă critică şi poate cântări mai mult decât alte considerente, dar nici celelelte criterii prezentate nu trebuie neglijate.

Criterii Metoda de culegere

Interviu direct

Interviu prin poştă

Interviu prin telefon

Interviu online

Cost Foarte mare

Scăzut până la moderat

Moderat până la ridicat

Scăzut până la moderat

Accesul la populaţia ţintă Foarte mare Mare

Moderat (există gospodării fară

telefon) Moderat

Durata colectării datelor Moderată Mare Rapid Moderată Infrastructura şi personalul necesar pentru administrare

Foarte mare

Scăzut până la moderat Moderat Scăzut

Nivelul de complexitate al chestionarului Ridicat Moderat Scăzut Moderat

Lungimea maximă a chestionarului Lung Moderat Moderat Moderat

Rata de răspuns Moderată Scăzută Scăzută Foarte scăzută

Capacitatea cognitivă necesară a respondentului Scăzută Ridicată Moderată Ridicată

Folosirea funcţiilor multimedia Nu Parţial (grafice statice)

Nu Da

Numărul de non-răspunsuri păarţiale Scăzut Moderat Scăzut Moderat -

ridicat

Control asupra ordinii întrebărilor la care se răspunde Ridicat Scăzut Ridicat

Ridicat prin

utilizarea funcţiilor

Abilitatea de a controla cine răspunde Ridicată Scăzută Ridicată Scăzută

19

2.3. Elaborarea chestionarului

După stabilirea caracteristicilor cantitative şi calitative în concordanţă cu obiectivele sondajului se întocmeşte chestionarul. Acesta este o etapă crucială în realizarea sondajului. Un chestionar prost conceput este cauza eşecului întregului studiu.

„Chestionarul este un fel de plasă ce colectează informaţiile căutate şi permite ca informaţiile fără valoare să fie filtrate”.2

„Elaborarea chestionarului necesită cunoştinţe multidisciplinare, în sensul că necesită

îmbinarea de informaţii din mai multe discipline ştiinţifice (economie, statistică, matematică, sociologie, psihologie, informatică).”3

Construirea unui chestionar este privită în mod corect ca o artă imperfectă. Nu există

proceduri prestabilite care vor duce neapărat la un chestionar „bun”. Una dintre consecinţe este că ar putea apărea erori cauzate de ambiguitatea întrebărilor de 20 sau chiar 30 de puncte procentuale. Din fericire, astfel de erori extreme pot fi reduse considerabil prin bunul simţ şi experienţele altor cercetători. 2.3.1. Principii în elaborarea chestionarului

Un chestionar bun este acela care îndeplineşte obiectivele cercetării (în figura 2.3.1 este

prezentată schema elaborării unui astfel de instrument). Sondajele trebuie construite după specificul scopurilor cercetării şi reprezintă mult mai mult decât o colecţie de întrebări neambigue. Există foarte multe constrângeri asupra numărului, ordinii şi formei întrebărilor în funcţie de metoda de culegere a informaţiilor. Dorinţa şi abilitatea respondenţilor de a răspunde, cât şi formularea şi ordinea întrebărilor, influenţează formatul final al chestionarului.

2 Isaic Maniu Al., 2001, Tecnica sondajelor şi anchetelor, Ed. Independenţa Economică Piteşti, p. 193. 3 Isaic Maniu Al., op.cit. pg. 194

20

Figura 2.3.1. Schema elaborării unui chestionar

Paşi logici de urmat pentru a realiza un chestionar bun

• Planificarea a ceea ce se doreşte a fi măsurat • Formularea întrebărilor astfel încât să faciliteze obţinerea informaţiilor • Hotărârea asupra ordinii şi formulării întrebărilor şi a aranjării în pagină a

chestionarului • Testarea chestionarului, utilizând un eşantion de volum mic, pentru a evita omisiunile

şi ambiguitatea • Corectarea problemelor (şi o nouă pretestare, dacă este necesară)

Principii generale pentru întocmirea chestionarului

• Lungimea chestionarului - trebuie evitată tendinţa măririi numărului de întrebări.

Dacă chestionarul este prea lung constituie o sursă de oboseală si plictiseală atât pentru operator cât şi pentru respondent. Acest lucru va determina creşterea proporţiei non-răspunsurilor ce vor afecta reprezentativitatea eşantionului. Pe de altă parte, un chestionar prea scurt va lăsa unele aspecte nelămurite în legătură cu obiectivele propuse.

• Evitarea acelor întrebări la care respondenţii să nu fie în măsură să dea răspunsuri utilizabile orice chestionar presupune existenţa unui dialog. Se impune deci redactarea întrebărilor intr-un limbaj adecvat populaţiei căreia ne adresăm.

• Succesiunea întrebărilor ordinea întrebărilor în chestionar poate influenţa răspunsurile celor chestionaţi. În stabilirea ordinii întrebărilor trebuie respectate următoarele reguli (vezi figura 2.3.2):

• succesiunea logică a întrebărilor ce decurge din problematica abordată (organizarea chestionarelor pe module) astfel încât să se poată răspunde cu uşurinţă;

• răspunsurile la o întrebare să nu fie influenţate de desfăşurarea anterioară a interviului.

• Întrebările de început trebuie să crească interesul respondentului de a participa la procesul intervievării stârnind curiozitatea astfel încât să justifice timpul şi efortul necesar participării la interviu.

• Natura exactă a întrebărilor de început depinde de metoda de intervievare

• Interviul faţă în faţă sau prin telefon - scop: realizarea legăturii operator respondent. Tonul trebuie să fie prietenos şi să prezinte interes şi curiozitate din partea operatorului (similar conversaţiei dintre două persoane care abia sau cunoscut).

21

• Cererea de informaţii demografice şi economice la începutul unui chestionar poate sugera imaginea unui document oficial iar respondentul să nu fie motivat în a începe să îl completeze.

• Restul chestionarului se orientează spre sarcinile corespunzătoare studiului. Întrebările de la mijloc sunt concentrate pe informaţiile necesare în conformitate cu obiectivele fixate. Aici se pot plasa şi întrebările de atitudine, preferinţe şi opinii.

• Întrebările delicate ar trebui plasate la mijlocul sau la sfârşitul chestionarului, după ce s-a stabilit relaţia şi interesul. Nivelul de sociabilitate poate minimiza jena şi rezistenţa la răspuns

Figura 2.3.2. Succesiunea întrebărilor într-un chestionar

Un chestionar bine întocmit reprezintă cheia succesului unui sondaj. Dacă chestionarul

prezintă deficienţe, informaţiile obţinute pot fi incomplete, făcând imposibilă o analiză complexă. Nicio corectare posterioară nu poate remedia o astfel de situaţie.

22

2.3.2. Tipuri de întrebări utilizate

La aceste întrebări respondentul este rugat să aleagă o variantă sau mai multe dintr-o

listă, să realizeze o ierarhie sau să dea o valoare în catul variabilelor numerice

Avantaje • gama variată de răspunsuri ce poate fi obţinută • lipsa influenţei asupra întrebărilor din cadrul categoriilor prespecificate • respondenţii consideră asta adesea drept libertate, după cum se poate vedea din frecvenţa

surprinzătoare cu care oamenii notează comentarii pe marginea sondajelor prin poştă atunci când consideră că sentimentele lor nu sunt descrise corect de categoriile de răspuns.

Dezavantaje

• variabilitatea în ceea ce priveşte claritatea şi profunzimea răspunsurilor depinde într-o mare măsură de:

• fluenţa respondentului într-o anumită situaţie a interviului • dorinţa de a compune un răspuns scris într-un sondaj prin poştă

• abilitatea personală sau telefonică a intervievatorului de a înregistra verbatime repede – sau de a sumariza rapid

23

Tipul întrebării Avantaje Dezavantaje

Închise

- uşurinţa completării chestionarului - precizarea conţinutului întrebării - necesită timp scurt pentru răspuns - uniformitatea înţelegerii întrebărilor

şi a înregistrării răspunsurilor - uşurinţa codificării şi evitarea erorilor

în realizarea acesteia - uşurează munca operatorilor - rapiditatea şi uşurinţa prelucrării - permite compararea grupurilor - facilitează efectuarea testelor de

semnificaţie

- pierderea spontaneităţii răspunsurilor - limitează câmpul opţiunilor celor

intervievaţi - induce o ordine de preferinţă prin

ordinea înscrierii variantelor în chestionar

- sporeşte artificial frecvenţa răspunsurilor nu ştiu/nu răspund

Deschise

- spontaneitatea răspunsurilor - indică fidel nivelul cunoştinţelor - subiectului asupra problemei

investigate - indică elementele cărora subiectul le

acordă cea mai mare importanţă - evită consecinţele efectelor de format

specifice întrebărilor închise (prin limitarea şi ordonarea răspunsurilor)

- lungeşte timpul de completare a chestionarului

- cer un efort suplimentar respondentului

- rata de non-răspuns este mai mare decât la întrebările închise

- sunt foarte dificil de codificat şi analizat;nu oferă nici o informaţie respondenţilor despre tipul de răspuns aşteptat de la ei

24

Întrebări factologice vizează situaţii ce caracterizează subiecţii

• furnizează informaţii ce ar putea fi obţinute şi prin metoda observaţiei dacă aceasta n-ar presupune eforturi prea mari

• în cazul întrebărilor factologice de clasificare sau identificare, informaţiile permit identificarea caracteristicilor diferitelor grupuri de respondenti.

• lăsate de obicei la sfârşitul chestionarului • excepţie: sondajul pe cote (întrebările factologice ce formează criteriile de cotă

vor fi puse la începutul chestionarului pentru a vedea dacă persoana corespunde sau nu criteriilor de formare a eşantionului)

• întrebări de opinie sau atitudine vizează aspecte ce ţin de universul interior al individului (părerile, aşteptările, evaluările, ataşamentul faţă de valori, explicaţiile fenomenelor din jur, comportament etc.)

• întrebările de cunoştinţe au un specific foarte clar şi au ca scop caracterizarea nivelului de cunoştinţe al subiectului

• pot fi utilizate şi ca întrebări de control, validând sinceritatea si capabilitatea subiectului

• întrebări filtru permit bifurcarea succesiunii întrebărilor în chestionar printr-un salt către o altă zonă de continuitate în interviu.

2.3.3. Tipuri de scale utilizate si caracteristicile acestora

Scala Variabila Proprietăţi Operaţii permise

nominală calitativă Echivalenţa între treptele scalei

Frecvenţe absolute şi relative, modul, coeficient de asociere, testul 2

ordinală calitativă Ierarhizare între treptele scalei

În plus: cuartile, coeficienţii de corelaţie a rangurilor

cardinală calitativă Măsoară diferenţele dintre treptele scalei

În plus: medii de calcul, dispersii, corelaţia parametrică, regresia, testele parametrice

proporţională cantitativă Punctul zero natural Toate operaţiile

25

• Scala binară cea mai simplă modalitate Respondentul este solicitat să aleagă între două poziţii diametral opuse: da sau nu; acord sau dezacord; adevărat sau fals.

• Diferenţiala semantică scală cu alegere multiplă cu 5 sau 7 trepte Respondentul trebuie să plaseze răspunsul într-una din boxele dintre două atribute bipolare extreme.

• Scala lui Likert tot o scala cu alegere multiplă cu 5 trepte Respondentul este rugat sa-si plaseze atitudinea faţă de un subiect între acord total, acord, indiferent, dezacord şi dezacord total.

O problemă controversată cu privire la diferenţiala semantică şi scala lui Likert este dacă să includem sau nu alternativele de mijloc în chestionare. Experienţa a dovedit că există o tendinţă de cumulare a răspunsurilor către centrul scalei (de exemplu nici acord nici dezacord) ceea ce din punct de din punct de vedere analizei reprezintă lipsă de informaţie.

• Scala tip rating Respondentul trebuie să răspundă la o întrebare dând note de la 0 la 10 (sau 100) .

26

2.4. Ancheta pilot

În comparaţie cu multe alte tipuri de cercetare, cercetarea prin sondaj beneficiază de testarea în lumea reală a chestionarelor şi a tehnicilor de administrare a sondajului.

Ancheta pilot este o repetiţie generală a sondajului propriu-zis absolut necesară în special în anchetele mari. „Volumul şi schema anchetei pilot reprezintă o problemă dependentă de timp, mijloace financiare şi mai ales de aspectele ce se cer rezolvate.”4

Informaţii ce pot fi furnizate de ancheta pilot:

• Cheltuielile şi durata probabilă a anchetei. • Proporţia anticipată de non-răspunsuri • Numărul posibil de refuzuri sau de necontactări poate fi estimat şi se poate compara

eficacitatea diferitelor căi de reducere a acestora se poate opta pentru o anumită metodă de culegere a datelor, se pot exclude unele întrebări sau se poate modifica ordinea lor.

• Gradul de variabilitate al populaţiei şi structura acesteia În cazul în care nu se cunosc suficiente informaţii necesare caracterizării populaţiei analizate în vederea stabilirii planului de sondaj ce se poate aplica şi calculării volumului eşantionului.

• Pretestarea chestionarului cel mai important rol al anchetei pilot. După ce a fost elaborat, chestionarul trebuie aplicat unui eşantion de volum redus selectat aleator, de persoane din populaţia supusă cercetării. Astfel se pot detecta deficienţe ale chestionarului ce nu au fost observate, pot fi identificate probleme în zona introductivă, în alegerea tipurilor de întrebări, în formularea şi succesiunea întrebărilor. Se au în vedere următoarele probleme:

• simplitatea mânuirii chestionarului pe teren • eficacitatea punerii în pagină • claritatea întrebărilor (un număr prea mare de răspunsuri nu ştiu impune

reformularea întrebării respective) • accesibilitatea limbajului şi claritatea exprimării

4 Isaic Maniu Al.,2001, Tehnica sondajelor şi anchetelor, Ed. Independenţa Economică Piteşti, p. 181.

27

• sensibilitatea chestionarului, mai ales la întrebările ce testează atitudini. Este posibil ca după analiza răspunsurilor la întrebările deschise să se recurgă la închiderea acestora.

• analiza chestionarelor completate de probă poate arăta dacă operatorii au înţeles corect instrucţiunile verificând eficacitatea lor lor şi a îndrumării operatorilor.

• pretestarea este un pas important în procesul de design al chestionarului. Ea nu trebuie ignorată.

2.5. Extragerea eşantionului

În această etapă se stabileşte planul de sondaj, procedeul de extracţie, mărimea

eşantionului, estimatorii şi precizia lor teoretică. La organizarea unei cercetări prin sondaj una din problemele principale de rezolvat

este dimensionarea raţională a eşantionului. Pentru a stabili această mărime este necesar un studiu amănunţit al populaţiei supuse cercetării. „Nu trebuie însă exagerată însemnătatea stabilirii unei anumite mărimi a eşantionului şi nici nu trebuie să se creadă că dacă o stabilim cu precizia necesară, reuşita sondajului este asigurată.5”

Pentru a putea calcula volumul eşantionului trebuie să cunoaştem, chiar cu o aproximaţie, dispersia populaţiei sau o estimaţie a acesteia. În practică întâlnim următoarele situaţii:

• Se preiau informaţii despre gradul de variaţie din cercetări anterioare (considerând că variabilitatea caracteristicii nu s-a modificat semnificativ);

• Se organizează o cercetare prealabilă pentru estimarea dispersiei, a legii de repartiţie; • se introduce în relaţia de calcul valoarea maxim posibilă a dispersiei. Determinarea ei

se face în două situaţii:

o cazul caracteristicilor cantitative: 2

2max

2min2

max)x(x)x(xσ

o cazul caracteristicilor calitative (se consideră p=0,5): 2maxσ =p(1-p)=0,25

În cazul în care avem mai multe variabile auxiliare, o vom alege pe aceea al cărei coeficient de variaţie este maxim. Astfel vom avea estimaţii cu precizie şi siguranţă în limita admisă pentru toate celelalte caracteristici. Mărimea eşantionului este determinată de:

• Modul în care urmează să fie analizate rezultatele. Dacă se are în vedere analiza pe subgrupe se va calcula volumul eşantionului astfel încât să se obţină precizia dorită pe fiecare subgrupă.

• Restricţii de ordin financiar pornind de la costurile admisibile. Resursele financiare sunt totdeauna limitate şi de multe ori mărimea necesară a eşantioanelor nu poate fi realizată. Recurgem la ingeniozitatea şi discernământul în alegerea acelor subiectecare pot fi abordate cu resursele disponibile.

5 Porojan D., 1993, Statistica şi Teoria Sondajului, Ed. Şansa SRL Bucureşti, p. 235.

28

Ca urmare a problemelor ce apar pe teren, în încercarea diminuării efectelor acestora, după calcularea volumului eşantionului teoretic, trebuie să determinăm care este volumul eşantionului de pornire astfel încât în final să ajungem la numărul teoretic de unităţi selectate.

Situaţii posibile: • Imperfecţiunea listei utilizate ca bază de sondaj determină existenţa unor unităţi

non-valide (unităţi care n-ar trebui să figureze pe listă dacă aceasta ar corespunde perfect populaţiei studiate). Trebuie estimată această proporţie astfel încât să putem determina cât mai precis volumul de pornire al eşantionului.

• Existenţa unităţilor non-eligibile (de exemplu dacă populaţia de interes este formată din populaţia în vârstă de muncă iar unitatea de selecţie este gospodăria, persoanele ce nu îndeplinesc condiţia de vârstă sunt considerate non-eligibile).

• Existenţa non-răspunsurilor este o problemă întâlnită în orice sondaj. Anticipând rata non-răspunsurilor încă din faza de proiectare a sondajului putem redimensionarea eşantionului.

Eşantionul de pornire se calculează pe baza relaţiei: ver

thp PPPnn 111

np= volumul eşantionului de pornire nth= volumul eşantionului teoretic Pr=proporţia de răspuns Pe=proporţia de eligibilitate Pv=proporţia de validitate

2.6. Culegerea şi verificarea datelor

Odată cu recuperarea chestionarelor se trece la pregătirea acestora în vederea prelucrării statistice a datelor.

Verificarea chestionarelor este o operaţie obligatorie deoarece, oricât de buni ar fi operatorii, greşelile sunt inerente muncii omeneşti. Această verificare constă în urmărirea în principal a trei aspecte: completitudinea, exactitatea şi uniformitatea.

Exactitatea şi uniformitatea datelor

Principala modalitate de verificare a exactităţii: parcurgerea chestionarului în ansamblul său încercând să se vadă dacă răspunsurile sunt coerente sau se contrazic. Este foarte important de ştiut dacă operatorii sau subiecţii au înţeles în acelaşi sens întrebările din chestionar. Dacă după parcurgerea unui număr de chestionare observăm astfel de deosebiri de interpretare, rezultate obţinute sunt inconsistente.

Aceste probleme pot fi evitate printr-o atentă întocmire a chestionarului, validarea acestuia printr-o anchetă pilot şi o instruire riguroasă a operatorilor.

2. Completitudinea datelor

Prin centralizărea datelor din chestionarele completate obţinem o bază de date.

Golurile din această bază de date reprezintă nonrăspunsuri parţiale. Dacă lipsesc valorile unui individ pentru toate întrebările din chestionar suntem în situaţia unui nonrăspuns total.

verthp PPP

nn 111

29

3.1. Obiectivele unităţii de învăţare

3.2. Problematica non-răspunsurilor

În urma centralizării datelor pentru chestionarele completate se va obţine baza de date sub forma tabelului indivizi variabile reprezentat în figura 3.2.1. Informaţiile lipsă reprezintă non-răspunsurile parţiale respectiv non-răspunsurile totale.

Nonrăspunsurile reprezintă o problemă de care nici un investigator al colectivităţilor umane nu poate scăpa. Dacă numărul de non-răspunsuri este mare rezultatele sondajului vor fi afectate de această situaţie.

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre: Importanta sondajului statistic în obținerea informațiilor în timp real Conceptele de bază utilizate în cercetarea selectivă Procedeele ce stau la baza formării eșantioanelor


3.1. Obiectivele unităţii de învăţare 3 3.2. Problematica non-răspunsurilor 3.3. Tipuri de erori întâlnite în cercetarea selectivă 3.4.Verificarea reprezentativităţii eşantionului 3.5. Aplicaţii

Unitatea de învăţare 3 ASPECTE PRACTICE ÎN REALIZAREA

UNUI SONDAJ STATISTIC

30

Nr. Chest.

Întrebarea 1 2 … j … p

1 2

… i

… npornire

Figura 3.2.1. Tabloul indivizi-variabile

Non-răspuns parțial

Non-răspuns total

31

A.2.1. Imputaţia deductivă se referă la acele situaţii (rare în practică) în care se poate stabili valoarea corectă printr-o deducţie logică. Este vorba de o modalitate deterministă de a corecta datele incorecte sau nevalidate. În acest caz y’ij = yij.

A.2.2. Imputaţia predictivă prin mediere globală se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media răspunsurilor care au fost obţinute la întrebarea j. În acest caz avem:

ryr

iij

1jr,ij yy'

unde r este numărul răspunsurilor valide la întrebarea j. Avantajul acestei metode este că înlocuirea valorii lipsă se face cu o valoare probabilă

ceea ce îi dă un oarecare grad de stabilitate. Dacă există mulţi respondenţi care nu au răspuns la întrebarea j vom folosi pentru toţi aceeaşi imputaţie. Dezavantaj: se produce o subevaluare severă a dispersiei estimatorului pentru media sau totalul caracteristicii yj.

În cazul în care caracteristica este reprezentată pe o scală de intervale sau proporţională calcularea mediei aritmetice se va înlocui cu o medie de poziţie (mediana în cazul unei variabile ordinale sau modulul pentru variabilele nominale).

32

A.2.3. Imputaţia predictivă prin mediere pe clase este similară imputaţiei predictive

prin mediere globală, cu deosebirea că nu se utilizează o singură imputaţie, ci mai multe, corespunzătoare unor clase în care a fost împărţită mulţimea respondenţilor. Astfel, partiţionăm mulţimea respondenţilor r la întrebarea j în q clase disjuncte. Identificăm clasa căruia îi aparţine individul şi construim imputaţia:

kyk

iij

1

rjtij yy'

unde t ia valorile 1,..,q iar k este numărul de respondenţi din clasa respectivă. Utilizarea acestui tip de imputaţie reduce gradul de subestimare a dispersiei

estimatorului. O variantă a acestei metode este imputaţia calculată ca medie a valorilor vecinilor

valorii lipsă. Această metodă poate fi implementată automat şi sub softwareurile statistice specializate, având posibilitatea selectării tipului de medie pe baza căreia se va calcula imputaţia şi a numărului de vecini ce vor forma baza de calcul.

A.2.4. Imputaţia „hot-deck”. „Este utilizată la scară largă deoarece, spre deosebire de

imputaţia prin mediere globală sau pe clase, evită subestimarea dispersiei estimatorului”6. Pentru aplicarea acestei metode se parcurg următoarele etape:

Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura eşantionului.

Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea.

Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este identificat şi verificat să nu conţină valori lipsă.

Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu valoarea corespunzătoare din registru.

A.2.5. Imputaţia “cold-deck”. Este o variaţie a metodei hot-deck şi constă în înlocuirea valorilor lipsă cu date provenite din alte surse decât sondajul curent cum ar fi sondaje anterioare sau recensăminte. Este necesar ca populaţia sondajului din care se preiau valorile să fie foarte asemănătoare cu cea asupra căruia se realizează sondajul în prezent iar modul de definire şi de codificare a variabilelor supuse procesului de imputare să fie identic. Imputaţia cu care se va înlocui valoarea lipsă este selectată aleator din baza de date aferentă sondajului anterior.

Această metodă prezintă dezavantajul că imputaţia utilizată nu provine din sondajul curent motiv pentru care este mult mai rar utilizată.

A.2.6. Imputaţia aleatoare. Constă în alegerea aleatoare din mulţimea respondenţilor

sau dintr-o clasă, a unui ’’donator’’ h din mulţimea de r respondenţi la întrebarea j. În acest caz avem: hjij yy'

Este o variantă a imputaţiei hot-deck iar principalul avantaj faţă de aceasta este că prin selecţia aleatoare a imputaţiei nu mai este necesară sortarea fişierului după diferite caracteristici.

6 Levy P.S., şi Lemeshow S., ‚2000, Sampling of Populations, Third Edition Ed. John Wiley&Sons New York p. 411.

33

A.2.7. Imputaţia obiectivă. La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse procesului de imputare. Ecuaţia poate avea următoarea formă:

kk xbxbxbby ......22110 unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor xi, i=1,…,k corelate cu variabila y.

„Imputaţiile obţinute în această manieră sunt superioare celor provenite în urma aplicării metodelor prezentate anterior, deoarece ea se armonizează cu restul înregistrărilor individului respectiv. Aplicarea acestei metode permite obţinerea unui estimator nedeplasat al mediei şi nu subevaluează dispersia acestuia”7.

B.1. Reselecţia pentru non-respondenţi metodă utilizată pentru tratarea non-răspunsurilor totale în funcţie de restricţiile de timp şi de buget, se poate face o reselecţie pentru

non-respondenţi Împărţim în mod formal populaţia de volum N în două straturi: cel al respondenţilor,

de volum N1, şi cel al non-respondenţilor, de volum N2. Privim situaţia ca a unui sondaj organizat în două faze. (figura 3.2.2.).

Figura 3.2.2. Organizarea reselecţiei pentru non-respondenţi

În prima fază se construieşte eşantionul E de volum n. Eşantionul va conţine n1

respondenţi ai subeşantionului E1 şi n2 non-respondenţi ai subeşantionului E2. Variabila aleatoare w1=n1/n este un estimator nedeplasat al lui p1=N1/N (ponderea respondenţilor). Presupunem că parametrul de interes este media Y . Pe baza subeşantionului E1 putem calcula un estimator asociat primei faze ca in figura 3.2.2.

7 Levy P.S., şi Lemeshow S., 2000 , Sampling of Populations, Third Edition Ed. John Wiley&Sons New York p. 412.

Respondenți N1

Non-respondenți N2

Respondenți n1

Non-respondenți n2

Faza 1 Faza 2

m

34

În a doua fază a sondajului formăm un eşantion E’2 de volum m prin selecţie aleatoare fără revenire din E2. Prin eforturile făcute de operatorul de sondaj şi prin eventuale recompensări eşantionul va conţine doar respondenţi. Putem acum calcula un estimator asociat celei de a doua faze (figura 3.2.2.)

Estimatorul parametrului Y construit pe baza celor două faze are forma:

22

11 y

nny

nny

Metoda reselecţiei pentru non-respondenţi are avantajul că generează un estimator nedeplasat al parametrului de interes

Dezavantaj – determină o creştere substanţială a costului sondajului deoarece cerinţa ca în a doua fază să se obţină răspunsuri complete impune eforturi organizatorice şi financiare deosebite.

B.2. Metoda post-stratificării şi a calibrării generalizate

Utilizarea acestor metode necesită utilizarea unor informaţii deteliate privind

repartiţiile încrucisate după mai multe variabile auxiliare, o dotare tehnică superioară şi un soft specializat şi sunt utilizate pentru tratarea non-răspunsurilor totale.

3.3. Tipuri de erori întâlnite în cercetarea selectivă

37

Figura 3.2.3 Formarea erorilor de acoperire

B.2.1. Erorile efective se pot calcula pentru caracteristicile la care s-au obţinut date şi dintr-o observare totală

Considerând că media este indicatorul sintetic cel mai reprezentativ, eroarea efectivă de sondaj se calculează ca diferenţă între media eşantionului şi media colectivităţii totale

La verificarea reprezentativităţii eşantionului se porneşte de la compararea structurii pe grupe a colectivităţii de selecţie cu cea a colectivităţii generale, denumită şi structură programată. În cazul în care aceste structuri nu diferă cu mai mult de ± 5% se acceptă eşantionul ca fiind reprezentativ.

De cele mai multe ori în cercetarea concretă nu se dispune de date cu privire la întreaga colectivitate pentru a putea verifica în ce măsură media este sau nu reprezentativă. În acest caz se pot efectua selecţii succesive pentru a verifica gradul de stabilitate al mediei şi dispersiei, eroarea efectivă de reprezentativitate calculându-se astfel:

100 respectiv şi % x

xxdxxd xx

unde x este media mediilor selecţiilor. Verificarea reprezentativităţii eşantionului se poate realiza comparând distribuţia

populaţiei cu cea a eşantionului cu ajutorul testelor statistice sau Kolmogorov-Smirnov.

B.2.2. Deşi erorile de reprezentativitate întâmplătoare nu pot fi evitate, ele pot fi calculate cu anticipaţie dacă sondajul este probabilistic, obţinându-se erorile probabile. Estimaţia parametrilor din populaţia generală se va putea face pe baza indicatorilor obţinuţi din prelucrarea datelor de sondaj cu o eroare medie de reprezentativitate care se găseşte într-un interval probabilistic. Fiecărui indicator derivat sau sintetic trebuie să i se ataşeze şi

BAZA DE SONDAJ

POPULAȚIA ȚINTĂ

Arie neacoperită

Arie acoperită de baza de sondaj, dar care nu face parte din populaţia ţintă

38

eroarea sa de reprezentativitate pentru a putea fi generalizat la întreaga populaţie. Modul de calcul al acestor erori depinde de tipul de sondaj utilizat.

Tocmai posibilitatea unor astfel de calcule şi a analizelor respective face din metoda sondajului un instrument viabil de cercetare. 3.4. Verificarea reprezentativitatii esantionului

Înainte de a trece la analiza statistică şi la interpretarea rezultatelor este important să

stabilim dacă eşantioanele sunt sau nu reprezentative pentru populaţiile din care au fost selectate. Dacă diferenţele dintre parametri cunoscuţi din populaţie faţă de valorile estimatorilor obţinuţi pe baza datelor din sondaj sunt semnificative atunci eşantionul nu este reprezentativ. Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum normal) pentru compararea proporţiei din eşantion cu cea din populaţie. Ipotezele testului bilateral sunt: H0: x = 0X şi H1: x 0X .iar valoarea calculată a testului

este:

n

Xxzc 2

0

Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1,96 corespunzătoare nivelului de semnificaţie ales (=0,05) şi, deoarece este mai mică decât aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ. H0: w= p şi H1: pw .iar valoarea calculată a testului este:

n

pppwzc

1

Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de semnificaţie =0,05 în cazul efectuării unui test bilateral valoarea teoretică este

21

z =1,96.

Ipotezele testului 2 sunt: H0: ft= fe şi H1: ftfe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele empirice. Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj iar cele teoretice se calculează după relaţia: n

NFf titi ( tiF fiind frecvenţa corespunzătoare a grupei i din populaţie).

Valoarea calculată a testului este:

k

1i ti

2tiei2

c fff

= Valoarea teoretică pentru un nivel de

semnificaţie =0,05 şi numărul de grade de libertate df=k-1=5-1=4 este de 9,49. Deoarece 2

4;05,02

dfc se respinge ipoteza nulă putând spune că cele două distribuţii nu concordă şi, deci eşantionul nu este reprezentativ. 1. Testul Kolmogorov este unul dintre cele mai răspândite teste de concordanţă a

repartiţiilor empirice şi teoretice pentru variabile aleatoare continue. Pentru efectuarea testului este necesară alcătuirea claselor şi stabilirea frecvenţelor absolute empirice şi teoretice (în funcţie de repartiţia testată). Ulterior se cumulează aceste frecvenţe crescător şi prin raportarea lor la total se obţin funcţiile de repartiţie empirice (Fn(x)) şi teoretice (F(z)).

39

Se calculează pe clase diferenţa lor şi se ia diferenţa maximă în valoare absolută. Pe baza ei se obţine statistica a testului Kolmogorov astfel: )z(F)x(Fnmaxnc , unde n este volumul eşantionului. Valoarea calculată c se compară cu valoarea teoretică tabelată în funcţie de nivelul de semnificaţie. Unui α=0,05 îi corespunde α=1,36. Dacă < α repartiţia empirică este în concordanţă cu cea teoretică. Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru cazul verificării concordanţei a două repartiţii empirice. Notând cele două variabile aleatoare cu x şi y se

calculează o valoare c după relaţia următoare: .nn

nn)y(F)x(Fmax21

21c

;

unde F(x) şi F(y) reprezintă funcţiile repartiţiilor empirice ale celor două variabile. Se compară apoi valoarea calculată cu cea teoretică. Dacă c < α repartiţiile sunt în concordanţă. 3.5. Aplicaţii Aplicaţie 1 În urma centralizării răspunsurilor obţinute dintr-un sondaj în rândul studenţilor unei universităţi au rezultat datele prezentate în tabelul 3.5.1 Definirea variabilelor: STRAT. Sondajul s-a realizat după un plan stratificatastfel: 1 anul I, 2 anul II, 3 anul

III şi 4 anulIV. SEX. 1 feminin, 2 masculin. MEDIE. Este variabilă numerică şi reprezintă media obţinută în sesiunea din iarnă. NRORE. Este variabilă numerică şi reprezintă numărul de ore de studiu pe săptămână

în afara sesiunii. ACORD. Este variabila obţinută în urma centralizării răspunsurilor la întrebarea: “În

ce măsură sunteţi de acord cu modificările survenite în învăţământul superior?”. Codurile reprezintă: 1 dezacord total, 2 dezacord, 3 indiferent, 4 acord şi 5 acord total.

Se cere:

1. Să se înlocuiască valorile lipsă ale variabilei NRORE folosind imputaţia predictivă prin mediere globală, imputaţia predictivă prin mediere pe clase şi imputaşia obiectivă.

2. Să se înlocuiască valorile lipsă ale variabilei ACORD folosind imputaţia ”hot-deck”. Rezolvare 1. Notăm cu yij răspunsul pe care îl dă individului i din eşantionul E la întrebarea j (i=1,..,n,

j=1,... ,p). Concentrându-ne asupra individul i din eşantion constatăm că vectorului (yi1, ...., yip), format din răspunsurile la întrebările din chestionar, îi lipsesc unele componente (non-răspunsurile). Fiecare poziţie de coordonate (i,j) trebuie tratată separat, prin crearea unei valori y’ij numită ’’valoare atribuită’’ sau ’’imputaţie’’.

40

Imputaţia predictivă prin mediere globală Calculăm media răspunsurilor obţinute la întrebarea j:

17.523

119yy'1

jr,ij

ryr

iij

unde r este numărul răspunsurilor valide la întrebarea j. Toate cele 7 valori lipsă se vor înlocui cu 5.17 (vezi tabelul 3.5.2 variabila NROREIG). Avantajul acestei metode este că înlocuirea valorii lipsă se face cu o valoare probabilă ceea ce îi dă un oarecare grad de stabilitate. Dacă există mulţi respondenţi care nu au răspuns la întrebarea j vom folosi pentru toţi aceeaşi ’’imputaţie’’. Este clar că se produce o subevaluare severă a dispersiei estimatorului pentru media sau totalul caracteristicii yj.

Tabel 3.5.1 Nr. STRAT SEX MEDIE NRORE ACORD 1 1 1 7 3 2 2 1 1 8.33 4 2 3 1 1 6.67 3 3 4 1 1 9.67 10 4 5 1 2 6.33 2 6 1 2 7.8 4 1 7 2 1 9.67 11 2 8 2 1 8 2 9 2 1 7.2 3 10 2 1 8.8 6 4 11 2 1 6.33 4 5 12 2 2 7 4 1 13 2 2 8.8 6 14 2 2 8.2 5 1 15 3 1 7.9 5 3 16 3 1 8.8 4 17 3 1 6.67 18 3 1 9.33 9 4 19 3 1 8.33 6 2 20 3 1 7.7 5 21 3 2 8.2 5 2 22 3 2 5.67 23 3 2 9.2 9 2 24 4 1 9.33 2 25 4 1 8.9 7 3 26 4 1 7.8 6 27 4 1 8.2 7 2 28 4 2 8.9 29 4 2 7.9 5 1 30 4 2 7.5 4 2

41

Imputaţia predictivă prin mediere clase Partiţionăm mulţimea respondenţilor r la întrebarea j în 4 clase disjuncte, cate una pentru fiecare strat. Identificăm clasa căruia îi aparţine individul şi construim

imputaţia: kyk

iij

1

rjtij yy'

unde t ia valorile 1,..,4 iar k este numărul de respondenţi din clasa respectivă, Deoarece există patru straturi se vor calcula 4 imputaţii.

6.4523yy'

1rj11ij

kyk

iij 57.4

732yy'

1rj22ij

kyk

iij

17.66

37yy'1

rj33ij

kyk

iij 4.5

527yy'

1rj442ij

kyk

iij

În tabelul 3.5.2 variabila NROREIC este obţinută în urma aplicării acestei metode. Utilizarea acestui tip de imputaţie reduce gradul de subestimare a dispersiei estimatorului.

Tabel 3.5.2 Nr. STRAT SEX MEDIE NRORE NROREIG NROREIC NROREIO 1 1 1 6 2 2 2 2 2 1 1 8.33 4 4 4 4 3 1 1 5.67 3 3 3 3 4 1 1 9.67 10 10 10 10 5 1 2 5.33 5.17 4.6 0.49 6 1 2 7.8 4 4 4 4 7 2 1 9.67 9 9 9 9 8 2 1 8 5.17 4.57 5.19 9 2 1 7.2 3 3 3 3 10 2 1 8.8 5 5 5 5 11 2 1 6.33 2 2 2 2 12 2 2 6.33 3 3 3 3 13 2 2 8.8 5 5 5 5 14 2 2 8.2 5 5 5 5 15 3 1 7.9 5 5 5 5 16 3 1 8.8 5.17 6.17 6.60 17 3 1 5.67 5.17 6.17 1.09 18 3 1 9.33 8 8 8 8 19 3 1 8.33 6 6 6 6 20 3 1 7.7 4 4 4 4 21 3 2 8.2 5 5 5 5 22 3 2 5.67 5.17 6.17 1.09 23 3 2 9.2 9 9 9 9 24 4 1 9.33 5.17 5.4 7.53 25 4 1 8.9 7 7 7 7 26 4 1 7.8 6 6 6 6 27 4 1 8.2 7 7 7 7 28 4 2 8.9 5.17 5.4 6.78 29 4 2 7.9 4 4 4 4 30 4 2 7.5 3 3 3 3

42

Imputaţia obiectivă Pentru setul de date ce nu conţine valori lipsă pentru variabila NRORE se stabileşte forma ecuaţiei de regresie ce are ca variabilă independentă MEDIA. În figura 3.5.1 este reprezentată grafic legătura dintre MEDIE şi NRORE.

Fig. 3.5.1 Nr. ore studiu în funcţie de media obţinută în sesiunea din iarnă Pe baza ecuaţiei de regresie y = 1.761x - 8.8953 se determină imputaţiile cu care se vor înlocui non-răspunsurile variabilei NRORE (vezi tabelul 3.5.2 variabila NROREIO). De exemplu pentru prima valoare lipsa a Variabilei NRORE, MEDIA este 5.33. Introducem aceasta valuare in ecuaţia de regresie şi obţinemvaloarea imputaţiei obiective 0.49. 2. Imputaţia „hot-deck”. Pentru aplicarea acestei metode se parcurg următoarele etape:

Etapa1. Fişierul ce conţine baza de date este în prealabil sortat după caracteristicile demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura eşantionului. Deoarece în tabelul 3.1 datele sunt deja sortate după STRAT şi SEX se poate trece la etapa următoare. Etapa 2. Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea. În tabelul 3.5.3 este prezentat registrul de lucru constituit.

Tabel 3.5.3 STRAT SEX ACORD

1 1 2 1 2 2 2 1 2 2 2 1 3 1 3 3 2 2 4 1 2 4 2 1

43

Etapa 3. Fişierul (tabelul 3.5.1) se parcurge înregistrare cu înregistrare şi fiecare câmp este identificat şi verificat să nu conţină valori lipsă. Etapa 4 . În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu valoarea corespunzătoare din registru. Rezultatul implementării acestei metode este prezentat în tabelul 3.5.4. De exemplu înregistrarea cu numarul 9 conţine valoare lipsă pentru variabila ACORD. Înregistrarea face parte din STRAT 2 iar variabila SEX este 1-masculin. Valoarea corespunzătoare din registru este 2. Înlocuim cu această valoare nonrăspunsul parţial.

Tabelul 3.5.4 Nr. STRAT SEX ACORD ACORDM 1 1 1 2 2 2 1 1 2 2 3 1 1 3 3 4 1 1 4 4 5 1 2 2 2 6 1 2 1 1 7 2 1 2 2 8 2 1 2 2 9 2 1 2

10 2 1 4 4 11 2 1 5 5 12 2 2 1 1 13 2 2 1 14 2 2 1 1 15 3 1 3 3 16 3 1 4 4 17 3 1 3 18 3 1 4 4 19 3 1 2 2 20 3 1 21 3 2 2 2 22 3 2 2 23 3 2 2 2 24 4 1 2 2 25 4 1 3 3 26 4 1 2 27 4 1 2 2 28 4 2 1 29 4 2 1 1 30 4 2 2 2

Aplicaţie 2 S-a realizat un sondaj în rândul studenţilor unei universităţi partiulare pe un eşantion de 90 persoane. În urma centralizării datelor pentru variabilele auxiliare SEX şi MEDIE (media ultimei sesiuni) au rezultat următoarele informaţii: ponderea fetelor în eşantion este de 67% iar nota medie 7.2 cu o dispersie de 1.42.

44

Se cere să se verifice reprezentativitatea eşantionului stiind că ponderea fetelor în populaţie este 65% iar nota medie a studenţilor este de 6.98 iar probabilitatea de garantare a rezultatelor este de 95%. Rezolvare Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum normal) pentru compararea proporţiei din eşantion cu cea din populaţie. Ipotezele testului bilateral sunt: H0: w= p şi H1: pw .

Regiunea critică în cazul testului bilateral este dată de relaţia: W: 211

z

npppw

iar

valoarea calculată a testului este:

npp

pwzc

1=0.398

Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de semnificaţie =0.05 în cazul efectuării unui test bilateral valoarea teoretică este

21

z =1,96.

Deoarece valoarea calculată a testului luată în modul este mai mică decât valoarea teoretică se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ. Pornind de la variabila auxiliară MEDIA, pentru verificarea reprezentativităţii se utilizează testul z pentru compararea mediei unui eşantion cu cea a populaţiei. Ipotezele testului bilateral sunt: H0: x = 0X şi H1: x 0X .

Regiunea critică în cazul testului bilateral este dată de relaţia: W: 2

12

0

z

n

Xx iar valoarea

calculată a testului este:

n

Xxzc 2

0

=1.75

Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1.96 corespunzătoare nivelului de semnificaţie ales (=0.05) şi, deoarece este mai mică decât aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ. Problema 2 În rândul populaţiei de 160000 persoane (cu vârsta peste 15 ani) dintr-o localitate s-a realizat un sondaj pe un eşantion de 800 persoane privind atitudinea faţă de. În tabelul 3.5.5 este prezentată structura eşantionului şi structura populaţiei pe grupe de vârstă.

Tabel 3.5.5 Grupe de vârstă Structura populaţiei (%) Structura eşantionului (%)

15-24 16 19 25-34 20 23 35-44 24 20 45-54 21 17

peste 55 19 21 Total 100 100

45

Se cere: 1. Să se verifice reprezentativitatea eşantionului utilizând testul 2 pentru un nivel de

semnificaţie =0.05. 2. Să se verifice reprezentativitatea eşantionului utilizând testul Kolmogorov-Smirnov pentru

un nivel de semnificaţie =0.05. Rezolvare 1. Atunci când se cunoaşte forma distribuţia variabilei în populaţie pentru verificarea

reprezentativităţii eşantionului se poate utiliza unul din testele de concordanţă.

Tabelul 3.5.6

Grupe de vârstă

Structura populaţiei

(%)

Structura eşantionul

ui (%)

Număr salariaţi

în populaţie ( tiF )

Număr salariaţi

în eşantion (fei)

fti

ti

tieif

ff 2

15-24 16 19 25600 152 128 4.50 25-34 20 23 32000 184 160 3.60 35-44 24 20 38400 160 192 5.33 45-54 21 17 33600 136 168 6.10

peste 55 19 21 30400 168 152 1.68 Total 100 100 160000 800 800 21.21

Ipotezele testului 2 sunt:

H0: ft= fe şi H1: ftfe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele empirice. Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj iar cele teoretice se calculează după relaţia: n

NFf titi ( tiF fiind frecvenţa corespunzătoare a grupei i din populaţie). Calculele necesare sunt sistematizate în tabelul 3.5.6.

Valoarea calculată a testului este:

k

1i ti

2tiei2

c fff

=21.21

Valoarea teoretică pentru un nivel de semnificaţie =0,05 şi numărul de grade de libertate df=k-1=5-1=4 este de 9.49. Deoarece 4;05,0

22 dfc se respinge ipoteza nulă putând

spune că cele două distribuţii nu concordă şi, deci eşantionul nu este reprezentativ. 2. Calculele necesare pentru efectuarea testului Kolmogorov sunt sistematizate în tabelul

3.5.7. Considerăm variabilele x şi y vârsta în totalul populaţiei şi respectiv în eşantion.

Tabel 3.5.7 Grupe de

vârstă fei fti fei cumulat fti cumulat f* ei cumulat

F(x) f* ti cumulat

F(y) di

15-24 152 128 152 128 0.19 0.16 0.03 25-34 184 160 336 288 0.42 0.36 0.06 35-44 160 192 496 480 0.62 0.6 0.02 45-54 136 168 632 648 0.79 0.81 0.02

peste 55 168 152 800 800 1 1 0 Total 800 800

46

În relaţia de calcul a valorii teoretice c considerăm n1 volumul populaţiei N iar n2 volumul

eşantionului n. Relaţia devine: .nN

Nn)y(F)x(Fmaxc

În cazul în care volumul populaţiei este mare în raport cu eşantionul (n<0.05N) c se poate

calcula după relaţia: .n)y(F)x(Fmaxc =1.69. α=1,36. Deoarece c > α repartiţia empirică nu este în concordanţă cu cea teoretică iar eşantionul nu este reprezentativ ceea ce va duce la obţinerea unor estimatori deplasaţi.

47

4.1. Obiective

4.2. Sondajul simplu aleator

Sondajul simplu aleator este considerat o metodă de bază în teoria sondajului. El se poate realiza într-o populaţie foarte omogenă (coeficient de variaţie sub 17%), unităţile cuprinse în eşantion fiind selectate prin procedee aleatoare cu probabilităţi nenule cunoscute. Cu toate că este rareori folosit în practică el este foarte important pentru înţelegerea

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre: Alegerea unui plan de sondaj simplu în funcție de caracteristicile populației Estimarea parametrilor de interes pe baza valorilor de sondaj în funcție de

planul de sondaj simplu utilizat

Ce cuprinde această unitate de învățare?

4.1. Obiectivele unităţii de învăţare 4 4.2. Sondajul simplu aleator 4.2.1. Sondajul simplu aleator cu probabilităţi egale 4.2.2. Sondajul de volum redus 4.3. Sondajul stratificat 4.4. Sondajul de serii 4.5. Aplicații

Unitatea de învăţare 4 PLANURI DE SONDAJ SIMPLE

48

noţiunilor fundamentale şi însuşirea tehnicii sondajelor. Totodată sondajul simplu aleator stă la baza sondajelor complexe utilizate în practică.

Sondajul simplu aleator se poate efectua în două variante: sondajul simplu aleator cu probabilităţi egale şi sondaj simplu aleator cu probabilităţi inegale.

Sondajul simplu aleator cu probabilităţi egale este acel sondaj în care fiecare unitate are aceeaşi probabilitate de a face parte din eşantion iar probabilităţile sunt independente. Acest plan de sondaj este metoda de bază a sondajelor aleatoare din care decurg conceptele fundamentale şi formulele de calcul al erorilor specifice sondajului. Tehnica sondajului simplu aleator este vizualizată în figura următoare:

Figura 4.2.1 Schema de realizare a sondajului simplu aleator

Există două tipuri de sondaj cu probabilităţi egale: sondajul simplu aleator cu

probabilităţi egale cu revenire cunoscut în literatura de specialitate ca „plan de eşantionare cu probabilităţi egale repetat (cu revenire) – SAR” şi sondajul simplu aleator cu probabilităţi egale fără revenire cunoscut sub numele: plan de eşantionare cu probabilităţi egale nerepetat (fără revenire)–SAFR”.

4.2.1. Sondajul simplu aleator cu probabilităţi egale Sondajul simplu aleator cu probabilităţi egale cu revenire

Fie U populaţia supusă sondajului: U = { Ui | i= 1,…,N } În cazul acestui tip de sondaj numărul tuturor eşantioanelor posibile este egal cu Nn,

iar probabilitatea fiecărei unităţi din populaţie de a intra în eşantion la fiecare extragere este: pik=1/N unde i= 1,…,N iar k= 1,…,n.

Probabilitatea ca o unitate Ui U să figureze în eşantion o notăm cu iπ unde:

Nnp π

n

kiki

1

Populaţie Eşantion

49

Calculul erorilor de sondaj în vederea estimării parametrilor populaţiei se bazează pe principiile teoriei probabilităţilor şi ale statisticii matematice.

Pentru un volum de eşantion n se pot obţine Nn eşantioane extrase succesiv din aceeaşi populaţie fiecare având o medie de sondaj. În acest proces de formare a mediilor de sondaj fiecare medie poate să aibă diferite frecvenţe de apariţie. Se confirmă astfel că media de sondaj ix este o variabilă aleatoare căreia i se poate stabili legea de distribuţie. Respectând cerinţele legii numerelor mari în teoria sondajului se demonstrează că dacă volumul eşantionului este suficient de mare media de sondaj urmează o distribuţie normală a cărei medie este chiar media populaţiei totale:

X)xM( i iar 0Xxn

1ii

Dispersia mediilor de sondaj în jurul mediei din populaţia totală este egală cu raportul dintre dispersia din populaţia totală şi volumul eşantioanelor de aceeaşi mărime n:

nσ

σ2

2x i

Mărimea abaterii medii pătratice a mediilor de sondaj de la media populaţiei reprezintă

eroarea medie de reprezentativitate şi se calculează după relaţia:

n

σσ

ix

Dacă nu se cunoaşte valoarea dispersiei populaţiei totale ea este estimată cu ajutorul dispersiei de sondaj S2. În acest caz eroarea medie de reprezentativitate se calculează după relaţia:

n

Sσ

ix

În practică însă nu procedăm la extragerea tuturor eşantioanelor posibile şi ne mulţumim cu un singur eşantion construit cu respectarea cât mai riguroasă a unor anumite condiţii. În acest caz, media eşantionului se poate abate mai mult sau mai puţin de la media populaţiei, fapt ce determină necesitatea indicării unui interval de încredere despre care se poate afirma cu o probabilitate sau siguranţă cunoscută că acoperă valoarea mediei din colectivitatea totală. Limitele intervalului de încredere, cea minimă θiinf şi cea maximă θsup se calculează în funcţie de datele de sondaj x1, x2, …, xn astfel încât, cu un grad mare de siguranţă, garantat de probabilitatea 1-α pentru parametrul populaţiei, se îndeplineşte relaţia:

zXP 1supinf

Intervalul supinf , reprezintă intervalul de încredere şi defineşte precizia estimaţiei.

Probabilitatea (1-α ) caracterizează siguranţa cu care se afirmă că intervalul de încredere cuprinde valoarea parametrului populaţiei. Cu cât intervalul supinf , este mai mic şi

probabilitatea (1-α ) mai mare cu atât avem o estimaţie mai precisă cu privire la valoarea parametrului. Intervalul supinf , este o mărime aleatoare, limitele sale fiind

50

dependente de datele fiecărei selecţii, motiv pentru care, pentru o aceeaşi populaţie, valorile limitelor variază de la o selecţie la alta atât ca mărime cât şi ca poziţie.

La construirea estimaţiilor, un rol important, pe lângă nivelul de siguranţă, îl joacă mărimea intervalului de încredere. Cele două mărimi se află într-o relaţie de corespondenţă bine determinată. Dacă eroarea de sondaj se distribuie după legea normală atunci erorile egale în valoare absolută cu probabilităţile de apariţie şi pentru acelaşi volum al eşantionului probabilistic ce alcătuiesc intervale supinf , se pot separa în două părţi egale iar jumătatea

intervalului este eroarea limită admisă. Precizia estimaţiei, probabilitatea de încredere şi intervalul de încredere se discută pe

baza inegalităţii lui Cebîrşev, prin care se demonstrează că media de sondaj x pentru un volum mare al eşantionului converge în probabilitate către 0X media populaţiei, ceea ce

semnifică faptul că x este un estimator corect al mediei populaţiei (nedeplasat, consistent şi eficient). Siguranţa estimării este dată de probabilitatea cu care este îndeplinită inegalitatea:

mic desuficient 0, unde z Xx .

Această probabilitate este dată dinainte şi este foarte apropiată de unitate.

z XxP sau z xXxP ¤ (4. 1.1.)

Intervalul xx , care acoperă parametrul X cu o probabilitate z se

numeşte interval de încredere . În vederea stabilirii expresiei intervalului de încredere pentru

media X trebuie definită variabila de sondaj x

Xxz

( x este eroarea medie de

reprezentativitate). Din relaţia 4.1.1 avem:

xxxx

XxP

XxPXxP

2

xxx

zunde z reprezintă eroarea limită maximă admisă.

Rezultă că eroarea limită maximă admisă este o mărime variabilă ce depinde de argumentul funcţiei de probabilitate (z) şi de eroarea medie de reprezentativitate. Ea poate fi redusă fie prin mărirea volumului eşantionului (valoare ce intră în calculul erorii medii de reprezentativitate) fie prin modificarea probabilităţii de garantare a rezultatelor.

În orice plan de cercetare prin sondaj, pentru a răspunde obiectivelor propuse sunt necesare atât caracteristici cantitative cât şi calitative. În acest caz ne interesează dacă o unitate a eşantionului posedă sau nu o caracteristică. În această situaţie calculul erorii medii de reprezentativitate se realizează după relaţia:

nww

npp

w)1()1(

(unde p este media caracteristicii binare în populaţie iar w reprezintă estimaţia acesteia din eşantion).

51

În mod corespunzător, eroarea limită maximă admisă se calculează astfel:

ww z Deşi determinarea volumului de eşantion în realitate precede calculul erorilor necesare

estimaţiilor nu putem aborda această temă fără cunoaşterea acestor noţiuni. După studiul amănunţit al populaţiei supuse cercetării se va alege cu multă grijă

caracteristica în raport cu care se calculează volumul eşantionului. Pornind de la formula erorii limită maximă admisă, pentru un eşantion de volum mare

avem:

2

22

2

22

xx

x

Szzn

nz

Dacă abaterea medie pătratică a caracteristicii Xi în populaţia generală presupusă normal distribuită nu este cunoscută, atunci se extrage în prealabil un eşantion de volum redus pe baza căruia se estimează cu ajutorul dispersiei de sondaj S2 dispersia necunoscută.

În cazul în care volumul eşantionului se calculează pornind de la o caracteristică alternativă relaţia de calcul a volumului eşantionului este:

2

22

2

22 )1()1(

ww

wwzppzn

unde p este proporţia celor care posedă caracteristica în populaţia totală. În cazul în care nu se cunoaşte această valoare şi nu se poate calcula variaţia caracteristicii în populaţia totală aceasta se estimează cu dispersia din eşantion calculată cu ajutorul proporţiei celor care posedă caracteristica în eşantion (w).

Sondajul simplu aleator cu probabilităţi egale fără revenire

Sondajul simplu aleator cu probabilităţi egale fără revenire este acel sondaj în care o unitate odată selecţionată nu mai participă la o nouă extragere.

Numărul tuturor eşantioanelor posibile în acest caz este egal cu nNC . Probabilitatea

fiecărei unităţi de a intra în eşantion creşte de la o extragere la alta astfel:

N 1,i unde )1(

1;.....1

1 ;121

nNp

Np

Np inii

Probabilitatea ca o unitate Ui U să figureze în eşantion o notăm cu iπ şi este dată de

relaţia:

Nn

kNNk

Nn

nNNNp π

n

k

n

kiki

11 ))1((

1)1(

1....1

11

tinde la limita spre Nn .

Pentru a aproxima dispersia mediilor de sondaj necesară calculării erorii medii de

reprezentativitate se aplică un coeficient de corecţie 1

N

nN . Deoarece, de cele mai multe ori,

52

volumul populaţiilor studiate este mare, nu sesizăm diferenţe între a împărţi la N-1 sau la N.

În acest context, pentru simplificarea calculului considerăm coeficientul de corecţie

Nn1 .

Nn1

nσ

σ2

2x iar

Nn

Nn 1

nS

1n

σσ

22

x

Eroarea limită maximă admisa este:

Nnz

Nnzxx 1

nS

1n

σz

22

În cazul în care nu se cunoaşte dispersia populaţiei totale o vom estima cu ajutorul

dispersiei de sondaj S2. Dacă variabila pe care dorim să o analizam este calitativă, eroarea medie de

reprezentativitate şi eroarea limită se vor calcula după relaţiile:

Nn

nww

Nn

npp

w 1)1(1)1(

Nnz

Nnzww 1

nw)-w(11

np)-p(1z

Pentru determinarea volumului eşantionului se porneşte tot de la relaţia de calcul a erorii

limită:

Nz

zNnz

x

xx 222

2220

1n

σz

În cazul în care variabila este calitativă vom avea :

Nwwz

wwz

Nppz

ppzn

ww)1(

)1()1(

)1(2

2

2

22

2

În situaţia in care populaţia totală poate fi considerată infinită coeficientul de corecţie a sondajului fără revenire nu îşi mai găseşte utilitatea. În cazul în care n<0,05N putem considera

populaţia infinită, valoare 11

Nn şi practic diferenţele intre aplicarea celor două

formule de calcul a erorii de reprezentativitate fiind nesemnificative.

Estimarea parametrilor populaţiei totale pe baza valorilor de sondaj

Operaţia de extindere a rezultatelor obţinute din sondaj (în condiţii specificate de incertitudine exprimate în termeni probabilistici) asupra întregii populaţii prin procedeul numit inferenţă statistică se numeşte estimaţie.

53

Sumarul relaţiilor necesare determinării intervalului de încredere în cazul utilizării unui sondaj simplu aleator cu probabilităţi egale:

Condiţiile de desfăşurare

Sondaj cu revenire Sondaj fără revenire

2 cunoscută 2 necunoscută 2 cunoscută 2 necunoscută Populaţie infinită şi eşantion de volum normal (n<0,05N), n>30

nzx

2

nSzx

2

nzx

2 n

Szx2

n

)w1(wzw

n)w1(wzw

Populaţie finită şi eşantion de volum normal (n>0,05N), n>30

nzx

2 n

Szx2

1NnN

nzx

2

1N

nNn

Szx2

n

)w1(wzw

1NnN

n)w1(wzw

54

4.2.2. Sondajul de volum redus

Sondajele realizate pe baza eşantioanelor de volum redus îşi găsesc frecvent aplicabilitatea în domeniul cercetărilor economico-sociale. Adeseori, în activitatea desfăşurată managerii sunt nevoiţi să ia decizii pe baza unor date sumare oferite de eşantioane mici.

Dacă volumul eşantionului este mai mic de 30 de unităţi, se consideră de volum redus,

iar premizele de mai sus nu mai sunt valabile fiind necesară o tehnică nouă de abordare a problemei.

În acest caz, distribuţia mediilor eşantioanelor posibile depinde de forma de distribuţie a populaţiei. Cum de cele mai multe ori forma de distribuţie a populaţiei nu este cunoscută, nici legea de distribuţie a mediilor eşantioanelor nu poate fi determinată. Teoria sondajului demonstrează că în cazul selecţiei de volum mic probabilitatea de apariţie a mediilor de diferite mărimi se distribuie mai uniform. Cu alte cuvinte probabilităţile de apariţie a mediilor nu descresc în aceeaşi măsură ca în cazul eşantioanelor de volum normal în momentul în care acestea se apropie de valorile extreme, mediile eşantioanelor posibile distribuindu-se după curba lui Student şi nu după curba normală.

Tabelul distribuţiei Student prezintă coeficientul funcţiei de probabilitate al apariţiei mediilor eşantioanelor posibile, reprezentat de coeficientul funcţiei (t).

Prin urmare, pentru estimarea mediei metodologia este asemănătoare pentru eşantioanele de volum normal şi cele de volum redus, singura diferenţă fiind utilizarea valorilor repartiţiei Student în funcţie de numărul gradelor de libertate şi probabilitatea de garantare a rezultatelor. Relaţiile sunt sistematizat astfel:

Condiţiile de desfăşurare

Sondaj cu revenire Sondaj fără revenire

Eşantion de volum redus n<30

2 cunoscută 2 necunoscută 2 cunoscută 2 necunoscută

ntx

2

1nStx

2

1NnN

ntx

2

1NnN

1nStx

2

1n)w1(wtw

1NnN

1n)w1(wtw

55

4.3. Sondajul stratificat

Deoarece în practică de cele mai multe ori populaţiile supuse cercetării sunt neomogene utilizarea unui sondaj simplu aleator este dificilă şi costisitoare. Pentru diminuarea acestor neajunsuri şi creşterea preciziei estimaţiilor se aplică metoda eşantionării stratificate.

Această metodă presupune împărţirea populaţiei în subpopulaţii cât mai omogene numite straturi. Straturile se delimitează fie artificial de către cei care organizează sondajul pe baza unor criterii bine determinate, fie ele sunt deja constituite în populaţie (an de studiu, judeţ, sector, filială etc.). Pentru formarea eşantionului se va realiza câte o selecţie pentru fiecare strat formându-se câte un subeşantion. Acestea vor fi obţinute utilizându-se unul din procedeele de selecţie învăţate (cu probabilităţi egale sau inegale, repetate sau nerepetate). Metoda selecţiei stratificate este reprezentată în figura următoare:

Figura 4.3.1 Scheme de realizare a sondajului stratificat

Acest tip de sondaj este frecvent utilizat deoarece combină simplitatea conceptuală a

sondajului simplu aleator cu siguranţa asigurării ponderii necesare reprezentativităţii subgrupurilor. Totodată este o tehnică foarte convenabilă atunci când dorim să obţinem estimaţii separate pentru parametrii populaţiei pe fiecare strat şi ulterior pentru întreaga populaţie sau să ne asigurăm că eşantionul respectă structura populaţiei după criteriul de stratificare.

Populaţie N

Eşantion n

S T R N1 A T 1

S T R N2 A T 2

S T R Nk A T 3

n1

n2

nk

......................................................................................

56

1. Stratificarea asigură un grad mai mare de reprezentativitate şi de precizie a

rezultatelor. „Straturile constituite după o caracteristică oarecare vor prezenta un mai mare grad de omogenitate decât cel al populaţiei fiind caracterizate prin indicatori ai variaţiei cu valori mai mici şi deci erori de reprezentativitate mai reduse”8

Pentru a înţelege avantajul sondajului stratificat trebuie pornit de la variaţia totală a populaţiei după o anumită caracteristică (măsurată de dispersia 2 ) compusă din variaţia din interiorul straturilor (măsurată de dispersia 2 ) şi variaţia dintre straturi (măsurată de dispersia 2 ): 222 unde fiecare tip de variaţie se calculează conform relaţiilor:

NXXN

jj

1

22 )( ;

k

ii

k

iii NN

11

22 ;

k

ii

k

iij NNXX

11

22 )(

În cazul în care s-ar organiza un sondaj simplu aleator, dispersia care determină

mărimea erorii de reprezentativitate este dispersia totală. Cum în general populaţiile nu sunt omogene aceasta va fi foarte mare determinând o eroare medie de reprezentativitate mare.

Dacă se organizează un sondaj stratificat numai dispersia din interiorul straturilor va influenţa eroarea de reprezentativitate. Aceasta este sintetizată prin media dispersiilor parţiale şi este măsura influenţei factorilor întâmplători asupra variaţiei caracteristicii. Mărimea dispersiei dintre straturi, măsură a factorului care constituie criteriul de stratificare asupra variaţiei variabilei nu influenţează eroarea de reprezentativitate.

Deoarece întotdeauna 22 estimaţiile obţinute pe baza sondajului stratificat sunt afectate de erori mai mici decât cele obţinute pe baza unui sondaj simplu aleator.

2. Dacă stratificarea se realizează pe criterii geografice culegerea datelor se poate face cu

specialişti locali, reducând astfel costul. Mai mult, se pot analiza şi interpreta datele iniţial pe fiecare strat şi ulterior pe întreaga populaţie.

Problemele organizatorice care se pun în momentul organizării unui sondaj stratificat sunt:

A alegerea criteriului pe baza căruia se va face stratificarea; B numărul de straturi ce se vor constitui; C repartizarea eşantionului pe subeşantioane.

8 Porojan D., 1993, Statistica şi teoria sondajului, Ed. Şansa SRL, Bucureşti, p. 253.

57

Sondaj stratificat simplu (neproporţional)

Acest sondaj este caracterizat prin aceea că din fiecare grupă se extrage un număr de unităţi pentru a forma eşantionul fără a ţine cont de greutatea specifică a fiecărei grupe în totalul populaţiei. Determinarea valorilor de sondaj în vederea estimării parametrilor din populaţia de sondaj se realizează pentru toate caracteristicile cantitative şi calitative cuprinse în planul sondajului.

58

Caracteristicile cantitative Considerăm o populaţie „C” de volum N împărţită în „k” straturi. Din fiecare strat se

selectează un eşantion după unul din procedeele cunoscute astfel:

unde k este numărul de straturi

N1, N2,….. Nk, reprezintă volumul straturilor în populaţia totală şi Nk

1i

jN

n1, n2,….. nk, reprezintă volumul straturilor în eşantion şi nk

i

1

jn

Xij nivelurile caracteristicii cantitative. Valoarea medie a caracteristicii în populaţia totală este X şi se calculează însumând

nivelurile caracteristicii conforma relaţiei 4.3.1 sau ca medie a mediilor de strat (relaţia 4.3.2).

N

x

X

k

i

jN

jij

1 1 (4.3.1)

k

ii

k

iii

N

NXX

1

1 (4.3.2)

Valoarea medie a caracteristicii calculată pe baza datelor din eşantion se calculează similar după una din relaţiile 4.3.3 sau 4.3.4:

n

x

x

k

i

n

jij

j

1 1 (4.3.3)

k

ii

k

iii

n

nxx

1

1 (4.3.4) unde i

n

jiji

in

x

x

i

1 (4.3.5)

Deoarece media populaţiei totale nu se cunoaşte aceasta poate fi estimată cu următorul estimator calculat pe baza mediilor straturilor şi a ponderilor din populaţia totală:

k

ii

k

iii

N

Nxx

1

1~ (4.3.6)

În cazul sondajului simplu stratificat obţinut prin aplicare procedeului de sondaj aleator cu revenire, respectiv fără revenire, relaţiile de calcul ale erorii de reprezentativitate sunt:

k

i i

iik

i i

iix n

SNN

nNN

1

2

2

2

1

2

2

2

~1

(4.3.7)

C1 (X11, X21,….., XN11) C1 (x11, x21,….., xn11) C2 (X12, X22,….., XN22) C1 (x12, x22,….., xn22) ………………………………………………………………………… Ck (X1k, X2k,….., XNkk) C1 (x1k, x2k,….., xnkk)

59

k

i i

i

i

iik

i i

i

i

iix N

nnS

NN

Nn

nNN

1

2

2

2

1

2

2

2~ 1

11

(4.3.8)

Pentru simplificarea relaţiilor de calcul în cazul în care subeşantioanele sunt de volum

normal nu se justifică împărţirea la ni-1 faţă de cea la ni. Totodată, dacă volumul fiecărui strat Ni este suficient de mare numitorul coeficientului de corecţie poate rămâne Ni în loc de Ni-1.

Dacă prezintă interes şi analiza pe fiecare strat în parte, se va calcula într-o primă etapă eroarea medie de reprezentativitate pe fiecare strat ţinându-se cont de procedeul de selecţie utilizat în interiorul stratului astfel:

1

22

i

i

i

ix n

Sni

(selecţia din interiorul stratului este cu revenire);

i

i

i

i

i

i

i

ix N

nnS

Nn

ni1

11

22 (pentru selecţia fără revenire).

Eroarea medie de reprezentativitate a mediei eşantionului se va calcula pe baza erorilor

de reprezentativitate ale straturilor conform relaţiei:

k

ix

ix iN

N1

22

2

~ (4.3.9)

După cum se poate observa eroarea medie de reprezentativitate nu mai depinde de

dispersia totală ci de media dispersiilor straturilor. Eroarea limită maximă admisă va fi: xx z ~~

Sondaj stratificat proporţional

Specificul acestui sondaj este că structura populaţiei pe straturi în populaţia totală se respectă şi regăseşte şi în structura eşantionului. El îşi găseşte utilitatea în cazul în care există diferenţe mari între volumele subpopulaţiilor straturilor.

Prin definiţie se numeşte un sondaj stratificat proporţional cel pentru care este îndeplinită condiţia:

Nn

N

n

Nn

Nn

Nn

Nn

k

ii

k

ii

k

k

i

i

1

1

2

2

1

1 ........ (4.3.10)

Din aceasta deducem relaţia de calcul pentru eşantionul fiecărui strat: ii NNnn

60

Mărimile medii calculate pe baza datelor de sondaj utilizate pentru a estima mediile din populaţia totală se vor calcula în funcţie de tipul variabilei după una din relaţiile:

k

ii

k

iii

n

nxx

1

1~ (4.3.11)

k

ii

k

iii

n

wnw

1

1~ (4.3.12)

Eroarea medie de reprezentativitate în cazul sondajului proporţional se calculează asemănător sondajului stratificat simplu doar că de data aceasta putem utiliza drept ponderi volumele eşantioanelor astfel:

Selecţie repetată:

k

i i

iik

i i

iix n

SNN

nnn

1

2

2

2

1

2

2

2~

1

(4.3.13)

k

i i

i

i

iik

i i

i

i

iix N

nnS

nn

Nn

nnn

1

2

2

2

1

2

2

2~ 1

11

(4.3.14)

Sau pe baza erorilor de reprezentativitate ale straturilor conform relaţiei:

k

ix

ix in

n

1

22

2~ (4.3.15)

Avantajele sondajului stratificat proporţional faţă de cel neproporţional sunt:

1. se evită riscul de a subevalua în eşantion straturile mai mari; 2. se măreşte gradul de precizie al estimaţiei faţă de stratificarea neproporţională.

Sondajul stratificat optim

În cazul în care există diferenţe mari în ceea ce priveşte gradul de variaţie al straturilor se recomandă utilizarea sondajului stratificat optim.

În acest caz stabilirea subeşantioanelor se face ţinând cont atât de proporţia pe care o ocupă stratul în populaţia totală cât şi de abaterea medie pătratică, indicator ce exprimă variaţia caracteristicii în interiorul stratului.

Pentru determinarea numărului de unităţi ce se vor extrage din fiecare strat se utilizează relaţia:

k

iii

k

ii

kk

k

N

n

Nn

Nn

Nn

1

1

22

2

11

1 ....

(4.3.16) sau n

N

Nn k

iii

iii

1

. (4.3.17)

Relaţiile de calcul ale erorilor de reprezentativitate sunt aceleaşi ca şi în cazul sondajului neproporţional.

61

Selecţia din interiorul straturilor s-a realizat cu revenire

Sondaj stratificat simplu (neproporţional)

k

i i

iik

i i

iix n

SNN

nNN

1

2

2

2

1

2

2

2

~1

k

ix

ix iN

N1

22

2

~

k

i i

iiik

i i

iiiw n

wwNN

npp

NN

12

2

12

2

1)1()1(

2

12

2

iw

k

i

iw N

N

Sondaj stratificat proporţional şi Sondaj stratificat optim

k

i i

iik

i i

iix n

Snn

nnnn

1

2

2

22

1

2

2

2

~

k

ix

ix in

n1

22

2

~

nnww

nn w

k

i i

iiiw

2

12

2

1)1(

2

12

2

iw

k

i

iw n

n

Selecţia din interiorul straturilor s-a realizat fără revenire Sondaj stratificat simplu (neproporţional)

k

i i

ii

i

iik

i i

ii

i

iix N

nNnS

NN

NnN

nNN

1

2

2

2

1

2

2

2

~111

k

ix

ix iN

N1

22

2

~

k

1i i

ii

i

ii2

2i

k

1i i

ii

i

ii2

2i

w 1NnN

1n)w1(w

NN

1NnN

n)p1(p

NN

2

12

2

iw

k

i

iw N

N

Sondaj stratificat proporţional şi Sondaj stratificat optim

k

1i i

ii

i

2i

2

2i

i

ii2k

1i i

ii

i

2i

2

2i

x~ 1NnN

nS

nn

1NnN

n1NnN

nnn

k

i i

ii

i

ii

NnN

nnn

1

2

2

2

1

4.4. Sondajul de serii

Sondajul de serii se poate considera cel mai utilizat sondaj probabilistic. El este preferat sondajului simplu aleator chiar dacă acesta este mai facil şi mai cunoscut.

Sondajului de serii este foarte important deoarece stă, alături de sondajul stratificat, la baza sondajelor complexe asupra forţei de muncă, reprezentative la nivel naţional.

Eşantionarea simplă aleatoare presupune existenţa unei baze complete de sondaj din care urmează să se extragă individual fiecare unitate ce va forma eşantionul. Acest lucru este rareori disponibil şi ar costa prea mult realizarea unor astfel de baze. În schimb, se pot construi baze de sondaj compuse din grupuri de elemente numite serii. Aceste serii constituie unităţi complexe (întreprinderi, secţii de votare, blocuri de locuinţe, grupe de studenţi, gospodăria) care de cele mai multe ori reprezintă forme de organizare a populaţiei.

62

Pentru a asigura reprezentativitatea eşantionului este necesar ca acesta să reprezinte o structură asemănătoare cu cea a populaţiei fiind constituit tot din unităţi complexe. Odată selectată o serie, unităţile simple ce o compun vor fi cercetate în totalitate.

Figura nr. 4.4.1. Schema de realizare a sondajului de serii

Fiecare serie este constituită din unităţi simple ce pot fi definite prin caracteristici

proprii ce prezintă interes pentru ancheta realizată. Ea trebuie definită fără ambiguitate, fiind utilizată ca unitate de eşantionare. Mărimea seriilor poate fi cunoscută sau necunoscută iar seriile pot fi de mărimi egale sau inegale.

Majoritatea populaţiilor supuse cercetării nu sunt omogene, variaţia totală a populaţiei fiind formată din variaţia din interiorul seriilor pe de o parte şi de variaţia dintre seriile ce o compun pe de altă parte.

POPULAŢIE R SERII

EŞANTION r SERII

63

În cazul sondajului de serii eroarea medie de reprezentativitate depinde de variaţia dintre seriile ce formează populaţia. Într-o astfel de populaţie compusă din unităţi complexe caracterul omogen sau neomogen al acesteia se transmite şi seriilor din care este formată.

Eroarea medie de sondaj depinde doar de variaţia dintre seriile populaţiei deoarece, cealaltă componentă a variaţiei totale (media dispersiilor din interiorul seriilor), se consideră a fi reflectată în eşantion.

64

Exemplu: selecţie de serii sistematică cu probabilităţi egale Nr. serie Selecţie

r = 40 R = 170 K = 170/40=4,25 D =2 Seriile selecţionate: 002 2+4,25=6,25 → 006 6,25+4,25=10,5 → 011 ………………………..

001 002 X 003 004 005 006 X 007 008 009 010 011 X 170

65

Exemplu:

Nr. serie

Mărime (nr. de

gospodării)

Valoare cumulată

Nr. de eşantionare

Selecţie

r = 40 R = 170 K = 17219/40=430,475 D =73 Nr. de eşantionare: 73 73+430,475=503,475 → 503 503,475+430,475=933,96 → 934 933,96+430,475=1364,425 1364 …………………………

001 120 120 73 X 002 105 225 003 132 357 004 96 453 005 110 563 503 X 006 102 665 007 165 830 008 98 928 009 115 1043 934 X 010 60 1103 011 104 1207 012 168 1375 1364 X 170 196 17219

Total 17219 - De câte ori este posibil, în cazul în care diferenţa de talie justifică acest lucru, este

recomandat ca selecţia seriilor să se realizeze prin procedeul aleator PPM. Avantajul acestui procedeu este creşterea reprezentativităţii eşantionului şi în consecinţă a preciziei estimaţiilor.

Notăm cu: R = numărul de unităţi complexe (serii) din populaţie; r = numărul de unităţi complexe (serii) din eşantion; N = numărul de unităţi simple (indivizi) din populaţie; n = numărul de unităţi simple (indivizi) din eşantion;

N

iiYT

1 este totalul din populaţie;

N

iiY

RT

1

1 este totalul mediu pe serie;

R

jj

jN

ii Y

NN

YN 11

1Y este nivelul mediu pe fiecare unitate simplă (individ)

unde jY este nivelul mediu pe fiecare serie.

4.4.1. Estimatori şi erori în cazul sondajului de serii de talie egală selectate după procedeul aleator cu probabilităţi egale fără revenire

Avem N1= N2=….. NR= N0. Putem calcula volumul de unităţi simple al populaţiei şi al eşantionului astfel: N=R N0 iar n= r N0. Avem următoarele relaţii de calcul:

66

Parametrul de interes, nivelul mediu pe fiecare unitate simplă

R

jj

R

jj

jN

ii Y

RY

NN

YN 111

11Y (4.4.1)

Estimatorul parametrului de interes, media eşantionului:

r

jjY

r 1

1Y (4.4.2)

Dispersia estimatorului Y :

R

YY

RrrR

R

jj

1

2

YV (4.4.3)

Estimaţia dispersiei estimatorului:

1

ˆ

YV 1

2

r

YY

RrrR

r

jj

(4.4.4)

Eroarea de reprezentativitate se va calcula pornind de la variaţia estimatorului, pe baza relaţiei:

rR

rRrR

rRR

YY

RrrR

R

jj 22

1

2

Yˆ

(4.4.5)

Unde 2 reprezintă variaţia dintre serii în populaţie iar 2 estimatorul acesteia calculate conform relaţiilor:

R

YYR

jj

1

2

2 (4.3.6) şi

1

ˆ 1

2

2

r

YYr

jj

(4.4.6)

Pornind de la regula de adunare a dispersiilor: 222 , se calculează

coeficientul de determinaţie (numit şi raportul de corelaţie inter-serii) notat cu 2 .

2222

22

totalăvariatiagrupe dintre variatia

(4.4.7)

Înlocuind 2 din releţia 4.3.8 în releţia 4.3.5 obţinem:

22

ˆ

rR

rRY

(4.4.8)

67

Dacă s-ar fi organizat un sondaj simplu aleator fără revenire eroarea medie de reprezentativitate s-ar fi calculat după relaţia:

rRrR

NrNRNrNRN

nNnN 2

00

2

0

002

SAFR 1

(4.4.9)

Comparând relaţiile 4.3.9 cu 4.3.10 observăm că eroarea de reprezentativitate rezultată în urma unei sondaj de serii va fi mai mică decât cea obţinută în urma unui sondaj simplu aleator fără revenire doar în situaţia în care se respectă relaţia:

0

2 1 N

. (4.4.10)

În consecinţă putem spune că dacă dorim ca eficienţa sondajului de serii să fie cât mai mare este necesar să împărţim populaţia în serii de dimensiuni mici iar coeficientul de determinaţie să fie cât mai mic posibil.

Extinderea rezultatelor se face pe baza intervalului de încredere luând în considerare probabilitatea cu care vrem să garantăm rezultatele.

YYYYY ˆˆˆˆ

(4.4.11)

4.4.2. Estimatori şi erori în cazul sondajului de serii de talie diferită selectate după procedeul aleator cu probabilităţi egale fără revenire

În cazul în care seriile sunt de dimensiuni diferite, se recomandă utilizarea unui procedeu de selecţie cu probabilităţi inegale. Aplicarea acestuia necesită însă informaţii suplimentare în baza de sondaj. Dacă nu dispunem de astfel de informaţii vom aplica un procedeu de selecţie nerepetat (ca şi în cazul planului de sondaj prezentat în subcapitolul anterior).Cu toate acestea, deoarece seriile au dimensiuni diferite, relaţiile de calcul ale estimatorilor şi erorilor de reprezentativitate

Notăm cu: Nj= numărul de unităţi simple din seria j; Tj= totalul variabilei de interes pentru toate unităţile seriei j; N = mărimea medie a unei serii în populaţie; n = mărimea medie a unei serii în eşantion.

Avem următoarele relaţii de calcul: Parametrul de interes, nivelul mediu pe fiecare unitate simplă, calculat doar ca

medie aritmetică ponderată:

R

jj

jN

ii Y

NN

YN 11

1Y (4.4.12)

68


r

jj

j YN

N

1Y (4.4.13)

Dispersia estimatorului Y :

rNRrR T

2

21YV

(4.4.14)


rNRrR T

2

2

ˆ1YV

(4.4.15)

Unde 2T reprezintă dispersia totalurilor seriilor faţă de totalul înregistrat pentru

nivelul mediu iar 2T este estimatorul acesteia calculate pe baza datelor din eşantion. Acestea

sunt calculate conform relaţiilor:

R

NYTR

jjj

T

1

2

2

(4.4.16) şi 1

ˆ

ˆ 1

2

2

r

NYTr

jjj

T (4.4.17)

Eroarea de reprezentativitate se va calcula pornind de la variaţia estimatorului, pe baza

relaţiei:

rNRrR T

Y

2

2ˆˆ1

(4.4.18)

Deoarece numărul mediu de unităţi simple ce formează o serie N este de cele mai

multe ori necunoscut, vom utiliza estimatorul n . Pentru unităţile ce au intrat în eşantion. Acest lucru va determina o subestimare a variaţiei estimatorului. Se consideră că, în acest caz

)ˆ(ˆ YV este un bun estimator al )ˆ(YV dacă numărul de serii ce formează eşantionul este suficient de mare (r≥20).

4.3.3. Estimatori şi erori în cazul sondajului de serii de talie diferită selectate după procedeul aleator (cu revenire) cu probabilităţi proporţionale cu talia

De câte ori dispunem de informaţii auxiliare privind mărimea unităţilor complexe se recomandă să le utilizăm pentru a calcula probabilităţile de incluziune în eşantion, aplicând un procedeu de selecţie cu probabilităţi inegale.

Probabilitatea ca o serie să intre în eşantion la o extragere este: NN

A jj . Cu cât o

unitate complexă (serie) va avea o dimensiune mai mare, probabilitatea de a intra în eşantion va creşte.

69

Deoarece, pentru formarea eşantionului sunt necesare r extrageri, probabilitatea totală

unei serii de a intra în eşantion va fi: N

NrA j

Tj .

Avem următoarele relaţii de calcul: Parametrul de interes, nivelul mediu pe fiecare unitate simplă se calculează după

aceeaşi relaţie ca si în cazul sondajului precedent:

R

jj

jN

ii Y

NN

YN 11

1Y (4.4.19)


r

jj

j YN

N

1Y (4.4.20)


r

ij

j YYN

Nr

rr 1

2ˆ)1()1(

1YV (4.4.21)

Eroarea de reprezentativitate se va calcula pornind de la variaţia estimatorului, pe baza

relaţiei:

r

ij

j

YYY

NN

rrr 1

2

ˆˆ

)1()1(

1 (4.4.22)

4.5. Aplicaţii Aplicaţie 1 În rândul celor 4000 de studenţi ai unei facultăţi s-a realizat un sondaj simplu aleator pe un eşantion de 175 persoane. La întrebarea ”Câte ore studiaţi în medie pe săptămână (exceptând sesiunea)?” răspunsurile centralizate se găsesc în tabelul 4.5.1.

Tabel 4.5.1 Intervale de variaţie (ore)*

0-2 2-6 6-12 12 h şi peste Total

Nr. studenţi 50 55 40 30 175 * limita inferioară este inclusă în interval

70

Se cere: 1. Să se estimeze pentru o probabilitate de 0.95 numărul mediu de ore studiate de un student

din facultate. 2. Să se estimeze cu aceeaşi probabilitate ponderea studenţilor care studiază mai puţin de 6

ore pe săptămână. Rezolvare: 1. Calculăm cât reprezintă 5% din volumul populaţiei. 0.05*N=0.05*4000=200 Deoarece n (175) <200 considerăm că sondajul aleator a fost realizat într-o populaţie infinită. Dispersia variabilei „numărul de ore studiate” nu este cunoscută şi va fi înlocuită cu dispersia caracteristicii în eşantion.

Tabel 4.5.2

Intervale de variaţie (ore)* ni xi xini

0-2 50 1 50 1337.18 2-6 55 4 220 259.33

6-12 40 9 360 320.03 12 şi peste 30 15 450 2338.31

Total 175 1080 4254.86 *limita inferioară inclusă în interval Calculăm estimatorul numărului mediu de ore studiate pe săptămână. Calculele necesare sunt sistematizate în tabelul 4.5.2.

1751080

n

nxx

i

ii

=6.17 ore

Calculăm dispersia estimatorului.

1754254.86

n

n)x(xS

i

i2

i2

=24.31

Calculul erorii de reprezentativitate (eroare standard).

175

24.31n

2Sxσ 0.37 ore

Calculul erorii limită

xx z =1.96*0.37 =0.73 ore

Intervalul de încredere:

xx ΔxXΔx 73.017.6X73.017.6 9.6X44.5 ore

i2

i n)x(x

71

Numărul mediu de ore studiate de un student într-o săptămână este de cel puţin 5.44 şi cel mult 6.9. Garantăm acest rezultat cu o probabilitate de 0.95. 2. Estimatorul ponderii studenţilor care studiază mai puţin de 6 ore pe săptămână se

calculează pe baza relaţiei:

6.0175

5550nmw

Calculul erorii de reprezentativitate (eroare standard).

175

)6.01(6.0n

)w1(ww 0.037

Calculul erorii limită

ww z =1.96*0.037=0.072


ww ΔwpΔw 072.06.00p072.06.0 672.0p528.0 Garantăm cu 95% că cel puţin 52.8% şi cel mult 67.2% din studenţi studiază mai puţin de 6 ore pe săptămână. Aplicatie 2 În rândul celor 110 studenţi ce locuiesc într-un cămin s-a realizat un studiu privind nivelul de mulţumire faţă de condiţiile existente, prelevându-se un eşantion de 25 persoane. Răspunsurile la întrebarea „În ce măsură sunteţi mulţumiţi de următoarele condiţii din căminul în care locuiţi?” sunt centralizate în tabelul 4.5.3.

Tabel 4.5.3 Condiţiile privind Foarte mulţumit mulţumit aşa şi aşa nemulţumit Total

Curăţenia 8 10 5 2 25 Căldura 6 7 2 10 25

apa caldă 10 9 4 2 25 apa rece 11 10 3 1 25

Se cere: 1. Să se stimeze pentru o probabilitate de 95% ponderea studenţilor care se consideră

mulţumiţi şi foarte mulţumiţi de condiţiile din cămin. Rezolvare Eşantionul prelevat este de volum redus. În acest caz distribuţia mediilor eşantioanelor posibile depinde de forma de distribuţie a populaţiei. Cum de cele mai multe ori forma de distribuţie a populaţiei nu este cunoscută, nici legea de distribuţie a mediilor eşantioanelor nu poate fi determinată. Teoria sondajului demonstrează că în cazul selecţiei de volum mic probabilitatea

72

de apariţie a mediilor de diferite mărimi se distribuie mai uniform. Cu alte cuvinte probabilităţile de apariţie a mediilor nu descresc în aceeaşi măsură ca în cazul eşantioanelor de volum normal în momentul în care acestea se apropie de valorile extreme, mediile eşantioanelor posibile distribuindu-se după curba lui Student şi nu după curba normală. Calculele necesare estimării procentelor celor ce se consideră în general mulţumiţi de condiţiile existente sunt sistematizate în tabelul 4.5.4.

Tabel 4.5.4

Condiţiile privind Foarte mulţumit şi mulţumit Wi i i i i

curăţenia 18 0.72 0.0809 0.1670 0.5530 0.8870 căldura 13 0.52 0.0901 0.1859 0.3341 0.7059

apa caldă 19 0.76 0.0770 0.1589 0.6011 0.9189 apa rece 21 0.84 0.0661 0.1364 0.7036 0.9764

Estimatorul ponderii studenţilor mulţumiţi şi foarte mulţumiţi de condiţia i se calculează pe baza relaţiei:

nmw i

i unde mi reprezintă numărul celor mulţumiţi şi foarte mulţumiţi de condiţia i.

Calculul erorii de reprezentativitate (eroare standard). În cazul în care nu se cunoaşte dispersia caracteristicii în populaţie aceasta este înlocuită în relaţia de calcul a erorii standard cu dispersia caracteristicii în eşantion care se va împărţi la numărul de grade de libertate n-1.

1NnN

1n)w1(w ii

wi

Calculul erorii limită în cazul sondajului de volum redu.

wiw ti

unde t este valoarea corespunzătoare nivelului de siguranţă ales şi numărului de

grade de libertate df=n-1. În cazul nostru df=25-1=24. Primul pas în determinarea valorii lui t este identificarea este identificarea coloanei din tabela distribuţiei Student. Deoarece probabilitatea de garantare a rezultatelor este de 0.95 aria de interes este (1-0.95)/2=0,025. Pentru a construi intervalul de încredere căutăm în tabelul repartiţiei Student valoarea corespunzătoare pentru df=24 şi nivelul de semnificaţie =0,025 şi obţinem valoarea t=2,064. Intervalul de încredere pentru estimarea procentelor celor ce se consideră în general mulţumiţi pentru fiecare condiţie se determină calculând limita inferioară a intervalului 1i şi limita superioară i după relaţiile: wiii2iwii1 Δw şi Δw

În ceea ce priveşte curăţenia 72% din cei intervievaţi se consideră în general mulţumiţi. Garantăm cu o probabilitate de 95% că 72% ±16.7% din studenţii ce locuiesc în cămin se consideră mulţumiţi de curăţenie. 52% ± 18.59% din totalul studenţilor sunt mulţumiţi de căldură, 76% ± 15.89% sunt mulţumiţi de apa caldă şi 84% ± 13.64% de apa rece.

73

Aplicaţie 3 În rândul celor 4000 de studenţi ai unei facultăţi urmează să se realizeze un sondaj cu privire la modul de petrecere a timpului liber, utilizîndu-se un procedeu de selecţie simplu aleator fără revenire. Din surse administrative se cunosc informaţiile din tabelul 4.5.5. Din cercetări anterioare pe teme similare efectuate în mediul studenţesc s-a constata că variabilele din tabelul 1.10 sunt puternic corelate cu variabilele de interes ale studiului.

Tabel 4.5.5 ponderea

studenţilor care (%):

locuiesc în cămin au un loc de muncă sunt bursieri

35 20 25

Se cere: 1. Alegeţi variabila pe baza căreia se va calcula volumul eşantionului. 2. Ştiind că unităţile ce vor forma eşantionul se vor selecta după procedeul simplu aleator fără

revenire din lista studenţilor furnizată de către secretariatul facultăţii, să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită de 3%.

3. Tot din cercetări anterioare se cunoaşte că proporţia de nonrăspunsuri în acest tip de populaţii este de 5%. Pe de altă parte se apreciază că 2% din studenţii ce figurează în baza de date urmează să fie exmatriculaţi. Aceştia se consideră unităţi non-eligibile. Să se calculeze în aceste condiţii eşantionul de pornire.

Rezolvare: 1. Pentru a asigura reprezentativitatea eşantionului pentru toate variabilele de interes, volumul

eşantionului se va calcula pornind de la acea variabilă auxiliară pentru care coeficientul de variaţie are valoarea maximă. Calculele necesare sunt sistematizate în tabelul 4.5.6.

Tabel 4.5.6

ponderea studenţilor care: % Media dispersia coeficient de variaţie (%)

locuiesc în cămin 35 0.35 0.2275 73.38

au un loc de muncă 20 0.2 0.16 50

sunt bursieri 25 0.25 0.1875 57.73 Media unei caracteristici calitative de tip alternativ se calculează după relaţia:

NMp unde M reprezintă numărul celor care îndeplinesc condiţia în populaţie iar N este

volumul populaţiei.

74

Dispersia caracteristicii alternative se calculează astfel:

)p1(pp2

Valoarea coeficientului de variaţie este dată de relaţia:

100p))-(1 ,pmax(

V p

Din datele din tabelul 4.5.6 se observă că după variabila „locuiesc în cămin” populaţia studenţilor este cel mai puţin omogenă. Se recomandă calcularea volumului eşantionului pornind de la această variabilă. 2. Deoarece procedeul de selecţie utilizat este simplu aleator fără revenire la calculul

volumului eşantionului se foloseşte relaţia:

781

4000)35.01(35.096.103.0

)35.01(35.096.1)1(

)1(2

2

2

22

2

Nppz

ppzn

w

persoane

3. După determinarea volumului eşantionului teoretic necesar trebuie să determinăm care este

volumul eşantionului de pornire astfel încât în final să ajungem la numărul teoretic de unităţi selectate.

Se pune problema să ţinem cont de imperfecţiunea listei utilizate ca bază de sondaj. Considerăm unităţi non-valide acele unităţi care n-ar trebui să figureze pe listă dacă aceasta ar corespunde perfect populaţiei studiate. În practică, în ciuda eforturilor actualizării bazelor de date utilizate ca baze de sondaj, există în mod curent un număr de unităţi non-valide. Trebuie estimată această proporţie astfel încât să putem determina cât mai precis volumul de pornire al eşantionului. În funcţie de modul de definire a populaţiei supuse studiului este posibil ca unele unităţi să fie considerate non-eligibile. De exemplu dacă populaţia de interes este formată din totalitatea persoanelor cu vârsta cuprinsă între 15 şi 64 ani (populaţia în vârstă de muncă) iar unitatea de selecţie este gospodăria, persoanele ce nu îndeplinesc condiţia de vârstă sunt considerate non-eligibile. Existenţa non-răspunsurilor este o problemă întâlnită în orice sondaj. Din această cauză se recomandă anticiparea ratei non-răspunsurilor încă din faza de proiectare a sondajului pentru a redimensiona eşantionul. Relaţia de calcul a volumului eşantionului de pornire este:

verthp P

1P1

P1nn unde:

np= volumul eşantionului de pornire; nth= volumul eşantionului teoretic; Pr=proporţia de răspuns; Pe=proporţia de eligibilitate; Pv=proporţia de validitate

83998.01

11

95.01781n p persoane.

75

Aplicaţia 4 În rândul salariaţilor unei întreprinderi se va realiza un sondaj stratificat . Organizatorii sondajului propun criteriul de stratificare sexul, selecţia unităţilor din fiecare strat urmând să se realizeze după procedeul simplu aleator fără revenire. Pe baza datelor din evidenţa personalului s-a calculat, pornind de la variabila „vârsta în ani împliniţi” media şi dispersia pe fiecare strat. Rezultatele se găsesc în tabelul 4.5.7:

Tabel 4.5.7 sex număr salariaţi (pers.) vârsta medie (ani) Dispersia

masculin 535 48 36,4 feminin 365 39 45,8

Se cere: 1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită

maximă admisă de ±3% din valoarea vârstei medii a tuturor angajaţilor. 2. Să se calculeze volumul eşantioanelor pe fiecare strat. 3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi

necesar în aceleaşi condiţii de eroare şi probabilitate. Rezolvare Calculele necesare sunt sistematizate în tabelul 4.5.8. 1. Vârsta medie a celor 900 de salariaţi se calculează ca medie aritmetică ponderata a vârstei

medii a salariaţilor din cele două straturi după relaţia:

35.44900

39915NNXXk

1ii

k

1iii

ani

Eroarea limită propusă este:

33.1420.02X0.03Δx ani Tabel 4.5.8

sex Ni

(pers.) iX

(ani) 2i ii XN 2

i iN

iiN ni i

2i NXX

M 535 48 36.4 25680 19474 3227.784 45 33813.34 F 365 39 45.8 14235 16717 2470.163 35 767.4125 Total 39915 36191 5697.947 34580.75

76

Volumul eşationului în cazul sondajului stratificat se calculează după relaţia:

90021.4096.133.1

21.4096.1

Nσz

Δ

σzn 2

2

2

222x

22

str 79.6 80 pers.

2. Repartizarea eşantionului pe straturi se poate realiza în trei moduri şi anume: o neproporţional obţinându-se un sondaj stratificat neproporţional sau simplu; o proporţional respectându-se ponderea fiecărui strat în total populaţie obţinându-se

un sondaj stratificat proporţional; o ţinând cont atât de proporţia fiecărui strat în total cât si de gradul de variaţie al

fiecărui strat obţinându-se un sondaj stratificat optim. Deoarece, atât volumul cât şi dispersiile straturilor diferă considerabil vom alege stratificarea optimă. Pentru determinarea numărului de unităţi ce se vor extrage din fiecare strat se utilizează relaţia:

k

1iii

k

1ii

kk

k

ii

i

22

2

11

1

N

n

Nn

....N

n...

Nn

Nn

Pe baza acesteia deducem relaţia de calcul pentru subeşantionul ce urmează a fi extras din

fiecare strat nN

Nn k

1iii

iii

.

80947.5697784,3227n1 45 persoane

80947.5697163,2470n 2 35 persoane

3. Dacă sondajul organizat s-ar desfăşura după un plan simplu aleator nerepetat , variaţia de

care trebuie ţinut cont în momentul calculării volumului eşantionului este variaţia totală a caracteristicii. Deoarece nu se cunosc valorile individuale ale variabilei „vârsta” pentru toate cele N unităţi din populaţie nu putem calcula variaţia totală după relaţia:

N)X(XσN

1j

2j

2

ştim că 222 Vom calcula variaţia totală ca sumă variaţiilor inter şi intra straturi.

77

90075.34580

N

N)XX(δ k

1ii

k

1ii

2i

2 38.42

63.7842.3821.402

144

90078.631.961.33

78.631.96

NσzΔ

σzn 2

2

2

222x

22

SAFR

persoane

Prin aplicarea unui plan de sondaj stratificat s-a redus volumul eşantionului fată de un sondaj simplu aleator fără revenire de la 144 persoane la 80 persoane. Aplicaţia 5 În rîndul studenţilor facultăţii REI urmează să se realizeze un sondaj având drept obiectiv principal analiza calităţii procesului de învăţământ. Deoarece se urmăreşte evidenbţierea caracteristicilor fiecărui an de studi se e va utiliza un plan de sondaj stratificat. Informaţiile necesare aplicării planului de sondaj au fost preluate de la secretariatul facultăţii şi sunt prezentate în tabelul 4.5.9.

Tabel 4.5.9 Anul de studii Număr studenţi (pers) Ponderea studenţilor fără restanţe (%)

An I 600 20 An II 575 63 An III 500 45 An IV 450 86 Total 2125

Se cere: 1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită de

±3%. 2. Să se calculeze volumul eşantioanelor pe fiecare strat pornind de la volumul eşantionului

calculat la punctul 2. 3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi

necesar în aceleaşi condiţii de eroare şi probabilitate cu cele de la punctul 2.

78

Rezolvare

Tabel 4.5.10 Anul

de studii Ni pi

2pi

2pi i

N ipiN ni piNi

An I 600 0.2 0.16 96 240 137 120 An II 575 0.63 0.2331 134.0325 277.6125 159 362.25 An III 500 0.45 0.2475 123.75 248.7469 142 225 An IV 450 0.86 0.1204 54.18 156.1442 90 387 Total 2125 407.9625 922.5035 1094.25

Calculele necesare sunt prezentate în tabelul 4.5.10 1. Relaţia de calcul a volumului eşantionului în cazul aplicării unei plan de sondaj stratificat

şi utilizând o variabilă calitativă este:

Nz

zn

pw

pstr 22

2

22

.

19.02125

9625.407

N

Nσσ k

1ii

k

1ii

2i p

2p

unde dispersiile straturilor sunt )p1(pσ ii2

i p

212519.096.103.0

19.096.1n 22

2587 persoane

2. Calculul volummului eşantionului pe fiecare strat se va realiză pentru un sondaj optim

deoarece există diferenţe considerabile între straturi în ceea ce priveste volumul şi variaţiile.

Pornim de la relaţia:

k

1ipii

pkk

k

pii

i

2p2

2

1p1

1

N

nN

n....

Nn

...N

nN

n

nN

Nn k

1ipii

piii

.

5285.922

240n1 137 persoane 5285.9226.277n 2 159 persoane

5285.9227.248n3 159 persoane 528

5.922156n 4 159 persoane

79

3. Variaţia totală a caracteristicii calitative este dată de relaţia: )p1(p2p unde p

reprezintă media caracteristicii calitative ce se calculează astfel:

212525.1094

N

Npp k

1i i

k

1i ii

=0.5149 2498.0)5149.01(5149.02p

639

21252498.01.9603240.

2498.01.96

Nσz

Δ

σzn 2

2

2

2p

22w

22

SAFR

persoane

Dacă s-ar utiliza un plan de sondaj simplu aleator fără revenire , pentru a garanta rezultatele cu aceeaşi probabilitate de 95% cu o eriare limită de ±3.24% ar fi necesară o creştere a volumului eşantionului cu 111 persoane. Aplicaţia 6 În urma unui sondaj stratificat proporţional după mediul de rezidenţă realizat în judeţul Bacău de către o societate ce produce băuturi răcoritoare, s-au obţinut datele centralizate în tabelul 4.5.11.

Tabel 4.5.11

Mediul Efectivul populaţiei (mii pers.)

Eşantion (pers.)

Informaţii obţinute din eşantion

Venitul totalmediu/gosp

(mii lei)

Dispersia venitului total mediu/gosp.

Ponderea celor care consumă

săptămânal băuturi răcoritoare (%)

Urban 340 511 3.8 4.5 72 Rural 325 489 2.1 1.9 18 Total 665 1000

Se cere: 1. Să se estimeze cu o probabilitate de 0.9545 venitul total mediu/gosp atât pe fiecare strat cât

şi la nivelul întregului judeţ. 2. Să se estimeze cu o probabilitate de 0.9545 ponderea celor care consumă săptămânal

băuturi răcoritoate şi numărul lor, pe fiecare strat şi pe total judeţ. Rezolvare 1. Calculele necesare rezolvării acestei cerinţe sunt prezentate în tabelul 4.5.12.

80

Tabel 4.5.12

Mediul Ni

(mii pers.) ni

(pers.) ix mii lei 2iS . ix ni ix ix Linf Lsup

Urban 340 511 3.8 4.5 1941.8 0.094 0.188 3.612 3.988 Rural 325 489 2.1 1.9 1026.9 0.062 0.125 1.975 2.225 Total 665 1000 2968.7

Estimarea venitului mediu/persoană în mediul urban Calculăm cât reprezintă 5% din volumul populaţiei stratului 1. 0,05*N1=0,05*340000=17000 Deoarece n1<0,05*N1 considerăm populaţia infinită iar relaţiile de calcul folosite pentru calculul erorii de reprezentativitate vor fi cele aferente sondajului simplu aleator cu revenire.

094.0511

5,4nS

1

21

1x mii. Lei

188.0094.02nSz

1

21

1x mii Lei


1x111x1 ΔxXΔx 188.08.3X188.08.3 1 988.3X612.3 1 Garantăm cu o probabilitate de 95.45% că venitul total mediu/gosp în mediul urban este de cel puţin 3.612 mii lei şi cel mult 3.988 mii lei. Estimarea venitului total mediu/gosp în mediul rural Calculăm cât reprezintă 5% din volumul populaţiei stratului 2. 0.05*N2=0.05*325000=16250 Deoarece n2<0.05*N2 considerăm populaţia infinită iar relaţiile de calcul folosite pentru calculul erorii de reprezentativitate vor fi cele aferente sondajului simplu aleator cu revenire.

062.0489

9.1nS

2

22

2x mii lei

125.0062.02nSz

2

22

2x mii lei


2x222x2 ΔxXΔx 125.01.2X125.01.2 2 225.2X975.1 2 Garantăm cu o probabilitate 0.9545 că venitul mediu/persoană în mediul rural este de cel puţin 1.975mii lei şi cel mult 2.225 mii lei.

81

Estimarea venitului mediu/persoană pe total judeţ Deoarece sondajul realizat este stratificat proporţional estimatorul venitului mediu/peroană la nivelul judeţului se calculează astfel:

9687.21000

7,2968nnxx~k

1ii

k

1iii

mii lei

Calcului erorii de reprezentativitate:

056821.0nnk

1i

2x2

2i

x~ i

mii lei

113642.0056821.02z x~x~ mii lei Intervalul de încredere:

x~x~ Δx~XΔx~ 1136.09687.2X1136.09687.2 0823.3X8551.2 Garantăm cu o probabilitate de 95.45% că venitul mediu/persoană în judeţul Bacău este de cel puţin 2.8551 mii lei şi cel mult 3.0823mii lei. 2. Calculele necesare rezolvării acestei cerinţe sunt prezentate în tabelul 4.5.13

Tabelul 4.5.13

Mediul Ni

(mii pers.) ni (pers.)

wi 2iS . wini wi wi Linf Lsup

Urban 340 511 0.72 0.2016 367.92 0.020 0.040 0.680 0.760 Rural 325 489 0.18 0.1476 88.02 0.017 0.035 0.145 0.215 Total 665 1000 455.94 Estimarea procentului celor care consumă săptămânal băuturi răcoritoare în mediul urban Estimatorul procentului celor care . consumă săptămânal băuturi răcoritoare în mediul urban calculat pe baza datelor din eşantion este de 72%. Pentru a estima procentul acestora în mediul urban este necesar să calculăm eroarea reprezentativitate şi eroarea limită. Deoarece populaţia este considerată infinită utilizăm relaţiile de calcul aferente calculul sondajului simplu aleator cu revenire.

020.05112016.0

nS

1

21

1w

040.0020.02nSz

1

21

1w


w111w11 ΔwpΔw 040.072.0p040.072.0 1 76.0p680.0 1

82

Garantăm cu o probabilitate de 95.45% că în mediul urban cel puţin 68% şi cel mult 76% consumă săptămânal băuturi răcoritoare. Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare:

w11111w111 ΔwNpNΔwN 040.072.0NM040.072.0N 111

258307M231293 1 Garantăm cu o probabilitate de 95.45% că în mediul urban cel puţin 231293 persoane şi cel mult 258307 persoane consumă săptămânal băuturi răcoritoare. Estimarea procentului celor care consumă săptămânal băuturi răcoritoare în mediul rural În urma prelucrării datelor din eşantionul prelevat din mediul rural s-a obţinul un procent de 18% al celor care consumă săptămânal băuturi răcoritoare. Calculăm eroarea de reprezentativitate

017.04891476.0

nS

2

22

2w

035.0017.02nSz

2

22

2w


w222w22 ΔwpΔw 035.018.0p035.018.0 2 215.0p145.0 2

Garantăm cu o probabilitate de 95.45% că în mediul rural cel puţin 14.5% şi cel mult 21.5% consumă săptămânal băuturi răcoritoare. Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare:

w22222w222 ΔwNpNΔwN 69793M47207 2 Garantăm cu o probabilitate de 95.45% că în mediul rural cel puţin 47207 persoane şi cel mult 69793 persoane consumă săptămânal băuturi răcoritoare. Estimarea procentului celor care consumă săptămânal băuturi răcoritoare pe total judeţ Deoarece sondajul realizat este stratificat proporţional estimatorul unwi variabile calitative la nivelul judeţului se calculează astfel:

1000

94.455~11

k

ii

k

iii nwnw 0.45594

Calcului erorii de reprezentativitate:

013236.01

22

2~

k

iiw

iw

nn

026472,0012236,02z w~w~ Intervalul de încredere:

w~w~ Δw~pΔw~ 026472.045594.0p026472.045594.0 482412.0p429468.0

83

Garantăm cu o probabilitate de 95.45% că cel puţin 42.9468% şi cel mult 48.2412% din judeţul Bacău consumă săptămânal băuturi răcoritoare. Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare: w~w~ Δw~NpNΔw~N

320804M285596 Garantăm cu o probabilitate de 95.45% că în judeţul Bacău cel puţin 285596 persoane şi cel mult 320804 persoane consumă săptămânal băuturi răcoritoare. Aplicaţia 7

Studenţii unei facultăţi sunt împărţiţi în 100 de grupe. Fiecare grupă este formată dintr-un număr egal de studenţi (16). S-a realizat un sondaj de serii, procedeul de selecţie a grupelor fiind simplu aleator fără revenire, cu probabilităţi egale. Rezultatele sunt prezentate în tabelul 4.5.14

4.5.14

seria Ponderea studenţilor care doresc să

participe la cursul facultativ (%) seria

Ponderea studenţilor care doresc să participe la cursul facultativ (%)

1 60 9 55 2 54 10 58 3 56 11 59 4 62 12 63 5 63 13 62 6 50 14 64 7 49 15 62 8 58 16 61

Se cere: 1. Să se estimeze ponderea studenţilor care doresc să participe la cursul facultativ cu o

probabilitate de 95%. 2. Ştiind că raportul de corelaţie inter-serii este de 12% ce volum de eşantion ar fi fost necesar

dacă s-ar fi realizat un sondaj simplu aleator fără revenire?

Rezolvare Tabelul 4.5.15

seria jw 2j ww seria jw 2j ww

1 0.6000 0.0002 9 0.5500 0.0012 2 0.5400 0.0020 10 0.5800 0.0000 3 0.5600 0.0006 11 0.5900 0.0000 4 0.6200 0.0012 12 0.6300 0.0020 5 0.6300 0.0020 13 0.6200 0.0012 6 0.5000 0.0072 14 0.6400 0.0030 7 0.4900 0.0090 15 0.6200 0.0012 8 0.5800 0.0000 16 0.6100 0.0006 Total 9.3600 0.0318

84

1. Calculele necesare sunt sistematizate în tabelul 4.5.15 Estimatorul în cazul unei variabile cantitative se calculează astfel:

585.01636.9w

r1w

r

1jj

Eroroarea de reprezenzentativitate este:

01055.0160021.0

10016100

r

ˆ

RrR

rRrR

2p

2p

w

unde

0021.0

1160318.0

1r

wwˆ

r

1i

2j

2p

Eroarea limită corespunzătoare probabilităţii de 0,95 este: 01055,096,1z ww =0,0207

Intervalul de încredere: wPw ww 0207,0585,0P0207,0585,0 6057,0P5643,0

Garantăm cu o probabilitate de 95% că cel puţin 56,43% şi cel mult 60,57% din studenţi doresc să participe la cursul facultativ. 2. În cazul sondajului de serii numărul de elemente simple ce au format eşantionul a fost de

256. Relaţia de calcul pentru sondajul simplu aleator fără revenire este:

9221600)585,01(585,096,10207,0

)585,01(585,096,1NSz

Szn 22

2

22w

22

studenţi

Deoarece variaţia dintre serii este foarte mică (raportul de corelaţie inter-serii fiind doar 0,87) sondajul de serii se dovedeşte foarte eficient.

Aplicaţia 8

O localitate este formată din 415 gospodării(serii). Numărul de elemente dintr-o serie (membrii) este diferit şi nu se cunoaşte nivelul mediu al acestuia pentru toate cele 415 gospodării. Pentru a estima venitul mediu pe persoană se extrage în mod aleator un eşantion format din 25 de serii. Datele centralizate sunt prezentate în tabelul 4.5.16

Tabel 4.5.16

seria Numărul.de rezidenţi

venit total pe serie (mil. lei) seria Numărul de

rezidenţi venit total pe serie

(mil. lei) 1 8 32 14 10 30 2 12 42 15 9 32 3 4 19 16 3 12 4 5 22 17 6 25 5 6 27 18 5 18 6 6 26 19 5 21 7 7 27 20 4 17 8 5 21 21 6 22 9 8 30 22 8 30 10 3 15 23 7 25 11 2 10 24 3 14 12 6 26 25 8 29 13 5 20 Total 151 592

85

Se cere să se estimeze venitul mediu pe gospodărie şi venitul mediu pe persoană cu o probabilitate de 95%. Rezolvare Este vorba de un sondaj de serii de dimensiune diferită selectate după un procedeu de selecţie cu probabilităţi egale. Calculele sunt sistematizate în tabelul 4.5.17

Tabel 4.5.17

seria Nj Tj

2

jjj NYT

seria Nj Tj

2

jjj NYT

1 8 32 0.40419 14 10 30 84.7375 2 12 42 25.4657 15 9 32 10.7897 3 4 19 11.0083 16 3 12 0.05684 4 5 22 5.74729 17 6 25 2.181 5 6 27 12.0883 18 5 18 2.56848 6 6 26 6.13464 19 5 21 1.95259 7 7 27 0.19688 20 4 17 1.73681 8 5 21 1.95259 21 6 22 2.32007 9 8 30 1.86115 22 8 30 1.86115 10 3 15 10.4873 23 7 25 5.97171 11 2 10 4.66102 24 3 14 5.01048 12 6 26 6.13464 25 8 29 5.58962 13 5 20 0.15789 Total 151 592 211.07 Estimatorul mediei populaţiei este:

r

1jj

r

1jjj NYNY = lei mil. 49.3

151595

1

1

r

jj

r

jj

N

T

Deoarece nu se poate calcula mărimea medie seriilor din populaţie N se va estima cu ajutorul mărimii medii a seriilor din eşantion n .

04.625

151

1

rNn

r

jj

Estimarea dispersia totalurilor seriilor faţă de totalul mediu este:

05.724

143.1961

ˆ

ˆ 1

2

2

r

NYTr

jjjj

T

86

Eroarea medie de reprezentativitate este:

085.02505.7

04.61

41525415ˆ1

2

2

2ˆ

rnR

rR TY

Eroarea limită maximă admisă este:

lei mil. 1666.0085.096.1ˆˆ YY

z

Intervalul de încredere pentru venitul mediu pe o persoană este:

107.43.774

0.16663.940.1666-3,94 ˆˆˆˆ

Y

YYYYYY

garantăm cu o probabilitate de 95% că venitul mediu pe o persoană în această localitate este de cel puţin 3.774 mil. Lei şi cel mult 4.107 mil lei. Intervalul de încredere pentru estimarea venitului mediu pe o gospodărie:

107.2422.793 107.46.04 774.36.04 ˆˆˆˆ

TTYnYnYn

YY

Venitul mediu al unei gospodării se încadrează în intervalul :(22.793; 24.107) mil lei.

87

5.1. Obiective

5.2. Sondajul multistadial

Planurile de sondaj prezentate până acum sunt desfăşurate într-un singur stadiu în care unităţile simple sau complexe au fost selectate şi au format eşantionul. În cazul utilizării unui plan de sondaj multistadial eşantionarea se realizează în mai multe etape numite stadii.

Principalul dezavantaj al sondajului multistadial este acelaşi ca şi în cazul sondajului

de serii, aşa numitul „efect de serii”. Indivizii aflaţi în vecinătate tind să se asemene, având

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre: Cum se organizează un sondaj complex în funcţie de caracteristicile

populaţiei şi de informaţiile auxiliare disponibile Estimarea parametrilor în cazul sondajelor complexe


5.1. Obiectivele unităţii 5 5.2. Sondajul multistadial 5.3. Sondajul multifazic 5.4. Sondajul pe bază de eşantioane fixe 5.5. Aplicaţii

Unitatea de învăţare 5 PLANURI DE SONDAJ COMPLEXE

88

multe trăsături comune ce îi diferenţiază de alte grupuri. Acest lucru determină o variaţie mică în interiorul unităţilor primare şi o variaţie mare între acestea, deci o eroare de reprezentativitate mare.

Un astfel de sondaj presupune extragerea în primul stadiu a unui număr de unităţi primare care nu vor fi cercetate în totalitate ci vor constitui o bază de sondaj pentru al doilea stadiu când se vor selecta unităţile secundare ce vor constitui bază de sondaj pentru următorul stadiu. Fiecare stadiu îşi va aduce contribuţia la calculul erorii de reprezentativitate, cea mai mare contribuţie având-o eroarea din primul stadiu. Din acest motiv se recomandă ca numărul de stadii să nu fie foarte mare.

Realizarea unui sondaj în mai multe stadii presupune existenţa unei grupări a populaţiei. Această grupare, de cele mai multe ori, nu trebuie realizată în mod special deoarece unităţile populaţiilor sunt deja grupate după criterii administrative, geografice, sociale etc. De exemplu într-un sondaj realizat cu privire la starea de sănătate a populaţiei eşantionul din primul stadiu este format din zone teritoriale. În al doilea stadiu din zonele teritoriale selectate se vor extrage localităţile, iar în al treilea stadiu indivizii ce vor forma eşantionul şi vor completa chestionarele. În această situaţie nu este necesară o bază completă de sondaj decât pentru localităţile ce au fost selectate în al doilea stadiu.

Pentru exemplificare se va prezenta în continuare sondajul desfăşurat în două stadii

(bistadial). Schema de realizare a acestuia este prezentată în figura 5.2.1.

Figura nr. 5.2.1 Schema de realizare a sondajului bistadial

US STADIUL I

STADIUL II

UP

1 2 r

1 2 …. R

89

Notăm cu: R = numărul de unităţi primare din populaţie; r = numărul de unităţi primare selectate în primul stadiu; Nj = numărul total de unităţi simple (indivizi) din UPj; nj = numărul de unităţi simple (indivizi) extrase din UPj . Numărul total de unităţi simple:

R

jjNN

1 (5.2.1)

Totalul variabilei de interes pentru unitatea primară UPj;

jN

iijj yT

1 (5.2.2)

Totalul variabilei de interes pentru toate unităţile primare:

R

jij

N

iyT

j

1 1 (5.2.3)

Estimatorul totalului variabilei studiate:

jn

iij

j

jr

jy

nN

rRT

11

ˆ (5.2.4)

Estimatorul totalului mediu variabilei studiate pe o unitate primară:

jn

iij

j

jr

jy

nN

rT

11

1ˆ (5.2.5)

În cazul în care unităţile primare şi secundare se selectează după procedeul aleator fără

revenire cu probabilităţi egale, variaţia estimatorului totalului variabilei studiate este dată de relaţia:

(5.2.6)

În această relaţie avem: 1. 2

1 , 21 variaţia totalurilor unităţilor primare faţă de totalul mediu şi estimatorul acesteia

calculate conform relaţiilor:

R

jj TT

R 1

221 )(1 (5.2.7) şi

r

jj TT

r 1

221 )ˆ(

11 (5.2.8)

2. 2,2 i variaţia din interiorul unităţii primare UPj cu Rj ,1 şi estimatorul acesteia 2

,2ˆ i calculate conform relaţiilor:

jN

ijij

ji yy

N 1

22,2 )(1 (5.2.9) şi

jn

ijij

ji yy

n 1

22,2 )ˆ(

11 (5.2.10)

j

,jr

j j

jj n

σNn

NrR

rσ

Rr R)TV(

22

1

2212 1 1ˆ

variaţia dintre UP variaţia din interiorul UP

90

Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei estimatorului valorii totale după relaţia:

j

,jr

j j

jjT n

σNn

NrR

rσ

Rr R )T(V

22

1

2212

ˆˆ

1 ˆ

1ˆˆ

(5.2.11)

Pornind de la estimatorul totalului variabilei putem estima totalul mediu pe o unitate primară şi nivelul mediu al variabilei astfel:

NT

RTT

ˆy şi

ˆˆ

Primul termen al variaţiei estimatorului are o contribuţie substanţială în determinarea mărimii erorii de reprezentativitate. Acesta este motivul pentru care planul de sondaj trebuie să se organizeze astfel încât să se reducă eroarea din primul stadiu. Se recomandă stratificarea unităţilor primare.

5.3. Sondajul în mai multe faze

Acest tip de sondaj nu trebuie confundat cu sondajul multistadial când, în fiecare treaptă se selectează unităţile ce constituie baza de eşantionare pentru următorul stadiu urmând să se culeagă informaţii de la unităţile selectate în ultimul stadiu. Planul de sondaj multifazic presupune selectarea unui eşantion foarte mare în prima fază şi culegerea unor date privitoare la un număr redus de caracteristici. Eşantionul din prima fază serveşte ca bază de eşantionare pentru următoarea fază. Programul de observare din a doua fază va fi mai cuprinzător. În faza următoare se continuă reducerea eşantionului şi lărgirea programului de observare. Dintre autorii care au dezvoltat în studiile lor acest tip de eşantionare amintesc: Cochran (1977) şi Scherrer (1983).

Figura 5.3.1. Schema de realizare a unui sondaj în două faze

Acest plan de eşantionare regrupează diferite planuri de eşantionare pentru care

obţinerea de date se realizează într-un număr fixat de etape (egal cu numărul de planuri de sondaj aplicate) eşalonate în timp. Ca efect, obţinerea de informaţii pe etape nu înseamnă

Populaţie de volum N

Selecţia din faza 1 Eşantion de volum n1

CHESTIONAR Plan de observare

redus FAZA 1

Selecţia din faza 2

CHESTIONAR Plan de observare

extins FAZA 2

Eşantion de volum n2

91

neapărat că acestea au rolul de a informa în scopul derulării procesului de derulare a planului de sondaj. Ele pot fi utilizate doar pentru analiza finală.

Să luăm ca exemplu un sondaj privitor la cheltuielile familiilor realizat în două faze. Schema acestuia este prezentată în figura nr. 5.3.1. În prima fază pe un eşantion mare se vor culege date privitoare la cheltuielile efectuate pe principalele grupe de cheltuieli. Informaţiile obţinute vor permite cunoaşterea gradului de variabilitate al caracteristicilor şi vor facilita realizarea unui eşantion reprezentativ în a doua fază. De data aceasta numărul caracteristicilor cercetate va fi mult mai mare.

5.4. Sondajul pe bază de eşantioane fixe

Esenţa acestei metode constă în a obţine informaţii repetate de la acelaşi eşantion numit panel. Primul panel detaliat a fost realizat în Statele Unite de către Arthur Charles Nielsen în anul 1929. La o diferenţă de 30 ani a fost creat primul panel din Franţa tot de către Nielsen.

În literatura de specialitate se consideră că există două tipuri de sondaje pe bază de eşantioane fixe: eşantionul este permanent şi subiectul cercetării este identic sau foarte asemănător

(audienţa emisiunilor TV); eşantionul este permanent şi poate fi utilizat pentru cercetări cu subiecte diferite.

Cercetarea poate avea loc periodic sau se poate face la intervale neregulate de timp.

92

„Sondajele repetate, asupra aceleiaşi probleme, la intervale regulate de timp, urmărind să identifice unele tendinţe, periodicităţi, sau alte elemente dinamice pentru parametrul de interes se mai numesc şi sondaje longitudinale.”9

Sondajele pe baza unui panel presupun iniţial realizarea unui eşantion reprezentativ

pentru populaţia studiată. Acest eşantion este de cele mai multe ori realizat după un plan multistadial cu stratificarea unităţilor primare. Unităţile care formează aceste eşantioane pot fi diverse: întreprinderi, magazine, gospodării, persoane. Eşantionul astfel constituit permite strângerea de informaţii cu o anumită regularitate sau la intervale neprecizate de timp. Pentru culegerea datelor se poate utiliza oricare din metodele cunoscute.

9 Dumitrescu M., 2000, Sondaje statistice şi aplicaţii, Ed. Tehnică, Bucureşti, p. 110.

93

O soluţie pentru înlăturarea acestor dezavantaje o constituie reînnoirea panelurilor prin limitarea la un număr stabilit de participări la sondajele realizate după care vor fi înlocuiţi. Înnoirea eşantionului poate fi parţială sau totală.

„Ca o conduită generală, condiţiile impuse de celelalte planuri de sondaj cu selecţie probabilistică sunt necesare şi pentru construirea unui panel. De exemplu: definirea cu exactitate a populaţiei de referinţă, construirea unei baze de sondaj adecvate, stabilirea unui plan de sondaj eficient, alegerea metodei de culegere a datelor, alegerea unor metode pertinente de redresare a eşantionului”10.

Odată decise planul de eşantionare şi metoda de culegere a datelor se trece la selecţia

eşantionului. Se va contacta fiecare individ din cei ce au fost selecţionaţi pentru a li se explica ce presupune şi ce importanţă are participarea la o astfel de cercetare. Ulterior este necesară obţinerea asigurării unei colaborări de lungă durată. Acest acord depinde de complexitatea sarcinilor şi de timpul cerut de rămânere în eşantion.

În general rata de recrutare în panel este inferioară ratei de răspuns pentru o anchetă ad-hoc similară. „Recrutarea unui panel este o chestiune foarte costisitoare. Asigurarea unui nivel de colaborare cât mai ridicat posibil din partea „paneliştilor” constituie miza majoră a gestiunii unui panel. Continuitatea şi coerenţa culegerii datelor depinde de relaţia de colaborare care se creează cu membrii panelului ”11 Această relaţie este fondată pe un contract ce trebuie respectat. Pentru aceasta trebuie respectat termenul convenit şi nu trebuie să se solicite membrilor panelului sarcini care nu au fost stabilite în momentul recrutării.

Eficienţa unui panel trebuie verificată pe toată durata de viaţă a acestuia. În principiu,

ideea de bază constă în a aprecia dacă s-au produs modificări semnificative în structura eşantionului sau dacă modificările survenite asupra caracteristicilor demo-economice sunt semnificative. Pentru a verifica acest lucru se utilizează următoarele metode:

a) Metoda coeficientului de corelaţie. Considerăm cazul a două sondaje succesive

asupra unui panel de dimensiune mare. Numărul de unităţi cercetate rămâne neschimbat. Fie variabilele numerice de sondaj yi1şi yi2 (ce provin din cele două sondaje succesive) de medii 1y în primul sondaj şi 2y în al doilea. Dispersia populaţiei este cunoscută şi nemodificată între cele două momente de timp. Varianţa diferenţei dintre cele două medii este dată de relaţia:

2121

2122)cov(2)()()(2222

121212 yyyy rnn

rnn

yyyVyVyyV

10 Niculescu-Aron I. G., 2004, O privite generală privind utilizarea panelurilor în studiul comportamentului consumatorului, Revista de informatică socială nr. 2/2004, www.ris.uvt.ro 11 Saporta G., 2003-2004, Enquetes et Sondages, http:// cedric.cnam.fr/~saporta

94

Dacă panelul nu mai este eficient se poate considera că cele două medii provin din eşantioane independente. În acest caz între yi1şi yi2 nu există nici o legătură, coeficientul de corelaţie fiind nul iar varianţa diferenţei dintre medii este: nyyV 2

12 2)( În funcţie de valoarea coeficientului de corelaţie pot exista următoarele situaţii:

o 021yyr legătură inversă între valorile variabilei yi la cele două momente de timp.

Uzura panelului este foarte mare şi necesită reînnoire totală. o 9,0

21yyr legătură foarte puternică între valorile variabilei yi la cele două momente de timp. Panel eficient. Nu este necesară reînnoirea acestuia;

o 9,02,021 yyr Există o legătură între valorile variabilei yi la cele două momente de

timp dar nu foarte puternică reînnoirea parţială a panelului. În funcţie de valoarea coeficientului de corelaţie se decide care este proporţia de reînnoire (k). Unii autori consideră că valoarea optimă este de 50%.

o 2,0021yyr Nu există legătură între valorile variabilei yi la cele două momente de

timp. Se poate spune că datele provin din eşantioane independente reînnoirea totală a panelului.

b) Utilizarea testului Student pentru observaţii perechi. Variabilele cuprinse în

planul de sondaj pot fi variabile de interes definite în concordanţă cu obiectivele studiului şi variabile auxiliare sau de identificare utilizate în stabilirea planului de sondaj .

În cazul în care variabila pentru care s-a efectuat testul este o variabilă auxiliară care s-a utilizat în momentul proiectării eşantionului această diferenţă denotă o deteriorare a panelului şi necesitatea reînnoirii acestuia.

Dacă însă variabila pentru care s-a efectuat testul este una din variabilele de interes conform obiectivelor anchetei această diferenţă semnificativă va fi interpretată în contextul analizei efectuate.

În anchetele periodice ce se realizează asupra forţei de muncă în România conform

metodologiei EUROSTAT se utilizează un panel ce este reînnoit permanent după o schemă rotaţională de forma 2-2-2. Aceasta are ca principiu de bază următoarea tehnică: o locuinţă este cercetată două trimestre consecutive, este scoasă temporar din cercetare următoarele două trimestre, este reintrodusă în cercetare următoarele două trimestre apoi este scoasă definitiv. Conform schemei aplicate în fiecare trimestru se păstrează în eşantion 50% din locuinţele trimestrului anterior. 25% din locuinţele cercetate cu două trimestre în urmă iar restul de 25% sunt locuinţe absolut noi. Astfel se păstrează şi o acoperire de 50% a eşantioanelor de la un trimestru al unui an la acelaşi trimestru al anului precedent.

95

5.5. Aplicaţii Aplicaţia 1 Se realizează un sondaj după un plan bistadial într-o localitate care are populaţia de 18 ani peste de 48000. Unităţile primare sunt reprezentate de secţiile de votare (27) şi au fost selectate după un procedeu aleator cu probabilităţi egale fără revenire. În tabelul 5.5.1. sunt prezentate rezultatele obţinute în urma prelucrării datelor eşantioanelor din fiecare unitate primară ce a fost selectată în eşantion.

Tabelul 5.5.1

secţia nr. pers. din secţia i

nr. pers. selectate din

secţia i

venitul mediu (mil lei)

dispersia după variabila venit

nr. pers. care petrec la televizor mai mult de 3 h/zi

1 2116 43 2.8 0.04 20 2 2430 43 2.5 0.0576 25 3 2268 43 2.6 0.16 24 4 2346 52 3.8 0.09 28 5 1750 42 4.2 0.25 31 6 2386 52 4.1 0.16 36 7 2180 46 3.7 0.1089 28 8 1534 45 3.5 0.01 29 9 1598 42 3.4 0.09 33 10 2391 52 2.7 0.04 36 11 1295 52 2.9 0.0484 30

Se cere: 1. Să se estimeze venitul mediu din localitate pentru o probabilitate de 95%. 2. Să se estimeze procentul celor care petrec la televizor mai mult de 3 h/zi pentru aceeaşi

probabilitate.

Rezolvare

1. Calculăm estimatorul totalului variabilei studiate (venitul total) pe baza calculelor sistematizate în tabelul 5.5.2.

r

1ii

r

1iii

n

1jij

i

ir

1i

TrRYN

rRy

nN

rRT

i

= 4.730231127

=179239.25 mil lei

Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei estimatorului valorii totale după relaţia:

i

2,i2

r

1i i

i2i

212

T nσ

Nn1N

rR

rσ

Rr1 R

unde

r

1i

2i

21 )TT(

1r1ˆ =

1030397397 3039739.7

r

1iiT

r1T =

114,73023 6638.5 mil. lei

96

Tabel 5.5.2

secţia Ni ni iY 2,i2σ iT 2

i )TT(

i

i

Nn1

i

2,i2

i

i2i n

σNn1N

1 2116 43 2.8 0.04 5924.8 509354.714 0.98 4080.44 2 2430 43 2.5 0.0576 6075 317522.005 0.98 7769.85 3 2268 43 2.6 0.16 5896.8 550105.405 0.98 18776.93 4 2346 52 3.8 0.09 8914.8 5181583.08 0.98 9314.52 5 1750 42 4.2 0.25 7350 506245.186 0.98 17791.67 6 2386 52 4.1 0.16 9782.6 9885421.98 0.98 17135.15 7 2180 46 3.7 0.1089 8066 2037782.2 0.98 11013.39 8 1534 45 3.5 0.01 5369 1611607.17 0.97 507.58 9 1598 42 3.4 0.09 5433.2 1452726.18 0.97 5328.19

10 2391 52 2.7 0.04 6455.7 33412.5164 0.98 4301.96 11 1295 52 2.9 0.0484 3755.5 8311636.58 0.96 1498.25

Total 22294 512 73023.4 30397397 97517.92 Calculăm primul termen al erorii de reprezentativitate indus de selecţia din primul stadiu al planului de sondaj.

Termen1=272

27111

117.3039739 =119378868.2

Al doilea termen al erorii de reprezentativitate este determinat de selecţia ce a avut loc în al doilea stadiu, în interiorul unităţilor primare ce au format eşantionul.

Termen2= 92.975171127

=239362.8

Observăm că primul termen al variaţiei estimatorului are o contribuţie substanţială în determinarea mărimii erorii de reprezentativitate. Acesta este motivul pentru care planul de sondaj trebuie să se organizeze astfel încât să se reducă eroarea din primul stadiu. Se recomandă stratificarea unităţilor primare.

012.109378.239362119378868ˆ T Intervalul de încredere al totalului este:

TT TTT ˆˆ 96.1ˆ96.1ˆ 8.2006757.157802 T mil. Lei

Venitul mediu estimat este:

734.3ˆ

Y NT mil. lei

Intervalul de încredere al venitului mediu este :

)*96.1ˆ(1)*96.1ˆ(1ˆˆ TT T

NNTT

N

18.4287.3 Y Garantăm cu o probabilitate de 95% că venitul mediu pe o persoană este de cel puţin 3.287 mil. lei şi cel mult 4.18 mil. lei.

97

2. Se pune problema estimării unei variabile calitative. Calculele sunt prezentate în tabelul 5.5.3.

Tabelul 5.5.3

secţia Ni ni mi iw 2,i2σ iT 2

i )TT(

i

i

Nn1

i

2,i2

i

i2i n

σNn

1N

1 2116 43 20 0.4651 0.2488 984.2 75228.67524 0.98 25378.59 2 2430 43 25 0.5814 0.2434 1412.8 23816.57237 0.98 32829.62 3 2268 43 24 0.5581 0.2466 1265.9 54.70016007 0.98 28942.27 4 2346 52 28 0.5385 0.2485 1263.2 22.7172322 0.98 25720.57 5 1750 42 31 0.7381 0.1933 1291.7 1102.383243 0.98 13757.28 6 2386 52 36 0.6923 0.2130 1651.8 154749.1181 0.98 22813.07 7 2180 46 28 0.6087 0.2382 1327.0 4691.155746 0.98 24088.40 8 1534 45 29 0.6444 0.2291 988.6 72838.84794 0.97 11630.56 9 1598 42 33 0.7857 0.1684 1255.6 8.369917026 0.97 9967.70

10 2391 52 36 0.6923 0.2130 1655.3 157484.5118 0.98 22909.85 11 1295 52 30 0.5769 0.2441 747.1 261477.9275 0.96 7555.70

Total 22294 512 13843.11 751474.9792 225593.60 Calculăm estimatorul totalului variabilei studiate (numărul persoanelor care petrec la televizor mai mult de 3 h/zi

r

1ii

r

1iii T

rRwN

rRT = 11.13843

1127

= 33978.54 pers.

Eroarea medie de reprezentativitate se va calcula pe baza relaţiei:

i

2,i2

r

1i i

i2i

212

T nσ

Nn1N

rR

rσ

Rr1 R

unde

r

1i

2i

21 )TT(

1r1ˆ =

109792.751474 75147.49792

r

1iiT

r1T =

1111,13843 1258.465 pers.

Termen1=272

27111

11275147.4979 =2951247.191

Termen2= 225593.601127

=553729.7456

Observăm că şi în acest caz primul termen al variaţiei estimatorului are o contribuţie substanţială în determinarea mărimii erorii de reprezentativitate. stadiu.

31872.158366553729.74512951247.19ˆ T Intervalul de încredere al totalului este:

TT TTT ˆˆ 96.1ˆ96.1ˆ 37648T30309 persoane

Cel puţin 30309 persoane şi cel mult 37648 persoane petrec cel puţin 3 ore pe zi la televizor.

98

Procentul mediu estimat este:

0.70789ˆ

w NT

Intervalul de încredere al procentului mediu este :

)*96.1ˆ(1)*96.1ˆ(1ˆˆ TT T

NNTT

N

7843.06315.0 p Se garantează cu o probabilitate de 95% că cel puţin 63.15% şi cel mult 78.43% din populaţia ce vârsta de 18 ani şi peste se uită cel puţin 3 ore pe zi la televizor. Aplicaţia 2 În rândul societăţilor comerciale din domeniul de activitate „Hoteluri şi restaurante” se realizează o anchetă periodică ce are la bază un eşantion de tip panel. Pornind de la variabila auxiliară număr salariaţi prezentată în tabelul 5.5.4 (pentru exemplificare s-au luat doar primele 20 de societăţi comerciale din eşantion) se va verifica eficienţa panelului. Se cere: 1. Să se stabilească gradul de uzură al panelului cu ajutorul metodei coeficientului de

corelaţie. 2. Să se verifice eficienţa panelului cu ajutorul testului Student (α=0.05) pentru date înrudite

(eşantioane dependente).

Tabel 5.5.4

societate comercială

Număr salariaţi (pers.)

societate comercială

Număr salariaţi (pers.)

la momentul realizării panelului

la momentul verificării eficienţei panelului

la momentul realizării panelului

la momentul verificării eficienţei panelului

Yi1 Yi2 1 13 14 11 18 22 2 15 14 12 17 22 3 37 35 13 22 20 4 44 40 14 25 25 5 34 30 15 28 27 6 23 21 16 29 28 7 21 30 17 33 31 8 14 17 18 43 41 9 15 20 19 25 28

10 16 20 20 28 30 1. Calculăm valoarea coeficientului de corelaţie după relaţia:

n

i

n

iii

n

i

n

iii

n

i

n

i

n

i iiiiyy

yynyyn

yyyynr

1

2

122

21

2

111

2

1 1 1 2121

21

99

Calculele necesare aflării coeficientului de corelaţie sunt prezentate în tabelul 5.5.5

Tabelul 5.5.5 societate

comercială yi1 yi2 yi1 yi2 y2 i1 y2

i2

1 13 14 182 169 196 2 15 14 210 225 196 3 37 35 1295 1369 1225 4 44 40 1760 1936 1600 5 34 30 1020 1156 900 6 23 21 483 529 441 7 21 30 630 441 900 8 14 17 238 196 289 9 15 20 300 225 400

10 16 20 320 256 400 11 18 22 396 324 484 12 17 22 374 289 484 13 22 20 440 484 400 14 25 25 625 625 625 15 28 27 756 784 729 16 29 28 812 841 784 17 33 31 1023 1089 961 18 43 41 1763 1849 1681 19 25 28 700 625 784 20 28 30 840 784 900

total 500 515 14167 14196 14379

9.09384.051514379205001419620

51550014167202221

yyr

În aceste condiţii se consideră panelul eficient şi nu este necesară înnoirea acestuia. 2. Utilizarea testului Student pentru date înrudite pornind de la o variabilă auxiliară

presupune: H0: 21 yy ; H1: 21 yy Considerăm variabila 21 iii yyd ce măsoară diferenţele individuale, pentru care calculăm media şi abaterea medie pătratică (vezi tabelul 5.5.6).

75.075.252521 yyd

47737.319/75.22911

2

nddSn

iid

Statistica testului este: 96455.021

nS

yyn

S

dt

ddc

Valoarea calculată a testului se compară cu cea teoretică corespunzătoare nivelului de semnificaţie ales şi n-1=19 grade de libertate. Valoarea teoretică ce corespunde nivelului de semnificaţie α=0.05 şi numărului de grade de libertate 19 este t=2.093 Deoarece valoarea

100

calculată este mai mică decât cea teoretică se acceptă ipoteza diferenţei nule ceea ce înseamnă că nu există diferenţe semnificative între cele două medii, panelul fiind eficient

Tabelul 5.5.6 societate

comercială yi1 yi2 di 2ddi

1 13 14 -1 0.0625 2 15 14 1 3.0625 3 37 35 2 7.5625 4 44 40 4 22.5625 5 34 30 4 22.5625 6 23 21 2 7.5625 7 21 30 -9 68.0625 8 14 17 -3 5.0625 9 15 20 -5 18.0625

10 16 20 -4 10.5625 11 18 22 -4 10.5625 12 17 22 -5 18.0625 13 22 20 2 7.5625 14 25 25 0 0.5625 15 28 27 1 3.0625 16 29 28 1 3.0625 17 33 31 2 7.5625 18 43 41 2 7.5625 19 25 28 -3 5.0625 20 28 30 -2 1.5625

Total 25 25.75 -0.75 229.75

101

6.1. Obiective

6.2. Tipuri de sondaje neprobabilistice

Toate tipurile de sondaj prezentate până în acest punct sunt probabilistice. Acestea presupun existenţa unei baze de sondaj din care, cu probabilităţi cunoscute, se extrage fiecare unitate a eşantionului a cărui mărime a fost determinată în funcţie de precizia estimaţiei dorite şi de probabilitatea cu care dorim să garantăm rezultatele.

Există situaţii, în special în sondajele de opinie sau în studii de piaţă, când se utilizează metode neprobabilistice de eşantionare.

Sondajele neprobabilistice sunt cele în care elementele ce formează eşantionul au fost alese în mod arbitrar, iar probabilităţile fiecărei unităţi de a intra în eşantion sunt necunoscute. Putem spune că aceste metode sunt neştiinţifice. Dintre acestea cele mai cunoscute sunt sondajele efectuate pe baza următoarelor procedee de eşantionare: eşantionarea la întâmplare (oarbă), eşantionarea pe baza metodei voluntariatului, eşantionarea raţională şi eşantionarea pe cote.

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre: Modul de construire a esantioanelor nealeatoare Cum se realizeaza un sondaj pe cote


6.1. Obiectivele unităţii de învăţare 6 6.2. Tipuri de sondaje neprobabilistice 6.3. Sondajul pe cote 6.4. Aplicaţii

Unitatea de învăţare 6 SONDAJE NEPROBABILISTICE

102

6.3. Sondajul pe cote Sondajul pe cote este cel mai utilizat sondaj neprobabilistic. În cazul acestui sondaj deplasările anchetatorilor vor fi limitate, spre locuri alese la întâmplare dar bine determinate. Această metodă conduce la economii de căutare şi deplasare, adesea foarte importante. Scopul pe care şi-l propune metoda este ca eşantionul construit să se apropie cât mai mult posibil de un eşantion obţinut pe baza unei selecţii aleatoare riguroase.

Principiul care stă la baza metodei porneşte de la ideea că un eşantion reprezentativ

redă structura populaţiei studiate. Astfel, dacă reproducem fidel anumite caracteristici ale populaţiei, eşantionul, prin extindere va fi reprezentativ şi pentru celelalte caracteristici controlabile sau necontrolabile ce constituie obiectul anchetei. Criteriile pe baza cărora se formează eşantionul se numesc criterii de cotă.

103

În acest tip de sondaj fiecărui operator îi este repartizat un număr de chestionare stabilindu-se câte trebuie realizate pe fiecare categorie. Obligaţia operatorului este de a respecta aceste criterii rămânând la latitudinea lui ce persoane să selecteze. Acesta este motivul pentru care este necesar ca operatorii de interviu să fie foarte bine pregătiţi şi să aibă experienţă în domeniu.

În esenţă, ceea ce i se cere unui operator este să se transforme într-un instrument de

selecţie cvasialeatoare care, pe parcursurile pe care le urmează în zona care i-a fost repartizată, să selecteze indivizii similar unei selecţii care le acordă probabilităţi egale. În cazul în care criteriile de cotă impuse operatorului reflectă corect structura zonei cercetate, un bun anchetator realizează rapid seria de interviuri repartizate.

În funcţie de modul în care sunt stabilite criteriile de cotă avem cote marginale (simple) sau cote încrucişate.

Să presupunem că într-un oraş se realizează o anchetă utilizându-se drept criterii de cotă vârsta şi categoria socială. Unui operator îi sunt repartizate 40 de chestionare.

Pentru a stabili cotele maginale este necesar sa avem informaţii legate de structura populaţiei de forma celor prezentate în tabelul 6.3.1. Pe baza acestora se va construi foaia de cote prezentată în tabelul 6.3.3.

Tabel 4.3.1. Structura populaţiei necesară pentru cote marginale Sex % Categorie socială %

masculin 47,50% salariat Cat.1. 45,00% feminin 52,50% patron Cat.2. 7,50% şomer Cat.3. 10,00% elev-student Cat.4. 10,00% liber profesionist Cat.5. 5,00% pensionar Cat.6. 22,50% Total 100,00% Total 100,00%

Criteriile de cote marginale sunt comode pentru operatori şi puţin costisitoare. Ele pot fi stabilite cu exactitate, dar şansa de a obţine un eşantion reprezentativ este mai mică decât în cazul cotelor încrucişate. După cum se observă în acest caz nu există nici o corelaţie între

104

criteriile de cotă. Operatorul de sondaj nu ştie câte femei trebuie să ia din fiecare categorie socială sau câţi bărbaţi.

Pentru a realiza un plan de sondaj care să utilizeze cote încrucişate este necesară cunoaşterea structurii populaţiei după cele două variabile. În cazul studiului nostru această structură este prezentată în tabelul nr. 6.3.2. Foaia de cote după care trebuie să se ghideze operatorul în această situaţie este prezentată în tabelul nr. 6.3.4. Prin această metodă sunt puse în evidenţă neconcordanţele care există în ceea ce priveşte distribuţia pe categorii sociale pentru cele două sexe.

Tabel 6.3.2. Structura populaţiei necesară pentru cote încrucişate

Sex categorie socială

salariat patron şomer elev-student

liber profesionist

pensionar Total

masculin 24000 4500 4200 4900 2000 7900 47500 % 50,53 9,47 8,84 10,32 4,21 16,63 100 feminin 21000 3000 5800 5100 3000 14600 52500 % 40,00 5,71 11,05 9,71 5,71 27,81 100 Total 45000 7500 10000 10000 5000 22500 100000 % 45 7,5 10 10 5 22,5 100 Tabel 6.3.4. FOAIA DE COTE 40 de interviuri

Criterii de cotă Categoria socială nr. interviuri Interviuri

masculin

salariat 10 1 2 3 4 5 6 7 8 9 10 patron 2 1 2 şomer 2 1 2 elev-student 2 1 2 liber profesionist 1 1 pensionar 3 1 2 3

feminin

salariat 8 1 2 3 4 5 6 7 8 patron 1 1 şomer 2 1 2 elev-student 2 1 2 liber profesionist 1 1 pensionar 6 1 2 3 4 5 6

105

Tabel 6.3.3. FOAIA DE COTE 40 de interviuri

Criterii de cotă nr. interviuri/ Interviuri

sex

M 19 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

F 21 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Cat

egor

ia

soci

ală

Cat1 18 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Cat2 3 1 2 3

Cat3 4 1 2 3 4

Cat4 4 1 2 3 4

Cat5 2

1 2

Cat6 9 1 2 3 4 5 6 7 8 9

106

Cu toate acestea unii autori consideră că în cazul sondajului pe cote se poate adopta ipoteza unei selecţii simple aleatoare cu probabilităţi egale. Această ipoteză însă nu poate fi demonstrată. Utilizarea relaţiilor de calcul a sondajului aleator cu probabilităţi egale pentru volumul eşantionului şi a erorilor de reprezentativitate nu pot duce decât la aproximări mai mult sau mai puţin grosolane.

În general acest tip de sondaj este utilizat în cercetări sociologice sau în studii de piaţă în diferite localităţi fără a avea pretenţia reprezentativităţii la nivel naţional.

Uneori, datorită rapidităţii şi costului redus cu care se realizează, această eşantionare poate fi combinată cu alte procedee de eşantionare în cadrul sondajelor complexe. De exemplu, pentru realizarea unui studiu cu privire la atitudinea faţă de muncă a populaţiei în vârstă de muncă din Bucureşti se proiectează un sondaj bistadial. Se împarte suprafaţa Bucureştiului în 100 de zone de aproximativ aceeaşi arie care vor constitui unităţile primare ce vor fi selectate în primul stadiu după un procedeu simplu aleator fără revenire. Pentru a evita „efectul de serie” unităţile primare se stratifică după tipul zonei rezidenţiale. În stadiul al doilea, pentru selectarea unităţilor secundare se poate utiliza eşantionarea pe cote.

107

1 Andrei, T.

Stancu, S,. Pele, D.T.

Statistică Teorie şi aplicaţii, Ediţia a doua, Bucureşti, Editura Economică , 2002

2 Isaic-Maniu Al., Mitruţ C., Voineagu V.

Statistica pentru managementul afacerilor, Editura Economică 1999

3 Isaic-Maniu Al.

Tehnica sondajelor şi anchetelor, Editura Independenţa economică 2001

4 Levy P.S., Lemeshow S.

Sampling of Populations, Third Edition, John Wiley&Sons New York, 2000

5 Jaba Elisabeta, Grama Ana

Analiza Statistică cu SPSS sub Windows, Editura Polirom Iaşi 2004 1

6 Dumitrescu, M

Sondaje statistice şi aplicaţii, Bucureşti, Editura Tehnică, 2000

7 Mihoc Gh., Craiu V.

Tratat de statistică matematică volumul Verificarea ipotezelor statistice, Ed. Academiei R.S.R, Bucureşti 1977

8 Niculescu-Aron I. G.,

Sondajul statistic în cercetarea forţei de muncă, Editura ASE, Bucureşti 2005

9 Porojan D. Statistica si teoria sondajului, Bucureşti, Casa de Editură Şansa 1993 10 Rotariu T.I. Ancheta sociologică şi sondajul de opinie, Editura Polirom 1999 11 Rotariu T.

(coordonator) Metode statistice aplicate în ştiinţele sociale, Bucureşti, Editura Polirom, 1999

12 Sandu Gh., Modele experimentale în zootehnie, Editura Coral Sanivet 1993

13 Saporta G., Enquetes et Sondages 2003-2004, http:// cedric.cnam.fr/~saporta

14 Sincich T., Business statistics by example, Prentice Hall, New Jersez 1996

15 Wilson M., Littell R.

Statistical Methods Research I Course Notes, http://www.stat.ufl.edu/STA6166/Fall06/Course%20Notes.html

16 *** http://biol10.biol.umontreal.ca/BIO2042

17 *** http://www3.imperial.ac.uk/portal/pls/portallive/docs/1/7292119.PDF

BIBLIOGRAFIE

Sondaje Anchete Niculescu Aron

Documents

Transcript of Sondaje Anchete Niculescu Aron