Curs_03a

16
Problema nonraspunsurilor n pornire i 2 1 p …. j .. 2 1 intrebarea nr. C hest N onrăspuns partial N onrăspuns total Non-răspunsurile determina: - cresterea erorii de reprezentativitate prin diminuarea volumului eşantionului. - modificarea structrurii eşantionului, non- respondenţii formând o subpopulaţie aparte

description

a

Transcript of Curs_03a

  • Problema nonraspunsurilorNon-rspunsurile determina: - cresterea erorii de reprezentativitate prin diminuarea volumului eantionului. - modificarea structrurii eantionului, non-respondenii formnd o subpopulaie aparte

  • Metode de tratare a nonrspunsurilor pariale

    A.1. Metoda eliminrii complete Dezavantaje:

    odat cu tergerea unitilor ce conin valori lips mrimea eantionului disponibil se reduce simitor fapt ce determin o scdere a preciziei estimaiei;

    2. este posibil ca indivizii crora le corespund valorile lips (ce urmeaz s fie nlturai din baza de date) s fie foarte diferii de cei rmai. Acest lucru va face ca estimatorii rezultai s fie puternic deplasai;

    3. n schemele sondajelor complexe fiecrui individ i este atribuit o greutate (pondere) ce poate reflecta printre altele i probabilitatea cu care a fost selectat unitatea. tergerea din baz a unitilor ce conin valori lips este foarte probabil s invalideze schema de ponderare.

  • A.2. Metoda imputaiilorNotm:yij = rspunsul pe care l d individului i din eantionul E la ntrebarea j (i=1,..,n, j=1,... ,p). (yi1, ...., yip) vectorul format din raspunsurile individului i Fiecare poziie de coordonate (i,j) unde avem valoare lipsa trebuie tratat separat, prin crearea unei valori yij numit valoare atribuit sau imputaie.

  • Imputaia deductiv

    Se refer la acele situaii (rare n practic) n care se poate stabili valoarea corect printr-o deducie logic. Este vorba de o modalitate determinist de a corecta datele incorecte sau nevalidate.

    n acest caz yij = yij.

    Imputaia predictiv prin mediere global

    Se realizeaz nlocuind non-rspunsul de pe poziia (i,j) cu media rspunsurilor care au fost obinute la ntrebarea j.

    Avantaje:nlocuirea valorii lips se face cu o valoare probabil ceea ce i d un oarecare grad de stabilitate. Dezavantaje:subevaluare sever a dispersiei estimatorului pentru media sau totalul caracteristicii yj.

  • Imputaia predictiv prin mediere pe claseEste similar imputaiei predictive prin mediere global, cu deosebirea c nu se utilizeaz o singur imputaie, ci mai multe corespunztoare unor clase n care a fost mprit mulimea respondenilor. Astfel, partiionm mulimea respondenilor r la ntrebarea j n q clase disjuncte. Identificm clasa cruia i aparine individul i construim imputaia:

    unde t ia valorile 1,..,q iar k este numrul de respondeni din clasa respectiv.Avantaje:reduce gradul de subestimare a dispersiei estimatorului

  • Imputaia hot-deck.

    Este utilizat la scar larg deoarece, spre deosebire de imputaia prin mediere global sau pe clase, evit subestimarea dispersiei estimatorului.

    Etapa1: fiierul ce conine baza de date este n prealabil sortat dup caracteristicile demografice, economice sau sociale pe baza crora se poate pune n eviden structura eantionului.

    Etapa 2: Un registru de lucru este iniializat cu valorile aferente cmpurilor cuprinse n prima nregistrare a unei caracteristici dup care s-a realizat sortarea.

    Etapa 3: Fiierul se parcurge nregistrare cu nregistrare si fiecare cmp este identificat i verificat s nu conin valori lips.

    Etapa 4: n cazul n care unul din cmpuri conine valori lips acesta va fi nlocuit cu valoarea corespunztoare din registru.

  • Nr. MediulNVINSTF_ANGVenit11112,521232,6312-3,8413145131-613-471324,5814189141810142-1114212122112,5132121,8142222,81522--162212,8172333182313,1192332202441,6

    MediulNVINSTF_ANGVenit1112,51232,6131414182112,52222,823332441,6

  • Se recomanda n cazul n care exista mai multe valori lipsa ca registrul de lucru va conine mai mult de o singur nregistrare corespunztoare unei caracteristici dup care s-a sortat fiierul. Aceste nregistrri vor fi supuse unei rotaii n timpul procesului de imputare.Avantaje:

    reduce gradul de subestimare a dispersiei estimatorului i deplasarea estimatorilor

    Nr. MediulNVINSTF_ANGVenit11112,521232,631233,841314513146131471324,581418914181014281114212122112,5132121,8142222,8152222,8162222,8172333182313,1192332202441,6

  • Imputaia aleatoare.

    Const n alegerea aleatoare din mulimea respondenilor sau dintr-o clas a unui donator h din mulimea de r respondeni la ntrebarea j. n acest caz avem:

    Este o variant a imputaiei hot-deck

    Imputaia obiectiv.

    La baza acestei metode st generarea unei ecuaii de regresie pe baza setului de date ce conin nregistrri complete ale variabilei ce urmeaz a fi supuse procesului de imputare. Ecuaia poate avea urmtoarea form:

    unde y este variabila ce urmeaz a fi imputat pentru valorile date ale variabilelor xi, i=1,,k corelate cu variabila y.

    Avantaje:Imputaia se armonizeaz cu restul nregistrrilor individului respectiv. reduce gradul de subestimare a dispersiei estimatorului i deplasarea estimatorilor

  • Metoda imputaiilor multipleMetoda const n umplerea fiecrei celule corespunztoare unei valori lips cu una, dou sau mai multe imputaii i analizarea fiecrui set de date.

    Combinnd rezultatul acestei analize cu rezultatul inferenei statistice vom lua n consideraie i nivelul de incertitudine introdus de valorile lips.Etapa 2.Se parcurge fiierului ce conine tabelul indivizi-variabile nregistrare cu nregistrare i identificarea i numrarea valorilor lips (MV1..MVk). Fiecare valoare lips se trateaz individual. Etapa 1.Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila pentru care trebuie sa tratm non-rspunsurile i se sorteaz fiierul dup aceste variabile. Etapa 3.Se identific valorile variabilelor auxiliare corespunztoare nregistrrii ce conine o valoare lips.

  • Etapa 4.Valoarea lipsa i ar putea fi substituit de oricare din valorile corespunztoare altor nregistrri ce au aceleai valori n cmpul variabilelor auxiliare considerate. Notm cu Ci numrul de variante posibile corespuztoate unei valori lips (MVi). Se procedeaz n mod similar pentru toate valorile lips determinnd pentru fiecare valorile cu care acestea pot fi nlocuite. Numrul de combinaii posibile este C1xC2x.Ck. Etapa 5. Pentru fiecare combinaie se va obine un set de date i se va calcula media i eroarea de reprezentativitate. Etapa 6 Estimatorul mediei populaiei se calculeaz ca medie a mediilor seturilor de date.

    este media combinaiei k.

  • Etrapa 7Pentru construirea unui interval de ncredere pentru media populaiei care s ia n considerare incertitudinea introdus prin folosirea imputaiei este necesar calcularea unei variaii totale a estimatorului (mediei). Aceasta este format din dou componente: variaia interioar (S2int) ce reprezint media variaiilor fa de mediile estimate, condiionate de valoarea imputaiei i variaia dintre mediile estimate pe baza diferitelor valori ale imputaiilor (S2ext).

  • Verificarea reprezentativitatii esantiounului

    H0:

    =

    i H1:

    EMBED Equation.3 .

    _1168774936.unknown

    _1168778577.unknown

    _1230048846.unknown

    _1168774937.unknown

    _1168774935.unknown

    H0: w= p i H1:

    _1168777420.unknown

    _1169642419.unknown

    *

  • Testul 2 H0: ft= fe i H1: ftfe ft reprezint frecvenele teoretice fe frecvenele empirice

    frecvena corespunztoare a grupei i din populaie

    Dacadf=k-1 Esantionul nu este reprezentativVerificarea concordantei repartitiilor

  • Testul Kolmogorov Smirnov Testul Kolmogorov Smirnov este o extindere a testului Kolmogorov pentru verificarea concordantei dintre o repatritie empirica si una teoretica

    Stabilirea frecvenelor absolute in populatie si in esantionCalcularea frecventelor cumulate crescatorCalcularea funciilor de repartiie empirice F(xP) i F(xE) prin raportarea frecventelor cumulate la totalSe calculeaza diferentele pe clase. Pe baza diferentei maxime se calculeaza statistica testului:

  • Structura subiecte:

    SubiectpunctajcontinutS11teorieS20,5grilaS30,5grilaS41problema VRES51Problema SSAS63Problema SStrTotal7seminar3

    *