PD-C10-Inferenta_statistica.pdf

33
1 STATISTICA INFERENŢIALĂ

Transcript of PD-C10-Inferenta_statistica.pdf

  • 1

    STATISTICA

    INFERENIAL

  • Testarea ipotezelor statistice

    Ipoteza nul , ipoteza alternativa

    Erori n testarea ipotezelor statistice

    Teste de tip t - Student

    Teste Chi-Square

    Teste Anova

    2

    OBIECTIVE

  • Formularea de noi ipoteze (modele sau teorii) este una dintre cele mai importante aspecte

    ale cercetrii tiinifice.

    O ipotez nou trebuie testat pentru a vedea c are temei (n concordan cu observaiile),

    i pentru a justifica c este mai bun dect

    alte ipoteze alternative.

    3

    INTRODUCERE

  • 4

    METODE PENTRU TESTAREA IPOTEZELOR

    Compararea a dou ipoteze sau teorii concurente

    Prima dat trebuie formulate ca modele.

    Ipoteza nul H0, reprezint modelul pe care experimentatorul ar dori s-l nlocuiasc.

    Ipoteza alternativ H1 este noul model care de regul reprezint o negaie a ipotezei nule.

  • Indiferent cum este formulat protocolul experimentului, scopul cercettorului este de a testa ipoteza nul (de cele mai multe ori pentru a o respinge)

    Ipoteza nul nu trebuie probat , ci anulat

    Inferen negativ

    Un test statistic este conceput i utilizat pentru verificarea unei ipoteze statistice.

    Scopul testului statistic este de a dovedi c ipoteza nul H0 este fals nu putem niciodat afirma c acceptm ipoteza nul

    O putem nega sau nu o putem nega

    5

    METODE PENTRU TESTAREA IPOTEZELOR

  • Prin respingerea ipotezei nule , cercettorul afirm c rezultatele observate nu sunt

    datorate ntmplrii (rezultatele sunt

    semnificative).

    Cnd ipoteza nul nu este respins, cercettorul afirm c diferenele observate

    sunt datorate ntmplrii (rezultatele nu sunt

    semnificative).

    6

    METODE PENTRU TESTAREA IPOTEZELOR

  • Scopul unui test statistic este de a defini realitatea.

    Definirea ntrebrii de cercetare (ipoteza clinic):

    Tratamentul cu medicamentul A este la fel de eficient ca i cel cu medicamentul B n tratamentul

    HTA?

    Transpunerea ntrebrii de cercetare n termeni statistici (ipoteza statistic):

    Media TA a pacienilor tratai cu A nu difer semnificativ de media TA a pacienilor tratai cu B.

    7

    IPOTEZA STATISTIC - IPOTEZA CLINIC

  • 1. Specificm ipoteza nul i ipoteza alternativ.

    2. Alegem statistica adaptat situaiei .

    3. Alegem nivelul de semnificaie i pe baza sa calculm pragul de separare (ntre valorile

    acceptabile i cele considerate ca inacceptabile).

    4. Calculm valoarea statisticii, folosind datele din eantion (ales aleator).

    5. Decidem, prin compararea valorii calculate cu pragul dat de nivelul de semnificaie, dac

    respingem sau nu ipoteza nul.

    8

    ETAPELE UNUI TEST STATISTIC

  • Ipoteza nul H0 este ipoteza care trebuie testat, testul efectundu-se sub prezumia c ipoteza nul ar fi adevrat.

    Ipoteza alternativ H1 este acea ipotez care ntr -un sens sau altul contrazice ipoteza nul. Aceast ipotez se mai numete i ipoteza de lucru.

    9

    ETAPA 1: FIXAREA IPOTEZELE STATISTICE

  • Definirea unui parametru care sub ipoteza nul H 0 urmeaz o anumit lege de probabilitate cunoscut (de exemplu, legea normal).

    10

    ETAPA 2 -DEFINIREA PARAMETRULUI

    STATISTIC

  • Etapa 3 Definirea unui prag de semnificaie

    (probabilitatea de a respinge H0 cand ea de fapt

    este adevarata)

    -de obicei se alege un nivel de semnificaie ntre

    1% (=0.01) i 5%. ( = 0.05)

    Etapa 4 Definirea unei regiuni critice pentru parametrul

    definit la etapa 2, asociat pragului de semnificaie

    (adic a regiunii unde parametrul are cel puin

    probabilitatea de a se gsi).

    11

  • Depinznd de ipoteza alternativ, se poate alege una din urmtoarele trei regiuni critice:

    Regiunea critic unilateral la dreapta valoarea parametrului statistic al testului este mai mare sau egal cu valoarea din dreapta a intervalului critic;

    Regiunea critic unilateral la stnga valoarea parametrului statistic al testului este mai mic sau egal cu valoarea din stnga a intervalului critic;

    Regiunea critic bilateral valoarea parametrului statistic al testului este mai mic sau egal cu valoarea extrem din stnga regiunii critice sau mai mare sau egal cu valoarea extrem din dreapta regiunii critice, valorile extreme ale regiunii critice avnd nivele egale de semnificaie.

    12

    ETAPA 4

  • Dac parametrul statistic calculat se afl n regiunea critic , atunci se respinge ipoteza nul H0, deci se accept ipoteza alternativ H1. Aceast decizie are un risc de eroare , fiind riscul de prima spe.

    Dac parametrul statistic nu se afl n regiunea critic atunci nu exist niciun motiv de a respinge ipoteza nul H0 . Acceptnd-o, exist un risc de eroare, numit risc de spea a doua notat cu .

    13

    ETAPA 5 - DECIZIA

    (FOLOSIND REGIUNEA CRITIC)

  • La aplicarea testelor statistice, programele de prelucrare statistica vor afisa o probabilitate de semnificatie a testului statistic, numita si nivel de semnificatie observat (notat cu p).

    Stabilirea semnificaiei testului pe baza valorii lui p se face frecvent cu urmtoarea regul empiric (consideram nivelul ales =0,05) :

    1. Dac 0,01

  • 15

    ERORI N TESTAREA IPOTEZELOR STATISTICE

    H0 este falsa

    H0 este

    adevarata

    Respingem H0 Corect! Eronat (eroare

    de tipul I)

    Nu respingem

    H0 Eronat (eroare

    de tipul al II-lea) Corect!

    decizia

    realitatea

  • Probabilitatea comiterii unei erori de tip I = nivelul de semnificaie, (alfa)

    Probabilitatea este determinat prin teste statistice Am decis c exist reale diferene dei acestea sunt

    datorate ansei

    Decidem c un tratament este eficient pe baza unei interpretri greite

    Nivelul alfa (riscul maxim acceptabil) 5% exist o ans de 5% de a respinge incorect ipoteza nul

    p= 0,18 ipoteza nul nu se poate respinge p= 0,04 ipoteza nul se poate respinge cu un risc

    acceptabil de 4% de a comite o eroare de tipul I

    16

    EROAREA DE TIP I I NIVELUL DE

    SEMNIFICAIE

  • H0 nu este respins , dei este fals ;

    Am decis c diferenele observate sunt datorate ansei atunci cnd acestea apar datorit diferenelor dintre eantioane

    Am putea abandona un tratament pe care tocmai l testm sau o direcie de cercetare

    Probabilitatea de a nu rejecta o ipotez nul fals = , probabilitatea de a face o eroare de tipul II

    1- = complementul lui , puterea unui test

    Puterea = probabilitatea ca un test s resping ipoteza nul sau s obin semnificaie statistic

    17

    EROAREA DE TIP II

  • 18

    COMPARAII PE DOU

    EANTIOANE Teste

    statistice

  • 19

    COMPARATII PE DOU

    EANTIOANE

    Cea mai simpl comparaie statistic este cea ntre dou grupuri aleator alese

    Acest mod de distribuire permite cercettorului s presupun c diferenele individuale sunt egal distribuite ntre grupuri la nceputul experimentului i c cele dou grupuri sunt echivalente

    D.p.d.v statistic cele dou grupuri sunt eantioane extrase din aceeai populaie, deci diferenele dintre ele sunt rezultatul erorii de eantionare sau al ntmplrii

  • 20

    COMPARAREA A DOU MEDII

    Compararea mediilor eantioanelor pentru determinarea statistic a diferenelor se face

    prin dou caracteristici:

    Media diferena mediilor ntre grupuri caracterizeaz nivelul de separare ntre grupuri

    Variana caracterizeaz variabilitatea n interiorul grupurilor

    Ambele caracteristici sunt o surs de variabilitate utilizabil pentru a descrie

    efectele tratamentului

  • 21

    Situaia real Exist diferene ntre grupuri

    Exist diferene n interiorul grupurilor

    Trebuie demonstrat dac diferenele observate ntre mediile parametrului studiat sunt datorate

    experimentului i nu ntmplrii

    COMPARAREA A DOUA MEDII

  • 22

    TESTUL STUDENT (T)

    Subtipuri:

    Testul t pentru eantioane independente: Variane egale

    Variane inegale

    Testul t pentru eantioane perechi

  • 23

    TESTUL T PENTRU EANTIOANE

    INDEPENDENTE CU VARIANTE EGALE

    Utilizat pentru compararea a dou eantioane independente

    se bazeaz pe aceast prezumia de egalitate a varianelor (varianii omogene)

    n mod normal omogenitatea varianelor se testeaz statistic Testul Levene sau testul Barlett Bazate pe statistica F

    Dac varianele nu sunt semnificativ statistic diferite (p>0,05), atunci pot fi considerate egale

    Dac sunt diferite se aplic alt formul de calcul a lui t

  • 24

    EXEMPLU

    Testm ipoteza c un nou model de atel mbuntete funcia de prindere a minii la pacienii cu artrit reumatoid

    Ne intereseaz doar testarea ipotezei direcionale, deoarece dorim obinerea unei ameliorri:

    H1=1 > 2

    Avem un eantion aleator selectat de 20 de pacieni cu artrit reumatoid avnd niveluri similare de diformitate la nivelul minii i la nivelul articulaiilor minii

  • 25

    EXEMPLU

    Aleator pacienii sunt mprii n dou grupuri: n1 : 10 persoane sunt grupul pentru experiment

    n2 : 10 persoane sunt grupul de control

    La cei din grupul experimental se monteaz atela

    Toi pacienii au un program motor similar timp de o sptmn

    Se msoar puterea de strngere cu mna n zilele 1 i 8 ale testului iar diferena este cea

    care se folosete n continuare la calcule

  • 26

    EXEMPLU -CONTINUARE

  • 27

    EXEMPLU - CONTINUARE

    Pentru c valoarea calculat a lui t s implice o diferen semnificativ, ea trebuie s fie

    mai mare sau egal cu valoarea critic

    Dac testul este unidirecional atunci i semnul lui t trebuie s fie corespunztor

  • 28

    EXEMPLU - CONTINUARE

    t=2,718

    t0,05,18 =1,73

    Concluzii: -Putem rejecta H0 pentru ca 2,718 apartine

    [1,73,)

    -Tratamentul are un rol pozitiv

  • 29

    TESTUL T PENTRU EANTIOANE PERECHE

    Se folosete n protocoale de cercetare care implic msurtori repetate asupra acelorai

    indivizi sau asupra unor indivizi cu caracteristici

    asemntoare (chiar gemeni)

    Datele sunt considerate mperecheate deoarece pentru fiecare valoare exist o valoare pereche

    Testul evalueaz scorul de diferen din cadrul fiecrei perechi astfel nct subiecii sunt

    comparai numai cu ei nii sau cu perechea lor

  • Analiza frecvenelor pentru variabile msurabile pe o scar nominal sau ordinal

    Test neparametric care verific dac distr ibuia observat difer de cea ateptat (teoretic)

    Exemplu:

    Se caut efectul fumatului asupra mbolnvirii de o maladie dat (M). Pentru aceasta se observ un eantion de 400 de subieci dintre care: 160 au boala M prezent, 240 nu au boala M prezent 130 sunt fumtori i 270 nu sunt fumtori

    Tabelul de contingen observat (cu frecvenele observate)

    TESTUL HI PTRAT (CHI SQUARE)

  • ANALIZA DE VARIAN ANOVA

    Este un test destinat analizei cercetrilor multinivel i/sau multifactoriale

    Este utilizat atunci cnd trebuiesc cercetate 3 sau mai multe condiii sau eantioane

    Bazat pe statistica F i pe prezumia c eantioanele sunt extrase aleator dintr -o populaie normal distribuit (n practic se verific ntotdeauna)

  • Variabil

    cantitativ

    Variabil

    ordinal

    Variabil

    dihotomial

    distribuie

    normal

    distribuie

    non-normal

    teste

    parametrice

    teste

    non-

    parametrice

    Mann-Whitney U,

    Wilcoxon

    Interval de

    timp

    Regresie

    linear

    multipl

    Log rank

    Regresie

    logistic

    Modelul

    lui Cox

    Hi ptrat

    Fisher exact

    Corelaie

    (coeficient Pearson)/

    regresie

    Corelaie

    (coef. Spearman)

    Comparaia a

    2 grupuri

    Comparaia a

    3 grupuri Test F (ANOVA)

    Corelaia a 2

    variabile n

    acelai grup

    Corelaia a 2

    variabile n

    acelai grup

    Comparaia a

    2 grupuri

    Comparaia a

    3 grupuri Kruskall-Wallis

    Student (t)

  • 33

    V mulumesc!!!