Curs5_2015_S_VII info
-
Upload
diana-elena-bizadea -
Category
Documents
-
view
229 -
download
4
description
Transcript of Curs5_2015_S_VII info
-
CURSUL 5
Inferen referitoare la medii
-
Metode de inferen pentru medii
CE ESTE INFERENA STATISTIC?
fundamentarea unor concluzii generale pe baza utilizrii unor date empirice limitate
n virtutea unor raionamente logico-probabilistice
presupune existena unui eantion servete drept baz pentru descrierea populaiei din care a fost extras
-
CONCEPTE AJUTTOARE
Distribuia de eantionare
Eroarea standard
Distribuia normal
Intervalul de ncredere
-
Distribuia de eantionare
Toate eantioanele au o msur numeric folosit pentru a spune ceva (a face inferene) despre aceeai msur n populaie.
Facem inferene despre parametrul din populaie, folosind statistica din eantion.
Parametrul este ntotdeauna o constant.
Statistica din eantion variaz ntotdeauna, deci constituie o variabil aleatoare - posed o distribuie de probabilitate.
Pentru media din eantion, avem distribuia de eantionare a mediilor.
Pentru abaterea standard din eantion, avem distribuia de eantionare a abaterilor standard.
-
Distribuia de eantionare Cte eantioane posibile exist?
R: o infinitate
Cte medii posibile de eantioane exist? R: o infinitate
Eroarea de eantionare:
distana de la statistica din eantion la parametrul din populaie. Este datorat ntmplrii
Eroarea de non-eantionare:erori datorate altor factori, nealeatori (operatori de teren, operatori de introducere,
de prelucrare, etc.)
-
Observaii:
deviaia standard a distribuiei de eantionare este mai mic dect cea din populaie
deviaia standard a distribuiei de eantionare scade din ce n ce mai mult, pe msur ce cretem mrimea eantionului
Teorema Limit Central
Pentru un eantion de mrime mare, forma distribuiei de eantionare este normal, indiferent de forma distribuiei n populaie.
Concluzii: Dac vom calcula mediile tuturor eantioanelor de aceeai mrime (mare), vom constata c: aproximativ 68% dintre acestea se afl la o distan de 1 E.S. fa de media din populaie aproximativ 95% dintre acestea se afl la o distan de 2 E.S. fa de media din populaie
-
Rezult c distribuia de eantionare este o distribuie de probabilitate continu, care arat statisticile din eantion iprobabilitile asociate acestora.
Media acestei distribuii x este media tuturor mediilor de eantioaneposibile i este chiar media din populaie.
Abaterea standard a acestei distribuii (a acestei variabile aleatoare) se numete Eroare Standard i este egal cu:
-
Principii Generale
n studiul ntr-o populaie P a parametrilor a unei caracteristici oarecare (cantitative saucalitative) este necesar n mod frecvent s se urmeze procedeul:
1. Se extrage un eantion reprezentativ al acestei populaii.
2. Prin mijloacele statisticii descriptive se descrie distribuia caracteristicii pe eantionulextras. Astfel se poate determina frecvena observat, dac este vorba de o caracteristiccalitativ, sau se calculeaz media i variaia, n cazul unei caracteristici cantitative.
3. Prin mijloacele statisticii infereniale sau inductive se extind la ntreaga populaierezultatele observate pe eantion. Pornind de la parametrii observai (frecvena, media,variaia, etc) pe eantion se ncearc s se estimeze parametrii teoretici ai ntregiipopulaii.
-
Metode de inferen pentru medii
-
O SINGUR MEDIE-METODA PENTRU EANTIOANE MARI
Pentru a calcula intervale de ncredere i pentru a aplica testareastatistic de semnificaie n cazul mediilor eantioanelor mari vomfolosi distribuia normal
Proprieti aplicabile doar n cazul eantioanelor mari:
mediile eantioanelor mari extrase n acelai mod urmeaz odistribuie normal
abaterea standard estimat ntr-un eantion mare va fi aproape deaceea a ntregii populaii - eroarea standard estimat n eantioneste o bun estimaie
-
O SINGUR MEDIE-METODA PENTRU EANTIOANE MARI
vom determina intervale de ncredere pentru mediile eantioanelor mari folosind distribuia normal.
estimm eroarea standard a mediei - se obine cu ajutorul abaterii standard calculat pentru observaiile din eantion (eroarea standard a mediei fiind abaterea standard mprit la rdcina ptrat a numrului de observaii din eantion)
Intervalul de 95% ncredere este de la media minus 1.96 x eroarea standard la media plus 1.96 x eroarea standard
-
O SINGUR MEDIE-METODA PENTRU EANTIOANE MARI
-
Condiii care trebuie ndeplinite:
Observaiile sunt independente ntre ele
Nu putem folosi, de exemplu, un eantion de 100 de observaii ncare avem 10 subieci cu cte 10 observaii fiecare
Eantionul este suficient de mare pentru ca erorile standard s fiebine estimate.
Ca regul empiric: ar trebui s avem cel puin 100 observaiipentru un grup.
-
DIFERENE NTRE MEDIILE EANTIOANELOR PERECHI
n cercetarea medical se dorete adesea, mai degrab s se compare grupuri de subieci dect s se estimeze media unei populaii, pe baza datelor provenite dintr-un eantion
Studiu - Christensen et al. (2004) - se compar modificrile strii de depresie cu ajutorul unui chestionar aflat pe internet.
Au fost recrutate 525 persoane cu simptome de depresie identificate printr-un sondaj. Ei au fost alocai aleatoriu la site-ul web BluePages care ofer informaii despre depresie (N = 166), la site-ul web MoodGYM prin se realizeaz o terapie cognitiv comportament (N = 182) sau la un grup de control care folosete placebo (N = 178). Principalele rezultate a fost msurate la Centrul pentru Studii epidemiologice cu ajutorul unei scale pentru depresie
-
DIFERENE NTRE MEDIILE EANTIOANELOR PERECHI
Scorul iniial i dup ase sptmni de tratament pentru un grup de 525 pacieni cu depresie
Deoarece cele trei grupuri de tratament sunt toate eantioane destul de mari, se poate estima un interval de ncredere pentru media fiecruia dintre ele
-
BluePages - 165 de subieci
- o medie diferenelor n scoruri de 3.9
- abatere standard de 9.1.
- Eroarea standard a mediei este 0.71
- astfel, intervalul de 95% ncredere pentru media diferenelor este de 3.9 - 1.96 x 0.71 la 3.9
+ 1.96 x 0.71, adic de la 2.5 la 5.3 puncte pe scala depresiei. !Atenie: 0 nu se afl n interval
- Aceasta reprezint o estimare pentru intervalul de diferene ale mediilor punctajelor,
presupunnd ca rspunsul nonrespondenilor este acelai.
-
Putem testa
ipoteza nul - stabilete c media diferenelor este zero
ipoteza alternativ - stabilete c exist o schimbare, n orice direcie
Deoarece eantionul este mare, media va avea o distribuie normal cu o abatere standard egal cu eroarea standard a mediei (0.71)
Diferena dintre media observat n eantion i media necunoscut a populaiei (0) mprit prin eroarea standard (statistica testului) va urma distribuia normal standard
DIFERENE NTRE MEDIILE EANTIOANELOR PERECHI
-
Ipoteza nul: media schimbrilor n populaie este zero
dac acest lucru este adevrat, media observat n eantion mprit prin eroarea standard va urma o distribuie normal standard
Pentru grupul BluePages aceasta este z = 3.9/0.71 = 5.49. Probabilitatea de a obine o astfel de o valoare extrem la distribuianormal standard este foarte mic, de 0.00000004. Nu putem fi siguri c aproximarea distribuiei normale este suficient de bun pentru probabiliti foarte mici, aa c vom cita rezultatul n forma: p
-
Condiiile care trebuiesc ndeplinite pentru aplicarea acestei metode sunt:
Observaiile trebuie s fie independente;
Eantionul trebuie s fie suficient de mare. Regula empiric spune ctrebuie s avem cel puin 100 observaii pentru un grup;
Media i abaterea standard a diferenelor sunt constante, adic nu aulegtur cu dimensiunea variabilelor.
-
COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE
-
COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE
-
Putem efectua aceleai calcule pentru a compara fiecare grup cu intervenie activ cu grupul de control.
Pentru BluePages comparat cu grupul de control diferena mediilor este 3.9 - 1.0 = 2.9
eroarea standard a diferenei este de 0.95
intervalul de 95% ncredere este de la 2.9 - 1.96 x 0.95 la - 2.9 + 1.96 x 0.95, adic de la 1.0 la 4.8. 0 nu se afl n interval
Testul de semnificaie d z = 2.9/0.95 = 3.05, p = 0.002.
Pentru MoodGYM comparat cu grupul de control diferena mediilor este de 3.2
eroarea standard de 0.92
intervalul de 95% ncredere este de la 1.4 la 5.0 0 nu se afl n interval
z = 3.48, p = 0.0005
COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE
-
Dac se dorete testarea ipotezei nule de ansamblu care stabilete c cele trei tratamente produc aceeai scdere medie n populaie, aceasta se poate face prin aplicarea coreciei Bonferroni pentru cele trei valori p
Multiplicarea cu 3 ar da cea mai mic valoare p = 0.0005 x 3 = 0.0015, care rmne nc extrem de important
COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE
-
Metoda pentru compararea a dou medii n cazul eantioanelor mari, normal distribuite, necesit ndeplinirea a dou condiii:
Observaiile i grupurile trebuie s fie independente ntre ele. Nu trebuie s existe legturi ntre observaiile dintre cele dou grupuri
Ex: un studiu n care fiecare subiect dintr-un grup este relaionat, de exemplu, prin vrst i sex, cu un subiect din cellalt grup.
Eantioanele trebuie s suficient de mari pentru ca erorile standard s fie bine estimate iar mediile s aib o distribuie normal.
Regula empiric spune c pentru un singur eantion ar trebui s avem cel puin 100 de observaii, iar pentru dou eantioane de cel puin 50 de observaii n fiecare dintre ele.
COMPARAREA MEDIILOR A DOU EANTIOANE MARI INDEPENDENTE
-
DISTRIBUIA T n cazul eantioanelor mici nu se pot aplica metodele pentru eantioane mari care sunt normal
distribuite - problem abordat de un statistician care i-a publicat rezultatele sub pseudonimul de Student - distribuia t sau Student
Condiii de utilizare pentru testul z:
cunoatem media populaiei de referin
eantion mare (N 30)
pentru eantioane cu N
-
La fel ca i distribuia normal, distribuia Student t este o familie de distribuii.
Aceasta familie are un singur parametru, numrul care ne spune cu ce membru al familiei de distribuii t ne confruntm. Acesta este cunoscut sub numele de grade de libertate.
NB: Am folosit deja acest termen n calcul varianelor i abaterilor standard. Numrul gradelor de libertate al distribuiei t este egal cu numrul gradelor de libertate de la abaterea standard folosit n calculul erorii standard.
DISTRIBUIA T
-
DISTRIBUIA T
Cnd numrul gradelor de libertate este mic(eantioane de mici dimensiuni) distribuia tare cozile mult mai mult lungi dect
distribuia normal. Acest lucru reflect omai mare incertitudine la eroarea standard a
mediei.
Cnd numrul gradelor de libertate i, prinurmare dimensiunea eantionului ncepe s
creasc, distribuia t tinde s se apropie de
distribuia normal standard.
Distribuiile t se identific cu distribuianormal n teorie, atunci cnd eantionul
este infinit de mare.
n practic, este greu de spus dac avem odistribuie normal sau t la aproximativ 30
de grade de libertate
-
La fel ca la distribuianormal, distribuia t nu areo formul simpl pentrucalculul probabilitilorsale.
S-au folosit aproximrinumerice pentru a calculanumrul care este nlocuitde 1.96 n calculeleintervalelor de ncredere ia valorile p n testele desemnificaie
-
DISTRIBUIA T
Puncte critice la pragul de 5% pentru distribuia t cu 4 grade
de libertate
Puncte critice pentru pragurile de 1%, 5%, 0.1% i 0.01% pentru distribuia t
-
METODA T PENTRU UN EANTION Vom folosi distribuia t pentru a face analiza mediilor n eantioanele
de mici dimensiuni, analiz pe care am fcut-o mai sus pentru eantioane mari folosind distribuia normal
Rareori se ntmpl s fie necesar estimarea mediei unei populaiipe baza mediei unui eantion mic, dar vom ncepe cu aceasta deoarece este cel mai simplu caz
Pentru nelegerea metodei vom folosi datele a 9 pacieni cu rni cronice nevindecate (Shukla et al., 2004). Biopsiile au fost evaluate folosind scorul obinut de la un sistem care gradeaz angiogenezamicroscopic (MAGS) i care furnizeaz un indice ce evalueaz ct de bine vasele mici de snge sunt n curs de dezvoltare, evalund astfel regenerarea epitelial.
Scorurile mari sunt cele mai bune
-
Cele nou observaii au fost: 20, 31, 34, 39, 43, 45, 49, 51 i 63 df=8
Dac am avea un eantion mare am putea estima un interval de 95% ncredere prin scderea/adunarea la medie a 1.96 x eroarea standard: de la 41.7 - 1.96 x 4.2 la 41.7 + 1.96 x 4.2
METODA T PENTRU UN EANTION
-
avem numai 9 observaii - acest interval nu este valid. Vom folosi o distribuie t cu 8 grade de libertate
punctul critic la pragul de 5% pentru distribuia t cu 8 grade de libertate este 2.31(to.o5) , astfel c intervalul de ncredere pentru media scorurilor MAGS este de la 41.7 - 2.31 x 4.2 la 41.7 + 2.31 x 4.2, adic de la 32.0 la 51.4
METODA T PENTRU UN EANTION
Calculele sunt valabile numai dac observaiile
provin dintr-o distribuie normal
-
VERIFICAREA PRESUPUNERILOR REFERITOARE LA NORMALITATE
Cnd am vorbit despre distribuia normal am prezentat histograme pentru mai multe eantioane mari i am suprapus curbe normale pe acestea, pentru a vedea dac distribuia normal se potrivete acestor date. Pentru eantioane de dimensiuni mici este foarte dificil, pornind de la o histogram, s se trag o concluzie referitoare la normalitatea distribuiei
Exist o metod grafic bun prin care se poate examina compatibilitatea dintre o distribuie normal i un set de date, anume reprezentarea grafic a cuantilelornormalei (Normal quantile plot) sau pe scurt reprezentarea grafic a normalitii (Normal plot)
O reprezentarea grafic a normalitii este o reprezentare grafic a perechilor de date observate i a valorilor pe care ne ateptm s le obinem (valori teoretice), n cazul n care datele urmeaz o distribuie normal
-
VERIFICAREA PRESUPUNERILOR REFERITOARE LA NORMALITATE
Mai nti se ordoneaz observaiileascendent
Se calculeaz valoarea estimat pentruobservaia cu cea mai mic valoare dineantion pentru distribuia normal. ncazul distribuiei normale standardaceasta este -1.28 o face programulde analiz statistic
Vom transforma acum aceste valori ntr-odistribuie normal cu aceeai medie ivarian precum datele observate prinnmulirea valorilor distribuiei normalestandard cu abaterea standard calculatn eantion i adugarea apoi a medieieantionului
-1.28 x 12 0.5 + 41.7 = 25.6 Vom compara aceast valoare cu cea mai mic valoare observat care este de 20
-
Estimm cele 9 observaii (valorile medii pentru cele 9 observaii dintr-o distribuie normal standard):
Pentru un eantion extras dintr-o distribuie normal cu media i abaterea standard precum eantionul MAGS, vom nmuli cu abaterea standard (x12.5) i vom aduna cu media (41.7). Valorile obinute:
VERIFICAREA PRESUPUNERILOR REFERITOARE LA NORMALITATE
-
VERIFICAREA PRESUPUNERILOR REFERITOARE LA NORMALITATE
-
Reprezentare grafic perechi formate din scorurile MAGS observate i scorurile MAGS calculate pentru cazul n care datele ar urma o distribuie normal.
n cazul n care valorile observate i cele calculate sunt similare atunci perechile de puncte se aliniaz sau sunt foarte aproape de linia de egalitate (prima bisectoare) format din puncte pentru care valorile observate i cele calculate sunt egale
Cele mai multe dintre observaii sunt aproape de linie, ceea ce sugereaz c observaiile sunt destul de aproape de ceea ce am calculat pornind de la o distribuie normal (adic de ceea ce ne-am fi ateptat dac presupunerea de normalitate a datelor era adevrat)
-
Reprezentarea grafic a normalitii pentru datele referitoare de greutatea la natere
Distribuiile asimetriceproduc n jurul liniei deegalitate o curb
Distribuia este negativasimetric (asimetric lastnga) i punctele se abatmult de la linie ncadrndu-se sub ea spre capete (maimult spre cel inferior) idepind-o spre mijloc
-
Reprezentarea grafic a normalitii pentru colesterol la
pacienii cu accident vascular cerebral
Distribuiile asimetrice produc n jurulliniei de egalitate o curb
Distribuie pozitiv asimetric(asimetric la dreapta) i este vizibil ocurbur n sens opus celei carecorespunde distribuiei negativasimetrice
-
Reprezentarea grafic a normalitii pentru greutatea la
natere pentru vrsta gestaional de 37 sptmni
Distribuie aproximativ simetric
Se poate observa c aceste date se
potrivesc cu distribuia normaldestul de bine
-
Exist i teste de semnificaie precum:
teste Shapiro-Wilk
Shapiro-Francia
Kolmogorov-Smirnov
care pot fi folosite pentru a testa ipoteza nul ce stabilete c datele provin dintr-odistribuie normal. Metodele grafice sunt ns, mult mai utile n practic
Dac eantionul este mic, plecnd de la distribuia normal, acestea nu pot fisemnificative deoarece nu exist date suficiente pentru a detecta normalitatea
Dac eantionul este mare, pot exista abateri foarte mici de la normalitate carepot fi semnificative, dar astfel de abateri nu afecteaz rezultatele analizelor
-
Metoda t pentru eantioane perechi
lucrm cu observaii care sunt perechi (observaiile care provin de la acelaisubiect nainte i dup o intervenie i observaiile care provin de la acelaisubiect pentru care se fac dou intervenii diferite, de exemplu ntr-un studiudublu-ncruciat numit i studiu cross-over sau ntr-un studiu de tip caz-control)
-
Metoda t pentru eantioane perechi Dorim s tim dac media scorurilor MAGS s-
a modificat semnificativ i care este media scorurilor.
Calculm diferena dintre scorul MAGS dup tratament i scorul MAGS nainte de tratament, adic creterea n scor pentru MAGS
Avem 9 observaii, astfel c numrul gradelor de libertate folosite n calculul abaterii standard este de 9 - 1 = 8
Pentru a estima intervalul de 95% ncredere pentru media calculat n acest eantion mic, vom folosi punctul critic pentru pragul de 5% din distribuia t cu 8 grade de libertate. (Pentru 8 grade de libertate valoarea din tabel este 2.31)
Media diferenelor=9.33Abaterea standard pentru diferene=4.03
Eroarea std a mediei diferenelor=1.34
-
Pentru eantioane mici presupunem c diferenele urmeaz o distribuie normal
Intervalul de 95% ncredere:
Media-t0.05xeroarea standard a mediei , Media+t0.05xeroarea standard a mediei
t0.05 reprezint valoarea critic pentru pragul de 5% al distribuiei t cu un nr de grade de libertate=n-1
De la 9.33 - 2.31 1.34 la 9.33 + 2.31 1.34 (de la 6.2 la 12.4)
Testul de semnificaie se refer la:
Media diferenelor/Eroarea standard (Statistica testului) urmeaz o distribuie t cu n-1 grade de libertate
=9.33/1.34=6.96
Din tabelul t, p
-
Condiii care trebuiesc ndeplinite de datele testate, pentru ca metoda tpentru eantioane perechi s fie valid:
1. observaiile trebuie s fie independente, cu excepia asocierii
2. diferenele trebuie s urmeze o distribuie normal
3. media i abaterea standard a diferenelor trebuie s nu depind de mrimea (magnitudinea) msurtorilor.
Metoda t pentru eantioane perechi
-
1. observaiile trebuie s fie independente, cu excepia asocierii
- depinde de modul de proiectare al studiului. Acest condiie este ndeplinit pentru datele MAGS, deoarece perechile de date provin de la nou subieci diferii
2. folosim reprezentarea grafic a normalitii - Datele par a fi apropiate de linia de egalitate i nu exist nici un motiv s presupunem c diferenele nu urmeaz o distribuie normal
Metoda t pentru eantioane perechi
-
3. media i abaterea standard a diferenelor trebuie s nu depind de mrimea (magnitudinea) msurtorilor.
Metoda t pentru eantioane perechi
Diferenele n comparaie cu mediile creterilor n scorul MAGSreprezentare grafic de tip scatter plot
media diferenelor sauvariabilitatea diferenelelor nueste influenat sau este foartepuin influenat demagnitudinea scorilor MAGS
-
METODA T PENTRU DOU EANTIOANE INDEPENDENTE
este cunoscut sub mai multe denumiri: metoda t pentrueantioane neperechi, testul t nepereche, metoda t pentru dougrupuri sau testul Student t pentru dou eantioane
ne permite s estimm diferena dintre medii sau s testmipoteza nul, care stabilete c nu exist nici o diferen npopulaie, chiar i n cazul n care eantioanele sunt mici
-
METODA T PENTRU DOU EANTIOANE INDEPENDENTE
vom face o comparaie a densitii capilare (msurat pe mm2) pentru dou grupuri de pacieni: un grup de pacienii cu ulcer diabetic la picior i un grup de control fr ulcer (Marc Lamah)
Eantioanele sunt prea mici - nu se poatefolosi metoda pentru eantioane mari bazatpe distribuia normal
Nu se poate estima suficient de bine eroareastandard
Distribuia erorilor standard estimate depindede distribuia observaiilor