Statistica Analitica Just Med

11
1 Statistica analitica Statistica analitica Probabilitati Probabilitati Probabilitatea unui eveniment specificat este fractiunea sau Probabilitatea unui eveniment specificat este fractiunea sau proportia din toate evenimentele posibile ale evenimentului proportia din toate evenimentele posibile ale evenimentului specificat intr-o succesiune aproape nelimitata a probelor in specificat intr-o succesiune aproape nelimitata a probelor in conditii similare. conditii similare. Probabilitatea unui eveniment nu poate fi mai mare de 1 (100%) Probabilitatea unui eveniment nu poate fi mai mare de 1 (100%) sau mai mica decat 0 (0%). sau mai mica decat 0 (0%). Aplicatii Aplicatii Valorile probabile intr-o populatie sunt distribuite intr-o Valorile probabile intr-o populatie sunt distribuite intr-o maniera definita care poate fi folosita pentru a analiza maniera definita care poate fi folosita pentru a analiza populatia. populatia. Valorile probabile care nu urmeaza o distributie pot fi Valorile probabile care nu urmeaza o distributie pot fi analizate folosind metode neparametrice. analizate folosind metode neparametrice. Tipuri Tipuri Cele mai uzuale distributii de probabilitate sunt: Cele mai uzuale distributii de probabilitate sunt: distributia binomiala distributia binomiala distributia normala distributia normala distributia “t” distributia “t” distributia distributia 2 2 (Chi) (Chi) Calcul Calcul Probabilitatea unui eveniment este determinata de formula: Probabilitatea unui eveniment este determinata de formula: Pr (A) = n/N Pr (A) = n/N Pr (A) = probabilitatea evenimentului A Pr (A) = probabilitatea evenimentului A n = nr. de cate ori evenimentul A s-a produs n = nr. de cate ori evenimentul A s-a produs N = nr. de cate ori evenimentul A este posibil sa se produca N = nr. de cate ori evenimentul A este posibil sa se produca (nr. total de evenimente posibile) (nr. total de evenimente posibile) Reguli de calcul a probabilitatilor Reguli de calcul a probabilitatilor Regula aditiva: daca avem cel putin doua evenimente mutual Regula aditiva: daca avem cel putin doua evenimente mutual exclusive sau “disjuncte” (realizarea unuia inseamna automat exclusive sau “disjuncte” (realizarea unuia inseamna automat nerealizarea celuilalt) atunci probabilitatea lui A sau B se nerealizarea celuilalt) atunci probabilitatea lui A sau B se calculeaza prin insumarea probabilitatilor fiecarui eveniment. calculeaza prin insumarea probabilitatilor fiecarui eveniment. Calcul: Pr(A sau B)=Pr(A)+Pr (B) Calcul: Pr(A sau B)=Pr(A)+Pr (B) Reguli de calcul a probabilitatilor Reguli de calcul a probabilitatilor Regula multiplicativa: se aplica in situatia a 2 sau mai multe Regula multiplicativa: se aplica in situatia a 2 sau mai multe evenimente independente care se produc concomitent si consta evenimente independente care se produc concomitent si consta in multiplicarea probabilitatilor individuale ale in multiplicarea probabilitatilor individuale ale evenimentelor. evenimentelor.

Transcript of Statistica Analitica Just Med

1

Statistica analiticaProbabilitatiProbabilitatea unui eveniment specificat este fractiunea sau proportia din toate evenimentele posibile ale evenimentului specificat intr-o succesiune aproape nelimitata a probelor in conditii similare.Probabilitatea unui eveniment nu poate fi mai mare de 1 (100%) sau mai mica decat 0 (0%).AplicatiiValorile probabile intr-o populatie sunt distribuite intr-o maniera definita care poate fi folosita pentru a analiza populatia.Valorile probabile care nu urmeaza o distributie pot fi analizate folosind metode neparametrice. TipuriCele mai uzuale distributii de probabilitate sunt:distributia binomialadistributia normaladistributia tdistributia 2 (Chi)CalculProbabilitatea unui eveniment este determinata de formula:Pr (A) = n/NPr (A) = probabilitatea evenimentului An = nr. de cate ori evenimentul A s-a produsN = nr. de cate ori evenimentul A este posibil sa se produca (nr. total de evenimente posibile)Reguli de calcul a probabilitatilorRegula aditiva: daca avem cel putin doua evenimente mutual exclusive sau disjuncte (realizarea unuia inseamna automat nerealizarea celuilalt) atunci probabilitatea lui A sau B se calculeaza prin insumarea probabilitatilor fiecarui eveniment.Calcul: Pr(A sau B)=Pr(A)+Pr (B)Reguli de calcul a probabilitatilorRegula multiplicativa: se aplica in situatia a 2 sau mai multe evenimente independente care se produc concomitent si consta in multiplicarea probabilitatilor individuale ale evenimentelor.Calcul: Pr(A si B)=Pr(A)xPr(B)

Ipoteza nulaH0 este ipoteza care postuleaza faptul ca esantioanele sau populatiile pe care le avem de comparat in cadrul unui studiu, experiment sau test sunt similare, sau cu alte cuvinte, orice diferenta este atribuita sansei si nu unui anumit factor.Aplicatii si caracteristiciIpoteza nula postuleaza absenta unor deosebiri care pot aparea in orice problema de comparare statistica.Este folosita pentru a defini semnificatia diferentei. Semnificatia diferentei, numita si semnificatie statistica, este concluzia ca diferenta intre esantioane, populatii sau ambele, este datorata unor factori altora decat sansa.Diferenta semnificativa apare cand ipoteza nula este respinsa. Cand ipoteza nula este respinsa, cel putin una din ipotezele alternative este acceptata, deci diferenta poate fi explicata prin alt factor decat sansa.Cand nici o diferenta nu poate fi sustinuta intre 2 populatii, inseamna ca se accepta ipoteza nula, dar nu inseamna ca mediile populatiilor sunt identice.Valoarea probabilitatii pentru care diferenta se datoreaza numai sansei se numeste nivel de semnificatie. Daca el este de maximum 5% atunci ipoteza nula este respinsa si o ipoteza alternativa este acceptata; spunem ca diferenta este statistic semnificativa. Nivelul de semnificatie se noteaza cu sau p-value si este ales de cercetator a priori.In orice procedeu de comparare se pot emite 2 tipuri de erori:Eroarea de speta I care reprezinta decizia de a respinge ipoteza nula cand ea este adevarata;Eroarea de spata aII-a care reprezinta decizia de a accepta ipoteza nula cand aceasta este falsa.Probabilitatile erorilor asociate sunt:Pr (respH0/H0=adevarat)==riscul erorii de speta IPr(acceptH0/H0=fals)==riscul erorii de speta aII-a = puterea testuluiPe baza acestei interpretari, in spatiul esantioanelor multimea valorilor posibile calculate se divide in 2 intervale:Intervalul de acceptare sau intervalul critic reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate se inscrie printre valorile sale, se accepta ipoteza nula.Intervalul de respingere reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate prin test se inscrie printre valorile sale se respinge ipoteza nula.Diferentele statistic semnificative pot sa nu fie semnificative clinic, si diferentele clinic importante pot sa nu fie statistic semnificative.Ipoteza nula poate fi testata fie prin test unilateral one-tailed test sau bilateral two-tailed testTestul unilateralEste acel test pentru care intervalul de respingere este format (dupa distributia normala) dintr-o singura coada stanga sau dreapta testul fiind unilateral stang sau drept.Este folosit pentru a testa o ipoteza nula pentru care ipoteza alternativa este directionata, comparatia facandu-se intr-un singur sens , si este mai puternic ca un test bilateral.Testul bilateralEste acel test pentru care intervalul de respingere este format din 2 cozi-in stanga si in dreapta curbeiEste folosit pentru a testa o ipoteza nula nefiind necesara nici o presupunere privind ipoteza alternativaSe folosesc cand generam ipotezele alternative si sunt mai utilizate in comparatie cu testele unilateraleCalculH0:P1-P0=0 sau P1=P0Ha:P1-P0=0 sau P1=P0Unde P1 este probabilitatea caracteristicii studiate in esantion, iar P0 este probabilitatea aceleiasi caracteristici in populatie sau o probabilitate teoretica sau din literatura.Tabele de contingenta si grade de libertateReprezinta o clasificare a datelor in functie de 2 criterii in cadrul carora datele sunt in continuare divizate in 2 sau mai multecategorii discrete si mutual exclusive.Tabelul de contingenta in care sunt mai mult de 2 categorii pentru fiecare din cele 2 criterii este numit tabelul rxc.Un tabel de contingenta in care avem numai 2 categorii pentru fiecare din cele 2 criterii de grupare este numit tabelul 2x2AplicatiiEste o metoda simpla de prezentare a datelor si mult folosita cand aplicam testul chi patrat sau alte teste neparametrice.Tabelul 2x2 se foloseste in domeniul epidemiologiei.Grade de libertateEste un numar legat de efectivul valorilor dintr-o serie sau o distributie; el poate fi in mod liber atribuit cand suma valorilor este fixata.Intr-un tabel de contingenta, gradele de libertate reprezinta numarul celulelor din tabel carora li se pot atribui in mod liber valori, presupunand totalul si valorile marginale stabilite.Daca valorile din aceste celule au fost stabilite, valorile tuturor celulelor ramase din tabel sunt determinate in mod automat.Aplicatie si calculIn cadrul unor distributii de probabilitate, cum ar fi distributia t si distributia 2 valorile probabilitatilor de respingere a ipotezei nule variaza in functie de numarul de grade de libertate ale esantionului.Calcul: cand distributia are fie o singura linie, fie o singura coloana, numarul de grade de libertate este determinat prin formula: df=c-1, daca r=1 sau df=r-1, daca c=1Cand tabelul are cel putin 2 linii si/sau cel putin 2 coloane, nr. de grade de libertate este determinat de formula: df=(r-1)x(c-1)Distributia unui esantion de 100 nou-nascuti in functie de sex si de mediul de rezidentaDistributia binomialaEste acea distributie a rezultatelor obtinute in cadrul unui experiment, cand acestea au numai valori discrete si mutual exclusive.Aplicatii: este folosita cand ne referim la probabilitatea a 2 rezultate mutual exclusive intr-un numar cunoscut de probe. Probabilitatea fiecaruia dintre cele 2 rezultate este aceeasi in fiecare proba, dar rezultatul fiecarei probe este independent de rezultatul altei probe.CalculPentru o distributie binomiala, probabilitatea este data de formula:f(x) =[n!/x!(n-x)!]pxqn-xf(x)= probabilitatea obtinerii valorii x in probep=probabilitatea unuia din cele 2 rezultate posibile (un succes) intr-o singura probaq=probabilitatea celuilalt rezultat posibil (un esec) intr-o singura proban=nr. total de probe din cadrul experimentuluix=nr. de succese obtinute in cadrul unui experiment de n proben-x=numarul de esecuri obtinute in cadrul aceluiasi experiment!=semnul factorial Distributia binomiala se refera deci la o variabila aleatorie discreta x pentru care valoarea medie si dispersia sunt date de formulele:x=np2=npqPentru diverse valori ale lui n si p se obtindiverse curbe reprezentative pentruprobabilitatile f(x).Pentru np>10 si nq>10, curbele devininsuficient de simetrice in jurul valorii lui x si sepoate asimila distributia binomiala cu o distributienormala.

Daca in cazul distributiei binomiale consideram n foarte mare si probabilitatea p foarte mica, astfel ca produsul np==x devin:f(x)=e- . x/x! probabilitati care conduc la distributia Poisson. Se demonstreaza ca valoarea medie si dispersia pentru aceasta distributie sunt: x= 2 x= Prin cresterea lui se obtin curbe cat maisimetrice, astfel pentru >20 sau =20, distributialui Poisson poate fi asimilata cu o distributienormala. Distributia normala (Gauss Laplace)Este o distributie teoretica, continua, simetrica, unimodala, si poate, teoretic, sa varieze intre infinit si +infinit.Curba distributiei normale are doua cozi simetrice si este determinata prin media si deviatia standard a populatiei .Media, mediana si modulul unei populatii distribuite normal sunt egale.AplicatiiPoate fi folosita pentru a studia multe populatii si esantioane, esantioanele trebuie sa fie de minimum 30 de cazuri.Distributia normala si aproximarea normala constituie bazele unui numar de teste analitice, cum ar fi testul t sau chi patrat.Raportul critic sau scorul zEste numarul deviatiilor standard ce separa un indicator calculat in esantion de parametrul corespunzator intr-o populatie normala.Cresterea raportului critic corespunde descresterii probabilitatii de acceptare a ipotezei nulePot fi calculate si listate proportiile populatiei in interiorul intervalului si/sau in afara intervalului.

Intr-o populatie distribuita normal, aproximativ 68% din populatie este situata in interiorul unui raport critic, aproximativ 95% din populatie este situata in interiorul a 2 rapoarte critice ale mediei si in jur de 99,7% este situata in interiorul a 3 rapoarte critice mediei.In esantioanele numeroase, raportul critic este folosit pentru a calcula intervalele de incredere in jurul mediei de esantion.Calculz=lx-l/z=raportul criticx=valoarea de testat=media populatiei=deviatia standard a populatieiTestul t (student)Este bazat pe distributia t, distributie care reflecta o mai mare variatie datorata sansei in comparatie cu distributia normala.Este continua, simetrica, unimodala, variaza de la infinit la +infinit, este mult mai larga in comparatie cu distributia normala.Este utilizata pentru a analiza esantioane mici.Cand volumele esantioanelor cresc, distributia t se apropie de distributia normala, astfel ca pentru un numar infinit de grade de libertate cele 2 distributii sunt identice si valorile critice ale lui t sunt egale cu raportul critic al distributiei normale.Testul t pentru un esantion micTestul t pentru un singur esantion mic compara o singura medie (x) a esantionului cu media populatiei.Aplicatii si caracteristiciSunt folosite pentru a evalua ipoteza nula pentru variabile cantitative, pentru esantioane de volum mai mic de 30 de cazuri.Sunt utilizate in analiza pentu care SD din esantioane sunt substituite ca estimatii pentru SD din populatii.Valoarea probabilitatii de respingere a ipotezei nule, cand aceasta este adevarata =p-value este obtinuta din tabela t corespunzatoare lui df=n-1 grade de libertate.In cazul esantioanelor mici, sub 30 de cazuri, distributia t este folosita pentru a calcula intervalele de incredere in jurul mediei esantioniului. CalculValoarea calculata a testului pentru compararea mediei esantionului cu media populatiei este determinata prin formula:t(df)=lx-l/(SD/n)t(df)=valoarea calculata a testului la df. gr. de libertatedf=nr. de grade de libertatex=valoarea medie a esantionului=media populatieiSD=deviatia standardn=volumul esantionuluiNumitorul ecuatiei se numeste eroarea standard a mediei esantionului.Testul t pentru esantioane independenteCompara valori medii a 2 esantioane mici.Utilitatea si restrictiile sunt aceleasi cu exceptia ca esantioanele trebuie sa fie sub 30 de cazuri.Este nepotrivit cand avem de comparat mai multe valori medii.Calcult(df)=lx-yl/SDp1/n1+1/n2SDp=(xi-x)2+ (yi-y)2/(n1-1)+(n2-1)SDp=deviatia standard ponderata a celor 2 esantioaneTestul t pentru esantioane perechiCompara valorile medii a 2 esantioane perechi.In acest caz numarul de perechi trebuie sa fie sub 30.t(df)=d /(SDp/n)SDp= (di-d)2/(n-1)di=diferentele in cadrul fiecarei perechid=valoarea medie a diferentelorNumitorul testului t pe perechi este eroarea standard a diferentei mediilor.Valoarea calculata a testului t este folosita pentru a stabili probabilitatea ca diferenta intre esantioanele perechi, la gradele de libertate respective sa se datoreze sau nu sansei.Eroarea standard si limitele de incredereEste bazata pe un esantion al populatiei si este o estimatie a deviatiei standard a masuratorilor pentru populatie.Este o masura a acuratetei mediei esantionului ca o estimatie a mediei populatiei.Este raportul dintre deviatia standard si radical de ordinul 2 din volumul esantionului.Este folosita pentru a construi limitele de incredere in jurul mediei esantionului.Este folosita la testul t.SEM=SD/n unde n=nr. de obs. in esantionLimitele de incredere ale valorii mediiDefinesc valorile probabile pentru un parametru al populatiei, pe baza volumului esantionului si a valorii erorii standard.Intervalele de incredere sunt exprimate in termenii probabilitatii bazate pe eroarea .Un interval de incredere (1- ), exprima faptul ca probabilitatea ca parametrul populatiei sa se gaseasca in intervalul de incredere este 1- , iar probabilitatea ca parametrul populatiei sa se gaseasca in afara intervalului de incredere este .Limitele de incredere ale mediei populatiei () definesc intervalul de incredere pentru media populatiei pe baza mediei esantionului.Pentru esantioane mai mari sau egale cu 30 limitele de incredere sunt bazate pe raportul critic corespunzator probabilitatii asociate.Pentru esantioane mici sub 30 limitele de incredere sunt bazate pe valorile lui t din tabele, corespunzator numarului de grade de libertate si probabilitatii asociate. UtilitateSunt folosite pentru a estima media populatiei pe baza mediei esantionului extras din populatie.Cel mai des folosite sunt limitele de incredere de 95%, care indica faptul ca probabilitatea ca valoarea mediei necunoscuta din populatie sa se afle intre aceste limite este de 95%, iar in afara lor este de 5%.CalculPentru esantioane mariLimitele de incredere (1- )=xzSEM

Pentru esantioane miciLimitele de incredere (1- )=xtdf,SEMTestul chi patrat 2Compara o distributie de frecvente absolute observate cu o distributie teoretica (asteptata) de frecvente absolute pe baza distributiei de probabilitate chi patrat.Este o distributie continua, simetrica si se bazeaza pe aproxiamtia normala a distributiei binomiale. Distributia chi patrat cu 1 grad de libertate este identica cu distributia patratului raportului critic.Aplicatii si caracteristiciTestul chi patrat de tip rxc este folosit pentru a compara o distributie observata cu o distributie teoretica sau compara 2 sau mai multe distributii observate.Categoriile de date folosite trebuie sa fie mutual exclusive si discrete.Trebuie folosite numai valori absolute.Frecventele teoretice trebuie sa fie mai mari decat 5, cele observate pot fi mai mici decat 5.Valorile probabilitatii pentru respingerea ipotezei nule sunt obtinute din tabele speciale pentru distributia chi patrat corespunzator numarului de grade de libertate.Corectia YatesDeoarece distributia chi patrat este bazata pe aproximatia normala a distributiei binomiale, se impune o corectie de continuitate numita corectia Yates, aceasta consta intr-o modificare in formula de calcul a testului chi patratCorectia Yates se foloseste pentru esantioane mici si scade valoarea lui chi patrat, deci scade probabilitatea respingerii ipotezei nule. Calcul2c(df)= (|Oi-Ei|-1/2)2/Ei 2c(df)=valoarea calculata a testului chi patrat cu corecta YatesOi=frecventele absolute observate din fiecare celula a tabeluluiEi=frecventele teoretice corespunzatoare frecventelor observate=corectia yatesTestul chi patrat 2x2Este un caz particular si se aplica pantru tabelele de contingenta de tip 2x2 si are un grad de libertate.2c(1)=n(|ad-bc|-n/2)2/(a+b)(c+d)(a+c)(b+d)Testul McNemarEste un test chi patrat 2x2 specific pentru compararea esantioanelor perechi.Ipoteza nula care este de testat este aceea ca frecventele asteptate pentru perechile discordante sunt egale.Testul are un grad de libertae si se poate calcula dupa formula:2c=(|f-g|-1)2/f+g unde f si g sunt valorile perechilor discordante