Regresia liniara si logistica
-
Upload
jennifer-parker -
Category
Documents
-
view
147 -
download
7
description
Transcript of Regresia liniara si logistica
RELAŢIE ŞI ASOCIERE
Anterior s-a subliniat faptul că asocierea a două variabile nu semnifică faptul că între acestea există o relaţie cauzală
Asocierea nu înseamnă dependenţăStabilirea unei relaţii cauzale în medicină
este dificilăRelaţia trebuie să fie plauzibilă, predictibilă şi
repetabilă şi să prezinte un mecanism de interconectare dovedit
RELAŢIE ŞI ASOCIERE - exemplu
Se analizează legatura dintre presiunea arterială sistolică (SBP) şi indexul de masă corporală (BMI)
Se presupune că între cele două variabile există o relaţie de dependenţă liniară
Relaţia dintre variabileRelaţia anterioară se poate prezenta sub
forma generală
X şi Y sunt variabilele în cauză b0 este coeficientul de intersecţie, locul unde
graficul taie axa yb1 este coeficientul de pantă şi este fie
pozitiv fie negativ
exemplu
Se studiază relaţia dintre indexul de masă şi circumferinţa şoldurilor în cadrul unui studiu de cohortă pentru un lot de 142 subiecţi de sex feminin
Se observă că reprezentarea scatter-plot relevă faptul că punctele se grupează de-a lungul unui segment de dreaptă
Regresia liniarăAtunci când se estimează o dependenţă
cauzală de tip liniar trebuie parcurse câteva etape pentru validarea estimării
1.Se demonstrează că relaţia de dependenţă este liniară
2.Se identifică b0 coeficientul de intersecţie şi b1 coeficientul de pantă
3. Se determină dacă relaţia stabilită are semnificaţie statistică
Este dependenţa liniară ?
Determinarea liniarităţii dependenţei,două metode
1. grafic-scatterplot2.analitic- metoda celor mai mici pătrateVariabila y este cea dependentă, numită şi
rezultat şi trebuie să fie metricăVariabila x este cea independentă, numită şi
predictor trebuie să fie nominală, ordinală sau metrică
Estimarea coeficienţilor b0 şi b1 Se aplică metoda celor mai mici pătrate, conform căreia
suma pătratelor distanţei de la fiecare punct al scatter-ului la dreapta de regresie este minimă
Distanţa de la punct la dreapta de regresie se numeşte eroare reziduală
Dreapta de regresie astfel determinată aproximează cel mai bine norul de puncte obţinut
Dreapta de regresie a eşantionului este descrisă de ecuaţia
Dreapta de regresie estimată pentru întreaga populaţie este descrisă de ecuaţia
Are ecuaţia de regresie semnificaţie statistică ?
După determinarea coeficienţilor b0 şi b1 se trece la verificarea coeficienţilor β0 şi β1 prin
1. determinarea intervalului de încredere pentru β1 ,care dacă îl conţine pe zero conduce la absenţa semnificaţiei statistice
2.se verifică ipoteza de nul: coeficientul β1 este zeroDacă factorul p este peste 0.05 ipoteza de nul se acceptă şi
rezultă că ecuaţia de regresie nu are semnificaţie statisticăCoeficientul b1 şi estimata lui β1 sunt definitorii pentru
analiza de mai sus.Coeficientul b0 nu este relevant în aceeaşi măsură
Regresia liniară multiplă Stabilirea unei dependenţe liniare între mai mult de două
variabile conduce la regresia liniară multiplă Spre exemplu dependenţa dintre indexul de masă corporală(BMI),
circumferinţa şoldurilor(HIP) şi a taliei (WST).
Cazul variabilelor nominale Dacă variabilele implicate în analiza regresiei liniare nu sunt
metrice sau ordinale se trece la codarea variabilei independente de tip nominal şi apoi este introdusă în model
De exemplu la studierea presiunii arteriale sistolice (SBP) ca variabilă dependentă există două variabile independente alese şi anume
1.vârsta AGE 2.statusul de fumător SMK ce este o variabilă nominală cu trei
categorii A.nefumător B.fost fumător C. fumător Pentru a introduce datele în calculator , variabila SMK trebuie
codată prin atribuirea unui scor conform tabelului următor
Cazul variabilelor nominaleEcuaţia de regresie
Tabelul de codare
De unde ecuaţia de regresie devine
Construcţia modelului şi selecţia variabilelor În cercetarea medicală se cere găsirea unor variabile care influenţează
variaţia variabilei dependente Selecţia variabilelor în cadrul cercetării se face: 1.automat,cu calculatorul 2.în regim manual Ambele proceduri au iniţial paşi comuni, astfel: A.identificarea unei liste de variabile independente B. reprezentarea scatterplot pentru fiecare pereche de variabile şi
identificarea grupării punctelor -liniar sau nu.Daca există dependenţă, dar nu este liniară se trece la codarea variabilei şi se reia reprezentarea.De exemplu relaţia dintre vârstă şi variabila dependentă e puternică ,dar neliniară.Se împarte domeniul vârstelor în 4 intervale şi se codifică prin 3 variabile de proiect.
C.se determină regresia pentru perechile de variabile şi se calculează factorul p
D.toate variabilele pentru care p > 0,2 sunt incluse în model.
Construcţia modelului şi selecţia variabilelor Metoda manuală de selecţie a variabilelor continuă pe două căi
alternative 1.selectarea regresivă a variabilelor Începe cu selectarea tuturor variabilelor vizate.Se calculează p
pentru fiecare variabilă, iar cele pentru care p>0,05 se elimină începînd cu valoarea maximă.Se reia procedura pentru variabilele ramase.În cadrul modelului rămân doar variabilele cu p< 0,05.Dacă prin eliminarea unei variabile p-ul celorlalte variabile se modifică major, atunci se renunţă la eliminarea variabilei în cauză
2.selectarea progresivă a variabilelor Se introduce prima variabilă în model şi apoi pe rând câte una din
celelalte variabile.Se calculează de fiecare dată p.Dacă noua variabilă introdusă nu are semnificaţie statistică, se elimină.Dacă prin eliminarea unei variabile p-ul celorlalte variabile se modifică major, atunci se renunţă la eliminarea variabilei în cauză
Regresia logistică În cercetarea medicală apar frecvent variabile
binare,dihotomice , de tipul: femeie-bărbat,mort-viu,fumător-nefumător sau variabile de alt tip ce pot să devină dihotomice ( masa corporală la naştere prin divizarea şirului în două sub şiruri,scorul Apgar prin divizare de genul mai mic de N şi mai mare de N)
Exemplu: se studiază cancerul mamar/stres prin investigarea relaţiei dintre variabila independentă vârstă şi cea dependentă diagnostic
Diagnosticul este o variabilă binară de forma Y=1 (malign) şi Y=0 (benign)
Prin plotarea variabilei diagnostic în raport cu variabila vârstă se obţine un scatterplot cu aspectul următor
Regresia logistică
Variabilitatea mare de vârstă în grupul cu diagnostic malign şi cel benign maschează diferenţa dintre grupuri.Dacă se grupează vârstele în intervale 40-49,50-59 etc şi se calculează proporţia de diagnostice maligne Y=1 în cadrul fiecărei grupe de vârstă se reduce variabilitatea,dar se conservă relaţia dintre variabile.
Regresia logistică Proporţia pentru Y=1 se notează P(Y=1 ) ce reprezintă
probabilitatea ca Y=1 Media variabilelor Y utilizată în cazul regresiei liniare se înlocuieşte
pentru variabilele binare cu probabilitatea P, de exemplu ca Y=1 Dacă se reprezintă probabilităţile ca Y=1 pentru mijloacele
intervalelor de vârstă, se obţine scatterplot-ul din imagine
Se observă că există o relaţie între variabile
Regresia logaritmicăPentru că probabilitatea 0<P<1 , pentru a descrie relaţia
dintre variabile care nu este în mod clar liniară se apelează la regresia logaritmică
Pentru o populaţie simplă(o singură variabilă independentă) ecuaţia regresiei logaritmice este
Pentru un eşantion ecuaţia regresiei logaritmice este
Exemplu de aplicare a regresiei logistice Se studiază dependenţa dintre utilizarea substanţei OCP şi
cancer.Diagnosticul este dat de Y=1 (malign) şi Y=0 (benign) Se scrie ecuaţia regresiei logistice pentru eşantion unde utilizarea
OCP este factorul de risc
Prin estimarea valorii parametrilor b0 şi b1 se obţin valorile b0 =-0,2877 şi b1 =-0,9507 .Prin înlocuirea valorilor în ecuaţia regresiei logistice se obţin
Pentru OCP=0 (substanţa nu s-a utilizat niciodată) P(Y=1 )=0,4286
Pentru OCP=1 (s-a utilizat substanţa ) P(Y=1 )=0,2247 În concluzie subiecţii care NU au utilizat OCP au probabilitate
aproape dublă să obţină un diagnostic malign.
Raportul şanselor Avantajul regresiei logistice este acela că permite acces rapid la
raportul şanselor
În exemplul anterior diagnostic versus OCP raportul şanselor de diagnostic malign pentru subiecţii care nu utilizează OCP şi cei care utilizează OCP este
Concluziile au semnificaţie statistică dacă intervalul de încredere pentru raportul şanselor nu îl conţine pe 1 sau dacă p<0,05
Generarea modelului regresiei logistice 1.Se întocmeşte lista variabilelor2.Pentru fiecare variabilă nominală sau ordinală se
efectuează testul χ2 ,se determină valoarea pPentru orice variabilă metrică se efectuează testul T
pereche sau regresia logaritmică, se determină valoarea pSe reţin variabilele cu p<0,25, iar variabila cu p minim se
alege variabila independentăSe adaugă apoi variabilele, una câte una, şi se verifică p
pentru a determina semnificaţia statistică.Dacă orice variabilă introdusă nu are semnificaţie statistică se renunţă la aceasta