Regresia liniara si logistica

RELAŢIE ŞI ASOCIERE

Anterior s-a subliniat faptul că asocierea a două variabile nu semnifică faptul că între acestea există o relaţie cauzală

Asocierea nu înseamnă dependenţăStabilirea unei relaţii cauzale în medicină

este dificilăRelaţia trebuie să fie plauzibilă, predictibilă şi

repetabilă şi să prezinte un mecanism de interconectare dovedit

RELAŢIE ŞI ASOCIERE - exemplu

Se analizează legatura dintre presiunea arterială sistolică (SBP) şi indexul de masă corporală (BMI)

Se presupune că între cele două variabile există o relaţie de dependenţă liniară

Relaţia dintre variabileRelaţia anterioară se poate prezenta sub

forma generală

X şi Y sunt variabilele în cauză b0 este coeficientul de intersecţie, locul unde

graficul taie axa yb1 este coeficientul de pantă şi este fie

pozitiv fie negativ

exemplu

Se studiază relaţia dintre indexul de masă şi circumferinţa şoldurilor în cadrul unui studiu de cohortă pentru un lot de 142 subiecţi de sex feminin

Se observă că reprezentarea scatter-plot relevă faptul că punctele se grupează de-a lungul unui segment de dreaptă

Regresia liniarăAtunci când se estimează o dependenţă

cauzală de tip liniar trebuie parcurse câteva etape pentru validarea estimării

1.Se demonstrează că relaţia de dependenţă este liniară

2.Se identifică b0 coeficientul de intersecţie şi b1 coeficientul de pantă

3. Se determină dacă relaţia stabilită are semnificaţie statistică

Este dependenţa liniară ?

Determinarea liniarităţii dependenţei,două metode

1. grafic-scatterplot2.analitic- metoda celor mai mici pătrateVariabila y este cea dependentă, numită şi

rezultat şi trebuie să fie metricăVariabila x este cea independentă, numită şi

predictor trebuie să fie nominală, ordinală sau metrică

Estimarea coeficienţilor b0 şi b1 Se aplică metoda celor mai mici pătrate, conform căreia

suma pătratelor distanţei de la fiecare punct al scatter-ului la dreapta de regresie este minimă

Distanţa de la punct la dreapta de regresie se numeşte eroare reziduală

Dreapta de regresie astfel determinată aproximează cel mai bine norul de puncte obţinut

Dreapta de regresie a eşantionului este descrisă de ecuaţia

Dreapta de regresie estimată pentru întreaga populaţie este descrisă de ecuaţia

Are ecuaţia de regresie semnificaţie statistică ?

După determinarea coeficienţilor b0 şi b1 se trece la verificarea coeficienţilor β0 şi β1 prin

1. determinarea intervalului de încredere pentru β1 ,care dacă îl conţine pe zero conduce la absenţa semnificaţiei statistice

2.se verifică ipoteza de nul: coeficientul β1 este zeroDacă factorul p este peste 0.05 ipoteza de nul se acceptă şi

rezultă că ecuaţia de regresie nu are semnificaţie statisticăCoeficientul b1 şi estimata lui β1 sunt definitorii pentru

analiza de mai sus.Coeficientul b0 nu este relevant în aceeaşi măsură

Regresia liniară multiplă Stabilirea unei dependenţe liniare între mai mult de două

variabile conduce la regresia liniară multiplă Spre exemplu dependenţa dintre indexul de masă corporală(BMI),

circumferinţa şoldurilor(HIP) şi a taliei (WST).

Cazul variabilelor nominale Dacă variabilele implicate în analiza regresiei liniare nu sunt

metrice sau ordinale se trece la codarea variabilei independente de tip nominal şi apoi este introdusă în model

De exemplu la studierea presiunii arteriale sistolice (SBP) ca variabilă dependentă există două variabile independente alese şi anume

1.vârsta AGE 2.statusul de fumător SMK ce este o variabilă nominală cu trei

categorii A.nefumător B.fost fumător C. fumător Pentru a introduce datele în calculator , variabila SMK trebuie

codată prin atribuirea unui scor conform tabelului următor

Cazul variabilelor nominaleEcuaţia de regresie

Tabelul de codare

De unde ecuaţia de regresie devine

Construcţia modelului şi selecţia variabilelor În cercetarea medicală se cere găsirea unor variabile care influenţează

variaţia variabilei dependente Selecţia variabilelor în cadrul cercetării se face: 1.automat,cu calculatorul 2.în regim manual Ambele proceduri au iniţial paşi comuni, astfel: A.identificarea unei liste de variabile independente B. reprezentarea scatterplot pentru fiecare pereche de variabile şi

identificarea grupării punctelor -liniar sau nu.Daca există dependenţă, dar nu este liniară se trece la codarea variabilei şi se reia reprezentarea.De exemplu relaţia dintre vârstă şi variabila dependentă e puternică ,dar neliniară.Se împarte domeniul vârstelor în 4 intervale şi se codifică prin 3 variabile de proiect.

C.se determină regresia pentru perechile de variabile şi se calculează factorul p

D.toate variabilele pentru care p > 0,2 sunt incluse în model.

Construcţia modelului şi selecţia variabilelor Metoda manuală de selecţie a variabilelor continuă pe două căi

alternative 1.selectarea regresivă a variabilelor Începe cu selectarea tuturor variabilelor vizate.Se calculează p

pentru fiecare variabilă, iar cele pentru care p>0,05 se elimină începînd cu valoarea maximă.Se reia procedura pentru variabilele ramase.În cadrul modelului rămân doar variabilele cu p< 0,05.Dacă prin eliminarea unei variabile p-ul celorlalte variabile se modifică major, atunci se renunţă la eliminarea variabilei în cauză

2.selectarea progresivă a variabilelor Se introduce prima variabilă în model şi apoi pe rând câte una din

celelalte variabile.Se calculează de fiecare dată p.Dacă noua variabilă introdusă nu are semnificaţie statistică, se elimină.Dacă prin eliminarea unei variabile p-ul celorlalte variabile se modifică major, atunci se renunţă la eliminarea variabilei în cauză

Regresia logistică În cercetarea medicală apar frecvent variabile

binare,dihotomice , de tipul: femeie-bărbat,mort-viu,fumător-nefumător sau variabile de alt tip ce pot să devină dihotomice ( masa corporală la naştere prin divizarea şirului în două sub şiruri,scorul Apgar prin divizare de genul mai mic de N şi mai mare de N)

Exemplu: se studiază cancerul mamar/stres prin investigarea relaţiei dintre variabila independentă vârstă şi cea dependentă diagnostic

Diagnosticul este o variabilă binară de forma Y=1 (malign) şi Y=0 (benign)

Prin plotarea variabilei diagnostic în raport cu variabila vârstă se obţine un scatterplot cu aspectul următor

Regresia logistică

Variabilitatea mare de vârstă în grupul cu diagnostic malign şi cel benign maschează diferenţa dintre grupuri.Dacă se grupează vârstele în intervale 40-49,50-59 etc şi se calculează proporţia de diagnostice maligne Y=1 în cadrul fiecărei grupe de vârstă se reduce variabilitatea,dar se conservă relaţia dintre variabile.

Regresia logistică Proporţia pentru Y=1 se notează P(Y=1 ) ce reprezintă

probabilitatea ca Y=1 Media variabilelor Y utilizată în cazul regresiei liniare se înlocuieşte

pentru variabilele binare cu probabilitatea P, de exemplu ca Y=1 Dacă se reprezintă probabilităţile ca Y=1 pentru mijloacele

intervalelor de vârstă, se obţine scatterplot-ul din imagine

Se observă că există o relaţie între variabile

Regresia logaritmicăPentru că probabilitatea 0<P<1 , pentru a descrie relaţia

dintre variabile care nu este în mod clar liniară se apelează la regresia logaritmică

Pentru o populaţie simplă(o singură variabilă independentă) ecuaţia regresiei logaritmice este

Pentru un eşantion ecuaţia regresiei logaritmice este

Exemplu de aplicare a regresiei logistice Se studiază dependenţa dintre utilizarea substanţei OCP şi

cancer.Diagnosticul este dat de Y=1 (malign) şi Y=0 (benign) Se scrie ecuaţia regresiei logistice pentru eşantion unde utilizarea

OCP este factorul de risc

Prin estimarea valorii parametrilor b0 şi b1 se obţin valorile b0 =-0,2877 şi b1 =-0,9507 .Prin înlocuirea valorilor în ecuaţia regresiei logistice se obţin

Pentru OCP=0 (substanţa nu s-a utilizat niciodată) P(Y=1 )=0,4286

Pentru OCP=1 (s-a utilizat substanţa ) P(Y=1 )=0,2247 În concluzie subiecţii care NU au utilizat OCP au probabilitate

aproape dublă să obţină un diagnostic malign.

Raportul şanselor Avantajul regresiei logistice este acela că permite acces rapid la

raportul şanselor

În exemplul anterior diagnostic versus OCP raportul şanselor de diagnostic malign pentru subiecţii care nu utilizează OCP şi cei care utilizează OCP este

Concluziile au semnificaţie statistică dacă intervalul de încredere pentru raportul şanselor nu îl conţine pe 1 sau dacă p<0,05

Generarea modelului regresiei logistice 1.Se întocmeşte lista variabilelor2.Pentru fiecare variabilă nominală sau ordinală se

efectuează testul χ2 ,se determină valoarea pPentru orice variabilă metrică se efectuează testul T

pereche sau regresia logaritmică, se determină valoarea pSe reţin variabilele cu p<0,25, iar variabila cu p minim se

alege variabila independentăSe adaugă apoi variabilele, una câte una, şi se verifică p

pentru a determina semnificaţia statistică.Dacă orice variabilă introdusă nu are semnificaţie statistică se renunţă la aceasta

Regresia liniara si logistica

Documents

Transcript of Regresia liniara si logistica