Curs-6

Evaluare psihologică – metode psihometrice curs 6

1

2.4. Validitatea incrementală Acest tip de validitate se referă la capacitatea instrumentului de a oferi informaţii suplimentare în comparaţie cu celelalte instrumente deja existente ce evaluează acelaşi construct. Formele de validitate descrise anterior vizează anumite calităţi intrinseci ale instrumentului (conţinutul itemilor săi, relevanţa pentru un criteriu exterior, potrivirea cu predicţiile teoretice ale ariei psihologice din care face parte constructul). Cea incrementală nu se raportează la o altă faţetă a instrumentului, ci are în vedere plusul faţă de celelalte instrumente pe care îl aduce instrumentul pe aceste dimensiuni ale validităţii. Cele mai frecvente evaluări ale validităţii incrementale se realizează asupra a două dintre faţetele validităţii concurente, şi anume cea predictivă şi cea discriminativă. În primul rând, un instrument nou ar trebui să permită predicţia mai precisă a unor comportamente reale ale individului (care reprezintă criteriul de validare pe această dimensiune a validităţii predictive). În al doilea, el ar trebui să indice mai bine diferenţele dintre oamenii care posedă acea caracteristică psihologică la un nivel ridicat şi cei care nu o posedă (cei de la polul opus) şi, deci, să ofere diagnostice mai precise, identificând mai corect indivizii din cele două categorii. În sinteză, se consideră că un instrument are validitate incrementală dacă permite creşterea corectitudinii diagnosticului şi a predicţiilor făcute pe baza instrumentului. 2.4.1. Validitatea incrementală predictivă este evaluată prin analiza capacităţii instrumentului de a creşte corectitudinea predicţiilor care pot fi făcute prin utilizarea sa cu privire la anumite comportamente reale (criterii). Tehnic, instrumentul are validitate incrementală predictivă dacă el duce la identificarea unei proporţii mai mari a cauzelor diferenţelor dintre subiecţi în ceea ce priveşte criteriul. Acest aspect este examinat prin metoda statistică a regresiei, analizând creşterea procentului de varianţă explicată a criteriului prin introducerea respectivului instrument ca predictor. Dacă el explică un procent mai mare de varianţă decât celelalte instrumente deja existente, înseamnă că diferenţele dintre oameni la scorurile sale sunt în mai mare măsură asociate cu diferenţe în privinţa respectivului comportament. Deci, el ajută mai mult decât celelalte instrumente în predicţia măsurii în care oamenii vor realiza acel comportament, având astfel validitate incrementală. b. Validitatea incrementală discriminativă În cursul despre validitatea de criteriu, cea discriminativă (ca formă a acesteia) a fost definită ca fiind capacitatea instrumentului de a separa corect oamenii din cele două tipuri extreme după criteriul trăsăturii măsurate. Dat fiind faptul că în cazul validităţii incrementale trebuie comparate mai multe instrumente după acest criteriu al separării corecte, simpla diferenţă dintre grupuri nu mai este suficientă. De aceea, pentru evaluarea diferenţierii între grupurile cunoscute la mai multe instrumente (cel nou şi cele deja existente), a fost elaborată o abordare mai complexă a validităţii discriminative în general (cu aplicaţii directe în cea incrementală),


2

care este focalizată pe corectitudinea diagnosticului ce poate fi pus prin folosirea acelui instrument. În practică, instrumentele au un etalon ce permite identificarea de niveluri ale acelei caracteristici psihologice, şi deci diagnosticarea oricărui individ care le completează prin includerea sa într-o categorie. Decizia cu privire la aceasta se ia prin compararea scorului total cu etalonul; de exemplu, un instrument care evaluează intensitatea depresiei şi care împarte oamenii în două categorii (depresie prezentă / absentă) ar putea avea scorul de demarcaţie între cele două 25. În acest caz, toţi subiecţii cu scor mai mare decât 25 ar fi diagnosticaţi ca depresivi, iar cei cu scor sub 25 – ca non-depresivi. În general, această abordare se aplică pe instrumentele similare cu cel din acest exemplu, adică cele care oferă o evaluare în termeni bipolari: fie prezenţa trăsăturii („diagnostic pozitiv”), fie absenţa sa („diagnostic negativ”). Validitatea discriminativă este analizată, în această abordare, pe baza a două dimensiuni, şi anume sensibilitatea şi specificitatea instrumentului. a. Sensibilitatea înseamnă procentul de identificări pozitive corecte; de exemplu, dacă dintre 100 de depresivi instrumentul ar diagnostica ca depresivi pe 80, atunci sensibilitatea sa ar fi de 0,8. Termenul de „sensibilitate” sugerează tocmai această idee, a gradului în care instrumentul poate detecta trăsătura pe care o evaluează (deci, este „sensibil” la ea). Deci, sensibilitatea se calculează în etapa de pretestare (ce necesită aplicarea instrumentului pe oameni din cele două categorii diagnostice – de exemplu, depresivi şi non-depresivi) ca raport dintre numărul de identificări pozitive corecte şi numărul total de indivizi care au trăsătura. În aplicarea viitoare a acelui instrument, ea indică probabilitatea de a obţine un diagnostic pozitiv corect în populaţia cu acea trăsătură (“true positives”). b. Specificitatea înseamnă procentul de identificări negative corecte; de exemplu, dacă dintre 100 de oameni care nu au depresie, instrumentul ar diagnostica ca non-depresivi pe 40, atunci specificitatea ar fi de 0,4 (implicit, el ar greşi la 60 dintre ei, diagnosticându-i ca depresivi). Termenul de „specificitate” sugerează necesitatea ca instrumentul să fie specific în diagnosticarea trăsăturii, adică diagnosticul pozitiv să fie limitat la oamenii care chiar au acea trăsătură, să fie „specific” lor, şi să nu fie aplicat şi pe cei de la polul opus. În pretestare, specificitatea se calculează ca raportul dintre numărul de identificări negative corecte şi numărul de indivizi care nu au acea trăsătură. În aplicarea viitoare a acelui instrument, ea indică probabilitatea de a obţine un diagnostic negativ corect în populaţia care nu posedă acea trăsătură - “true negatives. Deoarece în psihologie nu există instrumente perfecte, cele două dimensiuni sunt dependente reciproc, în sensul că creşterea sensibilităţii (prin schimbarea punctului de tăiere, de separare a celor două categorii, al scorurilor la instrument) duce la scăderea sensibilităţii: cu cât creştem probabilitatea de a detecta oamenii care posedă acea trăsătură, cu atât mai mult ne asumăm riscul de a diagnostica pozitiv – ca având acea caracteristică – şi oameni care, în realitate, nu o posedă. De exemplu, dacă vrem să detectăm toţi oamenii care au acea trăsătură, mutând punctul de tăiere în jos (de exemplu, la un instrument de evaluare a depresiei ce generează scoruri de la 1 la 10, am putea stabili linia de demarcaţie între cele două categorii la 2,


3

cei cu scoruri peste aceasta fiind diagnosticaţi ca depresivi), atunci este foarte probabil să diagnosticăm pozitiv şi mare parte din cei care nu au acea trăsătură. Analiza validităţii discriminative a unui instrument presupune şi această investigare a punctului de tăiere optim pentru a respecta obiectivele legate de specificitate şi sensibilitate. Tehnic, o metodă de examinare a sa este ROC (Receiver Operating Characteristic). Ea calculează cei doi parametri pentru fiecare scor al testului, considerat ca punct de tăiere: - Sensibilitatea – indicând procentul de indivizi care posedă acea trăsătură care au scorul mai mare decât acel punct de tăiere, deci procentul identificărilor pozitive corecte (în exemplul precedent, procentul de subiecţi depresivi cu scor peste 2); - 1 – specificitatea – aici, tehnica generează parametrul opus sensibilităţii, aşa cum a fost definită teoretic; acest parametru indică procentul de indivizi care nu posedă acea trăsătură şi care au, totuşi, scorul la test mai mare decât acel punct de tăiere (în exemplul anterior, procentul de depresivi care au şi ei scorul mai mare de 2 şi care ar fi diagnosticaţi greşit de instrument ca fiind depresivi). Deci, el arată procentul identificărilor pozitive eronate, care este inversul specificităţii (procentul identificărilor negative corecte): dacă din 100 de indivizi care nu au depresie, 40 sunt diagnosticaţi (greşit) ca având această caracteristică, atunci instrumentul oferă un diagnostic negativ corect pentru restul de 60. Cei doi parametri sunt reprezentaţi grafic, calculându-se “aria de sub curbă”, ce reprezintă indicatorul de bază al validităţii discriminative a testului. Această arie trebuie să fie semnificativ mai mare decât linia diagonală de reper, corespunzătoare valorii medii de 0,5, adică ghicirii la întâmplare a celor care au acea trăsătură. Aplicând această metodă a ghicirii, probabilitatea de a oferi un diagnostic corect unui individ este de 50% - din moment ce caracteristica respectivă are 2 posibilităţi (de exemplu depresiv – non-depresiv) -, indiferent dacă el este sau nu depresiv în realitate.

Linia de reper

Aria de sub curbă


4

Aria de sub curbă este calculată pe baza sensibilităţii şi specificităţii calculate pentru fiecare scor total la instrument; acestea sunt prezentate comparativ într-un tabel ca cel următor:

Coordinates of the Curve

Test Result Variable(s): scor test 1

1.0000 1.000 1.0002.5000 1.000 .9393.5000 .926 .8794.5000 .721 .5765.5000 .588 .3646.5000 .485 .1217.5000 .368 .1218.5000 .132 .030

10.0000 .000 .000

Positive ifGreater Thanor Equal Toa Sensitivity 1 - Specificity

The tes t result variable(s): scor test 1 has at least one tiebetween the positive actual s tate group and the negativeactual state group.

The smallest cutoff value is the minimumobserved test value minus 1, and the largest cutoffvalue is the maximum observed test value plus 1.All the other cutoff values are the averages of twoconsecutive ordered observed test values.

a.

Prima coloană conţine fiecare dintre posibilele puncte de tăiere ce ar putea face diferenţa între cele două categorii, derivate din scorurile totale ale instrumentului; a doua conţine sensibilitatea obţinută dacă punctul de tăiere ar fi stabilit la acea valoare, iar ultima conţine indicatorul „1 – specificitatea”, rezultat în aceeaşi situaţie. De exemplu, punctul de tăiere ar fi stabilit la 6,5, atunci sensibilitatea ar avea valoarea 0,485, adică 48,5% dintre subiecţii care au în realitate depresie ar fi diagnosticaţi ca atare; parametrul 1 – specificitatea ar fi 0,121, deci 12,1% dintre oamenii care nu au în realitate depresie ar fi identificaţi de test ca fiind depresivi (specificitatea ar fi de 87,9%). Tabelul următor conţine valoarea ariei de sub curbă şi testarea semnificaţiei diferenţei sale faţă de 0,5 (ghicirea la întâmplare).

Area Under the Curve

Test Result Variable(s): scor tes t 1

.662 .055 .008 .554 .770Area Std. Errora

AsymptoticSig.b Lower Bound Upper Bound

Asymptotic 95% ConfidenceInterval

The tes t result variable(s): scor test 1 has at least one tie between thepositive ac tual state group and the negative actual state group. Statis ticmay be biased.

Under the nonparametric assumptiona.

Null hypothesis : true area = 0.5b.

Valoarea Asymptotic Sig este mai mică decât 0,05, deci instrumentul oferă o clasificare semnificativ mai bună decât ghicirea. Valoarea ariei de sub curbă este 0,662; ea indică


5

probabilitatea ca un individ care are, în realitate, acea trăsătură să obţină un scor diferit (în acest caz, mai mare) la instrument decât unul care nu o posedă. Acest indicator sintetizează validitatea discriminativă a instrumentului, deoarece cu cât el este mai mare, cu atât acesta face diferenţa mai precis între oamenii din cele două categorii. Dacă valoarea ariei de sub curbă este maximă (1) atunci ar fi sigur (probabilitate de 100%) că orice subiect depresiv ar obţine un scor mai mare decât orice non-depresiv. Dacă ea ar fi redusă (apropiată de 0,5), ar înseamna că probabilitatea ca oamenii care au acea trăsătură să obţină scoruri mai mari decât cei care nu o au este la fel cu cea ca ei să obţină scoruri mai mici. Aşadar, instrumentul nu ar diferenţia între cele două grupuri şi nu ar putea fi folosit pentru a decide dacă un individ are sau nu acea trăsătură (validitatea sa discriminativă ar fi, în consecinţă, una redusă). Aplicaţii ale tehnicii ROC 1. evaluarea validităţii incrementale, prin compararea validităţii discriminative a noului instrument cu cea a unui instrument deja existent. Practic, această situaţie presupune alegerea instrumentul cu cea mai mare arie de sub curbă. De exemplu, presupunem că folosim două instrumente pentru evaluarea depresiei, aplicate pe un lot de subiecţi cărora le cunoaştem diagnosticul (ca fiind depresivi sau non-depresivi). Procedurile în SPSS sunt: Analyse – ROC Curve; Standard error and confidence interval; Coordinate points of the ROC curve; Value of state variable: 2 (codul depresivilor în baza de date). Rezultatele calculării ariilor de sub curbă indică faptul că testul 2 (al cărui parametru este 0,991, deci există o probabilitate de 99,1% ca un depresiv să aibă scorul la testul 2 mai mare ca un non-depresiv) are o arie mai mare, şi d eci o validitate discriminantă mai bună, chiar dacă ambele oferă o clasificare semnificativ mai bună decât ghicirea:

Area Under the Curve

.662 .055 .008 .554 .770

.991 .007 .000 .978 1.005

Test Result Variable(s)scor test 1scor test 2

Area Std. ErroraAsymptotic

Sig.b Lower Bound Upper Bound

Asymptotic 95% ConfidenceInterval

The tes t result variable(s): scor test 1, scor test 2 has at least one tie between the positive actualstate group and the negative actual s tate group. Statis tics may be biased.

Under the nonparametric assumptiona.

Null hypothesis : true area = 0.5b.

2. Identificarea punctului optim de tăiere al scorurilor la test – în funcţie de scopul utilizării instrumentului (screening sau diagnostic) - dacă instrumentul urmează a fi folosit în scop diagnostic, atunci este importantă echilibrarea, pe cât posibil, a celor două dimensiuni (sensibilitatea şi specificitatea)


6

- dacă instrumentul urmează a fi folosit în scop de screening, adică de detecţie a oamenilor care ar putea avea acea trăsătură, atunci ne putem asuma riscul includerii unora care nu o au; aceştia vor fi identificaţi de evaluările ulterioare de profunzime. De exemplu, în populaţia de adolescenţi poate fi importantă detecţia celor care ar putea avea ideaţii suicidare la orice nivel, indiferent cât de slab ar fi el, chiar dacă am include în această categorie şi un număr ridicat de adolescenţi care nu au, în realitate, astfel de ideaţii. Deci, pentru a atinge acest obiectiv al detecţiei maxime, sunt necesare valori mari ale sensibilităţii instrumentelor. Revenind la exemplul următor, valorile celor doi parametri ai instrumentului 2 sunt:



.0000 1.000 1.0001.5000 1.000 .9092.5000 1.000 .6973.5000 1.000 .4554.5000 1.000 .1215.5000 .926 .0306.5000 .706 .0007.5000 .412 .0008.5000 .103 .0009.5000 .015 .000

11.0000 .000 .000




a.

În scop diagnostic, valoarea recomandabilă a punctului de tăiere ar fi aici 5,5, deoarece astfel am obţine o sensibilitate şi specificitate de peste 0,9 (aproape egale). Deci, peste 90% din depresivi ar fi identificaţi ca atare, şi peste 90% din non-depresivi nu ar fi diagnosticaţi ca având depresie (şi ei primind, deci, diagnosticul corect). În scop de screening, valoarea recomandabilă ar fi de 4,5, deoarece ea ne-ar oferi o sensibilitate maximă (chiar şi cu o diminuare a specificităţii faţă de pragul anterior de 5,5. Valorile celor doi parametri ai instrumentului 1 sunt:


7



1.0000 1.000 1.0002.5000 1.000 .9393.5000 .926 .8794.5000 .721 .5765.5000 .588 .3646.5000 .485 .1217.5000 .368 .1218.5000 .132 .030

10.0000 .000 .000




a.

Aici, scopul diagnostic poate fi urmărit prin stabilirea punctului de tăiere la 5,5, deoarece el echilibrează cel mai mult cei doi parametri: 0,588 la sensibilitate şi 0,636 la sensibilitate (1-0,364). În scop de screening punctul de tăiere ar putea fi stabilit la 2,5, ceea ce ar asigura sensibilitatea maximă, însă specificitatea ar fi extrem de redusă (de doar 0,061, deci peste 90% din oamenii care nu au depresie ar fi diagnosticaţi greşit ca având). Acest procent extrem de mare al identificărilor pozitive eronate face ca instrumentul 1 să fie mai puţin recomandat pentru screening. Bibliografie • Aiken, L.R. (2000). Psychological testing and assessment, (10th edition), Allyn and Bacon • Bohrnstedt G. (1983). Measurement. în Rossi PH, Wright JD, Anderson AB (Eds.) Handbook of Survey Research. Orlando , FL : Academic Press • Clark, L. A., & Watson, D. (1995). Constructing validity: Basic issues in scale development. Psychological Assessment, 7, 309-319. • Cohen, R., Swerdlik, M., & Smith, D. (2009). Psychological testing and assessment: An introduction to tests and measurements (7th ed.). New York: McGraw-Hill • Fischer J., Corcoran K. (2007). Measures for clinical practice: A sourcebook. 4nd Ed., New York: Oxford University • Havârneanu, C. (2000). Cunoaşterea psihologică a persoanei, Iaşi, Polirom • Kerlinger, F.N. (1986). Foundations of behavioral research (3rd ed.) New York: Holt, Rinehart and Winston. • Nunnally, J., Bernstein, I. (1994) Psychometric Theory. New York: McGraw Hill, 3rd ed. • Switzer, G., et al. (2000). Measurement issues in intervention research. în R. Schulz (Ed.), Handbook on dementia caregiving: Evidence-based interventions for family caregivers. New York: Springer • Urbina. S. (2004). Essentials of Psychological Testing, John Wiley & Sons, Inc.

Curs-6

Documents

Transcript of Curs-6