Psi Ho Diagnostic

Universitatea Babeş-Bolyai

PSIHODIAGNOSTIC Sem I

Conf. Univ. Dr. Anca Dobrean

2

I. Informatii generale

Date de identificare ale cursului : Numele cursului : PSIHODIAGNOSTIC Codul cursului : Psy 2093 Anul : II ; Semestrul I Tipul cursului : Obligatoriu Număr de credite : 6,5 Pagina web a cursului : www.psychology.ro Date de contact ale titularului de curs: Nume: Anca Dobrean Birou: str. Republicii, nr. 37 Telefon: 0264-434141 Fax: 0264-434141 E-mail: [email protected] Consultatii : Joi 10-12 Date de identificare curs si contact tutori: Tutori : Asistent de cercetare drd. Madalina Sucala Asistent de cercetare drd. Cristina Mogoaşe Adresa e-mail tutori: [email protected] CerinŃe: Parcurgerea cu succes a cursului presupune: • ÎnvăŃarea suportului de curs electronic • Parcurgerea bibliografiei obligatorii • Efectuarea lucrărilor de seminar Examinare: Nota finală se compune din: a. punctajul obŃinut la examenul scris în proporŃie de 70% (7 puncte) b. evaluarea proiectului de semestru 30% ( 3 puncte). Calendarul cursului: - consultaŃiile faŃă în faŃă vor avea loc în data de 19 noiembrie 2011, ora 15, Amfiteatrul Zorgo şi 14 ianuarie 2012, ora 13, Amfiteatrul Mărgineanu. - consultaŃiile online vor avea loc în zilele de luni de la ora 20 la 21 şi miercuri, de la ora 10 la 11, prin intermediul yahoo messenger (ID: psihodiagnostictutor) Proiectul va fi trimis până în data de 20 ianuarie 2012 pe adresa de email [email protected] Tutori: conf. dr. Anca Dobrean, drd. Cristina Mogoase, drd. Simona Stefan. Adresa de contact: [email protected] Obs.: toate mesajele legate de această disciplină se vor trimite doar pe adresa [email protected] Ore de consultaŃii conf. univ. dr. Anca Dobrean: joi 10-12, Institutul de Psihologie, str. Republicii nr 37. Disciplina Psihodiagnostic este o disciplină obligatorie pentru anul II. Scopul principal pentru semestrul I este acela de a asimila principalele cunoştinŃe şi deprinderi de a analiza un instrument de evaluare psihologică.

3

Conditionări si cunostinte prerechizite Înscrierea la acest curs este condiŃionată de parcurgerea şi promovarea următoarelor discipline Psihologie generală I , Psihologie generală II, Psihologie Experimentală I şi Psihologie Experimentală II. CunoştinŃele dobândite prin aprofundarea acestor discipline sporesc considerabil accesibilitatea temelor propuse în acest curs. În totalitatea lor, aceste prerechizite vor fi foarte utile în rezolvarea sarcinilor de lucru şi, respectiv în promovarea examenului de evaluare finală. Descrierea cursului Cursul de Psihodiagnostic face parte din pachetul de discipline fundamentale ale specializării psihologie, nivel licenŃă, din cadrul FacultăŃii de Psihologie şi ŞtiinŃe ale EducaŃiei a UniversităŃii „Babeş-Bolyai” din Cluj-Napoca. Cursul are ca obiectiv formarea cunoştinŃelor de bază în ceea ce priveste psihodiagnosticul şi evaluarea psihologică, elemente esenŃiale în anatomia oricărui demers psihologic. Cursul abordează o serie de modalităŃi şi instrumente de evaluare psihologică, urmărind formarea cunoştinŃelor şi competenŃelor de analiză a principalelor calităŃi psihometrice ale acestor instrumente (fidelitatea, validitatea, etalonarea) precum şi oferirea unor cunoştinŃe de bază privind construcŃia, aplicarea şi interpretarea testelor psihologice. Organizarea temelor în cadrul cursului Cursul este structurat pe opt module de învăŃare, prezentate în continuare: Conceptele de măsurare, evaluare in psihologie, Evaluarea psihologică: indici statistici de măsurare/evaluare, Etalonarea testelor, Fidelitatea testului psihologic, Validitatea testului psihologic, Algoritmul construcŃiei unui test psihologic, Utilitatea diagnostică a unui test psihologic, Adaptarea instrumentelor pentru alte culturi. Nivelul de intelegere si, implicit, utilitatea informatiilor pe care le regăsiti in fiecare modul vor fi optimizate dacă, în timpul parcurgerii suportului de curs, veti consulta sursele bibliografice recomandate. De asemenea, rezolvarea sarcinilor de lucru presupune parcurgerea referinŃelor obligatorii, menŃionate la finalul fiecărui modul.

Formatul si tipul activităŃilor implicate de curs

Parcurgerea celor opt module descrise va presupune atât întâlniri faŃă în faŃă (consultatii), cât şi muncă individuală. Consultatiile, pentru care prezenta este facultativa, reprezinta un sprijin direct acordat dumneavoastra din partea titularului si a tutorilor. Acestea vor presupune prezentarea teoretică a informaŃiilor fiecărui modul. Pentru fiecare modul, dumneavoastra veti parcurge materialele bibliografice obligatorii. Vor exista doua sarcini obligatorii, discutate şi detaliate la fiecare dintre cele două consultaŃii. Grila de notare si enunŃul acestora vor fi specificate la aceste întâlniri. Modalitatea de notare si, respectiv, ponderea acestor activitati obligatorii, în nota finala va sunt precizate în secŃiunea politica de evaluare şi notare.

Pe scurt, având în vedere particularităŃile învăŃământului la distanŃă dar şi reglementările interne ale CFCID al UBB parcurgerea şi promovarea acestei discipline presupune antrenarea studenŃilor în următoarele tipuri de activităŃi:

a. consultaŃii – pe parcursul semestrului vor fi organizate două întâlniri de consultaŃii faŃă în faŃă; prezenŃa la aceste întâlniri este facultativă;

b. realizarea a două sarcini de lucru obligatorii, anunŃate cu cel puŃin 30 de zile înaintea datei de depunere a acesteia, trimise tutorilor în conformitate cu calendarul disciplinei.

Materiale bibliografice obligatorii

In suportul de curs, la finalul fiecarui modul sunt precizate referinŃele biblografice obligatorii. Sursele bibliografice au fost astfel stabilte încât să ofere posibilitatea adâncirii nivelului de analiză si, implicit, comprehensiunea fiecărei teorii, facilitând înŃelegerea şi aprofundarea temelor de studiu abordate în fiecare modul.

4

Acestea pot fi accesate la Biblioteca Centrala Universitara LUCIAN BLAGA, Cluj-Napoca.

Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium. Albu, M. (2000). Metode şi instrumente de evaluare în psihologie. Editura Argonaut. Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,

Wadsworth Thomson Learning, Fifth Edition. Stan, A. (2002). Testul psihologic. EvoluŃie construcŃie, aplicaŃii. Editura Polirom

Materiale si instrumente necesare - retroproiector - staŃie sonorizare (pentru curs) - laptop - videoproiector - materiale xeroxate pentru activităŃi seminar Calendarul cursului

Sunt programate 2 întâlniri faŃă în faŃă (consultaŃii) cu toŃi studenŃii loc în data de 14 noiembrie 2010, ora 13, Amfiteatrul Mărgineanu şi 15 ianuarie 2011, ora 13, Amfiteatrul Mărgineanu.

Pentru prima întâlnire se recomandă lectura atentă a primelor patru module; la cea de a doua se discuta ultimele patru module si se realizeaza o secventa recapitulativa pentru pregatirea examenului final.

De asemenea in cadrul celor doua intalniri studenti au posibilitatea de solicita titularului si/sau tutorilor sprijin pentru sarcinilor de lucru obligatorii. Pentru a valorifica maximal timpul alocat celor doua intalniri se recomandă parcurgerea obligatorie a cel putin a uneia dintre sursele bibliografice de referinta, pe suportul de curs. La fiecare dintre aceste două întâlniri vor fi prezentate detaliat sarcinile obligatorii şi termenul limită de predare a lor.

Politica de evaluare si notare

Evaluarea finala se va realiza pe bază unui examen grilă desfasurat in sesiunea de la finele semestrului III. Nota finală se compune din: a. punctajul obtinut la acest examen în proporŃie de 70% (7puncte) b. evaluarea sarcinilor obligatorii de pe parcurs – 30% (3 puncte, adica 1.5 puncte/sarcină). InstrucŃiuni suplimentare privind modalităŃile de elaborare, redactare, dar şi criteriile de notare ale lucrărilor, vă vor fi furnizate de către titularul de curs sau tutori în cadrul întâlnirilor faŃă în faŃă. Pentru predarea sarcinilor se vor respecta cu stricteŃe cerintele formatorilor. Sarcinile predate dupa data afişata nu vor fi luate în considerare pentru notare.

Rezultatele finale vor fi puse la dispoziŃia studentilor prin afisaj electronic. Elemente de deontologie academică

• StudenŃii care susŃin examene de mărire de notă sau restante trebuie să prezinte toate sarcinile aferente cursului.

• Fraudarea examenului sau a sarcinilor de lucru de pe parcursul semestrului se penalizează prin exmatriculare.

• Proiectele copiate, discuŃiile sau colaborările în timpul examenelor se sancŃionează cu nota 1. Nepredarea lucrării scrise de către un student care se prezintă la examen este sancŃionată cu nota 1.

• Orice material elaborat de catre studenti pe parcursul activităŃilor va face dovada originalitatii. Studentii ale căror lucrări se dovedesc a fi plagiate nu vor fi acceptati la examinarea finala.

• DiscuŃiile sau colaborările în timpul examenelor se sancŃionează cu nota 1. Nepredarea lucrării scrise de către un student care se prezintă la examen este sancŃionată cu nota 1.

• Contestarea notei primite la examen se face în scris, la secretariatul facultăŃii, în termen de 48 ore de la afişarea rezultatelor. Nota finală la disciplina respectivă este cea obŃinută în urma contestaŃiei.

5

Studenti cu nevoi speciale

Studentii afectati de dizabilităti motorii sau intelectuale pot contacta titularul cursului sau tutorii pentru a li se acorda materialele de studiu necesare si suportul informational necesar. Titularul cursului si echipa de tutori îşi exprima disponibilitatea, în limita constrangerilor tehnice si de timp, de a adapta conŃinutul şi metodelor de transmitere a informaŃiilor precum şi modalităŃile de evaluare (examen oral, examen on line etc) în funcŃie de tipul dizabilităŃii cursantului. Adresa contact titular de curs : AncaDobrean @psychology.ro Adresa contact tutori : [email protected] Strategii de studiu recomandate

Pentru fiecare modul, studenŃilor li se recomandă să citească notiŃele de la curs şi capitolul aferent din minim una din cărŃile prezentate la bibliografie. Realizarea sarcinilor oligatorii va facilita intelegerea şi aprofundarea cunoştinŃelor din aceste module. Lectura fiecărui modul şi rezolvarea la timp a lucrărilor de evaluare garantează nivele înalte de înŃelegere a conŃinutului tematic şi totodată sporesc şansele promovării cu succes a acestei discipline

6

I. CONCEPTELE DE MĂSURAREA ŞI EVALUARE ÎN PSIHOLOGIE

• Titlul şi numărul modulului: 1. Conceptele de măsurare, evaluare in psihologie.

• Scopul şi obiectivele: obiectivul esenŃial al acestui modul este să se poată face diferenŃa între conceptele de evaluare psihologică şi testare psihologică. Acest modul este unul introductiv care îi ajută pe studenŃi să îşi facă o imagine iniŃială a ceea ce înseamnă psihodisgnosticul.

• Structura logică a modulului

1. Evaluare versus testare psihologică 2. DefiniŃii ale testului psihologic 3. Testul ca instrument de măsurare / evaluare 4. Testul vizează un eşantion de comportament 5. Testul implică o procedură de standardizare 6. Testul ca rezultantă a unei colecŃii de itemi 7. Scopul utilizării testelor psihologice 8. Domenii ale utilizării testelor psihologice 9. Clasificări ale testelor psihologice • ConŃinutul informaŃional detaliat

EVALUARE VERSUS TESTARE PSIHOLOGICĂ

Thorndike (1918) - Dacă ceva există, atunci există într-o oarecare măsură McCall (1939) - Orice există într-o oarecare măsură poate fi evaluat

CE ESTE EVALUAREA PSIHOLOGICA? Maloney & Ward (1976) definesc evaluarea psihologica ca fiind un proces de rezolvare de probleme care vizează descoperirea manifestărilor realitatii. Acest proces implica un scop bine precizat, o serie de instrumente de evaluare - printre care si testul - precum si o serie de variabile specifice situatiei. Evaluare versus testare psihologica Termenii de evaluare respectiv testare psihologica sunt doi temeni distincti. Evaluarea psihologica include testarea psihologica. Testarea psihologica constituie procesul de administrare, cotare si interpretarea a rezultatelor unui test psihologic. Ea are un camp mult mai îngust deoarece include doar testul psihologic ca instrument de evaluare. A reduce evaluarea psihologica la testare este o practica nestiintifica. Predictiile pe

După parcurgerea acestui capitol: � VeŃi fi familiarizaŃi cu termenii de testare psihologică şi evaluare psihologică � VeŃi putea oferi o serie de informaŃii legate de istoricul testului psihologic � VeŃi cunoaşte o serie de informaŃii specifice legate de testele psihologice (de ex. care sunt scalele

de măsură, ce este un item, de câte tipuri sunt itemii, etc)

Obiective de studiu:

7

care le facem pe baza unui test iau in considerare doar o singura sursa si anume testul respectiv. Predictiile pe care le facem pe baza unei evaluări psihologice Ńin seama de o multitudine de surse de informaŃie (incluzând bineinteles si testarea psihologica).

REPERE ISTORICE ÎN EVOLUłIA TESTĂRII PSIHOLOGICE

Tabelul 1. Repere istorice în evoluŃia testării psihologice

2200 ÎC 1877 1884 1890 1901 1905 1914 1916 1917 1920-1940 1920 1921 1927 1939 1942 1949 1967

Chinezii încorporau militarii pe baza unor evaluări prealabile Wilhem Wundt înfiinŃează primul laborator de testare psihologică la Leipzig, Germania Francis Galton realizează prima baterie de teste James McKeen Cattell utilizează pentru prima dată termenul de "mental test", evaluând aptitudinile intelectuale pe baza unor probe ce vizau timpul de reacŃie şi capacitatea de discriminare senzorială Clark Wissler susŃine că indicii obŃinuŃi de Cattell nu corelează cu notele şolare Scala Metrica a Inteligentei - primul test de inteligenŃă elaborat de Binet-Simon Stern introduce termenul de coeficient de inteligenŃă (IQ) = vârsta mintală/vârsta cronologică Lewis Terman reia scalele Binet-Simon, publicând Scalele Stanford-Binet. Acestea vor fi revizuite treptat în anii 1937, 1960, 1986 Robert Yerkes realizează testele pentru încorporarea în armata americană în timpul Primului Război Mondial: Army Alpha şi Army Beta Dezvoltarea majoră a testelor de personalitate Testul Rorchach Este fondat Psychological Corporation (Cattell, Thorndike, Woodworth) Este elaborat primul chestionar ce viza orientarea profesională Wechsler Bellevue Intelligence Scale elaboarată de David Wechsler. Va fi revăzută ulterior şi îmbunătăŃită în anii 1955 (WAIS) şi 1981 (WAIS-R) Minesota Multiphasic Personality Inventory (MMPI) Weschler Intelligence Scale for Children (WISC). Va fi revăzut şi îmbunătăŃit în anii 1974 (WISC-R) şi 1990 (WISC-III) Wechsler Primary and Prescholl Intelligence Scale (WPPSI)

I.2. DEFINIłII ALE TESTULUI PSIHOLOGIC Testul reprezintă alături de alte instrumente ale metodei experimentale o sursă de informaŃii extrem de utilă în evaluarea comportamentului uman. Literatura de specialitate indică diferite definiŃii ale testului psihologic:

• Testul psihologic constă dintr-o probă, mai frecvent dintr-o serie de probe, construite în scopul stabilirii prezenŃei (sau absenŃei) unui aspect psihic, a particularităŃilor de comportare sau a gradului de dezvoltare psihică (Roşca, 1972);

• Un test psihologic este o procedură standardizată prin care se formează un eşantion de comportamente care va fi descris prin categorii sau scoruri. În plus, multe teste au norme sau standarde care fac posibilă utilizarea rezultatelor la predicŃia altor comportamente, mai importante (Gregory, 1992);

• Testul reprezintă o măsură obiectivă şi standardizată a unui eşantion de comportament (A. Anastasi, 1976).

• instrument de evaluare; • vizează un eşantion de comportament; • implică o procedură standard privind administrarea, cotarea şi interpretarea rezultatelor.

8

I.3. TESTUL CA INSTRUMENT DE MĂSURARE/EVALUARE

A măsura înseamnă a atribui numere obiectelor sau fenomenelor potrivit unor reguli determinate (Stevens, 1951). Aceste reguli stabilesc o corespondenŃă între proprietăŃile numerelor şi proprietăŃile obiectelor/fenomenelor.

• testele psihologice vizează atribute/trăsături specifice; • are ca instrumente scalele de măsură.

I.3.1. SCALE DE MĂSURĂ

Distingem 4 tipuri de scale de măsură

(Stevens, 1946):

I.3.1.1. SCALELE NOMINALE

DefiniŃie Exemple:

1. sexul (femei / bărbaŃi) - o clasă de elevi cuprinde 31 elevi din care 14 băieŃi şi 17 fete; 2. categoriile socioprofesionale

Statistic, nu este posibilă realizarea nici unei analize (X2, procente).

I.3.1.2. SCALELE ORDINALE

DefiniŃie

� scale nominale

� scale ordinale

� scale de interval

� scale de raport / proporŃii

Măsurarea pe o scală nominală poate fi realizată ori de câte ori caracteristica studiată permite împărŃirea în clase de elemente echivalente.

� relaŃie de echivalenŃă Orice două submulŃimi ale unei clase, nu trebuie să se intersecteze

Măsurarea pe o scală ordinală realizează ierarhizarea claselor.

� relaŃie de echivalenŃă � relaŃie de ordine

9

ObservaŃie:

Exemple:

• A>B>C • Aprecierile ca “foarte bun”, “bun”, “slab”

Statistic poate fi calculată mediana, centilele. Grafic putem să ne referim la histograme.

I.3.1.2. SCALELE DE INTERVAL

DefiniŃie

Exemple:

1. IQ 2. Coeficient perceptiv.

Permite utilizarea celor mai numeroşi indici statistici (media, varianŃa, coeficienŃi de corelaŃie).

I.3.1.4. SCALELE DE PROPORłII

DefiniŃie

� În psihologie măsurarea nu se realizează pe scale de proporŃii.

Concluzii privind scalele de măsură

Tabelul 2. Principalele caracteristici ale scalelor de măsură

Scale RelaŃii Prelucrări statistice

Nominale EchivalenŃă Modul, frecvenŃe

Ordinale EchivalenŃă Ordine

Mediana, centilele, coef. de corelaŃie al lui Spearman

De interval EchivalenŃă

Ordine

ExistenŃa unei unităŃi de măsură

Media, varianŃa, coeficientul de corelaŃie Bravais-Pearson

De proporŃii

Clasele sunt ordonate, dar distanŃa dintre ele nu poate fi estimată.

Măsurarea pe o scală de interval presupune o unitate de măsură comună şi constantă.

� relaŃie de echivalenŃă � relaŃie de ordine � distanŃa între clase (zero arbitrar)

Posedă proprietăŃile scalelor de interval, dar în plus au un punct zero nonarbitrar.

10

I.4. TESTUL VIZEAZĂ UN EŞANTION DE COMPORTAMENT

Testul psihologic, la fel ca testele în alte ştiinŃe realizează observaŃii pe un eşantion de comportamente ale unui subiect. Dacă un psiholog doreşte să evalueze vocabularul unui copil sau aptitudinile sale aritmetice sau coordonarea motrică la un pilot va trebui să aleagă din totalitatea comportamentelor disponibile câteva reprezentative pentru ale include într-o probă psihologică.

I. 5. TESTUL IMPLICĂ O PROCEDURĂ DE STANDARDIZARE

Standardizarea = procesul de obiectivare şi uniformitate a unui test raportat la: � modalitatea de aplicare/administrare; � modalitatea de cotare; � modalitatea de interpretare şi raportare la norme/etaloane I.6. TESTUL CA REZULTANTĂ A UNEI COLECłII DE ITEMI

I.6.1. CE ESTE UN ITEM ? Item este un stimul specific care determină un anumit comportament ce poate fi cotat şi evaluat independent.

I.6.2. TIPURI DE ITEMI În funcŃie de tipul de răspus solicitat putem distinge între itemi de tip eseu şi itemi cu răspunsuri date: I. Itemi de tip "eseu" - subiectului i se cere să răspundă liber la un item.

ex. DiscutaŃi implicaŃiile teoriei lui Piaget în practica educaŃională. II. Itemi cu răspunsuri date care pot fi: 1. Itemi de tip "da-nu", "adevărat-fals" ex. Bogota este capitala Columbiei? � sunt utilizaŃi cel mai adesea în testele de cunoştinŃe; � uneori sunt utilizaŃi şi în testele de personalitate; � sunt consideraŃi inadecvaŃi în chestionarele de atitudini sau în cele ce evaluează simptomele clinice (în

aceste domenii nu există răspunsuri corecte sau greşite); � avantaje: uşor şi rapid de administrat; � dezavantaje: subiectul are 50% şanse de a ghici răspunsul. 2. Itemi cu răspunsuri la alegere ex. Care este capitala Columbiei ?

A. La Paz B. Bogota C. Lima D. Santiago

� sunt utilizaŃi în testele de cunoştinŃe; � avantaje: procentul de a ghici răspunsul scade; 3. Itemi cu răspunsuri pe scale de tip: "da-nu-nu ştiu", "de acord-acord parŃial-dezacord",

"întotdeauna-adesea-uneori-niciodată" ex. Sunt o persoană anxioasă în situaŃii de examen.

A. întotdeauna B. adesea C. uneori D. niciodată

4. Itemi cu răspunsuri ce trebuie alăturate după diferite criterii

11

ex. __ 1. primul test de inteligenŃă A. Raven __ 2. test proiectiv de personalitate B. Binet-Simon __ 3. test de inteligenŃă de grup C. Rorschach

I.7. SCOPUL UTILIZĂRII TESTELOR PSIHOLOGICE 1. SelecŃie/clasificare. 2. Diagnostic şi intervenŃie 3. Autocunoaştere 4. Proiecte de evaluare a unor modificări intervenite în urma unor intervenŃii educative, psihoterapeutice. 5. Instrumente ale cercetării ştiinŃifice I.8. DOMENII DE UTILIZARE A TESTELOR PSIHOLOGICE Tabelul 3. Domenii de utilizare a testelor Domeniu de aplicabilitate Activitatea vizată spre evaluare Psihologia clinică Consilierea psihologică Psihologia industrială/organizaŃională Psihologia şcolară Neuropsihologia

- evaluarea inteligenŃei - evaluarea psihopatologiei - orientarea şcolară şi profesională - evaluarea aptitudinală - evaluarea comportamentului relaŃional/social - evaluarea potenŃialului managerial - evaluarea aptitudinilor cognitive şi psihomotorii - evaluarea maturităŃii şcolare - evaluarea progresului în procesul instructiv-educativ - evaluarea potenŃialului de învăŃare - evaluarea copiilor cu cerinŃe speciale - evaluarea leziunilor cerebrale

I.9. CLASIFICĂRI ALE TESTELOR PSIHOLOGICE

Testele psihologice pot fi clasificate în funcŃie de diferite criterii (Albu, 1999). 1. Clasificări în funcŃie de conŃinutul testului: a). după modul de executare a sarcinii de către subiect

� teste orale; � teste scrise; � teste de performanŃă :

� teste cu manipulare de aparate şi piese;

! Itemul este un stimul specific care determină un anumit comportament ce poate fi cotat şi

evaluat independent Tipuri de itemi: I. Itemi de tip "eseu" II.Itemi cu răspunsuri date: a. itemi de tip "da-nu", b. "adevărat-fals", itemi cu răspunsuri la alegere, c. itemi cu răspunsuri pe scale de tip: "da-nu-nu ştiu", "de acord-acord parŃial-dezacord", d. Itemi cu răspunsuri ce trebuie alăturate după diferite criterii

12

� teste administrate de calculator. b). după utilizarea limbajului în rezolvarea sarcinii

� teste verbale ; � teste nonverbale.

c). după modul de procesare implicat: � teste de eficienŃă

� teste de aptitudini; � teste de dezvoltare intelectuală; � teste de cunoştinŃe; � probe de lucru; � teste situaŃionale

� teste de personalitate (nonintelective). 2. Clasificări în funcŃie de modul de administrare a testului: a). după numărul persoanelor care pot fi examinate simultan:

� teste individuale; � teste de grup.

b). după timpul de execuŃie � teste de viteză; � teste de randament:

� cu limită de timp; � cu timp de lucru nelimitat.

3. Clasificări în funcŃie de modul de cotare a testului şi de interpretare a scorului: a). după modul de stabilire a cotei la test:

� teste obiective; � teste subiective.

b). după modul în care se interpretează scorurile testelor � teste normative; � teste centrate pe criteriu; � teste idiografice;

teste ipsative.

1. Ce este un test psihologic? 2. Ce este evaluarea psihologică?

3. Ce sunt scalele de măsurare şi de câte tipuri sunt acestea? 4. Ce este un item?

5. Cum se clasifică testele psihologice?

13

Bibliografie modul

Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium. p 13-20

Albu, M. (2000). Metode şi instrumente de evaluare în psihologie. Editura Argonaut p 37-40

Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,

Wadsworth Thomson Learning, Fifth Edition. P 3-27

Stan, A. (2002). Testul psihologic. EvoluŃie construcŃie, aplicaŃii. Editura Polirom p 11-36

• Sumar Termenii de evaluare respectiv testare psihologica sunt doi temeni distincŃi. Evaluarea psihologica

include testarea psihologica. Testarea constituie procesul de administrare, cotare si interpretarea a rezultatelor unui test psihologic. Testul psihologic reprezintă, alături de alte instrumente ale metodei experimentale, o sursă de informaŃii extrem de utilă în evaluarea comportamentului uman. În literatura de specialitate găsim diferite definiŃii ale testului psihologic. Este important de reŃinut că acesta reprezintă o colecŃie de itemi care pot fi, fie de tip eseu, fie cu răspunsuri date.

Prin conceptul de măsurare se înŃelege atribuirea de numere obiectelor sau fenomenelor potrivit unor reguli determinate (Stevens, 1951). Aceste reguli stabilesc o corespondenŃă între proprietăŃile numerelor şi proprietăŃile obiectelor / fenomenelor. Astfel, prin testul psihologic se vizează acele atribute / trăsături specifice iar pentru a le măsura se utilizează scalele de măsură (scale nominale, ordinale, de interval, de raport / proporŃii).

14

II. ETALONAREA TESTELOR

• Titlul şi numărul modulului 2. Etalonarea testelor.

• Scopul şi obiectivele: în cadrul acestui modul studenŃii vor acumula informaŃii cu privire la

modalităŃile de interpretare a rezultatelor obŃinute în urma aplicării unui test psihologic.

• Scurtă recapitulare a conceptelor prezentate anterior

Termenii de evaluare respectiv testare psihologica sunt doi temeni distincŃi. Evaluarea psihologica include testarea psihologica. Testarea constituie procesul de administrare, cotare si interpretarea a rezultatelor unui test psihologic. Testul psihologic reprezintă, alături de alte instrumente ale metodei experimentale, o sursă de informaŃii extrem de utilă în evaluarea comportamentului uman. În literatura de specialitate găsim diferite definiŃii ale testului psihologic. Este important de reŃinut că acesta reprezintă o colecŃie de itemi care pot fi, fie de tip eseu, fie cu răspunsuri date.

Prin conceptul de măsurare se înŃelege atribuirea de numere obiectelor sau fenomenelor potrivit unor reguli determinate (Stevens, 1951). Aceste reguli stabilesc o corespondenŃă între proprietăŃile numerelor şi proprietăŃile obiectelor / fenomenelor. Astfel, prin testul psihologic se vizează acele atribute / trăsături specifice iar pentru a le măsura se utilizează scalele de măsură (scale nominale, ordinale, de interval, de raport / proporŃii).

• Structura logică a modulului 1. DefiniŃia etalonului 2. Scopurile etalonului 3. Paşii de construcŃie ai unui etalon 4. Metodele de etalonare

a. distribuŃia normală b. scorurile standard c. scorurile în clase normalizate

• ConŃinutul informaŃional detaliat NORMELE TESTELOR

Cum interpretăm rezultatul obŃinut de un subiect la un test?

În general, numărul de itemi rezolvaŃi corect de subiect la un test este operaŃionalizat prin scor sau cotă brută. Această valoare însă nu are nici o semnificaŃie dacă nu o comparăm cu anumite norme, standarde sau etaloane.

După parcurgerea acestui capitol: � VeŃi putea defini etalonul (norma sau standardele) � VeŃi cunoaşte paşii de construcŃie a unui etalon � VeŃi cunoaşte scopurile etalonării � VeŃi putea enumera metodele de normare


15

Etalonul (norma sau standardele) reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia. Un scor brut obŃinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează performanŃa unui subiect.

Să luăm un exemplu. Să presupunem că la un test de cunoştinŃe de matematică alcătuit din 100 de itemi un subiect rezolvă corect 30 de itemi. Scorul brut obŃinut de subiect la acest test este 30. Ce reprezintă această valoare? Reprezintă o performanŃă slabă, medie sau bună la test? Pentru a putea răspunde la această întrebare trebuie să comparăm această valoare cu un cadru de referinŃă sau etalon. Acest etalon poate fi reprezentat de performanŃa obŃinută de ceilalŃi subiecŃi la test şi astfel raportăm subiectul la performanŃa celorlalŃi sau dimpotrivă, cadrul de referinŃă îl poate constitui o normă naŃională în care cadrul de referinŃă îl constituie întreaga populaŃie din care face parte.

Procesul de etalonare al unui test reprezintă stabilirea unui cadru de referinŃă, a unei scări care să permită determinarea locului ocupat de rezultatele unui subiect faŃă de rezultatele unei populaŃii de referinŃă, suficient de numeroasă, formată din persoane comparabile cu cea examinată.

Etalonarea are astfel următoarele scopuri: 1. conferă semnificaŃi scorurilor şi permite interpretarea acestora; 2. permite compararea directă a scorurilor. Astfel, un scor de 33 obŃinut de un subiect la un test poate

să nu aibă aceeaşi semnificaŃie la un al doilea test. Procesul de construcŃie a unui etalon respectă următorii paşi:

1. definirea populaŃiei sau a cadrului de referinŃă pentru care se doreşte construcŃia testului; 2. eşantionarea; 3. administrarea testului la eşantionul ales; 4. construcŃia cotelor sau a normelor testului. 1. Definirea populaŃiei constituie primul pas în construirea normelor. Acest proces cuprinde de fapt

circumscriera persoanelor pentru care este destinat testul. Astfel, această definire se face prin prezentarea unor caracteristici care vor permite recunoaşterea unei persoane ca aparŃinând sau nu populaŃiei pentru care a fost construit testul. Exemplu. a. Testul Bender Gestalt evaluează funcŃia perceptiv motrică între 5 şi 10 ani. În această situaŃie ştim că orice persoană cu vârsta între 5 şi 10 ani poate fi evaluată cu testul Bender pentru a se identifica nivelul dezvoltării funcŃiei perceptiv motrice.

b. Testul de cunoştinŃe matematice „X” cuprinde toŃi copiii de liceu (14-18 ani) din judeŃul Cluj. Pentru ca performanŃa unui copil la acest test de cunoştinŃa matematice să poată fi raportată la etalon, copilul respectiv trebuie să aibă următoarele caracteristici: să aibă vârsta cuprinsă între 14-18 ani şi să urmeze un liceu în judeŃul Cluj.

2. Deoarece testul nu poate fi aplicat la întreaga populaŃie pentru care a fost construit se impune selecŃia din

cadrul populaŃiei (stabilite anterior) a unui grup sau eşantion de normare. Eşantionarea în psihologie se constituie mult mai greu decât în alte domenii cum ar fi sociologia deoarece examinările sunt costisitoare dacă se fac la domiciliul subiecŃilor.

ETALONAREA

!ATENłIE! la eşantionarea pe bază de cunoştinŃe, voluntariat, etc. → deformări sistematice în estimarea parametrilor !(eşantionarea deconvenienŃă duce la supraestimarea scorurilor)

16

Eşantionul trebuie să fie reprezentativ pentru populaŃie. Astfel structura eşantionului trebuie să respecte structura populaŃiei. Variabilele care se vor lua în considerare în construirea eşantionului Ńin cont atât de caracteristicile populaŃiei (vezi definirea acesteia) cât şi de caracteristicile constructului măsurat de test. Exemplu Dacă avem un test adaptat în România care evaluează inteligenŃa la copiii preşcolari, populaŃia testului o constituie copiii de vârsta 4 – 7 ani din România. Acestea reprezintă caracteristicile populaŃiei. În afara acestor caracteristici trebuie să Ńinem cont însă şi de caracteristicile constructului. În acest caz, inteligenŃa depinde şi de mediul din care fac parte copii, iar astfel pentru fiecare grupa de vârstă construită vom avea ca variabilă mediul (ex. Rural sau urban). Construirea eşantionului se poate realiza prin mai multe tipuri de selecŃie. Cele mai des întâlnite selecŃii sunt cele aleatoare şi cele stratificate. În cazul selecŃiei aleatoare oricare membru al populaŃiei are şanse egale de a fi inclus în eşantion. În cazul selecŃiei stratificate se face întâi o împărŃire a populaŃiei în clase (în funcŃie de variabilele relevante) şi apoi pentru fiecare clasă se trece la o selecŃie aleatoare. Când poate fi considerat un eşantion aleatoriu? – dacă fiecare subiect are o probabilitate aleatoare de a fi selectat. Extragerea Loto este aleatoare? La primul nr da. Programele statistice au opŃiuni de a genera numere aleatoare.

A etalona un test sau a norma un test sunt considerate activităŃi identice. 3. Deoarece rezultatele nu se pot culege de un singur examinator, la un singur moment în timp, este

important ca în timpul etalonării administrarea să se realizeze standard, păstrând aceleaşi condiŃii de aplicare şi cotare.

4. După ce s-a aplicat testul la întregul eşantion se obŃine o colecŃie de date pe baza cărora se impune

construirea normelor testului. METODE DE ETALONARE (NORMARE) Orice persoană evaluată obŃine la un instrument de evaluare un rezultat observabil

a. la testele de aptitudini cognitive: răspunsuri corecte sau greşite b. la testele de personalitate: evidenŃierea unei trăsături investigate faŃă de conŃinutul aserŃiunii

unui item

DistribuŃia normală Cu cât avem o colecŃie mai mare de date cu atât acestea respectă mai mult distribuŃia lui Gauss. - proprietăŃile curbei normale (figura 1): 68% este între + 1sigma, 95% este intre + 2sigma, Beneficiul interpretării rezultatelor pe baza distribuŃiei normale = simplifică interpretarea scorurilor individuale la un test. In cazul distribuŃiei normale media, mediana şi modul au aceeaşi valoare - cunoscând că o persoana se găseşte în intervalul + 1 sigma ne spune ca aproximativ 2 treimi din

populaŃie are acelaşi scor.

! Scopurile etalonării sunt: 1. conferirea de semnificaŃii scorurilor şi permiterea interpretării acestora şi 2. perminterea comparării directe a scorurilor

! Paşii construcŃiei nui etalon sunt: 1. definirea populaŃiei; 2. eşantionarea;

3. administrarea testului , 4. construcŃia cotelor

17

Figura 1. ProprietăŃile distribuŃiei normale

Scorurile standard - Transformările liniare în scoruri standard, folosind media şi abaterea standard a distribuŃiilor Un scor standard este un scor care a fost transformat dintr-o scală în alta, ultima fiind una pe baza căreia se pot face comparaŃii. - cele mai cunoscute sunt scorurile z şi T

Scorurile z - scorul z are media 0 si abaterea standard 1 z = (X –M)/ δ Exemplu La un test de citire un subiect obŃine un scor brut de 24 (media=20, sigma=3), iar la matematică un scor brut de 42, media = 60, sigma=10. CalculaŃi scorul z pentru ambele performanŃe. InterpretaŃi valorile obŃinute. Scorurile T T = 50 + 10z

• T este o scală a cărei medie este 50 si sigma este 10; • Propus de McCall (1922, 1939) în cinstea profesorului sau Thorndike (T);

18

• Cuprinde 5 sigma sub/peste medie; • Scorul care se gaseste la exact 5 δ sub medie va reprezentat un scor T de 0, media va fi 10, iar 5

sigma peste medie va fi 100; • Avantajul la scorurile T este ca nu avem o valoare negativa; • Utilizat de exemplu la testul Minesota Multiphasic Personalty Inventory (MMPI).

Scorurile în clase normalizate 5 clase: 7%, 24%, 38%, 24%, 7% 7 clase: 5, 11%, 21%, 26%, 21%, 11%, 5%, 9 clase (stanine): 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%, Paşi: 1. se aranjează scorurile de la cel mai mare la cel mai mic; 2. se stabileşte frecventa pentru fiecare scor; 3. se stabileşte frecventa cumulata; 4. se calculează procentul fiecărei clase; 5. se face corespondenŃa scor + procent din distribuŃia de frecvenŃă cumulată;

Exemplu

Să presupunem că un test a fost aplicat la 325 de subiecŃi. Scorul maxim al testului este 42 iar scorul minim este 2. Tabelul 1 prezintă frecvenŃa fiecărui scor, frecvenŃa cumulată şi stanina corespunzătoare.

Scor brut

FrecvenŃa fiecărui scor

FrecvenŃă cumulată

Stanine

42 1 1 Stanina 9 41 1 2 40 2 4 39 6 10 38 7 17 Stanina 8 37 4 21 36 9 30 35 4 34 34 10 44 Stanina 7 33 7 51 32 13 64 31 19 83 30 11 94 Stanina 6 29 14 108 28 16 124 27 12 136 26 13 149 Stanina5 25 11 160 24 18 178 23 22 200

Scor brut

FrecvenŃa fiecărui scor

FrecvenŃă cumulată

Stanine

22 16 216 Stanina 4 21 11 227 20 14 241 19 12 253 18 13 266 Stanina 3 17 14 280 16 8 288 15 9 297 Stanina 2 14 6 303 13 3 306 12 6 312 11 2 314 Stanina 1 10 3 317 9 2 319 8 2 321 7 2 323 6 1 324 5 0 324 4 0 324 3 0 324 2 1 325 - 325

Cum obŃinem staninele pentru fiecare scor? Calculul scorului care intră în stanina 9. Se ia procentul corespunzător acestei stanine (4%) şi se raportează la datele existente astfel:

19

325....................100% x.........................4% x=13 Valoarea obŃinută reprezintă frecvenŃa cumulată a scorurilor din stanina 9. Observăm în coloana frecvenŃelor cumulate că această valoare nu există, deci vom lua valoarea existentă cea mai apropiată de 13. În coloana frecvenŃelor cumulate avem valorile 10 şi 17. Deoarece 10 este mai aproape de 13 vom lua această valoare ca limită pentru stanina 9. Deci scorurile care intră în stanina 9 sunt cele cuprinse între 42 şi 39 (este corespunzător frecvenŃei cumulate 10).

Pentru a afla scorurile care intră în stanina 8 luăm procentul din populaŃie din stanina 9 la care adăugăm procentul corespunzător staninei 8 adică:

4% + 7% = 11%

Repetăm apoi algoritmul utilizat în stabilirea scorurilor pentru stanina 9:

325....................100% x.........................11%

x=35,75 Valoarea frecvenŃei cumulate cea mai apropiată de 35,75 este valoarea 34, valoarea căreia îi corespunde scorul brut de 35. deci, în stanina 8 avem toate scorurile între 38 şi 35. Pentru stanina 7 calculul este următorul: 11%+12%=23% 325….................100% x…......................23%

x= 74,75 Pentru stanina 6 calculul este următorul: 23% +17% = 40% 325….................100% x…......................40%

x=130 Pentru stanina 5 calculul este următorul: 40% + 20% = 60% 325….................100% x…......................60%

x=195 Pentru stanina 4 calculul este următorul: 60% + 17% = 77% 325….................100% x…......................77%

x=250,25 Pentru stanina 3 calculul este următorul: 77% + 12% = 89% 325….................100% x…......................89%

x=289,25 Pentru stanina 2 calculul este următorul: 89% + 7% = 96% 325….................100% x…......................96%

x=312

20

Dacă performanŃa subiectului se găseşte în staninele 4, 5 sau 6 putem spune că performanŃa sa la test este una medie. O performanŃa încadrată în staninele 2 şi 3 este un slabă, iar o performanŃă încadrată în stanina 1 este una foarte slabă. De cealaltă parte a medie, staninele 7 şi 8 indică o performanŃă bună la un test, iar stanina 9 reprezintă o performanŃă foarte bună.

Etaloanele în decile, quartile, centile, împart distribuŃia în clase egale; decilele cuprind 10 clase (10% din populaŃie în fiecare clasă), quartilele cuprind 4 clase (25%), iar centilele 100.

Orice manual al unui test psihologic conŃine normele testului şi trebuie să includă următoarele aspecte:

1. indicii demografici ai populaŃiei pentru care a fost construit testul. Cei mai frecvenŃi indicatori sunt: vârsta, sexul, mediul din care fac parte subiecŃii, nivelul de şcolarizare Putem spune că aceşti indicatori definesc populaŃia pentru care este destinat testul. Astfel, un test care evaluează inteligenŃa la copiii preşcolari (4-7 ani) nu poate fi aplicat la un copil de 9 ani deaorece nu avem un cadru de referinŃă la care să raportăm performanŃa obŃinută de acest copil.

2. numărul persoanelor pe care a fost etalonat testul şi modul de eşantionare ales. Această informaŃie este utiă pentru analiza semnificaŃiei etalonului. Ne interesează în acest caz dacă etalonul testului are la bază un număr suficient de mare de persoane dintr-o populaŃie pentru a-l putea considera reprezentativ.

3. data construirii normelor. Această informaŃie este utilă deoarece ne ajută ă identificăm dacă populaŃia pe care a fost etalonat testul mai posedă caracteristicile populaŃiei din care face parte subiectul testat. Este cunoscut faptul că unele constructe psihologice sau cunoştinŃe sunt dependente de evoluŃie. De exemplu un test care evalua nivelul dezvoltării vocabularului la o anumită populaŃie în anii 1940-1950 nu mai are aceleaşi norme în prezent deoarece populaŃia a evoluat şi astfel normele trebuie mereu reactualizate.

1. Ce reprezintă etalonul? 2. Care sunt scopurile etalonării?

3. Care este procesul de construcŃie de construcŃie al unui etalon?

4. ce metode de măsurare se utilizează?

• Sumar În general, numărul de itemi rezolvaŃi corect de subiect la un test este operaŃionalizat prin scor sau cotă

brută. Această valoare însă nu are nici o semnificaŃie dacă nu o comparăm cu anumite norme, standarde sau etaloane. Etalonul (norma sau standardele) reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia. Un scor brut obŃinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează performanŃa unui subiect. Etalonarea conferă semnificaŃi scorurilor şi permite interpretarea acestora şi permite compararea directă a scorurilor. Pe lângă aceasta este foarte important ca procesul de construcŃie a unui etalon să respecte o serie de paşi. În cadrul metodelor de etalonare trebuie să Ńinem cont de distribuŃie (cu cât avem o colecŃie mai mare de date cu atât acestea respectă mai mult distribuŃia lui Gauss) şi de o serie de scoruri: standard sau in clase normalizate.

21

Sarcini şi teme ce vor fi notate

1. La un test de performanŃă de citire, un subiect are scorul brut de 24. Care este nivelul însuşirii cunoştinŃelor sale dacă:

i. media la test este 30 şi δ este 4? ii. media la test este 30 şi δ este 7?

iii. media la test este 40 şi δ este 5?

2. Pentru fiecare din studiile următoare se va descrie procedura de eşantionare. CitiŃi fiecare descriere şi identificaŃi tipul de eşantionare folosit:

A. Un profesor de psihologie ataşează un scurt chestionar care vizează obiceiurile de studiu al elevilor la fiecare al patrulea test şi distribuie aceste teste elevilor pe măsură ce aceştia intră în clasă.

B. Cercetătorul selectează aleatoriu jumătate din celulele unui penitenciar şi intervievează toŃi indivizii din celulele selectate.

C. Un administrator dintr-un cămin de studenŃi selectează aleatoriu cinci dormitoare din campus şi din studenŃii acestora selectează aleator 60% studenŃi de anul I şi 40% studenŃii din anii mai mari pentru un studiu vizând consumul de alcool.

• Bibliografie modul

Albu, M. (2000). Metode şi instrumente de evaluare în psihologie. Editura Argonaut. p 14-37, 65-

82


Wadsworth Thomson Learning, Fifth Edition. p 3-27

22

III. FIDELITATEA TESTULUI PSIHOLOGIC

• Titlul şi numărul modulului 3. Fidelitatea testului psihologic

• Scopul şi obiectivele: scopul acestui modul este de a îi învăŃa pe studenŃi ce reprezintă fidelitatea

testului psihologic, de câte tipuri este aceasta, cum se calculează fidelitatea şi modalităŃile de influenŃare a fidelităŃii unui test. Aceste elemente sunt foarte importante pentru că fidelitatea reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare. În psihologie acest lucru nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor erori aleatoare de măsură. Astfel, calculul fidelităŃii îi ajută pe studenŃi să indice măsura în care scorurile obŃinute la test exprimă de fapt valorile reale ale constructului pe care testul îl măsoară.

• Scurtă recapitulare a conceptelor prezentate anterior

În general, numărul de itemi rezolvaŃi corect de subiect la un test este operaŃionalizat prin scor sau cotă brută. Această valoare însă nu are nici o semnificaŃie dacă nu o comparăm cu anumite norme, standarde sau etaloane. Etalonul (norma sau standardele) reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia. Un scor brut obŃinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează performanŃa unui subiect. Etalonarea conferă semnificaŃi scorurilor şi permite interpretarea acestora şi permite compararea directă a scorurilor. Pe lângă aceasta este foarte important ca procesul de construcŃie a unui etalon să respecte o serie de paşi. În cadrul metodelor de etalonare trebuie să Ńinem cont de distribuŃie (cu cât avem o colecŃie mai mare de date cu atât acestea respectă mai mult distribuŃia lui Gauss) şi de o serie de scoruri: standard sau in clase normalizate.


1. ConsistenŃa internă 2. Stabilitatea în timp a rezultatelor 3. Metode de calcul a fidelităŃii interne

a. Metoda consistenŃei interne b. Metoda test – retest c. Metoda formelor paralele d. Metoda fidelitatea interevaluatori

• ConŃinutul informaŃional detaliat

FIDELITATEA TESTELOR

The meter (m) is the Si unit of length and is defined as the length of the path traveled by light in vacuum during the time interval of 1/299 792 458 of a second. This replaces the two previous definitions of the meter: the original adopted by CGPM in 1889 based on a platinum-iridium prototype bar, and a definition adopted in 1960 based on a krypton86 radiation from an electrical discharge lamp. In each case, the change in definition achieved not only an increase in accuracy, but also progress toward the goal of

După parcurgerea acestui capitol: � VeŃi putea o definiŃie corectă a fidelităŃii testului � VeŃi putea enumera tipurile de fidelitate � VeŃi ştii să calculaŃi fidelitatea unui test � VeŃi putea enumera modalităŃile de influenŃare a fidelităŃii unui test


23

using fundamental physical quantities as standards, in particular, the quantum mechanical characteristics of atomic systems. - Taylor,1991. Fidelitatea unui test psihologic se referă la două aspecte: 1. consistenŃa internă; 2. stabilitatea în timp a rezultatelor testării. Analiza fidelităŃii unui test porneşte de la conceptul de eroare. Orice scor la un test psihologic este rezultatul scorului real şi al unei erori de măsură:

Xobservat = Xreal + e (e = eroarea de măsură) Fidelitatea reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru însă în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor erori aleatoare de măsură. Calculul fidelităŃii indică măsura în care scorurile obŃinute la test exprimă de fapt valorile reale ale constructului pe care testul îl măsoară. Fidelitatea unui test poate fi calculată pe baza a patru metode: 1. metoda consistenŃei interne → coeficienŃi de consistenta internă; 2. test retest → coeficienŃi de stabilitate; 3. metoda formelor paralele → coeficienŃi de echivalenŃă; 4. metoda fidelităŃii interevaluatori → coeficienŃi interevaluatori.

II.1.1. CONSISTENłA INTERNĂ ConsistenŃa internă a unui test se referă la măsura în care toŃi itemii testului măsoară aceeaşi variabilă.

Calculul coeficientului de consistenŃă internă va consta în analiza corelaŃiei ce exista între fiecare item. Pornind de la scorurile observate la un test, pentru analiza consistentei interne pot fi calculaŃi următorii coeficienŃi:

1. α Cronbach pentru testele cu orice tip de itemi; 2. λ3 Guttman; 3. ρ20 şi ρ21 Kuder Richardson (dacă itemii testului sunt binari).

ToŃi coeficienŃii prezentaŃi se bazează pe un calcul de corelaŃie între itemii ce alcătuiesc testul. Un coeficient de consistenŃă ridicat exprimă faptul că toŃi itemii testului se referă la aceeaşi variabilă. În afara coeficienŃilor prezentaŃi anterior, consistenŃa internă a unui test poate fi calculată şi pe baza metodei înjumătăŃirii. Pe baza acestei metode testul este împărŃit în jumătate, calculându-se coeficientul de corelaŃie dintre cele două părŃi. Dacă acest coeficient este ridicat el ne indică o bună fidelitate (consistenŃa internă) a testului. O formă particulară a metodei înjumătăŃirii o constituie metoda item cu item, în care testul este împărŃit în două prin selectarea itemilor pari respectiv a celor impari. Aceasta tehnică este utilă mai ales în cazul testelor în care itemii sunt prezentaŃi în ordinea crescândă a dificultăŃii. Se calculează şi acest caz coeficientul de consistenŃă internă între cele doua părŃi ale testului, valoarea lui reprezentând valoarea coeficientului de fidelitate.

II.1.2. STABILITATEA Stabilitatea rezultatelor testării ne indică în ce măsură la aplicări diferite în timp un subiect obŃine

rezultate similare la un test psihologic. Calculul coeficientului de stabilitate se realizează astfel:

a) se administrează testul la un grup de persoane; b) după un interval de timp se readministrează testul; c) se calculează un coeficient de corelaŃie între rezultatele la cele două administrări.

O valoare mare a acestui coeficient indică o bună stabilitate în timp a rezultatelor. Se poate spune despre acel instrument că este fidel deoarece relevă aceleaşi valori ale unei variabile la măsurători diferite în timp.

24

Factori care influenŃează calculul fidelităŃii test-retest (stabilităŃii):

� Intervalul de timp între test şi retest. Dacă timpul este prea scurt există o mare probabilitate ca subiecŃii să îşi reamintească răspunsurile date anterior; respectiv un timp prea lung între test şi retest poate determina maturizarea eşantionului de subiecŃi. Astfel dacă aplicăm un test de percepŃie la 4 ani şi îl reaplicăm la un interval de 6 luni există o mare probabilitate să obŃinem rezultate diferite la cele două administrări ale testului deoarece în intervalul de 6 luni subiecŃii s-au maturizat. În acest caz retestul va include în evaluare nivelul de maturizare al subiecŃilor. Datorită acestor argumente este destul de dificil de stabilit cu exactitate un timp optim între test şi retest.

Întotdeauna când se calculează acest coeficient trebuie precizat intervalul scurs între test şi retest, vârsta subiecŃilor precum şi condiŃiile în care s-au administrat testele pentru a putea identifica eventualele surse de eroare de măsură.

� Gradul de dificultate al itemilor. Dacă itemii sunt fie prea uşori fie prea dificili se vor obŃine coeficienŃi de stabilitate ridicaŃi deoarece itemii testului fie vor fi rezolvaŃi de majoritatea subiecŃilor (în primul caz) fie nu vor fi rezolvaŃi nici la test nici la retest (al doilea caz).

� Schimbări ale subiectului determinate de prima aplicare. Pot exista o serie de situaŃii în care se obŃin performanŃe diferite la retest deoarece subiectul fie a învăŃat să răspundă la itemi după prima administrare, fie această primă administrare a determinat schimbări de atitudini faŃă de o anumită problemă.

II.1.3. METODA FORMELOR PARALELE Există o serie de situaŃii practice care necesită aplicări repetate a unui test psihologic la un interval foarte scurt de timp. În acest caz aplicarea aceluiaşi test este improprie deoarece s-a văzut anterior că la un interval scurt de timp subiecŃii pot să îşi reamintească răspunsurile date anterior. În acest caz trebuie să se construiască forme echivalente sau paralele ale unui test. Două teste sunt paralele dacă pentru un subiect erorile de măsură la cele două administrări sunt variabile aleatoare independente. În acest caz itemii celor două teste trebuie să fie logic izomorfi, adică să aibă acelaşi nivel de dificultate.

Avantajul acestei metode este acela că nu mai permite reamintirea răspunsurilor şi nici posibilitatea căutării răspunsurilor la întrebările la care nu s-a ştiut răspunde.

Dezavantajele acestei metode sunt următoarele:

� necesită consum de timp prin două administrări; � subiecŃii se pot plictisi dacă testările sunt prea lungi; � este greu de realizat fiind dificilă şi costisitoare.

II.1.4. FIDELITATEA INTEREVALUATORI Este necesar a fi calculată în cazul testelor care nu au o cotare obiectivă aşa cum sunt testele proiective de personalitate la care scorul este influenŃat şi de interpretarea pe care o dă persoana care face cotarea. Pentru a verifica în ce măsură scorul la test este influenŃat de modalitatea în care se face cotarea de diferite persoane se va cere la diferiŃi evaluatori să calculeze scorurile la test, iar apoi se va realiza un coeficient de corelaŃie

! Factori care influenŃează calculul fidelităŃii test - retest (stabilităŃii):

1. intervalul de timp între test şi retest 2. gradul de dificultate al itemilor 3. schimbări ale subiectului determinate de prima aplicare

25

interevaluatori. Acest coeficient va exprimă măsura în care testul este independent de erori datorate modalităŃii de cotare a răspunsurilor subiectului.

CoeficienŃii de fidelitate transformaŃi în coeficienŃi de determinare (pătratul coeficientului de fidelitate) relevă proporŃia în care varianŃa totală a rezultatelor psihometrice se datorează varianŃei “reale” – diferenŃelor individuale reale – sau din contră, varianŃei “eroare”, definită diferit, în funcŃie de metoda particulară urmată în stabilirea tipului de fidelitate (Kulcsar, 1980). În consecinŃă, deşi semnificaŃia diferiŃilor coeficienŃi de fidelitate nu este aceeaşi, totuşi orice coeficient de fidelitate, ridicat la pătrat, poate fi interpretat în termeni de procentaj al variantei randamentului la test. Astfel de exemplu, un coeficient de fidelitate de .80 înseamnă că .802=64% din varianŃa totală a rezultatelor psihometrice considerate se datorează varianŃei reale a domeniului explorat, iar 36% varianŃei eroare, generată de unele din sursele multiple ale deosebirilor în rezultatele psihometrice.

Interpretarea unui coeficient de fidelitate Murphy & Davidshopher (1998) prezintă următoarele repere în interpretarea coeficienŃilor de fidelitate (tabelul 1): Tabelul 1. SemnificaŃia coeficienŃilor de fidelitate Valori ale coeficienŃilor de fidelitate

Tipul testului Interpretare

0.95 0.90 Testele de inteligenŃă de grup Fidelitate mare 0.85 Testele de performanŃă 0.80 0.75 Testele cu răspunsuri multiple Fidelitate moderată 0.70 Scalele comportamentale 0.65 0.60 Unele măsurători proiective Fidelitate scăzută 0.55 0.50 Scorul real şi eroarea au efect egal

asupra scorurilor la test Aşa cum am precizat anterior orice rezultat (scorul observat) pe care o persoană îl obŃine la un test este alcătuit din aptitudinea reală (scor real) căreia i se adaugă eroarea de măsură. Adică: Xobservat = Xreal + e (e = eroarea de măsură)

Întrebarea pe care este necesar să o analizăm în acest caz ar fi următoarea: care este intervalul în care se găseşte scorul real. Altfel spus, dat fiind faptul că o persoană obŃine un anumit scor la un test, ne interesează care este intervalul în care putem spune că se găseşte scorul real la test. Acest interval este denumit interval de încredere şi este definit ca probabilitatea ca scorul real al persoanei la un test să se găsească între anumite limite.

! Trebuie menŃionat faptul ca deşi fidelitatea unui test este importanta, ea nu este suficientă

pentru un test bun. Un test poate avea o bună consistenŃă internă (toŃi itemii evaluează aceeaşi variabilă) respectiv o bună stabilitate în timp, dar să măsoare altceva decât îşi propune. Problema evaluării corecte a ceea ce îşi propune să măsoare un test constituie subiectul validităŃii testelor.

26

Calculul intervalului de încredere (IC).

Intervalul de încredere se obŃine astfel:

IC = Xobservat + z*SEm SEm= eroarea standard de măsură

SEm = SD* )1( r− SD= abaterea standard a scorurilor la test; r= coeficientul de fidelitate

Să luăm un exemplu.

Presupunem că la un test de inteligenŃă o persoană a obŃinut un scor de 115. Coeficientul de fidelitate alpha este de 0,98, iar abaterea standard a scorurilor la test este de 15. Cum aflăm intervalul în care se găseşte scorul real al persoanei la test?

1. Calculăm eroarea standard de măsură

SEm = SD* )1( r−

SEm = 15* )98.01( −

SEm = 15* 02.0

SEm = 2.12

2. Calculăm intervalul de încredere

IC = Xobservat + z*SEm

IC = 115 + z*2.12

Alegerea scorului z care va intra în calcul se face în funcŃie de precizia cu care dorim să lucrăm. Dacă alegem să lucrăm cu o probabilitate de 95% scorul z corespunzător este de 1.96 . Pentru o probabilitate de 90% scorul z corespunzător este de 1.65. În acest exemplu să vom lucra cu o precizie de 95%, deci z=1.96. Astfel vom avea:

IC = 115 + 1.96*2.12

IC= 115 + 4.15

În acest caz putem spune cu o probabilitate de 95% că scorul real al persoanei se găseşte în intervalul 110.85 – 119.15.

! DE REłINUT:

• intervalul de încredere depinde de coeficientul de fidelitate al testului; dacă avem un coeficienŃi de fidelitate mici, atunci intervalul se măreşte, deci eroarea este mai mare.

• intervalul de încredere depinde de abaterea standard a scorurilor la test.

27

1. La ce se referă fidelitatea unui test? 2. De la ce porneşte analiza fidelităŃii unui test?

3. Ce este consistenŃa internă a unui test?

4. Ce reprezintă fidelitatea interevaluatori?

5. Care sunt factorii care influenŃează calculul fidelităŃii test – retest?

6. Care sunt avantajele şi dezavantajele metodei formelor paralele?

Sarcini şi teme ce vor fi notate

RezolvaŃi următoarele probleme:

1. Testul A are abaterea standard 4, fidelitatea testului este 0.89 Testul B are abaterea standard 7, fidelitatea testului este 0.88 Considerând că toŃi ceilalŃi parametri ai celor 2 teste sunt egali, pe care dintre teste îl

consideraŃi mai bun? 2. Testul C are eroarea standard de măsură 3,20 iar fidelitatea testului 0,76

Testul D are eroarea standard de măsură 5,6 iar fidelitatea testului 0,62 Considerând că toŃi ceilalŃi parametri ai celor 2 teste sunt egali, pe care dintre teste îl consideraŃi mai bun? 3. CalculaŃi eroarea standard de măsură pentru un scor observat de 15 şi utilizaŃi valoarea obŃinută pentru a determina intervalul de încredere al scorului real pentru 90 % respectiv 95%. Abaterea standard a scorurilor la test este 8; Fidelitatea testului este 0,74. CalculaŃi: a. Eroarea standard de măsură:______________ b. Intervalul de încredere la 90%_________________________________ c. ExplicaŃi semnificaŃia acestui interval. d. Intervalul de încredere la 95%_________________________________ e. ExplicaŃi semnificaŃia acestui interval.



Wadsworth Thomson Learning, Fifth Edition. p 27-63, 63-98

• Sumar Fidelitatea reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru

însă în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor erori aleatoare de măsură. Calculul fidelităŃii indică măsura în care scorurile obŃinute la test exprimă de fapt valorile reale ale constructului pe care testul îl măsoară. Fidelitatea unui test psihologic se referă la două aspecte: 1. consistenŃa internă şi 2. stabilitatea în timp a rezultatelor testării.

Fidelitatea unui test poate fi calculată pe baza a patru metode: 1. metoda consistenŃei interne, 2. test retest, 3. metoda formelor paralele, 4. metoda fidelităŃii interevaluatori

28

IV. VALIDITATEA TESTULUI PSIHOLOGIC

• Titlul şi numărul modulului

4. Validitatea testului psihologic

• Scopul şi obiectivele: obiectivul acestui modul este să le ofere studenŃilor o serie de informaŃii cu privire la validitatea testelor psihologice şi importanŃa acesteia, adică faptul că e necesar să demonstrăm că testul măsoară ceea ce şi-a propus. Orice instrument de evaluare psihologică trebuie să satisfacă cerinŃele validităŃii.

• Scurtă recapitulare a conceptelor prezentate anterior Fidelitatea reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru însă

în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor erori aleatoare de măsură. Calculul fidelităŃii indică măsura în care scorurile obŃinute la test exprimă de fapt valorile reale ale constructului pe care testul îl măsoară. Fidelitatea unui test psihologic se referă la două aspecte: 1. consistenŃa internă şi 2. stabilitatea în timp a rezultatelor testării.

Fidelitatea unui test poate fi calculată pe baza a patru metode: 1. metoda consistenŃei interne, 2. test retest, 3. metoda formelor paralele, 4. metoda fidelităŃii interevaluatori


1. DefiniŃia validităŃii testului 2. Istoric al studiilor despre validitate 3. Forme ale validităŃii

a. validitate de criteriu b. validitate de conŃinut c. validitate de construct


VALIDITATEA TESTELOR

DefiniŃia validităŃii Evaluarea psihologică vizează o anumită realitate fie internă, fie externă. Numim domeniu de

evaluare orice realitate (internă sau externă) care este supusă evaluării. În orice proces de evaluare psihologică pornim de la definirea domeniului de evaluare şi apoi propunem o serie de modalităŃi cantitative prin care observăm dacă indivizii posedă sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului poate să fie mai mult sau mai puŃin corectă ne punem întrebarea dacă aptitudinile /caracteristicile măsurate de test corespund domeniului de evaluare. Astfel, pentru ca testul să fie considerat o măsură bună a domeniului de evaluare este necesar să obŃinem o serie de informaŃii care să reflecte faptul că testul măsoară ceea ce şi-a propus. Din aceste cerinŃe decurge problema validităŃii unei măsurători.

După parcurgerea acestui capitol: � VeŃi putea defini validitatea testelor psihologice � VeŃi putea enumera tipurile de validitate existente � VeŃi recunoaşte modalităŃile de influenŃare a validităŃii


29

Orice instrument de evaluare psihologică trebuie să satisfacă cerinŃele validităŃii. TradiŃional, definiŃia cea mai des întâlnită a validităŃii este “modalitatea în care un test măsoară ceea ce îşi propune să măsoare” (Anastasi, 1976). Validitatea se referă deci la relaŃia dintre scorul obŃinut la un test şi un anumit criteriu sau o performanŃă externă. Acest criteriu poate să aparŃină oricărui domeniu; poate include selecŃia de personal, reuşita şcolară sau nosologia. Istoric al studiilor despre validitate Este cunoscut deja faptul că măsurarea psihologică şi deci implicit şi validarea îşi au rădăcinile demult în timp. Într-un articol care viza rolul testelor în selecŃia de personal, Guion (1976) realizează o trecere în revistă a principalelor aspecte de care se Ńinea cont la vremea respectivă în analiza validităŃii unei măsurători psihologice. Acestea sunt prezentate în tabelul 2: Tabelul 2.2. Referiri la validitate Aspecte ObservaŃii 1. Scopul validării* este acela de a prezice o

performanŃă viitoare “este…important a se cunoaşte dacă scorurile la un test sunt într-o modalitate mai mare sau mai mică predictive pentru succesele ulterioare” (Bingham, 1937, p.216)

2. Predictorii şi criteriile trebuie să fie selectaŃi pe baza analizei muncii.

3. Instrumentele de evaluare trebuie standardizate.

“Pentru a putea compara performanŃele unei persoane la un test la diferite momente în timp, testul trebuie să fie uniform” (Freyd, 1923, p.232)

4. Testele trebuie validate empiric. “Un test nu are nici o semnificaŃie înainte ca acesta să fie validat” (Link, 1924)

5. Validarea este specifică unei situaŃii. 6. Un singur test nu este suficient. “Hull (1928) susŃine că pentru a putea prezice cu

mare acurateŃe un anumit criteriu, trebuie utilizată o baterie alcătuită din 4, 5 sau mai multe teste” (Guion, 1976, p.783).

7. Este bine să se utilizeze doar un singur criteriu.

Freyd (1923) descrie procesele prin care este selectat un “criteriu”

8. Metodele psihometrice sunt preferate metodelor nepsihometrice.

“Evaluatorul nu se va limita la un instrument anume de măsură, dar cele pe care trebuie să le utilizeze cel mai des sunt testele şi chestionarele” (Freyd, 1923, p.231)

9. Un test trebuie să Ńină cont de diferenŃele individuale.

“PerformanŃele la un test trebuie analizate - acolo unde este cazul - diferit în funcŃie de sexe” (Freyd, 1923).

Analiza făcută de Guion (1976) ne oferă o imagine globală a ceea ce însemna la începutul sec. xx

modalităŃi tradiŃionale de realizare a studiilor de validitate a unui instrument de evaluare psihologică.

O abordare mai recentă şi poate mai corectă a validităŃii este formulată de APA1, AERA2, NCSEPT3 în 1974. Conform standardelor asociaŃiilor amintite “Validitatea se referă la corectitudinea inferenŃelor realizate pe baza unui test sau a altei forme de evaluare” (p.25). Altfel spus, dar fiind un set de întrebări la care dorim să răspundem pe baza unei evaluări psihologice trebuie să ne verificăm cât de corecte (sau valide) sunt răspunsurile (sau informaŃiile) oferite de un test psihologic (Ghiselli & all, 1986).

Validitatea trebuie atribuită întotdeauna inferenŃelor făcute pe baza performanŃelor la un test. Validitatea nu este o caracteristică a testului psihologic ci este mai degrabă o caracteristică a inferenŃelor care

* Validarea este procesul prin care se obŃin informaŃii legate de validitatea unui test. 1 American Psychological Association 2 American Educational Research Association 3 National Council on Standards for Educational and Psychological Tests

30

rezultă în urma utilizării acestuia (unei forme de evaluare - chiar a observaŃiei). Altfel spus, validitatea determină relaŃia dintre inferenŃele făcute pe baza performanŃelor la un test şi realitate (este inclus aici orice aspect care este supus evaluării). Dacă analizăm definiŃia dată de Nunnally (1978) validităŃii, şi anume “cât de util ştiinŃific” este un instrument de măsură observăm că şi în acest caz este vorba de inferenŃe, sau judecăŃi realizate pe baza instrumentului respectiv.

Forme ale validităŃii. Literatura de specialitate indică diferite tipuri de validitate psihologică. Ele trebuie înŃelese ca fiind

tehnici, modalităŃi prin care se încearcă optimizarea unui instrument de măsură psihologică. Modalitatea cea mai des întâlnită în literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o constituie următoarea taxonomie: • validitate de criteriu • validitate de conŃinut • validitate de construct.

În afara celor trei tipuri de validitate, normele APA analizează validitatea de aspect. Validitatea de aspect este definită ca “ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară” (APA, 1974). Exprimă de fapt modul în care persoana evaluată percepe itemii testului; ea este importantă în măsura în care poate influenŃa răspunsurile persoanei examinate la test. Dacă persoana examinată apreciază că testul măsoară ceea ce îşi propune să măsoare de fapt, atunci putem spune că testul are o validitate de aspect ridicată. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu important pentru inferenŃele făcute pe baza unui test. II.2.1.VALIDITATEA DE CRITERIU

Nu de puŃine ori suntem confruntaŃi cu întrebări ca: “În ce măsură performanŃa la un test de inteligenŃă este predictivă pentru reuşita şcolară?”, “În ce măsură rezultatul la un test de aptitudini prezice performanŃa în muncă?”, “În ce măsură performanŃa la un test de memorie constituie un bun predictor pentru declinul cognitiv la vârsta a treia?”. Aceste întrebări se adresează validităŃii de criteriu. Adesea acest tip de validitate este întâlnit sub denumirea de validitate empirică (Lyman, 1998). Validitatea de criteriu indică deci măsura în care testul este un bun predictor pentru un eşantion de comportamente viitoare. În acest caz performanŃa la un test trebuie raportată la o altă performanŃă pe care o numim criteriu.

Criteriul este definit ca standardul la care este raportată performanŃa la un test. Astfel criteriul poate fi “performanŃa unui pilot care conduce un Boeing 767”, “numărul de zile petrecut într-un spital de psihiatrie”, “notele obŃinute de un elev la disciplinele umane”, “performanŃa la un alt test”. Aşa cum se poate observa nu există reguli stricte pentru ceea ce numim criteriu. Acesta poate fi un comportament specific sau un grup de comportamente, o perioadă de timp, un diagnostic psihiatric, indicele de absenteism, alcoolemia din sânge, etc. Deşi la o prima vedere se poate spune că un criteriu poate constitui orice, acest lucru este adevărat doar dacă criteriul este relevant pentru domeniul de evaluare, dacă este necontaminat, dacă este valid şi fidel.

Un test psihologic este adecvat dacă este relaŃionat cu un criteriu şi deci poate fi considerat un bun substitut al criteriului. În general numim testul ca fiind predictor pentru criteriul respectiv.

Caracteristicile unui criteriu. Criteriul reprezintă o măsură directă şi independentă a ceea ce testul doreşte să prezică. Astfel pentru un test de aptitudini mecanice criteriul îl poate constitui performanŃa în munca de mecanic; pentru un test de cunoştinŃe criteriul îl pot constitui notele şcolare.

Criteriul trebuie să îndeplinească câteva condiŃii (Corsini, 1994):

� să fie relevant pentru activitatea sau caracteristica la care se referă; adică ordinea subiecŃilor la test să coincidă cu ordinea performanŃei la criteriu;

� să fie fidel, adică să fie congruent cu evaluări diferite ale performanŃelor la care se referă, evaluări realizate la momente diferite.

CRITERIU

31

� să fie practic, adică să nu coste mult; � să fie exprimat în aceleaşi unităŃi pentru toate persoanele. Dacă de exemplu, valorile variabilei

criteriu sunt dependente de vârsta subiecŃilor atunci aceste valori trebuie transformate în cote standard (de exemplu: z sau T);

Anastasi (1954) exemplifică câteva criterii utilizate în analizarea validităŃii testelor care vizează constructe:

� vârsta – se foloseşte ca şi criteriu în cazul constructelor ce vizează procese care cunosc o maturizare (ex. inteligenŃa, funcŃiile perceptive, etc.). Nu este un criteriu bun pentru testele care vizează aspecte invariabile în timp (ex. variabilele ce Ńin de temperament).

� performanŃele şcolare – sunt un criteriu bun pentru testele de cunoştinŃe sau pentru testele care evaluează aptitudini şcolare.

� performanŃele la diverse programe de instruire specială (muzică, sport, etc.) sunt criterii adecvate pentru testele de aptitudini speciale.

� rezultatele altor teste se utilizează adesea ca şi criteriu în construirea de noi teste. Astfel Scala Metrica a inteligenŃei construită de Binet-Simon (1905) a folosit drept criteriu pentru teste ulterioare construite în scopul evaluării inteligenŃei;

� grupele contrastante - pentru un test de inteligenŃă acestea ar fi constituite din copiii care frecventează şcoala de masă, respectiv copiii integraŃi în şcoala ajutătoare.

Ca şi scorurile la test, un criteriu trebuie să fie fidel (Cohen, 1999).

Dacă ar fi posibil întotdeauna să obŃinem direct scoruri la criteriu pentru un anumit individ nu am mai avea nevoie de măsura predictorului şi de nici o aproximare a validităŃii de criteriu. Din păcate însă nu putem obŃine imediat scorurile la un criteriu; ele pot fi obŃinute doar la anumite intervale în timp sau pot fi adesea extrem de costisitoare pentru a fi obŃinute la cerere pentru orice individ.

Să considerăm un exemplu. S-a pus nu de puŃine ori întrebarea ce înseamnă o performanŃă bună într-o anumită organizaŃie.

PerformanŃa poate fi definită din mai multe puncte de vedere. Astfel, organizaŃia poate fi interesată de cât de mult contribuie o persoană la creşterea profitului, iar pentru persoana respectivă performanŃa poate însemna măsura în care simte că este apreciată. Avem în acest caz de-a face cu mai multe dimensiuni ale unui criteriu. Aceste surse de informaŃii pot fi utilizate pentru a prezice fiecare dintre cele două surse ale criteriului iar validitatea acestora va fi determinată diferit. Dacă un criteriu este adecvat este cel mai adesea o judecată de valoare (Ghiselli et. all). Putem estima prin diferite modalităŃi fidelitatea unui criteriu (stabilitatea acestuia în timp de ex.) însă formularea lui, respectiv conŃinutul acestuia constituie cel mai adesea un raŃionament sau o judecată a celui care realizează evaluarea.

În exemplul anterior criteriul aparŃine viitorului şi în momentul evaluării nu este disponibil, deci avem nevoie de o serie de predictori pentru estimarea acestuia. Să presupunem însă că avem de-a face cu un criteriu care poate fi estimat acum (adică în momentul evaluării). Întrebarea pe care trebuie să ne-o punem este următoarea: “avem la dispoziŃie măsurători economice ale criteriului care pot fi folosite acum?”. Un exemplu de astfel de criteriu este măsura în care o serie de indivizi prezintă o formă sau alta de tulburare psihică. O analiză completă a acestei dimensiuni ar dura câteva zile şi ar fi neeconomică. Dacă în plus sarcina psihologului este acela de a analiza un număr mare de persoane din prisma acestor criterii ar trebui găsită o altă modalitate decât cea clinică, completă. Problema cu care ne confruntam acum este aceea de a găsi o modalitate economică (rapidă în timp şi necostisitoare) care ar putea substitui examinarea clinică completă care constituie criteriul.

Există de multe ori evenimente care s-au petrecut în trecut şi care deci nu mai pot fi evaluate în mod direct. Care este în acest caz predictorul utilizat pentru evaluarea criteriului (evenimentul trecut)? De exemplu, analiza de către medic a unei electrocardiograme (predictor) poate fi utilizată ca modalitate de a decide dacă pacientul respectiv a suferit sau nu un atac de cord (criteriu). Un alt exemplu care intră în această categorie este rolul pe care îl are un judecător de a stabili dacă un individ a comis o crimă în trecut (criteriul) pe baza prezentării faptelor la proces (predictor).

32

Înainte de a prezenta diferitele tipuri de validitate de criteriu trebuie reŃinută următoarea afirmaŃie. O anumită variabilă poate constitui un criteriu într-o anumită situaŃie respectiv predictor în altă situaŃie. Ceea ce este astăzi criteriu poate să nu mai fie mâine. APA (1974) diferenŃiază între două tipuri de validitate de criteriu:

• validitate predictivă. • validitate concurentă

Validitatea predictivă. Termenul de predicŃie poate fi utilizat fie în sens larg când se referă la predicŃia unui test pentru orice

situaŃie, sau în sens restrâns când se referă la predicŃie într-un interval de timp. Validitatea predictivă vizează cel de-al doilea sens.

Validitatea predictivă este definită ca acurateŃea cu care putem estima în ce măsură o anumită caracteristică sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii în care persoana posedă o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la facultate ne poate interesează în ce măsură aptitudinile de care dispune acum o persoana sunt predictive pentru performanŃa academică. Pe baza notei la examenul de admitere (predictor) am putea face o predicŃie asupra reuşitei academice ulterioare (criteriu). În practica clinică de exemplu, un test care ar reuşi să prezică tentativele viitoare de suicid ar constitui un bun predictor pentru acest criteriu.

Ce este predicŃia? PredicŃia este procesul de stabilire a unor expectaŃii despre viitor având la baza date / evenimente

curente – de exemplu desprinderea unor date despre performanŃa viitoare în muncă pornind de la caracteristicile actuale ale unei persoane.

În literatura de specialitate, datele actuale se numesc „predictori”, în timp ce variabilele care descriu performanŃa se numesc „criteriu”.

Principii ale predicŃiei. Psihologia personalului, orientată pe selecŃie oferă 2 modele ştiinŃifice ale predicŃiei: „abordarea pe bază de trăsături” şi „abordarea pe baza generalizării comportamentelor” (Wernimont & Campbell, 1968).

Abordarea pe bază de trăsături (figura 1) porneşte de la asumpŃia că există un număr de relaŃii

bine precizate între trăsăturile unei persoane şi activităŃile pe care persoana le desfăşoară, relaŃii exprimate în forma legilor psihologice. Această abordare are la bază principiul deductiv nomologic (principiul DN) din teoria ştiinŃei (Stegmuller, 1974). Când pentru un grup de persoane o anumită lege psihologică stabileşte că există o legătură între o caracteristică A a persoanei şi un anumit tip de comportament E, putem realiza, pe baza acestei legi, predicŃia că o persoană care posedă caracteristica A va manifesta comportamentul E. Principiul nu poate fi aplicat în această formă simplă din mai multe motive. În primul rând, relaŃia dintre predictor şi criteriu este mai degrabă una probabilistică şi nu deterministă. Astfel, cunoscând scorul unei persoane la o variabilă predictor, putem face doar o inferenŃă despre scorul la criteriu; această inferenŃă se realizează cu o anumită probabilitate şi nu cu certitudine. În al doilea rând, trăsăturile şi caracteristicile comportamentale, nu pot fi măsurate în mod direct, ci ele sunt măsurate pe baza unor instrumente care au caracteristici psihometrice specifice. În al treilea rând legile dintre trăsături şi comportamente trebuie stabilite foarte clar, fără contradicŃii logice. Astfel de contradicŃii ar putea apare atunci când un test ar realiza o predicŃie a unei performanŃe bune a persoanei, iar un alt test ar prezice o performanŃă slabă.

33

Caracteristica A

Lege psihologică

Comportamentul E

PredicŃie

Ipoteze pe bază de observaŃie

Ipoteze pe bază de observaŃie

Caracteristica a observată

Comportamentul observat e

Figura 2.1. PredicŃia pe baza principiului deductiv-nomologic

Abordarea pe baza generalizării comportamentului (figura 2) are la bază următoarea asumpŃie: atunci când o persoană se comportă de o manieră E într-o anumită situaŃie G1 se poate concluziona că persoana respectivă se va comporta de aceeaşi manieră E într-o altă situaŃie Gi, situaŃie similară cu prima. Avem de-a face în acest caz cu o generalizare a comportamentului observat într-un eşantion de situaŃii la un o altă situaŃie similară cu cele din eşantionul ales. Pe baza acestei generalizări putem vorbi de „principiul eşantionului de situaŃii”. Figura 2 prezintă grafic o reprezentare a acestui principiu. Eşantion de situaŃii

Reprezentativitate

Univers de situaŃii

PredicŃie

Reprezentare

Reprezentare

Eşantion de sarcini

Univers de sarcini

Figura 2.2. PredicŃia pe baza principiului generalizării comportamentului

Cele două modele ale predicŃiei diferă din punctul de vedere al bazei lor epistemologice. Abordarea pe baza trăsăturilor relaŃionează o caracteristică durabilă a unei persoane (ceva ce persoana are) cu activitatea sa (ceva ce persoana face). Abordarea pe baza generalizării comportamentului nu ia în considerare trăsătura, ea relaŃionează comportamente (ce face o persoană cu altceva ce face). Această a doua abordare are la bază o similaritate mai mare între predictor şi criteriu, fapt ce poate determina o mai bună predicŃie. Acest argument susŃine şi faptul că instrumentele de tipul celor orientate pe conŃinut au o validitate predictivă mai mare decât cele bazate pe trăsături (Schmitt&Noe, 1986). Similaritatea dintre cele două abordări se referă la faptul că ele au la bază asumpŃia că există o stabilitate a comportamentului; în primul caz stabilitatea este dată de trăsătură, iar în al doilea caz stabilitatea este dată de o constantă comportamentală (comportamentul nu se schimbă atâta timp cât situaŃia nu se schimbă).

Ce model de predicŃie este utilizat în testul de personalitate 16PF?

Validarea predictivă presupune existenŃa unui interval de timp între test şi verificarea criteriului. Pentru un test care are ca scop predicŃia reuşitei şcolare la scris-citit în clasa I testul va fi aplicat la intrarea în clasa I, iar criteriul (performanŃele la scris-citit) va fi verificat fie după un semestru, fie la sfârşitul clasei I.

34

Studiul de validare al unui test care vizează prognoza reuşitei la citire în clasa I, trebuie să parcurgă următoarele etape (Kulcsar, 1980) (figura 1):

� analiza psihologică a activităŃii de citire; indicarea premiselor psihologice ale reuşitei la citire; � alegerea unui test sau a unor teste psihologice care explorează tocmai acele aspecte psihologice

care condiŃionează reuşita la citire; � aplicarea testului sau a testelor psihologice destinate predicŃiei reuşitei la citire; � măsurarea criteriului, adică evaluarea gradului de însuşire a deprinderii de citire pe baza notelor

şcolare sau a unor probe de citire elaborate în acest scop; � analiza cantitativă şi calitativă a rezultatelor la test şi la criteriu; studierea legăturii între cele

două categorii de rezultate.

15 septembrie 1980 15 iunie 1981

Aplicarea testului sau a bateriei de teste predictive (la intrarea în clasa I)

Măsurarea criteriului (notele şcolare; aplicarea unor probe de citire)

TEST (15 sept. 1980)

Studierea legăturii între reuşita la şi prin:

CITIRE (15 iunie 1981)

� metoda grupelor reprezentative; intercorelarea celor două categorii de rezultate (coeficientul de validitate relevă eroarea estimării)

� metoda grupelor extreme sau contrastante; se studiază comparativ media şi dispersia rezultatelor la două categorii de subiecŃi semnificativ diferite sub aspectul criteriului – reuşita la citire / nereuşita la citire

Figura 2.3. Ilustrarea procesului de validare predictivă (Kulcsar, 1980).

Validarea concurentă presupune obŃinerea scorurilor la criteriu aproximativ în acelaşi timp cu scorurile la test. În cazul validităŃii concurente este vorba tot de o predicŃie, dar la aceasta se ajunge pe o cale puŃin diferită faŃă de cea urmată în studierea validităŃii predictive (Cronbach, 1970).

Trebuie menŃionat faptul că distincŃia logică între validitatea predictivă şi cea concurentă (figura 2) nu se bazează pe relaŃia temporală dintre test şi criteriu ci mai ales pe obiectivele testării. Astfel, în timp ce validitatea concurentă are ca scop rezolvarea unei probleme privind starea actuală a subiectului, validarea predictivă vizează evoluŃia sa în viitor. DiferenŃa între cele două tipuri de validitate poate fi sumarizată pe baza următoarelor întrebări: “Este X anxios?” (validare concurentă) şi “Este posibil ca X să devină anxios?” (validare predictivă).

Figura 2.4. Ilustrarea procesului de validare concurentă (Kulcsar, 1980)

Dacă rezultatele la predictor (test) sunt obŃinute simultan cu rezultatele la criteriu, măsura relaŃiei

dintre predictor şi criteriu o constituie validitatea concurentă. Validitatea concurentă exprimă deci în ce

15 septembrie 1980 15 septembrie 1980

Testare psihologică Măsurarea criteriului

Studierea legăturii între cele două categorii de rezultate

35

măsură scorurile la test pot fi utilizate pentru a estima performanŃa actuală a unei persoane la un anumit criteriu. Analiza validităŃii de criteriu (fie ea predictivă sau concurentă) se bazează pe două tipuri de analize statistice: coeficienŃii de validitate. CoeficienŃii de validate Validitatea de criteriu a unui test reprezintă o modalitate cantitativă şi obiectivă a relaŃiei dintre scorurile la predictor şi scorurile la criteriu. Astfel coeficienŃii de corelaŃie sunt o modalitate de a estima validitatea predictivă. Când aceştia sunt utilizaŃi pentru a indica relaŃia dintre un predictor şi un criteriu, ei sunt denumiŃi coeficienŃi de validitate.

II.2.2. VALIDITATEA DE CONłINUT

Validitatea de conŃinut implică examinarea sistematică a conŃinutului testului pentru a se verifica dacă testul acoperă un eşantion reprezentativ din domeniul care se cere a fi evaluat prin test (Anastasi, 1976). Astfel pentru a vorbi de o validitate de conŃinut ridicată trebuie ca itemii care alcătuiesc testul să fie reprezentativi pentru ceea ce testul doreşte să măsoare.

Analiza validităŃii de conŃinut a unui test trebuie să surprindă:

1. Definirea şi descrierea domeniului de conŃinut a testului. Această descriere trebuie să fie extrem de clară şi să includă toate faŃetele domeniul care se doreşte a fi evaluat.

2. Analiza itemilor care sunt incluşi în test. Vor trebui să fie eliminaŃi acei itemi care nu evaluează aspecte ale domeniului de conŃinut identificat anterior. Această analiză se va face de către experŃi care pot să aprecieze relevanŃa fiecărui item pentru un domeniu dat. Validitatea de conŃinut nu depinde însă de relevanŃa aparentă a conŃinutului itemilor ci de caracterul relevant al răspunsurilor subiectului la itemi (Anastasi, 1976). Pentru a stabili validitatea de conŃinut a testului, orice analiză teoretică trebuie deci să fie confirmată empiric (Kulcsar, 1980).

3. Compararea structurii testului cu domeniul de conŃinut. Astfel se va analiza dacă itemii acoperă toate aspectele domeniului, respectiv dacă ei sunt proporŃionali în test cu importanŃa şi mărimea fiecărui aspect.

Deoarece acest tip de validare nu reclamă metode şi modele statistice, ea făcându-se doar pe baza de raŃionamente, o găsim în literatura de specialitate şi sub denumirea de validare logică sau raŃională (Thorndike, Hagen, 1961).

Validarea referitoare la conŃinut se impune a fi calculată în următoarele cazuri:

1. în cazul testelor de cunoştinŃe atunci când nu exista un criteriu extern adecvat pentru analiza validităŃii de criteriu;

! APA (1974) diferenŃiază între două tipuri de validitate de criteriu:

- validitate predictivă (este definită ca acurateŃea cu care putem estima în ce măsură o anumită caracteristică sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii în care persoana posedă o serie de caracteristici sau aptitudini curente (Ghiselli, et. all) - validitate concurentă (presupune obŃinerea scorurilor la criteriu aproximativ în acelaşi timp cu scorurile la test. În cazul validităŃii concurente este vorba tot de o predicŃie, dar la aceasta se ajunge pe o cale puŃin diferită faŃă de cea urmată în studierea validităŃii predictive (Cronbach, 1970)

CONłINUT

36

2. în cazul testelor utilizate la măsurarea unui atribut ce nu poate fi exprimat printr-un construct (Murphy & Davidshofer, 1991). De exemplu, se poate descrie cu uşurinŃa domeniul de conŃinut al unui test construit pentru “cunoştinŃe de aritmetică la elevii clasei I”, dar este foarte dificil să găsim comportamente prin care această caracteristică să poată fi observată.

3. în cazul testelor care evaluează performanŃa în munca în scopuri de selecŃie şi clasificare a angajaŃilor. Acest tip de validare este adecvat când testul reprezintă un eşantion de comportamente din ceea ce reprezintă deprinderile şi cunoştinŃele specifice muncii respective.

II.2.3. VALIDITATEA DE CONSTRUCT

Validitatea de construct reprezintă măsura în care se poate susŃine că testul măsoară o variabilă sau o trăsătură specifică. În termeni generali “constructul” este sinonim cu acela de concept (Kline, 1992) fiind utilizat pentru a desemna o serie de fenomene într-un cadru ştiinŃific. El este util atunci când poate fi operaŃionalizat. Dacă luăm de exemplu conceptul de “specie”, el este extrem de util în investigare şi clasificare în ştiinŃele naturii. Cu toate aceste nu există o entitate distinctă pe care putem să o etichetăm “specie”, ea nu poate fi deci studiată şi observată direct. Este doar o categorie, creată în scopul înŃelegerii diferitelor tipuri de organisme vii. Constructul este desprins dintr-o teorie psihologică care oferă cadrul menit să fundamenteze analiza semnificaŃiei psihologice a rezultatelor la test. Vorbim de validitate relativă la construct în cazul testelor de personalitate.

Pentru a putea fi utilizat şi evaluat, un concept trebuie corect şi precis operaŃionalizat. Această operaŃionalizare impune descrierea constructului în termeni comportamentali concreŃi. Murphy & Davidshofer (1991) identifică următorii paşi în operaŃionalizarea unui construct:

1. identificarea comportamentelor care au legătură cu constructul; 2. identificarea altor constructe, pentru fiecare decizându-se dacă au sau nu legătură cu constructul

măsurat de test; 3. alcătuirea pentru fiecare construct a unei liste de comportamente prin care acestea se exprimă.

Pentru fiecare comportament, pe baza relaŃiilor dintre constructe se decide dacă are sau nu legătură cu constructul măsurat de test.

Spunem despre un test că are validitate convergentă dacă evaluează aceleaşi constructe ca şi alte teste, adică dacă între scorurile sale şi scorurile altor teste există o relaŃie funcŃională. Un test are validitate de discriminare dacă evaluează altceva decât alte teste despre care se ştie că se referă la constructe ce nu au legătură cu constructul măsurat de test. Acest lucru înseamnă că între scorurile la test şi scorurile la alte teste sau variabile nu există o relaŃie funcŃională.

Campbell & Fiske (1959) propun ca şi metodă de verificare a validităŃii convergente şi de discriminare a unui test metoda bazată pe matricea “trăsături multiple-metode multiple” (tabelul 6). Pe baza acestei metode sunt relevaŃi coeficienŃii de corelaŃie între diferite măsurători ale aceloraşi constructe, măsurători obŃinute prin teste diferite.

Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul “trăsături multiple-metode multiple”

Metoda 1 Metoda 2 Metoda 3

Trăsături A1 B1 C1 A2 B2 C2 A3 B3 C3

A1 (.89)

Metoda 1 B1 .51 .(89)

C1 .38 .37 (.76)

A2 .57 .22 .09 (.93)

Metoda 2 B2 .22 .57 .10 .68 (.94)

C2 .11 .11 .46 .59 .58 (.84)

A3 .56 .22 .11 .67 .42 .33 (.94)

Metoda 3 B3 .23 .58 .12 .43 .66 .34 .67 (.92)

C3 .11 .11 .45 .34 .32 .58 .58 .60 (.85)

CONSTRUCT

37

Tabelul de mai sus prezintă toate corelaŃiile posibile între scorurile obŃinute când sunt evaluate trei trăsături (A, B, C) prin trei metode / teste. Cele trei trăsături reprezintă trăsături de personalitate cum ar fi: (A) dominanŃa, (B) sociabilitatea, (C) motivaŃia de realizare. Cele trei metode prin care se evaluează aceste caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A1 indică scorurile la dominanŃă evaluate pe baza unui chestionar, A2 indică scorurile la dominanŃă evaluate pe baza unui test proiectiv, iar C3 indică scorurile pentru motivaŃia de realizare evaluată printr-o scală de comportament. Tabelul include pe de o parte corelaŃiile între trăsături diferite evaluate pe baza aceleiaşi metode (chenar întreg) precum şi corelaŃiile între trăsături diferite prin metode diferite (chenar întrerupt). Pentru verificarea validităŃii convergente în cazul constructului (A) avem următorii coeficienŃi:

� .57 metoda 1 cu metoda 2 � .56 metoda 1 cu metoda 3 � .67 metoda 2 cu metoda 3

Validarea convergentă a unui test este necesară, dar nu şi suficientă pentru a dovedi că testul măsoară ceea ce şi-a propus; etichetele atribuite testelor reprezintă trăsăturile sau caracteristicile pe care testele ar trebui să le măsoare. CorelaŃia mare între două teste înseamnă că testele măsoară acelaşi lucru, însă nu se poate spune că itemii cuprinşi în teste sunt reprezentativi pentru constructul pe care testele intenŃionează să îl măsoare. Analiza factorială sau analiza de clusteri efectuată asupra itemilor din testele care evaluează aceleaşi constructe poate ajuta la explicarea corelaŃiilor dintre scorurile testelor (Albu, 1999)

1. Ce reprezintă validitatea? 2. Ce reprezintă validitatea de criteriu?

3. Ce reprezintă validitatea de conŃinut?

4. C reprezintă validitatea de aspect?

5. Care sunt caracteristicile unui criteriu?

6. Care sunt tipurile validităŃii de criteriu?

7. Ce trebuie să surprindă analiza validităŃii de conŃinut?


Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium. p 237-256

• Sumar În orice proces de evaluare psihologică pornim de la definirea domeniului de evaluare şi apoi

propunem o serie de modalităŃi cantitative prin care observăm dacă indivizii posedă sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului poate să fie mai mult sau mai puŃin corectă ne punem întrebarea dacă aptitudinile /caracteristicile măsurate de test corespund domeniului de evaluare. Astfel, pentru ca testul să fie considerat o măsură bună a domeniului de evaluare este necesar să obŃinem o serie de informaŃii care să reflecte faptul că testul măsoară ceea ce şi-a propus. Din aceste cerinŃe decurge problema validităŃii unei măsurători. Orice instrument de evaluare psihologică trebuie să satisfacă cerinŃele validităŃii. Există diferite tipuri de validitate psihologică. Aceste tipuri reprezintă modalităŃi prin care se încearcă optimizarea unui instrument de măsurare psihologică. Modalitatea cea mai des întâlnită în literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o constituie următoarea taxonomie: 1. validitate de criteriu, 2. validitate de conŃinut, 3. validitate de construct.

38



V. ALGORITMUL CONSTRUCłIEI UNUI TEST PSIHOLOGIC

• Titlul şi numărul modulului

5.Algoritmul construcŃiei unui test psihologic

• Scopul şi obiectivele: în cadrul acestui modul obiectivul principal este ca studenŃii să înveŃe modalităŃile cele mai bune de construcŃie de itemi astfel încât aceştia să ofere imaginea acurată a constructului de măsurat.

• Scurtă recapitulare a conceptelor prezentate anterior În orice proces de evaluare psihologică pornim de la definirea domeniului de evaluare şi apoi propunem

o serie de modalităŃi cantitative prin care observăm dacă indivizii posedă sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului poate să fie mai mult sau mai puŃin corectă ne punem întrebarea dacă aptitudinile /caracteristicile măsurate de test corespund domeniului de evaluare. Astfel, pentru ca testul să fie considerat o măsură bună a domeniului de evaluare este necesar să obŃinem o serie de informaŃii care să reflecte faptul că testul măsoară ceea ce şi-a propus. Din aceste cerinŃe decurge problema validităŃii unei măsurători. Orice instrument de evaluare psihologică trebuie să satisfacă cerinŃele validităŃii. Există diferite tipuri de validitate psihologică. Aceste tipuri reprezintă modalităŃi prin care se încearcă optimizarea unui instrument de măsurare psihologică. Modalitatea cea mai des întâlnită în literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o constituie următoarea taxonomie: 1. validitate de criteriu, 2. validitate de conŃinut, 3. validitate de construct.


1. Formularea itemilor 2. Formatul opŃiunilor de răspuns 3. Analiza de itemi 4. Validitatea de construct 5. Analiza factorială • ConŃinutul informaŃional detaliat

După parcurgerea acestui capitol: � VeŃi putea formula corect itemi � VeŃi realiza itemi utilizând un format adecvat al opŃiunilor de răspuns � VeŃi realiza analiză de itemi � VeŃi putea calcula validitatea de construct � VeŃi putea realiza analiza factorială


39

CONSTRUCłIA ŞI ANALIZA DE ITEMI 1. ConstrucŃia de itemi

Atunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume dorim să evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere imagine acurată a aspectului care ne interesează.

Formularea itemilor Construirea de itemi este un proces pretenŃios, în continuare vom prezenta câteva aspecte orientative

legate de formularea lor: 1. DefiniŃi clar ceea ce aveŃi de măsurat, pentru a putea formula itemii cât mai specific posibil. 2. GeneraŃi o bază de itemi, evitaŃi itemii redundanŃi. 3. EvitaŃi formularea unor itemi lungi, care ar putea fi greu înŃeleşi. 4. ÎncercaŃi să formulaŃi itemii într-un limbaj accesibil persoanelor evaluate cu acest instrument. 5. EvitaŃi formularea unor itemi care surprind două aspecte sau idei, de exemplu:

„Îmi place să lucrez într-un mediu bine organizat, pentru că vreau să fiu cel mai bun la locul de muncă”

Acest item are în vedere două aspecte: „îmi place să lucrez într-un mediu bine organizat” şi „vreau să fiu cel mai bun la locul de munca”, astfel în momentul în care persoana evaluată va alege o opŃiune de răspuns, va fi imposibil de decelat la care din cele două aspecte evaluate se referă. 6. ÎncercaŃi să formulaŃi itemi pozitivi şi negativi în aceeaşi măsură, pentru a evita biasarea care apare

în cazul formulării itemilor pozitivi. Această biasare este determinată de tendinŃa persoanei evaluate de a fi de acord cu toŃi itemii testului.

Formatul opŃiunilor de răspuns În funcŃie de constructul pe care dorim să-l evaluăm anumite formate devin mai mult sau mai

puŃin adecvate. Prezentăm în continuare cele mai frecvent întâlnite forme ale itemilor.

a. Itemii dihotomici – oferă două alternative de răspuns (adevărat şi fals), de obicei uneia dintre acestea i se acordă un punct la cotarea performanŃei persoanei evaluate. Itemii au forma unor afirmaŃii, iar sarcina subiecŃilor este de a decide asupra valorii de adevăra a acesteia.

Avantajele acestui tip de itemi sunt: • sunt uşor de cotat; • sunt uşor de construit (în construirea unui test de evaluare a cunoştinŃelor profesorul poate utiliza fragmente din suportul de curs pentru a formula itemii); • completarea lor nu necesită mult timp deoarece răspunsul nu trebuie scris; • necesită o evaluare în termeni absoluŃi (alb sau negru);

Dezavantaje acestui tip de itemi sunt:

• în cadrul testelor de cunoştinŃe acest tip de itemi pot încuraja studenŃii să â memoreze materialul; • şansa de a ghici răspunsul corect este foarte mare, de 50%.

b. Itemi cu mai multe opŃiuni (polinomici) – au un format similar celor dihotomici, atâta doar că au mai mult de două alternative de răspuns. Se acordă un punct numai unei opŃiuni de răspuns, iar celelalte care nu sunt corecte poartă denumirea de distractori. Itemii construiŃi în scopul evaluării performanŃei academice au de cele mai multe ori acest format.

Avantajele acestui tip de itemi sunt: • aceşti itemii sunt uşor de cotat; • sunt uşor de construit; • completarea lor nu necesită mult timp deoarece răspunsul nu trebuie scris; • şansa de a ghici răspunsul corect este redusă;

40

Dezavantajul cel mai mare al acestui tip de itemi se referă la construirea unor distractori buni, procedeu care necesită mai mult timp. În cazul itemilor polinomici, probabilitatea de a ghici răspunsul există, deşi este mai mică decât în cazul itemilor dihotomici (este de 25% în cazul a patru alternative, de 33.33% în cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a scorului obŃinut de către fiecare persoană evaluată. Această formulă se exprimă astfel:

Scorul corect = R – W/ n – 1

R este numărul opŃiunilor corecte;

W este numărul opŃiunilor greşite;

n este numărul opŃiunilor de răspuns ale itemilor.

Răspunsurile omise nu sunt incluse deoarece acestea nici nu cresc şi nici nu duc la scăderea scorului final. De exemplu în cazul unui test de 100 de itemi, cu câte 4 opŃiuni de răspuns (din care una singură este corectă, celelalte trei sunt greşite la fiecare item), dacă vom completa aleator răspunsurile corecte vom obŃine scorul de 25 (bine înŃeles aceasta este o situaŃie ipotetică în realitate avem puŃine şanse să obŃinem tocmai 25 de puncte care este scorul mediu aşteptat).

În acest caz, conform formulei anterioare, scorul corect este de:

25 - 75/4-1 = 25 – 25 = 0

Astfel, după aplicarea corecŃiei scorul expectat este 0.

Întrebarea este în ce măsură în cazul testelor de cunoştinŃe este recomandat ca studenŃii să încerce să ghicească răspunsul? În cazul în care nu se utilizează procedura de corecŃie răspunsul este clar, „încercaŃi să nimeriŃi”, dar nu şi în cazul în care se utilizează procedura de corecŃie. Există situaŃia în care nu sunteŃi siguri de răspunsul corect, dar ştiŃi sigur că două din cele patru alternative de răspuns sunt greşite, în acest caz vă sfătuim să încercaŃi să ghiciŃi. Formula de corecŃie are la bază asumpŃia că fiecare din cele patru alternative de răspuns are aceeaşi probabilitate de a fi aleasă, deci aveŃi şansa de 1 la 4. În cazul în care eliminaŃi două dintre alternative şansa dvs. creşte la 1 la 2, ceea ce vă oferă un avantaj asupra procedurii de corecŃie.

c. Scale Likert – prezintă o formă foarte populară, utilizată mai ales în cadrul testelor de personalitate, în care persoana evaluată trebuie să-şi exprime acordul sau dezacordul faŃă de a o afirmaŃie (se numeşte scală Likert, pentru că a fost introdusă de către Likert în 1932, în scopul evaluării atitudinilor).

De exemplu la itemul: „Îmi este frică de înălŃime.”

Avem următoarele opŃiuni de răspuns:

1 2 3 4 5

acord total acord nici acord nici dezacord dezacord dezacord total

Pentru a se evita alegerea unui răspuns neutru din partea celui evaluat (în cazul exemplului de mai sus 3), se utilizează scale cu un număr par de opŃiuni de răspuns, de exemplu:

1 2 3 4 5 6

acord puternic

acord

moderat

acord dezacord dezacord

moderat

dezacord puternic

41

Acest tip de răspuns permite cotarea inversă, scorul total este calculat prin însumarea numerelor corespunzătoare răspunsurilor.

d. Scală categorială – este similară cu scalele Likert, dar utilizează un număr mai mare de opŃiuni de

răspuns, de cele mai multe ori sunt utilizate scale cu 10 opŃiuni de răspuns. Pentru utilizarea lor adecvată este foarte important ca punctele extreme ale scalei să fie clar definite şi permanent reamintite celor care realizează evaluarea.

Una dintre principalele probleme legate de acest tip de scală este numărul de categorii care poate fi utilizat, care poate fi de 10 şi 15 sau 66? S-au realizat câteva studii în acest sens, ele au arătat că depinde mult de scopul pe care îl avem şi de nivelul de expertiză al evaluatorului. De exemplu dacă dorim să evaluăm performanŃa unor jucători de fotbal, o scală cu 7 nivele va fi suficientă pentru ochiul unui nonexpert care nu sesizează aspectele de fineŃe, dar nu şi în cazul unui expert, al unui antrenor care poate sesiza mai multe diferenŃe între jucători.

e. Q- sort – este o metodă utilizată cu precădere în evaluarea personalităŃii. Persoana evaluată va primi o listă de adjective pe care le va sorta în funcŃie de măsura în care acestea îl caracterizează.

2. Analiza de itemi Care sunt criteriile pe baza cărora putem spune că un item este bun? Aşa după cum putem analiza un test din prisma fidelităŃii şi validităŃii, la fel putem analiza conform acestor criterii un item. Mai precis, un item bun discriminează între două categorii de subiecŃi; putem spune de asemenea că un item este bun dacă performanŃa la item corelează cu performanŃa la test.

Care este procesul pe baza căruia putem analiza itemii? După ce am generat itemii, după ce aceştia au fost aplicaŃi unui eşantion de subiecŃi, ne interesează în ce măsură ei pot fi consideraŃi itemi buni, respectiv la care dintre itemi ar trebui să renunŃăm deoarece nu satisfac criteriile. Totalitatea procedeelor statistice cunoscute sub denumirea de „analiză de itemi” servesc scopurilor prezentate. Este important de menŃionat faptul că analiza de itemi cuprinde atât procedee cantitative cât şi procedee calitative.

Analiza calitativă de itemi

Tehnicile de analiză calitativă a itemilor unui test constituie un procedeu des întâlnit în analiza itemilor unui test. Tabelul 5 prezintă o serie de aspecte ale analizei calitative de itemi pe care trebuie să le ia în calcul o persoană care construieşte un test.

Tabelul 2.3. Aspecte ale analizei calitative de itemi

Aspecte Întrebări

Specificitatea culturală Crezi că itemii testului sunt discriminativi pentru un grup anume de persoane? De ce?

Validitatea de aspect Testul măsoară ceea ce crezi tu că măsoară? Dacă nu este aşa ce anume din test

!Cele mai frecvent întâlnite forme ale itemilor:

1. itemi dihotomici 2. itemi polinomici 3. scale Likert 4. scale categoriale 5. Q - sort

42

te îndreptăŃeşte să susŃii acest lucru?

Examinatorul Crezi că performanŃa obŃinută la test a fost influenŃată de comportamentul examinatorului? Dacă da, care au fost acele comportamente care te-au influenŃat?

Mediul de testare Crezi că unele condiŃii ale mediului în care ai fost testat au influenŃat performanŃele la test? Dacă da, care au fost acelea?

Limbajul testului Modalitatea de prezentare a instrucŃiunilor sau alte aspecte verbale ale testului au influenŃat performanŃa la test?

Lungimea testului Care este opinia ta în privinŃa lungimii testului – se vor discuta 2 aspecte: timpul total şi numărul itemilor

Răspunsurile aleatoare Au fost itemi în test la care ai dat răspunsuri la întâmplare? Care este procentajul de itemi la care ai răspuns la întâmplare? Ai folosit anumite strategii specifice?

Corectitudinea testării Crezi că s-a putut trişa la acest test? Dacă da, care crezi că au fi sunt modalităŃile de a trişa?

Starea psihică/fizică a subiectului în timpul examinării

Cum ai descrie starea ta (psihică sau fizică) din timpul testului? Crezi ca această stare ar putea influenŃa în vre-un fel performanŃa la test?

Impresia generală Care este impresia ta generală lăsată de acest test? Care sunt sugestiile pe care le-ai face pentru îmbunătăŃirea testului?

PreferinŃe Ce Ńi-a plăcut/displăcut la acest test? Au existat părŃi ale testului pe care le-ai resimŃit ca provocându-Ńi anxietate sau alte stări negative?

Pregătirea anterioară Cum te-ai pregătit pentru acest test? Dacă ar trebui să sfătuieşti pe cineva privind modul în care ar trebui să se pregătească pentru acest test ce i-ai sugera?

Analiza cantitativă de itemi din perspectiva teoriei clasice

Atunci când ne referim la teoria clasică a testelor avem în vedere modelul de măsurare prezentat în cadrul modulului II. În acest subcapitol vom prezenta procedurile de analiză a itemilor bazate pe acest model şi pe asumpŃiile sale.

Procedurile statistice utilizate în analiza itemilor sunt nu de puŃine ori extrem de complexe, de aceea scopul nostru este de a prezenta aici doar procedurile de bază. Vom prezenta în continuare modalităŃile principale utilizate în analiza itemilor. Este important de reŃinut faptul că importanŃa acestor procedee depinde de funcŃia şi obiectivele pe care autorul testului doreşte să le atribuie testului.

Printre indicatorii care ar trebui luaŃi în calcul în analiza de itemi se găsesc:

� indicele de dificultate al itemului; � indicele de discriminare;

Indicele de dificultate al unui item

Să presupunem că un item al unui test este rezolvat corect de toŃi subiecŃii. Putem spune că itemul acesta este un item bun? Ce se întâmplă dacă dimpotrivă, nici un subiect nu răspunde corect la acest item. În ambele cazuri putem considera că itemul respectiv nu este unul bun. Dacă la un item toŃi subiecŃii răspund corect înseamnă că itemul este prea uşor; dacă dimpotrivă, nici un subiect nu răspunde la un item atunci putem spune că itemul este prea dificil. În ambele cazuri, se recomandă rescrierea itemului sau eliminarea din test.

43

ObservaŃie. La unele teste de cunoştinŃe, primul item al testului este unul extrem de facil (răspund deci majoritatea subiecŃilor). Acest lucru este indicat a se realiza fie pentru a verifica dacă subiectul a înŃeles sarcina de lucru, fie pentru a-i forma o atitudine pozitivă faŃă de test şi astfel de a-i creşte motivaŃia.

Indicele de dificultate al unui item (px) se obŃine calculând proporŃia subiecŃilor care au răspuns corect la item. Valoarea teoretică a indicelui de dificultate se găseşte între 0 (dacă nici un subiect nu a rezolvat itemul corect) şi 1 (dacă toŃi subiecŃii au răspuns corect la un item).

Exemple.

1. Dacă 50 din cei 100 de subiecŃi la care a fost aplicat un test au răspuns la itemul 2 corect atunci putem spune că indicele de dificultate al itemului 2 este 50/100 adică p2=0,5

2. Dacă 75 din cei 100 de subiecŃi la care a fost aplicat un test au răspuns la itemul 3 corect atunci putem spune că indicele de dificultate al itemului 3 este 75/100 adică p3=0,75 şi vom spune că itemul 3 este mai uşor decât itemul 2.

Se poate observa că cu cât indicele de dificultate al itemului este mai mare cu atât itemul este mai uşor. Deoarece „p” se referă la procentul celor care au rezolvat corect itemul, putem spune că cu cât este mai mare valoarea indicelui cu atât itemul este mai uşor. Vorbim de indice de dificultate pentru testele de performanŃă, însă în cazul testelor de personalitate acest indice exprimă procentul de subiecŃi care a răspuns „da” la item, sau în alte cazuri procentul de subiecŃi care a agreeat itemul.

Un indice global de dificultate al itemilor unui test se poate calcula făcând media indicilor fiecărui item. Astfel se face suma tuturor indicilor de dificultate şi rezultatul obŃinut se împarte la numărul itemilor testului. Pentru o maximă discriminare, este important ca media indicilor de dificultate al unui test să fie 0.5, deci indicii fiecărui item al testului să varieze între 0.3 şi 0.8.

Ceea ce trebuie să luăm în calcul când analizăm indicele de dificultate al unui item este şansa ca subiectul să dea răspunsul corect la întâmplare (adică de a ghici răspunsul). În acest caz indicele optim de dificultate al unui item se găseşte la mijlocul distanŃei dintre 1 şi rata de răspuns la întâmplare care pentru un item cu 2 răspunsurile este de 0,50. Mijlocul distanŃei dintre 1 şi 0.50 este 0.75 – deci indicele optim de dificultate al acestui item este 0.75. În general acest indice optim se obŃine însumând valoarea şansei cu 1 şi apoi împărŃind valoarea obŃinută la 2, sau:

0,50+1,00=1,5 1,5/2=0,75

Pentru un item care are 5 variante de răspuns şansa de a răspunde corect este 1/5 adică 0,20. În acest caz, indicele de dificultate optim se va obŃine astfel:

0,20+1,00=1,20

1,20/2=0,60

Indicele de discriminare al unui item

Indicele de discriminare al unui item (d) constituie o măsură a cât de bine reuşeşte un item să separe sau să discrimineze subiecŃii care au obŃinut scoruri mari şi cei care au obŃinut coruri mici la test. Mai precis, un item este considerat discriminativ dacă subiecŃii care au obŃinut o performanŃă bună la test au rezolvat corect itemul, respectiv dacă cei care au obŃinut o performanŃă scăzută la test nu au rezolvat corect itemul. Dacă majoritatea subiecŃilor cu performanŃă mare la test nu au rezolvat corect un item atunci înseamnă că itemul respectiv nu discriminează între categorii diferite de subiecŃi. Similar, în cazul testelor de personalitate subiecŃii care au un scor mare la o anumită trăsătură (evaluată de întregul test) trebuie să aibă un scor mare şi la un item care se presupune că evaluează trăsătura respectivă.

Indicele de discriminare are în vedere performanŃa eşantionului la un item Ńinând cont de performanŃa scorurilor din ultima treime sau din prima treime a distribuŃiei totale a scorurilor. Limita până la

44

care putem considera prima/ultima arie a distribuŃiei scorurilor este valoarea de 27% din scoruri (Kelley, 1939). Indicele de discriminare al unui item este reprezentat de măsura diferenŃei dintre proporŃia celor care au rezolvat corect itemul şi cei care nu au rezolvat corect itemul. Cu cât valoarea lui d este mai mare cu atât este mai mare numărul subiecŃilor „buni” care au rezolvat itemul. O valoare negativă pentru un d reprezintă o problemă a itemului deoarece indică situaŃia în care cei care au avut o performanŃă slabă la test rezolvă corect itemul. În această situaŃie se cere revizuirea sau eliminarea itemului.

Exemplu.

Să presupunem că un profesor administrează un test la 119 persoane şi selectează primele 27% şi ultimele 27% din performanŃele la test, selectând 32 de teste în fiecare grup. În continuare în tabelul 3 sunt prezentate valorile necesare calcului indicelui de discriminare pentru cei 5 itemi ai testului:

Tabelul 2.4. Indicele de discriminare pentru 5 itemi ipotetici ai unui test

Item Superior (S) Inferior (I) S-I n d = (S-I)/n

1 20 16 4 32 0,43

2 30 10 20 32 0,63

3 32 0 32 32 1,00

4 20 20 0 32 0,00

5 0 32 -32 32 -1,00

Pentru itemul 1 se poate observa că 20 dintre subiecŃii care au obŃinut performanŃe superioare la test au rezolvat corect itemul, în timp ce 16 dintre cei care au obŃinut performanŃe inferioare la test au rezolvat corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece mai mulŃi subiecŃi dintre cei care au obŃinut o performanŃă bună la test, au răspuns corect la item. Se poate observa că cu cât este mai mare valoarea indicelui de discriminare cu atât itemul separă mai bine categoriile de subiecŃi şi este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de discriminare este +1 (toŃi subiecŃii care au obŃinut performanŃa superioare la test au rezolvat corect itemul); valoarea cea mai mică pe careo poate avea un indice de discriminare al unui item este –1 (nici unul dintre subiecŃii care au obŃinut performanŃe superioare la test nu au rezolvat corect itemul).

Analiza alternativelor de răspuns la itemi.

Calitatea fiecărei alternative de răspuns la itemii cu răspunsuri multiple poate fi analizată comparând-o cu performanŃa obŃinută de subiecŃii care au avut performanŃe superioare (primii 27%) şi cei care au obŃinut performanŃe inferioare (ultimii 27%) la un test.

Să analizăm (tabelul 4) performanŃa la 5 itemi ipotetici, test la care 32 de subiecŃi au obŃinut performanŃe inferioare (I) şi 32 de subiecŃi au obŃinut performanŃe superioare (S).

45

Tabelul 2.5. Răspunsurile la 5 itemi ai unui test (Răspunsul corect al fiecărui item este marcat cu caractere îngroşate)

Alternative

Item

a b c d e

1 S

I

24¤ 3 2 0 3

10¤ 5 6 6 5

2 S

I

2 13 3 2 12¤

6 7 5 7 7¤

3 S

I

0 0 32¤ 0 0

3 2 22¤ 2 3

4 S

I

5 15¤ 0 5 7

4 5¤ 4 4 15

5 S

I

14 0 0 5¤ 13

7 0 0 16¤ 9

Analiza itemilor.

Itemul 1 este un item bun – mai multe persoane cu performanŃă superioară la test l-au rezolvat corect.

Itemul 2 – un număr mare de S au ales un distractor în locul răspunsului corect (răspunsul b). Acest item ar trebui revăzut.

Itemul 3 reprezintă modalitatea optimă de răspuns la un item; toŃii S au răspuns corect

Itemul 4 este mai dificil decât itemul 3 deoarece o proporŃie mai mică de S au răspusn corect la item, dar discriminează mai bine (o proporŃie mai mică de I au răspuns cirect la item).

Itemul 5 este un item slab deoarece mai mulŃi de I au răpsuns corect la item.

Analiza curbei caracteristice itemului

O modalitate de a afla noi informaŃii despre comportamentul itemilor este trasarea curbei caracteristice itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe axa Y proporŃia persoanelor care au răspuns corect la item (vezi figura 2.5).

Figura 2.5. Curba caracteristică a itemului

1

0.5

0

0 5 10 15 20 25 30 35 40 45 50 55 60 65 Scorul total la test

46

Scorul total reprezintă nivelul de abilitate al persoanei evaluate, acest nivel nu poate fi măsurat, doar estimat pe baza acestui scor. RelaŃia dintre performanŃa la unul dintre itemi şi cea obŃinută la aplicarea întregului test ne oferă informaŃii legate de item.

Astfel figura de mai sus reprezintă curba caracteristică a unui item relativ bun, observăm cum curba creşte pe măsură ce creşte şi scorul total la test, aceasta înseamnă că itemul discriminează bine în cazul tuturor nivelelor de performanŃă.

Să luăm spre exemplu o persoană care are un scor mai mic de 20 puncte, conform curbei (Figura 2.6), aceasta va avea o probabilitate de aproape 40% de a rezolva corect acest item.

Figura 2.6. Curba caracteristică a itemului

În cazul în care scorul este mai mare, de 40 respectiv 65 de puncte, probabilitatea de a răspunde corect este de 50 respectiv 100%.

Un item bun trebuie să prezinte un asemenea patern de comportament, adică pe măsură ce creşte nivelul de abilitate a persoanelor testate să crească şi şansa de a fi rezolvat corect.

În figura 2.7 dorim să prezentăm itemi care prezintă un patern comportamental diferit de cel prezentat anterior. Vă rugăm să analizaŃi curba trasată cu linie întreruptă.

Figura 2.7. Curba caracteristică a 2 itemi

Observăm că şi dacă nivelul de abilitate al persoanelor din eşantionul nostru creşte, probabilitatea de a răspunde corect la acest item este aceeaşi, cu alte cuvinte itemul nu ne oferă nici o informaŃie despre nivelul de abilitate al persoanei care l-a rezolvat (itemul trasat cu linie întreruptă). Este posibil ca acest item să măsoare un alt aspect decât cel pe care îl evaluează ceilalŃi itemi ai testului.

Spre deosebire de acesta, itemul trasat cu linie neîntreruptă este rezolvat numai de persoanele care au un scor brut de cel puŃin 25 de puncte, probabilitatea de a-l rezolva corect creşte apoi treptat împreună cu nivelul de abilitate. Acest item este de dificultate medie, este puŃin probabil ca el să fie rezolvat corect de persoanele cu scor mai mic de 25.

2. Analiza de itemi din perspectiva teoriei răspunsului la item (item response theory - IRT)

1


1

0.5

0


0.5

0

47

Teoria răspunsului la item propune un nou model de explicare şi de analiză a itemului şi a comportamentului acestuia. Rasch (1960) a fost principalul promotor, care a propus primul model, după care acesta a fost dezvoltat şi adaptat la diferite situaŃii de testare.

Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure trăsături latente sau multidimensionale, în cazul testelor care evaluează mai multe dimensiuni. De asemenea în funcŃie de răspunsul la item dihotomic sau cu mai mute opŃiuni avem mai multe tipuri de modele. În continuare vom discuta despre modele unidimensionale dihotomice. În cazul modelelor IRT unidimensionale diferenŃele dintre persoanele care alcătuiesc eşantionul pot fi explicate numai pe baza unei singure dimensiuni.

Modelele IRT implică două asumpŃii:

• Curba caracteristică itemului (item characteristic curve - ICC) trebuie să aibă o formă specifică (acesta descrie modul în care modificările la nivelul abilităŃii induc modificări la nivelul probabilităŃii de apariŃie a răspunsului corect);

• Trebuie îndeplinită condiŃia de independenŃă locală (aceasta înseamnă că nu trebuie să avem corelaŃie între itemi, în condiŃiile în care nivelul de abilitate al persoanelor evaluate este menŃinut constant).

Înainte a trece la prezentarea concretă a unui model IRT, dorim să reamintim modelul care stă la baza teoriei clasice.

Xobservat = Xreal + e (e = eroarea de măsură)

Acesta are următoarele asumpŃii:

• Valoare expectată a erorii pentru fiacre persoană în parte este 0; • Eroarea nu covariază cu alte variabile (aceste asumpŃii sunt importante pentru interpretarea erorii

standard de măsurare).

Limitele care au fost reproşate acestui model sunt următoarele:

1. sunt menŃionate două variabile independente de care depinde scorul obŃinut de o persoană, şi anume scorul real şi eroarea de măsurare, dar acestea nu pot fi separate în mod real în cadrului scorului obŃinut de către o persoană, astfel modelul este util în cadrul realizării unor estimări la nivel de populaŃie;

2. Din acest model sunt omise proprietăŃile itemului care şi ele au un impact asupra scorului persoanei (dacă de exemplu toŃi itemii sunt uşori, atunci majoritatea persoanelor vor ave un scor maxim);

Modelele IRT explică performanŃa la test considerând doi sau mai mulŃi parametrii: nivelul de abilitate al persoanei evaluate, parametrul de dificultate al itemului, parametrul de discriminare, probabilitatea de a ghici răspunsul corect, iată notaŃiile utilizate.

X is = răspunsul persoanei s la itemul i (care în cazul itemilor dihotomici poate fi 0 sau 1)

p(Xis=1) = probabilitatea ca persoana s să ofere un răspuns corect la itemul i

θ s = nivelul de abilitate al persoanei s

β i = dificultatea itemului i

α i = discriminarea itemului i

γ i = probabilitatea de a ghici răspunsul corect la itemul i

48

Vom explicita modelul de măsurare utilizat de această abordare prin prezentarea modelului uniparametric 1PL.

p(Xis=1) = 1/(1 + e (-(θ - β i))

În cadrul acestuia probabilitatea de a răspunde un răspuns corect la un item i, depinde de nivelul de abilitate al persoanei evaluate şi de parametrul de dificultate al itemului. Acesta se numeşte model uniparametric deoarece este considerat numai un singur parametru al itemului.

Dacă analizăm acest model la nivel grafic (vezi figura de mai jos, unde pe axa X este reprezentat nivelul de abilitate al persoanei testate , iar pe axa Y probabilitatea de a oferi un răspuns corect la itemii a căror curbă este trasată), observăm cum curbele caracteristice itemilor au acelaşi unghi de înclinare, ceea ce diferă este locaŃia lor de-a lungul nivelului de abilitate, practic această locaŃie este un indicator al dificultăŃii itemului. De exemplu itemul trasat cu linie întreruptă (figura 2.8) este rezolvat de persoanele cu un nivel de abilitate de 01 în proporŃie de aproximativ 55%, în timp ce aceleaşi persoane rezolvă itemul trasat cu linia punctată în proporŃie de 20%, deci acesta din urmă este mai dificil decât primul.


În cazul acestui model, parametrul de discriminare este menŃinut constant (egal cu 1).

1 nivelul de abilitate şi parametrii itemilor (dificultate, discriminare) pot lua valori între minus şi plus infinit deoarece sunt pe scală logit.

-3 -2 -1 0 1 2 3 nivelul de abilitate

1

0.5

0

49

În cadrul modelului biparametric – 2PL, este considerat şi parametrul de discriminare a itemului. În figura 2.9 prezentăm itemi care au acelaşi nivel de dificultate, dar care au o discriminare diferită.

p(Xis=1) = 1/(1 + e (-α i (θ - β i))


Discriminarea este reprezentată grafic prin gradul de înclinare a curbelor care descriu comportamentul itemului. Un item cu o curbă abruptă discriminează mai bine comparativ cu un item cu o curbă mai domoală. Acest lucru înseamnă că o modificare mică la nivelul abilităŃii persoanelor testate va duce la o modificare mare a probabilităŃii de a răspunde corect la item. Curba trasată cu linie neîntreruptă reprezintă un item care are o discriminare perfectă, deoarece nici o persoană cu un nivel de abilitate mai mic de 0.25 nu va avea şansa de a rezolva acest item, în schimb persoanele cu o abilitate mai mare îl vor rezolva.

Modelul tri-parametric – 3PL, introduce şi parametrul care permite estimarea şansei de a ghici răspunsul corect la item.

p(Xis=1) = γ i + (1 - γ i)[1/(1 + e (-α i (θ - β i))]

Probabilitatea de ghici răspunsul corect este vizibilă în punctul în care curba caracteristică itemului intersectează axa Y. Aceasta înseamnă că şi persoanele care au un nivel de abilitate scăzut vor rezolva corect itemul, ghicind răspunsul corect (Figura 2.10).


1

0.5

0

50

Utilizarea unui model 3PL devine necesară mai ales în situaŃia în care probabilitatea de a ghici răspunsul corect este mare, de exemplu în cazul unui item cu 2 posibilităŃi de răspuns acesta este de 1 din 2, spre deosebire de cea cu 6 opŃiuni, în care probabilitatea de a ghici răspunsul corect este semnificativ mai mică, 1 din 6.

Figura 2.10. Curba caracteristică itemului

Aceste modele reflectă modul în care IRT a contribuit la perfecŃionarea procedurilor de dezvoltare a instrumentelor de măsurare, dar analiza atentă a asumpŃiilor acestora oferă o nouă perspectivă asupra vechilor reguli de măsurare, aşa cum spunea Emreston şi Reise (2000).

ANALIZA FACTORIALĂ

Una dintre metodele utilizate în validara de construct este analiza factorială. Analiza factorială este definită ca „un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza uneui set de măsurăori empirice”. Cel mai adesea este utilizată pentru:

• identificarea factorilor care stau la baza performanŃei la un test de aptitudini • identificarea unor dimensiuni ale personalităŃii • identificarea unor sindroame clinice • identificarea factorilor relaŃionaŃi cu satisfacŃia în muncă

În continuare vor fi discutate principalele concepte implicate în analiza factorială.

Concepte generale

Atributele interne pot fi gândite ca şi constructe ipotetice. Ele nu sunt cu necesitate reale sau concrete. Acestea sunt mai degrabă constructe care aşa cum vom vedea pot fi utilizate pentru a înŃelege şi a explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie văzute ca o critică a abordării factoriale. Utilizarea constructelor ipotetice constituie o practică obişnuită în multe domenii ale ştiinŃei. De exemplu, fizicienii utilizează o serie de constructe (gravitate, magnetism) pentru a explica o serie de fenomene. Aceste forŃe reprezintă de fapt constructe neobservabile, a căror existenŃă a fost inferată pe baza fenomenelor observabile. Aceste constructe, împreună cu teoriile care le însoŃesc pot explica o serie de fenomene observabile. Într-o manieră asemănătoare, analiza factorială postulează că există atribute interne neobservabile care pot explica variaŃia şi covariaŃia dintre o serie de atribute de suprafaŃă, adică acele atribute care pot fi măsurate şi observate direct.

Un concept teoretic central al analizei factoriale îl constituie deci relaŃia dintre atributele interne şi cele de suprafaŃă. Principiul de bază este acela că atributele interne influenŃează sistematic atributele de suprafaŃă. Acest fapt implică ideea că atunci când avem o măsură a unui atribut de suprafaŃă, această măsură


1

0.5

0

51

este, cel puŃin în parte, rezultatul influenŃei atributelor interne. De exemplu, scorul obŃinut de o persoană la un test de adunare (atribut de suprafaŃă) este influenŃat de aptitudinea numerică (atribut intern). TradiŃional, aceste relaŃii dintre atributele de suprafaŃă şi cele interne sunt considerate a fi lineare.

În continuare este util să distingem între 2 tipuri de atribute interne sau factori: factori comuni şi factori specifici. Factorul comun este definit ca un atribut intern care afectează /influenŃează mai mult de o variabilă de suprafaŃă. De exemplu, dacă factorul aptitudine numerică influenŃează mai mult decât o variabilă de suprafaŃă (să presupunem că influenŃează atât adunarea cât şi înmulŃirea) atunci acesta factor este un factor comun. Factorii specifici influenŃează doar o singură variabilă de suprafaŃă; astfel poate exista un număr de factori specifici pentru fiecare variabilă de suprafaŃă. Prin schimbarea variabilelor de suprafaŃă factorul comun se poate transforma în factor specific dacă se înlătură toate variabilele de suprafaŃă care îl alcătuiesc, mai puŃin una; sau dimpotrivă, dacă lărgim bateria, un factor specific se poate transforma într-un factor comun dacă el influenŃează mai multe variabile de suprafaŃă.

În afara celor 2 variabile interne (factorii comuni şi specifici) care influenŃează variabilele de suprafaŃă, există o a treia influenŃă asupra acestora. Această a treia influenŃă o constituie erorile de măsură asociate observării atributelor de suprafaŃă. Aceste erori sunt reprezentate în analiza factorială ca factori adiŃionali, deşi ele nu fac parte din cadrul atributelor interne; adică nu reprezintă caracteristici neobservate ale indivizilor. Mai degrabă erorile de măsură apar ca rezultat al influenŃelor datorate măsurătorii atributelor de suprafaŃă. Se poate observa relaŃia directă între factorii de suprafaŃă şi erorile de măsură; astfel, cu cât fidelitatea măsurătorilor este mai mare cu atât erorile sunt mai mici. Deci, utilizarea unor teste mai puŃin fidele va influenŃa erorile de măsură, dar nu în mod necesar factorii comuni sau specifici. De asemenea, adăugarea sau înlăturarea unor variabile de suprafaŃă va influenŃa factorii comuni sau specifici, însă nu va influenŃa erorile de măsură.

Factorii specifici şi erorile de măsură caracteristice unui set de observaŃii se pot combina rezultând factori unici. Un factor unic este alcătuit dintr-un factor specific caracteristic unei singure variabile de suprafaŃă precum şi din eroarea de măsură asociată variabilei de suprafaŃă respective. Factorul unic se va modifica la orice modificare a factorului specific sau a erorii de măsură.

Pornind de la aceste definiŃii ale factorilor, Ńinând cont de faptul că factorii influenŃează atributele de suprafaŃă se poate înŃelege că factorii se combină pentru a putea explica un anumit nivel al trăsăturilor de suprafaŃă. Mai precis, orice nivel al atributelor de suprafaŃă poate fi văzut ca o rezultantă a factorilor relevanŃi. De exemplu, scorul unei persoane la un test de adunare poate fi văzut ca o rezultantă a factorului comun aptitudine numerică şi a factorului specific asociat adunării. De asemenea, eroarea de măsură contribuie la scorul obŃinut la testul de adunare. Generalizând putem spune că diferenŃele individuale sau varianŃa atributelor de suprafaŃă poate fi atribuită factorilor adiacenŃi acestor atribute. Astfel diferenŃele la nivelul atributelor de suprafaŃă sunt datorate diferenŃelor la nivelul factorilor ce influenŃează aceste atribute şi de asemenea diferenŃele sunt datorate şi erorilor de măsură.

DistincŃia realizată anterior între factorii comuni, specifici şi eroarea de măsură ne ajută să înŃelegem modul în care factorii explică varianŃa atributelor de suprafaŃă. Este important de reŃinut faptul că varianŃa observată la nivelul atributelor de suprafaŃă poate rezulta din trei surse. O parte din varianŃă este datorată influenŃei factorilor comuni – aceasta poartă numele de varianŃă comună sau comunalitate. O altă parte din varianŃa atributelor de suprafaŃă poate fi datorată factorului specific – această varianŃă este denumită varianŃă specifică sau specificitate. Cea de-a treia sursă de varianŃă este datorată erorilor de măsură – şi este denumită varianŃa erorii de măsură. VarianŃa specifică este adesea combinată cu varianŃa erorii de măsură şi formează varianŃa unică sau unicitatea. Altfel spus, varianŃa observată la nivelul unui atribut de suprafaŃă este datorată în parte factorilor care influenŃează şi alte atribute de suprafaŃă şi în parte factorilor care influenŃează doar atributul respectiv.

Printr-o extensie a conceptelor putem spune că analiza factorială Ńine cont şi de covarianŃa dintre variabilele de suprafaŃă. Adesea se poate observa că variabilele de suprafaŃă dintr-un domeniu specific tind să coreleze într-o anumită măsură una cu cealaltă. Potrivit analizei factoriale această corelaŃie este datorată influenŃei factorilor comuni. Deci, o corelaŃie între două variabile de suprafaŃă este datorată dependenŃei celor două variabile de unul sau mai mulŃi factori comuni. De exemplu scorul la un test de adunare va tinde să coreleze pozitiv cu scorul la un test de înmulŃire deoarece ambele variabile depind de acelaşi factor comun – aptitudinea numerică. Din contră însă, rezultatul la testul de adunare va corela mai puŃin cu rezultatul la un test de citire deoarece cele două variabile de suprafaŃă sunt influenŃate de factori comuni diferiŃi. Putem spune că nivelul de intercorelaŃie dintre atributele de suprafaŃă este rezultatul dependenŃei acestor atribute de aceiaşi factori comuni.

Este extrem de important a se reŃine faptul că doar factorii comuni pot explica corelaŃia variabilelor de suprafaŃă; factorii unici nu determină astfel de corelaŃii. La fel, factorii specifici sau erorile de măsură nu

52

pot determina corelaŃii între atributele de suprafaŃă deoarece prin definiŃie ei influenŃează doar o singură variabilă de suprafaŃă.

Pentru a sumariza aceste principii putem spune că într-un anumit domeniu există un număr mic de factori comuni care influenŃează un vast număr de atribute de suprafaŃă. VariaŃia factorilor de suprafaŃă este datorată în parte variaŃiei factorilor comuni. Ceea ce rămâne se datorează factorilor unici sau factorilor specifici şi erorilor de măsură. CovarianŃa variabilelor de suprafaŃă este atribuită dependenŃei acestora de aceiaşi factori comuni.

În continuare (figura 5) vor fi prezentate conceptele şi principiile discutate anterior în forma propusă de Tucker (1940) pentru a ilustra teoria analizei factoriale. În cadrul diagramelor, pătratele reprezintă atributele de suprafaŃă, iar cercurile reprezintă atributele interne şi alŃi factori. SăgeŃile unidirecŃionale exprimă o relaŃie liniară (printr-un proces cauzal), iar cele bidirecŃionale reprezintă corelaŃii fără influenŃă cauzală.

Figura 2.11. RelaŃia dintre atributele de suprafaŃă şi cei trei tipuri de factori

Factori comuni (atribute interne)

Factori specifici (atribute interne)

Factori ERM

Factori unici

Atribute de suprafaŃă

! DE REłINUT:

Teoria factorială este o teorie care explică dinamica şi influenŃele care determină variaŃia şi covariaŃia atributelor de suprafaŃă.

53

Obiectivele analizei factoriale

1. Identificarea factorilor adiacenŃi variabilelor de suprafaŃă

Obiectivul primar ala analizei factoriale este acela de a determina umărul şi natura factorilor comuni precum şi modul în care aceştia influenŃează atributele de suprafaŃă. Prin identificarea factorilor care explică un mare număr de variabile se pot înŃelege mai bine datele de care dispunem.

De exemplu o companie aeriană doreşte să studieze aproximativ 50 de variabile pe care le consideră importante din puntul de vedere al consumatorului care trebuie să opteze pentru o companie (variabilele pot fi: respectarea orelor de aterizare /decolare, flexibilitatea orarului, amabilitatea personalului de zbor, facilităŃile oferite în timpul zborului, etc.). Dacă pe baza analizei factoriale aceste 50 de variabile pot fi explicate pe baza unor factori vom înŃelege mai bine variabilele fundamentale care stau la baza alegerii făcute de consumator.

2. Screeningul variabilelor

O a doua utilizare a analizei factoriale se referă la analiza pe bază de screening a variabilelor care ulterior pot fi incluse în investigaŃii statistice ca analiza de regresie. Deoarece analiza factorială identifică grupe de variabile care sunt corelate între ele putem opta la alegerea unei singura variabile din fiecare factor şi includerea acestei variabile într-o ecuaŃie de predicŃie.

3. Sumarizarea datelor

O altă aplicaŃie a analizei factoriale se referă la flexibilitatea de a extrage câŃi factori se doreşte dintr-un set iniŃial de variabile. Primii factori extraşi dintr-un set de variabile explică cea mai mare parte din varianŃa acestora; cu fiecare extragere ulterioară se obŃine tot mai puŃin.

4. SelecŃia variabilelor

AF ne permite extragerea factorilor diferiŃi dintr-un set de variabile. De exemplu dacă se pune problema selecŃie caracteristicilor definitorii ale unui automobil în vederea construcŃiei unei reclame ne interesează să păstrăm un număr de variabile rezonabil pentru a putea construi reclama. Este important însă ca acest variabile selectate să nu se refere la acelaşi factor, ele trebuind să nu coreleze între ele.

Luând în considerare aspectele prezentate privind validitatea unui test psihologic, se poate spune că trebuie să avem întotdeauna în vedere funcŃia şi scopul pe care le va avea testul pentru a putea aprecia corect tipurile de validitate. Exemplul (tabelul 7) următor ilustrează modul în care putem privi validitatea unui test de cunoştinŃe la matematică (Anastasi, 1976):

Tabelul 2.7. Tipuri de validitate a unui test de cunoştinŃe matematice. (Anastasi, 1976).

SCOPUL TESTĂRII PROBLEMA STUDIATĂ TIPUL DE VALIDITATE

Evaluarea cunoştinŃelor de matematică în ciclul primar

Cât de mult a învăŃa elevul din matematica predată?

Validitate de conŃinut

Anticipare a performanŃelor elevului în gimnaziu

Care vor fi performanŃele elevului în gimnaziu la matematică?

Validitate predictivă

Psihodiagnosticul dificultăŃilor de învăŃare

Care sunt dificultăŃile specifice pe care le întâmpină elevul în învăŃarea matematicii

Validitate concurentă

Evaluarea gândirii logice Prin ce se caracterizează gândirea elevului?

Validitate de construct

! Obiectivele analizei factoriale sunt:

� Identificarea factorilor adiacenŃi variabilelor de suprafaŃă � Screeningul variabilelor � Sumarizarea datelor � SelecŃia variabilelor

54

1. Care sunt aspectele esenŃiale de care trebuie să Ńinem cont când formulăm un item?

2. Ce sunt itemii dihotomici şi care sunt avantajele şi dezavantajele lor?

3. Ce sunt itemii polinomici şi care sunt avantajele şi dezavantajele lor?

4. Ce sunt scalele Likert?

5. Ce este o scală categorială?

6. Ce reprezintă Q – Sort?

7. Care este procesul pe baza căruia se realizează analiza factorială?

8. Ce reprezintă analiza calitativă de itemi?

9. Ce reprezintă analiza cantitativă de itemi?

10. Care sunt obiectivele analizei factoriale?

• Sumar Atunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume

dorim să evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere imagine acurată a aspectului care ne interesează. Pentru a construi itemii trebuie să parcurgem un proces pretenŃios în cazul căruia trebuie să urmăm o serie de paşi. Mai mult decât atât, trebuie să Ńinem cont şi de formatul opŃiunilor de răspuns. Astfel, în funcŃie de constructul pe care dorim să-l evaluăm anumite formate devin mai mult sau mai puŃin adecvate. Pentru a putea spune despre un item că este bun sau nu trebuie să Ńinem cont de o serie de criterii pe care le descoperim în urma unei analize a itemilor. Aşa după cum putem analiza un test din prisma fidelităŃii şi validităŃii, la fel putem analiza conform acestor criterii un item. Mai precis, un item bun discriminează între două categorii de subiecŃi; putem spune de asemenea că un item este bun dacă performanŃa la item corelează cu performanŃa la test. Un element foarte important este validitatea de construct care reprezintă măsura în care se poate susŃine că testul măsoară o variabilă sau o trăsătură specifică. Una dintre metodele utilizate în validara de construct este analiza factorială. Analiza factorială este definită ca „un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza uneui set de măsurăori empirice”.

55

ExerciŃii

1. Mai jos sunt prezentate descrierile câtorva studii de validare. CitiŃi fiecare descriere şi identificaŃi orice probleme potenŃiale care ar putea afecta rezultatele.

A. Un profesor de matematică de la un liceu, face un test pentru a identifica elevii supradotaŃi la matematică şi aplică acest test la o sută de elevi din şcoală. Cei care vor obŃine cel mai mare punctaj la test vor avea posibilitatea să se înscrie la facultate. La sfârşitul semestrului, profesorul face o corelaŃie între scorul obŃinut la test şi notele obŃinute de elevi la matematică. El nu a găsit nici o corelaŃie semnificativă între aceste variabile.

B. Un psiholog industrial face un test pentru a selecta personal pentru un serviciu cleric la o anumită corporaŃie şi cere supraveghetorilor să noteze muncitorii prezenŃi pe o scală cu următoarele categorii : „peste medie”, „mediu”, „sub medie”. După aceasta psihologul testează muncitorii din categoria „peste medie” şi „sub medie” şi compară mediile celor două grupuri. În urma analizei psihologul găseşte o diferenŃă semnificativă în favoarea grupului „peste medie”.

2. Pentru fiecare din următoarele situaŃii indicaŃi ce tip de studiu de validare ar fi cel mai potrivit.

A. Un psiholog social dezvoltă un inventar cu scopul de a identifica peroanele care lucrează în domeniul sănătăŃii care prezintă „sindromul de epuizare (burnout)”. Pentru a defini sindromul de „burnout” se utilizează o varietate de comportamente cum ar fi: absenteismul, eşec în a respecta politica firmei, relaŃii reci cu colegii şi şefii etc.

B. Un psiholog al dezvoltării specializat în problemele adolescenŃilor doreşte să dezvolte un inventar care să se adreseze elevilor din clasele IX – X pentru a prezice cine va trece mai departe în clasele XI-XII.

C. Un test de aptitudini non-verbale este dezvoltat pentru copiii preşcolari cu deficit de auz. Se intenŃionează ca testul să fie o măsură de screening pentru identificarea copiilor care ar putea avea dificultăŃi în învăŃarea cititului (încadraŃi într-o clasă cu copii normali).

Bibliografie obligatorie Urbina, S. (2010). Testarea psihologică, Editura Trei.

Bibliografie facultativa Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium. p 170-173



Stan, A. (2002). Testul psihologic. EvoluŃie construcŃie, aplicaŃii. Editura Polirom, P 202-242

56

VI. ASPECTE METODOLOGICE ŞI CONCEPTUALE ALE CONSTRUCłIEI TESTELOR

• Titlul şi numărul modulului 6. Aspecte metodologice şi conceptuale ale construcŃiei testelor psihologice • Scopul şi obiectivele: obiectivul esenŃial al acestui modul este ca studenŃii să poată face diferenŃa

între evaluările psihologice, acestea fiind diferite cel puŃin în cazul a trei aspecte.

• Scurtă recapitulare a conceptelor prezentate anterior Atunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume

dorim să evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere imagine acurată a aspectului care ne interesează. Pentru a construi itemii trebuie să parcurgem un proces pretenŃios în cazul căruia trebuie să urmăm o serie de paşi. Mai mult decât atât, trebuie să Ńinem cont şi de formatul opŃiunilor de răspuns. Astfel, în funcŃie de constructul pe care dorim să-l evaluăm anumite formate devin mai mult sau mai puŃin adecvate. Pentru a putea spune despre un item că este bun sau nu trebuie să Ńinem cont de o serie de criterii pe care le descoperim în urma unei analize a itemilor. Aşa după cum putem analiza un test din prisma fidelităŃii şi validităŃii, la fel putem analiza conform acestor criterii un item. Mai precis, un item bun discriminează între două categorii de subiecŃi; putem spune de asemenea că un item este bun dacă performanŃa la item corelează cu performanŃa la test. Un element foarte important este validitatea de construct care reprezintă măsura în care se poate susŃine că testul măsoară o variabilă sau o trăsătură specifică. Una dintre metodele utilizate în validara de construct este analiza factorială. Analiza factorială este definită ca „un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza uneui set de măsurăori empirice”.


1. Aspectele care diferenŃiază evaluările psihologice 2. Algoritmul de construcŃie al unui instrument 3. Tipuri de scale 4. ConŃinutul manualului unui test


După parcurgerea acestui capitol: � VeŃi diferenŃia între tipurile de evaluare psihologică � VeŃi şti care este algoritmul de construcŃie al unui instrument de evaluare � VeŃi putea enumera tipurile de scale utilizate � VeŃi recunoaşte aspectele care Ńin de conŃinutul manualului unui test


57

ASPECTE CONCEPTUALE ŞI METODOLOGICE ALE CONSTRUCłIEI TESTELOR PSIHOLOGICE

Evaluările psihologice nu sunt echivalente. Ele diferă în cel puŃin trei aspecte. În primul rând

ele diferă din punctul de vedere al întrebărilor teoretice la care încearcă să răspundă. În al doilea rând ele diferă în privinŃa structurii logice. Iar în al treilea rând ele diferă din perspectiva informaŃiilor pe care ele le aduc, sau mai precis din perspectiva greutăŃii inferenŃelor pe care aceste le suportă. Algoritmul de construcŃie al unui instrument de evaluare ar trebui să respecte următorii paşi

1. POSTULATE AsumpŃii, valori, credinŃe, metafore

2. CONSTRUCTE TEORETICE FORMALE Constructe ipotetice, procese, relaŃii, predicŃii (e.g.

memorie implicită, anxietate, depresie)

3. REFERENTI

Măsuri obiective sau reflecŃii ale constructelor (e.g. anxietate: transpiraŃia palmelor, etc.)

4. METODE INSTRUMENTALE Sarcini, tehnici, teste, instrumente proceduri

5. MODEL DE MĂSURĂ atribuirea unei scale de măsură fenomenelor

6. CULEGEREA DATELOR

7. ANALIZA DATELOR metode statistice, modele matematice

8. INTERPRETĂRI ŞI INFERENłE InferenŃa statistică, evaluare logică, analiza modelului

Figura 1. Componente ale unui model ştiinŃific de construcŃie a unui intrument de evaluare (McFall & Townsend, 1998)

58

Nivelul de plecare în construcŃia unui instrument de evaluare se găseşte la nivelul postulatelor care serveşte ca punct fundmental (Polya, 1957, Smith, 1984). Postulatele sunt simplu tratate ca “ceva ce este dat”. O dată stipulate însă ele constrâng tot procesul ulterior, intrâun mod adesea foarte subtil (Lakoff & Johnson, 1980).

Nivelul următor cuprinde constructele teoretice formale. Acest nivel trebuie să fie congruent cu postulatele anterioare deoarece derivă logic din acestea. Cu toate acestea însă există o multitudine de teorii plauzibile care pot satisface postulatele încât cercetătorii trebuie să ia în calcul o serie de aspecte legate de validitatea teoriilor care adesea sunt în competiŃie. Este vorba deci de a opta, pe baza unei analize de cele mai multe ori dificile, pentru o teorie Ńinând cont de atuurile acesteia în competiŃia cu altele. Personalitatea ca şi construct glogal sau temperamentul ca şi construct mai specific pot fi abordate din perspectiva mai multor teorii. OpŃiunea pentru o teorie a personalităŃii se face, în construcŃia unui instrument de evaluare, la acest nivel al constructelorteoretice formale.

Procesul de validare al unui test începe la nivelul constructelor teoretice prin formularea constructelor derivate dintr-o teorie, din cercetări anterioare sau din observaŃii sistematice ale unui domeniu relevant de comportamente. Itemii testului vor fi mai târziu (la nivelul referenŃilor) formulaŃi, astfel încât să atingă cerinŃele formulate la acest nivel.

La acest al doilea nivel pe care l-am putea denumi acela de conceptualizare al testului trebuie să ne punem următoarele întrebări:

� Ce dorim să măsoare testul? Această întrebare este legată de modul în care este definit constructul şi de cum această definiŃie este diferită de altele care îşi propun să măsoare acelaşi construct. � Care este obiectivul testului? Când sau pentru ce scop va fi utilizat testul? Va fi analizat la acest nivel în ce măsură obiectivul testului este diferit de testele existente. � Este nevoie de construcŃia acestui test? � Cine va utiliza testul? Clinicienii, psih. educaŃional sau alte categorii. � Cui se adresează testul? Cine este populaŃia Ńintă. Aici se impune o analiză detaliată a caracteristicilor populaŃiei (vârstă, sex, mediu socioeconomic – ce factori culturali pot influenŃa performanŃa la test). Ce nivel de citire este necesar pentru aplicarea testului.

Cel de al treilea nivel, al referenŃilor, cuprinde măsurători observabile ale constructelor formulate. Astfel, constructul de anxietate se poate exprima la nivelul referenŃilor prin măsurători ale conductanŃei electrice a pielii, prin rata cardiacă, etc.

Pentru ca datele de la nivelul anterior să poată fi culese avem nevoie de o serie de medode instrumentale. Este vorba de generarea unor măsurători, care în cadrul testului adesea iau forma itemilor.

Itemii (vezi modulul 1) unui test sunt:

� în majoritatea cazurilor generaŃi de psihologi pornind de la constructele formulate; � În cazul testelor de cunoştinŃe itemii sunt formulaŃi de specialişti în domeniul respectiv; � Pot fi luaŃi din testele existente. În general, este generat un număr mai mare de itemi decât numărul final al itemilor testului, creându-se banca de itemi. Aiken (1994) recomandă ca numărul itemilor de plecare să fie mai mare cu 20% decât lungimea tesului.

! Scopul oricărei evaluări psihologice este acela de a clarifica (de a oferi informaŃii) o serie de probleme, fie ele teoretice sau practice. Astfel putem spune că există o relaŃie esenŃială între teorie şi evaluare: evaluarea trebuei astfel construită încât să răspundă unor întrebări teoretice.

59

Măsurările sunt realizate pe diferite tipuri de scale. Acestă problematică a alegerii scalei sau a formatului itemlor se încadrează la nivelul modelului de măsurare. Nu există un tip general corect de scală de măsurare.

Tipuri de scale.

Scala de tip Likert.

� Este o scală sumativă (propusă de Likert în 1932) � utilizată destul de des în psihologie mai ales în măsurarea atitudinilor. � Este o scală ordinală (distanŃa dintre 2şi 3 nu este întotdeauna egală cu distanŃa dintre 4 şi 5) � Format: „niciodată rareori câteodată adesea întotdeauna” � Are 5 trepte � Dezavantaje: nu există o interpretare identică pentru fiecare subiect aceea ce înseamnă fiecare categorie prezentată.

Scalele Guttman

� Când se doreşte ierarhizarea unor comportamente. � Se prezintă comportamentele şi cere ierarhizarea acestora prin atribuirea de numere (de la 1 la X, pentru X comportamente)

Nivelul culegerii datelor se referă la obŃinerea unei variante a testului şi aplicarea acesteia pe populaŃia Ńintă. Se Ńin cont în această fază de condiŃiile de standardizare.

Analiza datelor cuprinde în cadrul testului procesul de analiză a itemilor, analiza tipurilor de validitate de criteriu precum şi aprecierea fidelităŃii testului.

Dacă rezultatele obŃinute sunt satisfăcătoare se trece la construirea manualului testului. Dacă pe baza rezultatelor obŃinute nu se pot face inferenŃe valoroase atunci se recomandă identificarea erorilor şi reluarea procedeului.

Manualul unui test trebuie să cuprindă aspectele pe baza cărora utilizatorul testului să poată analiza valoarea testului, să poată utiliza testul şi să poată interpreta rezultatele acestuia. Aceste aspecte se referă la informaŃii legate de:

1. Datele de identificare ale testului - autorul (autorii) testului - editura care a publicat testul - anul publicării - numele testului

2. Standardizarea testului - pe câte persoane a fost etalonat testul - care sunt caracteristicile demografice ale eşantionului - cum s-a făcut eşantionarea

3. Fidelitatea testului - care au fost metodele utilizate pentru estimarea fidelităŃii testului - în ce măsură valorile coeficienŃilor de fidelitate sunt sufiecte pentru scopul testului

4. Validitatea testului - care au fost criteriile pe baza cărora s-a validat testul - în ce măsură testul este satisfăcător pentru ceea ce îşi propune să măsoare

5. Modul de aplicare, cotare şi interpretare a rezultatelor - care sunt instrucŃiunile de lucru - care sunt criteriile de acordare a punctajului pentru răspunsurile subiecŃilor? - În ce măsură testul poate fi cotat electronic (acolo unde este cazul)

60

6. ConsideraŃii practice - cât timp durează aplicarea testului

care este nivelul de pregătire pe care trebuie să îl aibă cel care administrează testul şi cum se poate obŃine această pregătire.

61

1. Care sunt paşii algoritmului de construcŃie al unui instrument de evaluare?

2. Care este scopul oricărei evaluări psihologice?

3. Ce întrebări trebuie să ne punem la nivelul de conceptualizare al

testului?

4. La ce se referă nivelul de culegere al datelor?


Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles,

Applications and Issues, Wadsworth Thomson Learning, Fifth Edition. p 529-563

• Sumar Evaluările psihologice nu sunt echivalente. Ele diferă în cel puŃin trei aspecte. În primul rând ele diferă din punctul de vedere al întrebărilor teoretice la care încearcă să răspundă. În al doilea rând ele diferă în privinŃa structurii logice. Iar în al treilea rând ele diferă din perspectiva informaŃiilor pe care ele le aduc, sau mai precis din perspectiva greutăŃii inferenŃelor pe care aceste le suportă. Pentru construcŃia unei scale trebuie să se respecte un algoritm. Un element foarte important îl reprezintă manualul testului.

62

III. Anexe

Bibliografia completă a cursului :

Obligatorie: 1. Suportul de curs, Psihodiagnostic 2. Capitolele aferente tematicii de mai sus din următoarele surse: Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium. Messick, S. (1995). Validity of Psychological Assessment. Validation of Inferences From Persons' Responses and Performances as Scientific Inquiry Into Score Meaning. American Psychologist, September 1995 Vol. 50, No. 9, 741-749. Stan, A. (2002). Testul psihologic. EvoluŃie construcŃie, aplicaŃii. Editura Polirom. Urbina, S. (2010). Testarea psihologică, Editura Trei.

Facultativă: - Anastasi, A. (1988). Psychological Testing. (6th ed). New York: Macmillan. - Murphy,K & Davidshofer, C. O. (1994). Psychological testing: Priciples and applications (3rd ed). Englewood Cliffs, NJ: Pretince Hall. - www.rash.org

63

Increasing the Validity of Adapted Tests: Myths to be Avoided and Guidelines for Improving Test Adaptation Practices1,2

Ronald K. Hambleton and Liane Patsula University of Massachusetts at Amherst

Adapting or translating achievement, ability, and personality tests and questionnaires prepared in one language and culture into other languages and cultures has had a long history in educational and psychological testing though this fact is not well-known among educational researchers and measurement specialists. At least five reasons can be found in the literature for adapting tests:

1. very often adapting a test is considerably cheaper and faster than constructing a new test in a second language,

2. when the purpose for the adapted test is cross-cultural or cross-national assessment (such as with many credentialing exams), an adapted test is the most effective way to produce an equivalent test in a second language,

3. there may be a lack of expertise for developing a new test in a second language,

4. there is a sense of security that is associated with an adapted test more so than a newly constructed test especially when the original test is well-known, and

5. fairness to examinees often results from the presence of multiple language versions of a test (see Hambleton & Patsula, 1998).

Unfortunately, though the practice of adapting or (simply) translating tests can be traced to the intelligence tests of the French psychologist Alfred Binet at the beginning of this century, there is substantial evidence to suggest that improved methods for adapting or translating tests from one language and culture to others are needed, and that considerably more attention should be given to this important task than it is typically given by researchers and/or test developers. Too often in practice the test adaptation process seems to be viewed as a routine task that can be completed by anyone who knows the relevant languages. One consequence is adapted tests in the target languages of interest with only superficial equivalence to the tests in the source language.

The purposes of this paper are two-fold: First, a set of myths or problems which need to be discarded/overcome about the test adaptation process will be presented. These myths are widespread and undermine effective test adaptation initiatives. Second, steps for adapting tests will be offered along with a discussion of the importance of each step in the test adaptation process.

Myths About Adapting Tests

There are a number of myths associated with adapting tests which appear in measurement practice and should be discarded as quickly as possible:

Myth 1. The preferable strategy is always to adapt an existing test rather than develop a new test for a second language group.

64

There are many good reasons for adapting a test, but there are reasons for not proceeding with a test adaptation as well. Especially when cross-cultural comparisons are not of interest, it may be substantially easier and more relevant to construct a new test for a second language group. This avoids any complications with copyright, insures that the format will be suitable, and any desired modifications in the definition of the construct of interest can be made at the outset of the test development process.

Sometimes, too, it may be desirable not to adapt a test but rather to require all examinees to take a test in a single language. For example, in the United States, there has been interest in some states in making high school graduation tests available in both English and Spanish. Technically this is possible, but the question of whether or not to make two language versions of a test available depends on many factors including the definition of the construct being measured. Is the language in which performance is to be demonstrated a part of the construct definition or not? In the case of reading, reading in the language of English is almost always part of the construct of interest. Producing a Spanish equivalent version of a reading test in English makes very little sense because inferences of English reading proficiency cannot be made from a test administered in Spanish.

The situation with a mathematics test may be very different. The construct of interest may be focused on computation skills, concepts, and problem-solving skills and here, the purpose of the test is to look for a demonstration of the skills, and the language in which the performance is assessed and demonstrated may be of little or no interest. Of course, if the desired inference is mastery of mathematics skills when the test questions are presented in English, then a Spanish version of the test would be inappropriate in this situation too.

Myth 2. Anyone who knows the two languages can produce an acceptable translation of a test.

This is one of the most troublesome myths because it results in unqualified persons adapting tests. There is considerable evidence suggesting that test translators need to be familiar with both source and target languages and the cultures, and they need to be generally familiar with the construct being assessed, and the principles of good test development practices. How, for example, can someone translate a high school physics test from English into Spanish without some knowledge of the content? Would a translator with little knowledge of test development principles be aware to preserve the relevant features of the original test in an adapted test such as clearly written item stems, a single correct or best answer, answer choices of approximately the same length, etc.?

Myth 3. A well-translated test guarantees that the test scores will be valid in a second language or culture for cross-language comparative purposes.

Van de Vijver and Poortinga (1997) make the point that not only should the meaning of a test be consistent across persons within a language group and culture but, that meaning, whatever it is, must be consistent across language groups and cultures. For example, if a test is more speeded in a second language version because of the nature of that language, then the two language versions of the test are not equally valid. We have encountered just such a problem in some German test translations we are

65

currently working on. Quite simply, the German words are longer than English words and take correspondingly longer to read. The result is a slightly more speeded German version of the test. In this instance, the test may be equally valid in each language group and culture, but still not be suitable for cross-cultural comparisons.

Many other examples could be introduced. For one, the non-equivalent familiarity of students in different cultures with certain item formats, e.g., the multiple-choice format, places examinees from this second cultural group at a serious disadvantage. The translation could be excellent, but the scores from the two language versions are not equally valid.

Myth 4. Constructs are universal, and therefore all tests can be translated into other languages and cultures.

One of the best counter examples of this myth concerns intelligence tests. The Western notion of intelligence places considerable emphasis on speed of response. In some cultures, speed of response is of minor importance as a operating characteristic for life, and members of these cultural groups often score lower on Westernized intelligence tests because of a failure to perform quickly. But, it only in this limited sense of the Western definition of the construct of intelligence that these cultural groups appear of less intelligence. By another definition, perhaps one that devalues speed of response and emphasizes other human attributes of intelligence (see Sternberg and Gardner (1983) for broader definitions of intelligence which incorporate, for example, social and artistic skills) the results would be opposite.

There is currently considerable interest in cross-cultural comparisons of quality of life. It is interesting to discover that the construct associated with quality of life in this country is often very different in other countries and this makes cross-cultural comparisons very different. Televisions, portable telephones, personal computers, the great outdoors, and college sports are of no importance and do not affect the quality of life for persons in many other cultures. Cross-cultural comparisons of quality of life are difficult to carry out because the construct may have very different meanings across cultures.

Myth 5. Translators are capable of finding flaws in a test adaptation. Field testing is not usually necessary.

This is another of the major myths about adapting tests. There are literally thousands of examples of poorly adapted test items in the literature, and many of the items in these tests were approved by translators. The fact is translators are not able to anticipate all of the problems encountered by examinees taking a test in a second language.

One of the best examples because it was discovered on an international comparative study of reading achievement (and a study where the American students were about the middle of 20 countries) is the following:

Determine whether these two words are similar or different--

66

pessimistic sanguine

In the English version of the test item, only about 54% of the American students were able to determine the correct response (a performance level slightly above chance) which is that the two words have a different meaning. In a second language version, the item was adapted as follows--

pessimistic optimistic

67

In the foreign language version of the test item, almost 100% of the examinees answered the item correctly. Clearly, a poor translation had made the test item considerably easier. The reason given was that the word "sanguine" had no equivalent word in the second language and therefore another word was chosen which too, had a different meaning to pessimistic. Interestingly, this easier version of the test item was used in the country which finished number one among the 20 countries. One wonders what role this item and other improperly adapted test items played in the final rankings of the 20 countries.

In summary, all of the myths can seriously compromise the validity of a test in a second language or cultural group, or negatively influence the validity of adapted tests for use in cross-language comparison studies. Fortunately, each myth is straightforward to address in practice. What follows are steps for adapting tests which should eliminate all of the myths and other shortcomings in test adaptation methodology.

Steps for Adapting Tests

The International Test Commission (ITC) guidelines (Hambleton, 1994; van de Vijver & Hambleton, 1996) provide an excellent framework to guide researchers in the test adaptation process. Appendix A contains a copy of those guidelines. The following steps for adapting a test from one culture and/or language for use in another are a mixture of findings and recommendations from the ITC guidelines and many empirical studies (e.g., Angoff & Cook, 1988, Prieto, 1992; Hambleton, 1994). Geisinger's (1994) work in cross-cultural assessment was especially influential in our thinking about the topic of steps for adapting tests. The steps are still evolving. Through the application of the steps in different contexts new insights will be gained and certain additions, deletions, and clarifications may be necessary.

Step 1 – Ensure that construct equivalence exists in the language and cultural groups of interest.

Assess whether construct equivalence exists between the cultures of interest and if it does not, either consider "decentering" (that is, revising the definition of the construct to be equally equivalent in each language and cultural group) or discontinue the project. The publication by Harkness (1998) is especially helpful in the study of construct equivalence.

Central questions are as follows: Does the particular construct that a researcher (e.g., the content domain for a credentialing exam) is interested in measuring exist in both cultures? Does it make sense to compare these two cultures on this construct? Would any cross-cultural comparison on this construct be meaningful? Does the construct that is being measured mean the same thing in all cultures being compared?

Researchers familiar with both languages and cultures are in a strong position to make judgments about construct equivalence between cultures. One can also judge whether cross-cultural construct equivalence exists by interviewing or observing people from the cultures of interest, researching the cultures of interest, asking others who know about the cultures, or visiting people in the culture.

68

Suggestions:

1. Through discussions with psychologists and other knowledge persons in each culture, determine if the construct exists, and if the same definition applies equally well in both language and cultural groups.

Step 2 – Decide whether to adapt an existing test or develop a new test.

Consider the purpose of the adapted test, and the advantages and disadvantages of adapting an existing test rather than developing a new test. It is clear too that some tests will be more amenable to translation into certain languages than others (Ahluwalia, 1990, p. 20). The more similar the target language and/or culture are to the source language and/or culture, the easier will be the adaptation (thus, English to Spanish adaptations may make more sense than English to Arabic or English to Chinese adaptations). With tests intended for cross-cultural comparisons, test adaptation (possibly with some decentering) may be the only option. But when cross-cultural comparisons are not of interest, it may be easier to actually produce a new test that meets the cultural parameters in the second language group, than to adapt an already existing test which may have a number of shortcomings (e.g., a less than satisfactory definition of the construct, inappropriate item formats, use of some cultural specific content, etc.).

The standards with which to evaluate whether to adapt an existing test require some level of expertise in measurement, some knowledge of the relevant literature of the original test, and some knowledge of the language and culture to which the test is being adapted.

Suggestions:

1. Consider the purpose of the adapted test, and carefully consider the advantages and disadvantages of adapting a test versus constructing a new test.

Step 3 – Select well-qualified translators.

This is often one of the major shortcomings of a test adaptation project. Two points can be made: First, in selecting translators, search for persons who are fluent in both languages and who are very familiar with the cultures under study, and who have some knowledge of test construction and the construct being measured. As knowledge of test construction practices is not common among translators, this may be addressed with some training prior to initiating the test adaptation process. Adding a psychometrician to the mix may be desirable, too.

Second, some researchers have found that panels or committees of people translate the test better than individuals. Committees produce pooled adaptations that are often more accurate than translations from a single translator.

Suggestions:

69

1. Seek out translators with language proficiency, knowledge of the relevant cultures, and some subject matter knowledge/knowledge of the construct of interest.

2. Involve more than one translator in the process to provide a mix of perspectives and to enable checking to be conducted.

Step 4 – Translate and adapt the test.

One approach to increasing the likelihood of a valid test adaptation is to adopt one of the two (or both) standard designs: forward- and back-translation. Forward translation designs are the most technically sound because the focus of the review is on both the source and target language versions of the test. Backward translation designs can also be revealing of poor translations but without a focus on the target language version of the test, problems in the adaptation can be missed. For example, with a hard-to-translate concept like "ice hockey" into Chinese, these English words may be used in the adapted version. They are very easy to back translate, but they may be quite meaningless in the target language version of the test.

Suggestions:

1. Use a forward translation design but a backward translation design can be useful too, but not as the only design.

Step 5 – Review the adapted version of the test and make necessary revisions.

In a forward translation design, another set of translators examine the adapted version of the test for any errors that may lead to differences in meaning between the two language versions. The group of translators' focus at this point would be on the quality of the translation or adaptation of the test. As Geisinger (1994) suggests, this review can be accomplished in a group meeting, individually, or by some combination of individual and group work. Geisinger believes that the most effective strategy is to first have the translators review the items and react in writing and then to have the individuals share their comments with one another and to reconcile any differences in opinion and make any changes in the original and/or adapted language versions as necessary.

The National Institute for Testing and Evaluation in Israel is responsible for adapting college admissions tests into five languages from the original Hebrew-language version. One special feature in their process is that their translators work from the translated version first and attempt to determine the validity of the questions: For example, is the stem clear? Is there a single correct answer? Are there grammatical clues that lead the test-wise candidate to the correct answer? After it is determined that the test items can stand on their own merits, then the equivalence of the adapted version and the original Hebrew version are compared. Translators look at several features of the adapted items: accuracy of the translation as well as the clarity of the sentences, the level of difficulty of the words, and the fluency of the translation.

With a backward translation design, translators would take the adapted version of the test, back translate to the source language, and then judgments would be made about the equivalence of the original and back-translated versions of the test. Where non-

70

equivalence is identified, changes in the adapted version of the test are considered. The idea is that if the adaptation has been effective, the back-adapted version of the test should look very much like the original. Of course, when the adaptation involves format changes, time changes, and other changes, the target language version of the test may be fine, but a back-translated test may not look at all like the original. In general, back-translation designs seem like an excellent supplement to the forward translation design, but they are not likely to be able to stand on their own. The information they provide about the validity of the adapted test is limited.

Based on the comments of the reviewers, changes can be made in the original and/or adapted version of the test, as necessary. Of course, if many changes are made, there may be advantages to repeating step 4 and 5.

Suggestions:

1. Review and revision of the adapted test is absolutely necessary, following the initial translation. In most cases, the adapted test is too important to be dependent on the insights of a single translator or group of translators.

Step 6 – Conduct a small tryout of the adapted version of the test.

It is at this step that many studies seem to go wrong. Too many researchers and test developers feel that judgmental review is sufficient evidence to establish the validity of a test in a second language. But validity evidence for using a test in a second language depends on stronger evidence than that the test seems to look acceptable to translators and/or reviewers. Not only is empirical evidence needed to support the validity of inferences from an adapted version of a test, but perhaps two or more empirical studies are needed. A good example of what researchers might learn from a tryout of test items in a second language and culture is clearly highlighted in the paper by Allalouf and Sireci (1998).

Beginning with a small tryout of the adapted test seems to be prudent before investing considerable resources in a more ambitious field test. Pilot test the instrument using a small sample of individuals representative of the eventual target population and compare the results to results obtained from a source sample. The pilot test should consist of administering the test, as well as interviewing the individuals to obtain their criticisms of the test itself, instructions, time limits, etc. These findings form the basis for revising the test. One good suggestion from Ellis and Mead (1998) might be carried out at this point. Ellis and Mead suggest that when there are disagreements about the best adaptation of a test item, these variations might all be field tested, and the results used to make the final decision about which adaptation is best.

Suggestions:

1. Conduct a pilot test to gain preliminary information about the test, and revise accordingly.

Step 7 – Carry out a more ambitious field test.

71

This is one of the most important steps in the total test adaptation process. Good translators are often capable of identifying and fixing many shortcomings in adapted tests. But many problems go unidentified until test items are field tested. For example, in a recent study by Hambleton, Slater, and Yu (in press) in which National Assessment of Educational Progress (NAEP) mathematics items were adapted into Chinese, the NAEP test item went unidentified by the translators. A field test revealed a major problem with the item which could not be identified by the translators because it was a curriculum issue. Chinese students at the eighth grade were unfamiliar with the concept of estimation.

Field test the adapted test using a larger sample of individuals representative of the eventual target population and conduct preliminary statistical analyses, such as a reliability analysis and a classical item analysis. In addition, check for construct equivalence using factor analysis should be carried out.

Suggestions:

1. Design and carry out an ambitious field test to check out test items (using classical or modern item analysis procedures), test and subtest reliabilities, and the factor structure of the test (factor analysis or structural equating modeling are popular for this analysis). Compare findings to those obtained with the source language version of the test.

Step 8 – Choose a statistical design for connecting scores on the source and target language versions of the test.

This step is necessary when cross-cultural comparisons are of interest, or the test score norms or performance standards (i.e., the passing score on a credentialing exam) with the source language version of the test are of interest with the target language version of the test. At this step (which might be combined with step 7), a linking design is needed to place the test scores from the different versions of the test on a common scale. There are three popular linking designs:

1. bilingual group design, 2. matched monolingual group design, and 3. monolingual group design.

All three designs are popular, though the third design may be the easiest to implement in practice (see, for example, Angoff & Cook, 1988). For a worked example based on item response modeling of the data, studies by Angoff and Cook (1988) or Woodcock and Munoz-Sandoval (1993) would be of special interest.

Suggestions:

1. Choose a linking design to equate scores from the source and target language versions of the test. Item response modeling is a standard way to proceed. Large samples are highly desirable at this step to produce a stable linking of scores from one test to the other.

72

Step 9 – If cross-cultural comparisons are of interest, ensure equivalence of the language versions of the test.

This step, too, may be combined with steps 7 and 8. We have highlighted this activity as a step because of its central importance in the test adaptation process. Administer the source version of the test to a large sample of the source population and perform statistical analyses to determine whether or not the items function similarly in both the adapted and source language versions of the test. This is accomplished through the use of an item bias study (often called a "differential item functioning" or DIF study). If there are items that function differently for each group, rewrite or retranslate, readminister, and reanalyze those items to determine whether they function the same for both groups. The Muniz, Hambleton, and Xing (1998) study highlights the fact that even small samples (i.e., 50 candidates per group) can be useful in detecting flaws in the translation/adaptation process.

Suggestions:

1. Conduct a DIF study using one or more of the standard statistical procedures--Mantel-Haenszel statistic, logistic regression, IRT-based area procedures, etc.

Step 10 – Perform validation research as appropriate.

Regardless of the interest in cross-cultural comparisons of scores from the two language versions of the test, and the related research generated by that concern, there is also a need to ensure that the test scores of the newly adapted test are valid and reliable. Step 1 involved judgmental strategies for collecting evidence of construct equivalence, as there was no data available with which to conduct statistical analyses. Now that the test has been administered, there are data available and so evidence of construct-related validity can be compiled. This may be compiled from factor analytic, experimental, or other correlational information (e.g., predictive or concurrent validity studies). Again, this step may be combined with steps 7 to 9.

Suggestions:

1. Conduct empirical studies which address the equivalence of the multilanguage versions of the test in the populations where the test will be used. Evidence of construct equivalence as well as the absence of method and item bias are important.

Step 11 – Document the process and prepare a manual for the users of the adapted test.

Document results obtained from steps 1 to 10 and prepare a manual for the users of the adapted test. The manual should include specifics regarding the administration of the test, as well as how to interpret the test scores. This is a very important step, yet often overlooked.

Suggestions:

73

1. Document the full process of adapting a test. Everything from the persons involved, and designs used, to the findings and the nature of the changes which were made needs to be compiled and placed in a technical manual for future reference.

Step 12 – Train users.

Where possible, train the users of the test. Although documentation and a manual will assist users of the adapted instrument, training will further assist them.

Suggestions:

1. Train test administrators to follow the directions and to answer any questions appropriately which may arise. Especially when cross-cultural comparisons are being made, or the norms for the target language version of the test are being used, standardized test administrations are essential across language groups.

Step 13 – Ongoing monitoring of the adapted test.

Often cross-cultural studies are a "one-shot affair." But some tests are adapted for ongoing use in a second language group. Popular intelligence, credentialing, aptitude, and personality tests would be ones which are adapted and intended for ongoing use. Researchers should remain vigilant to potential flaws in their adapted tests, and this means that ongoing monitoring of adapted tests is needed. Re-investigation and re-evaluation of the reliability and validity of test scores should be ongoing.

Suggestions:

1. Continue to monitor the evaluation of adapted tests and assess their reliability and validity on a regular basis. The reliability and validity of all tests can be expected to change over time due to changes in curriculum, values, experiences, exposure to the test, etc.

Conclusions

An increasing number of educational, credentialing, and psychological tests are being adapted for use in other languages and cultures. At the same time, these adapted tests will have limited value unless they are adapted with a high degree of concern for issues of usability, reliability and validity. There is a rapidly emerging psychometric literature on the topic of test adaptation methodology, and more advances can be expected in the coming years as researchers respond to the expanding need for adapted tests of high technical quality. Avoiding the five myths and following the 13 steps introduced in this paper for the test adaptation process should go a long way toward improving current practices. In addition, the 13 steps provide a framework for incorporating new methodology into the process as it is developed.

References

74

Ahluwalia, N. T. (1990). Comparability of translated tests in occupational testing. CLEAR Exam Review, 1, 19-21.

Allalouf, A., & Sireci, S. G. (1998, April). Detecting sources of DIF in translated verbal items. Paper presented at the meeting of AERA, San Diego.

Angoff, W. H., & Cook, L. L. (1988). Equating the scores of the Prueba de Aptitud Academica and the Scholastic Aptitude Test (Report No. 88-2). New York, NY: College Entrance Examination Board.

Ellis, B., & Mead, A. (1998, August). Measurement equivalence of a 16PF Spanish translation: An IRT differential item and test functioning analysis. Paper presented at the 24th meeting of the International Association of Applied Psychology, San Francisco.

Geisinger, K. F. (1994). Cross-cultural normative assessment: Translation and adaptation issues influencing the normative interpretation of assessment instruments. Psychological Assessment, 6, 304-312.

Hambleton, R. K. (1994). Guidelines for adapting educational and psychological tests: A progress report. European Journal of Psychological Assessment, 10, 229-244.

Hambleton, R. K., & Patsula, L. (1998). Adapting tests for use in multiple languages and cultures. Social Indicators Research, 45, 153-171.

Hambleton, R. K., Slater, S. C., & Yu, J. (in press). Field test of the ITC guidelines for adapting psychological tests. European Journal of Psychological Assessment.

Harkness, J. (Ed.). (1998), Cross-cultural equivalence. Mannheim, Germany: ZUMA.

Muniz, J., Hambleton, R. K., & Xing, D. (1998). Small sample studies to detect flaws in test translation. Paper presented at the meeting of AERA, San Diego.

Prieto, A. J. (1992). A method for translation of instruments to other languages. Adult Education Quarterly, 43, 1-14.

75

Sternberg, R. L., & Gardner, M. K. (1983). Unities in inductive reasoning. Journal of Experimental Psychology: General, 112, 80-116.

Van de Vijver, F. J. R., & Hambleton, R. K. (1996). Translating tests: Some practical guidelines. European Psychologist, 1, 89-99.

van de Vijver, F. J. R., & Poortinga, Y. H. (1997). Towards an integrated analysis of bias in cross-cultural assessment. European Journal of Psychological Assessment, 13, 29-37.

Woodcock, R. W., & Munoz-Sandoval, A. F. (1993). An IRT approach to cross-language test equating and interpretation. European Journal of Psychological Assessment, 9, 233-241.

Appendix A

ITC Test Adaptation Guidelines

Context

C.1 Effects of cultural differences which are not relevant or important to the main purposes of the study should be minimized to the extent possible.

C.2 The amount of overlap in the constructs in the populations of interest should be assessed.

Test Development and Adaptation

D.1 Test developers/publishers should insure that the adaptation process takes full account of linguistic and cultural differences among the populations for whom adapted versions of the instrument are intended.

D.2 Test developers/publishers should provide evidence that the language use in the directions, rubrics, and items themselves as well as in the handbook are appropriate for all cultural and language populations for whom the instrument is intended.

D.3 Test developers/publishers should provide evidence that the choice of testing techniques, item formats, test conventions, and procedures are familiar to all intended populations.

76

D.4 Test developers/publishers should provide evidence that item content and stimulus materials are familiar to all intended populations.

D.5 Test developers/publishers should implement systematic judgmental evidence, both linguistic and psychological, to improve the accuracy of the adaptation process and compile evidence on the equivalence of all language versions.

D.6 Test developers/publishers should ensure that the data collection design permits the use of appropriate statistical techniques to establish item equivalence between the different language versions of the instrument.

D.7 Test developers/publishers should apply appropriate statistical techniques to

1. establish the equivalence of the different versions of the instrument, and

2. identify problematic components or aspects of the instrument which may be inadequate to one or more of the intended populations.

D.8 Test developers/publishers should provide information on the evaluation of validity in all target populations for whom the adapted versions are intended.

D.9 Test developers/publishers should provide statistical evidence of the equivalence of questions for all intended populations.

D.10 Non-equivalent questions between versions intended for different populations should not be used in preparing a common scale or in comparing these populations. However, they may be useful in enhancing content validity of scores reported for each population separately.

Administration

A.1 Test developers and administrators should try to anticipate the types of problems that can be expected, and take appropriate actions to remedy these problems through the preparation of appropriate materials and instructions.

77

A.2 Test administrators should be sensitive to a number of factors related to the stimulus materials, administration procedures, and response modes that can moderate the validity of the inferences drawn from the scores.

A.3 Those aspects of the environment that influence the administration of an instrument should be made as similar as possible across populations for whom the instrument is intended.

A.4 Test administration instructions should be in the source and target languages to minimize the influence of unwanted sources of variation across populations.

A.5 The test manual should specify all aspects of the instrument and its administration that require scrutiny in the application of the test in a new cultural context.

A.6 The administrator should be unobtrusive and the administrator-examinee interaction should be minimized. Explicit rules that are described in the manual for the test should be followed.

Documentation/Score Interpretations

I.1 When a test is adapted for use in another population, documentation of the changes should be provided, along with evidence of the equivalence.

I.2 Score differences among samples of populations administered the test should not be taken at face value. The researcher has the responsibility to substantiate the differences with other empirical evidence.

I.3 Comparisons across populations can only be made at the level of invariance that has been established for the scale on which scores are reported.

I.4 The test developer should provide specific information on the ways in which the socio-cultural and ecological contexts of the populations might affect performance on the test, and should suggest procedures to account for these effects in the interpretation of results.

1August 1999, JATT, Volume1, No.1, 1-30.

2Paper presented at the annual meeting of CLEAR, Denver, September, 1998.

78

Normele de avizare a metodelor şi tehnicilor de

evaluare şi asistenŃă psihologică

(Colegiul Psihologilor din Romania, www.copsi.ro)

Capitolul 1 - DispoziŃii generale

Art. 1 (1) - În temeiul Legii nr. 213/2004, art.33, lit. h, publicată în Monitorul Oficial din 1.06.2004, Comitetul Director (CD) al Colegiului Psihologilor din România (CPR), prin Comisia Metodologică (CM) elaborează normele de avizare şi avizează metodele şi tehnicile de evaluare şi asistenŃă psihologică utilizate în practică. (2) - CD al CPR, prin CM reprezintă autoritatea centrală abilitată pentru a analiza valoarea metodelor şi tehnicilor de evaluare şi asistenŃă psihologică şi a emite avize de utilizare a acestora. Art. 2 (1) - Avizarea metodelor şi tehnicilor de evaluare şi asistenŃă psihologică se realizează pentru a asigura calitatea serviciilor psihologice oferite în România. (2) - Valoarea serviciilor psihologice este dependentă de calitatea metodelor şi tehnicilor de evaluare şi asistenŃă psihologică existente precum şi de cunoştinŃele şi abilităŃile psihologului de a le alege şi utiliza corect. Art. 3 (1) - Comisia Metodologică a Colegiului Psihologilor din România, prin normele de avizare prezente, stabileşte standardele de calitate şi procedurile de avizare pentru metodele şi tehnicile de evaluare şi asistenŃă psihologică. (2) - Comisiile aplicative din cadrul Colegiului Psihologilor din România, prin normele de avizare specifice, atestă competenŃele profesionale ale psihologilor de a utiliza metode şi tehnici de evaluare şi asistenŃă psihologică. Toate comisiile de specialitate vor avea în vedere competenŃele generale de utilizare a testelor psihologice precizate în documentul de faŃă.

Art. 4 (1) - Metodele şi tehnicile de evaluare şi asistenŃă psihologică ce au fost avizate, sunt consemnate într-un Catalog al metodelor şi tehnicilor utilizate în România. (2) - Comitetul Director al Colegiului Psihologilor din România are obligaŃia să asigure publicarea şi actualizarea acestui Catalog prin mijloace electronice, ori de câte ori este necesar. Art. 5 (1) - În cuprinsul prezentelor norme sunt utilizaŃi anumiŃi termeni de specialitate care au un înŃeles specific. (2) - Metodele şi tehnicile de evaluare psihologică: demersuri fundamentate ştiinŃific şi efectuate în scopul cercetării, investigării unei persoane, grup de persoane sau organizaŃii sub aspect psihologic; (3) - Metodele şi tehnicile de asistenŃă psihologică: demersuri fundamentate ştiinŃific, efectuate în scopul declarat al ameliorării sau optimizării activităŃii psihice a unei persoane, grup de persoane sau organizaŃii;

(4) – Norme: set prescripŃii minime metodologice, explicit formulate, adoptate şi respectate în mod obligatoriu de către membri organizaŃiilor profesionale ale psihologilor ce asigură coerenŃă în formularea investigaŃiilor şi a concluziilor diagnostice;

79

(5) - Utilizatorul de metode şi tehnici de evaluare sau de asistenŃă psihologică: orice persoană care are certificată competenŃa profesională de a folosi aceste instrumente;

(6) - Testele psihologice: probe sau dispozitive standardizate de extragere a unei secvenŃe relevante din comportamentul sau procesările cognitiv-afective ale unei persoane sau grup, fundamentate pe un etalon sau un reper pertinent şi pe o interpretare responsabilă din partea specialistului;

(7) - Utilizatorul de teste psihologice: persoana responsabilă cu selecŃia, administrarea, cotarea unui test, ori care ia decizii, în parte, pe baza rezultatelor la test. În categoria utilizatorilor de teste intră şi persoanele care realizează doar etapa de administrare a unor teste complexe cum ar fi probele proiective; (8) - Distribuirea pe piaŃă: acŃiunea de a face disponibil contra cost sau gratuit un produs sau un serviciu de natură psihologică în vederea utilizării sale, în condiŃiile în care acesta nu se regăseşte în Catalogul metodelor şi tehnicilor de evaluare şi asistenŃă psihologică avizate; (9) - Solicitantul de aviz: persoane fizice sau juridice care introduc pe piaŃă serviciul sau produsul de natură psihologică, în condiŃiile în care acesta nu se regăseşte în Catalogul metodelor şi tehnicilor de evaluare şi asistenŃă psihologică. În această categorie regăsim: autorul, producătorul, reprezentantul autorizat al acestuia, importatorul ori utilizatorul.

Capitolul 2 - Avizarea metodelor şi tehnicilor de evaluare psihologică

SecŃiunea 1 – Documentele necesare pentru avizare Art. 6 - În vederea obŃinerii avizului, solicitantul adresează CM din cadrul CPR o cerere însoŃită de o declaraŃie de conformitate şi de un dosar tehnic. Art. 7 - Cererea are un format tipizat şi este prezentată în anexa I, iar declaraŃia de conformitate se face pe proprie răspundere şi este prezentată în Anexa II pentru a evidenŃia că datele prezentate în documentaŃia tehnică corespund cu realitatea şi că metodele sau tehnicile respective nu sunt nocive pentru sănătatea individului. CM poate solicita suplimentar un certificat de calitate eliberat de firma producătoare conform legilor în vigoare, după caz. Art. 8 (1) - Dosarul va conŃine documentaŃia tehnică a metodei sau tehnicii respective, trebuind să cuprindă în mod explicit: a) fundamentarea teoretică; b) domeniul de aplicabilitate (ex. domeniul clinic, organizaŃional, şcolar, apărare etc.);

c) scopul metodei sau tehnicii (ex. diagnostic; predicŃie; monitorizare etc.); d) descrierea detaliată a metodei sau a tehnicii, inclusiv a instrucŃiunilor de utilizare,

cotare şi interpretare; e) prezentarea calităŃilor tehnice, psihometrice (validitate, fidelitate, etalonare);

f) competenŃele necesare pentru utilizare; g) instituŃii şi persoane care oferă stagii de formare, după caz;

80

h) bibliografie; i) alte informaŃii utile în aprecierea metodei. (2) – În cazul probelor psihologice standardizate utilizate în evaluarea psihologică, informaŃiile din dosar trebuie să corespundă standardelor de calitate menŃionate în Anexa III. (3) - În cazul în care datele cuprinse în dosarul tehnic nu sunt suficiente pentru acordarea avizului, se pot cere probe, documente şi clarificări suplimentare prin consultarea Comisiilor aplicative, pe cheltuiala solicitantului.

SecŃiunea 2 – Procedura de avizare Art. 9 (1) - Studierea dosarului tehnic se face de către CM a CPR. (2) - Fiecare metodă supusă avizării va fi analizată independent de către doi membri ai

Comisiei Metodologice, ce vor fi aleşi prin tragere la sorŃi dintre membrii disponibili.

(3) - În cazul probelor psihologice standardizate, evaluarea se va face pe baza ghidului ce conŃine standardele de calitate ale testelor psihologice, precizate în anexa III. Art. 10 (1) - În urma analizei, evaluatorii pot propune acordarea a trei tipuri de avize: a) avizarea pe o perioadă nedeterminată; b) avizare temporară; c) respingere a metodei sau tehnicii respective. (2) - Evaluatorii vor întocmi un referat prin care să justifice tipul de aviz dat şi recomandările făcute pentru îmbunătăŃirea calităŃilor psihometrice ale probelor. (3) - În cazul în care concluziile celor doi evaluatori diferă, în ceea ce priveşte tipul de aviz acordat, metoda sau tehnica va fi reevaluată de o a treia persoană din cadrul CM, aleasă prin tragere la sorŃi de către Preşedintele Comisiei, dar alta decât primele două. Art. 11 (1) - În cazul testelor psihologice, avizul pe o perioadă nedeterminată îi obligă pe cei care distribuie pe piaŃă produsele sau serviciile respective să le actualizeze periodic la un interval de maximum 10 ani pe populaŃia autohtonă. (2) - Dacă reactualizarea conduce la modificări în punctele b şi c din cadrul art.8, alin.1 ori în conŃinutul probei, în modul de administrare a acesteia sau în modalitatea de cotare şi interpretare a rezultatelor este necesară o reînnoire a avizului. Art. 12 (1) - Metodele şi tehnicile de evaluare psihologică pot primi un aviz temporar, pe o durata de 24 luni, cu condiŃia punerii în practică de către persoanele responsabile a recomandărilor membrilor CM. (2) - Avizul temporar poate fi acordat, atât probelor noi, aflate în perioadă de experimentare, dar utilizate în procesul de evaluare psihologică, cât şi probelor care necesită îmbunătăŃiri din perspectiva caracteristicilor tehnice. (3) - La expirarea celor 24 de luni de utilizare a metodei sau tehnicii pe baza avizului temporar, se reevaluează situaŃia metodei sau tehnicii. Dacă solicitantul nu satisface normele de avizare definitivă a metodei sau tehnicii aflată în această situaŃie, CM prin CD al CPR va retrage avizul temporar de utilizare a metodei.

81

Art. 13 (1) - Avizul primit din partea CD se rezumă la aria de aplicabilitate specificată în caracteristicile domeniului vizat, şi nu poate fi extins spre alte domenii de activitate fără o testare prealabilă. (2) - ExcepŃie de la necesitatea obŃinerii avizului fac probele aflate în perioadă de experimentare, ale căror rezultate nu sunt luate în considerare în procesul de evaluare psihologică. Art. 14 (1) - Tipul de aviz primit poate fi contestat de către solicitant, printr-o cerere, adresată în primă instanŃă Preşedintelui CD, în care să argumenteze motivele pentru care consideră că avizul este nejustificat. (2) – Dacă argumentele prezentate sunt considerate viabile, Preşedintele CM va extrage aleator alŃi doi membri pentru reevaluarea metodei sau tehnicii respective, în caz contrar cererea se respinge. (3) - Decizia luată în urma re-evaluării este definitivă. (4) - În cazul în care dosarul a fost respins, solicitantul poate cere o nouă evaluare, pe baza unei documentaŃii reactualizate, după un an de zile de la data deciziei de respingere a metodei şi tehnicii respective. Capitolul 3 - Dreptul de utilizare a testelor psihologice

SecŃiunea 1 – Dobândirea şi certificarea competenŃelor utilizatorilor

Art. 15 - Orice psiholog va trebui să dovedească o serie de competenŃe pentru a putea utiliza probe psihologice. Art. 16 – (1) - CompetenŃele pot fi grupate în două categorii: competenŃe generale şi competenŃe complementare, specifice domeniului de aplicaŃie. (2) - CompetenŃele generale includ cunoştinŃe şi abilităŃi legate de activitatea de testare psihologică, indiferent de aria de aplicabilitate. (3) - CompetenŃele complementare în utilizarea testelor psihologice includ cunoştinŃe şi abilităŃi dependente de aria în care îşi desfăşoară activitatea psihologul. (4) – CompetenŃele complementare presupun dobândirea anterioară a celor generale. Art. 17 (1) - CompetenŃele generale dobândite trebuie să acopere sfera de competenŃe stabilite la nivel internaŃional de Comisia InternaŃională de Testare. (2) - Categoriile majore de competenŃe, vizează următoarele aspecte etice în aplicarea testelor: a) adoptarea unei conduite profesioniste, în acord cu normele deontologice ale

psihologului şi cu respectarea legilor internaŃionale şi naŃionale privind copyright-ul (legea drepturilor de autor şi a drepturilor conexe - nr. 8/1996);

b) utilizarea doar a acelor teste pentru care au competenŃa necesară; c) asumarea responsabilităŃii pentru modul de utilizare a testelor; d) asigurarea securităŃii pentru testele utilizate, astfel încât ele să nu-şi piardă calităŃile

din cauza deconspirării publice a conŃinutului ori a mecanismelor de cotare; e) asigurarea confidenŃialităŃii rezultatelor; f) acordul scris sau în formă electronică de includere a rezultatelor în baza de date a

utilizatorului probei psihologice.

82

(3) - Categoriile majore de competenŃe, vizează următoarele aspecte tehnice în aplicarea testelor: a) determinarea necesităŃii de a utiliza teste psihologice în funcŃie de contextul

evaluării psihologice şi a calităŃilor psihometrice ale acestora; b) asigurarea faptului că testarea psihologică nu va avea un impact discriminatoriu

pentru anumite categorii de persoane; c) pregătirea adecvată a sesiunii de testare psihologică; d) administrarea corectă, în acord cu instrucŃiunile din manual, a probelor; e) cotarea corectă a testelor administrate; f) interpretarea adecvată a rezultatelor obŃinute; g) comunicarea rezultatelor într-un mod concis şi pe înŃelesul persoanelor care au

solicitat testarea şi/sau au fost testate; h) revizuirea calităŃilor psihometrice ale probelor utilizate; Art. 18 (1) - CompetenŃele generale în utilizarea testelor psihologice standardizate de către absolvenŃii cu licenŃă în psihologie sau asimilată sunt acoperite de următorul pachet de cursuri: a) Psihologia personalităŃii b) Psihodiagnostic; c) Introducere în teoriile măsurării şi psihometrie; d) Statistică psihologică şi prelucrarea informatizată a datelor; e) Metodologia cercetării în psihologie.

(2) CompetenŃele complementare se pot obŃine de către absolvenŃii cu licenŃă în psihologie sau asimilată prin programe universitare, masterale sau doctorale ori prin cursuri formative de specializare în diverse metodologii recunoscute de CPR, conform cerinŃelor Comisiilor aplicative. Art. 19 - Persoanele, cu licenŃă în psihologie sau asimilată, care nu au urmat aceste cursuri le pot urma în regim de taxă, prin cursuri organizate de către asociaŃii profesionale recunoscute de CPR ori persoane juridice specializate acreditate de CPR; Art. 20 (1)- AbsolvenŃii cu licenŃă în psihologie sau asimilată, dobândită după intrarea în vigoare ale acestor norme, vor certifica în faŃa comisiei aplicative de la care doreşte să obŃină atestatul de liberă practică, dobândirea competenŃelor de utilizare a testelor. Se pot prezenta copii după documente care dovedesc parcurgerea cerinŃelor precizate la art.18 alin.1 sau alin.2. (2) AbsolvenŃii cu licenŃă în psihologie care obŃin titlul de Doctor în specializarea Psihologie au competenŃe generale de utilizare a testelor, nefiind nevoiŃi să intre sub incidenŃa prevederilor art.18, alin.1.

Art. 21 (1) - Autorii sau producătorii unor teste psihologice pot propune criterii suplimentare cu scopul de a restricŃiona dreptul de utilizare a testelor pe care le introduc pe piaŃă, inclusiv o anumită experienŃă de utilizare sub supervizare, cursuri de formare. (2) - Decizia de includere a acestor criterii suplimentare rămâne un atribut exclusiv al CM.

83

SecŃiunea 2 – Reglementarea utilizării testelor psihologice Art. 22 (1) – Distribuitorul de teste, solicitant de aviz este obligat să difuzeze testele psihologice către utilizatori numai însoŃite de un manual tehnic şi de utilizare a probei respective, indiferent de tipul de test: creion-hârtie, aparate, probă computerizată. În caz contrar, probele respective nu vor primi aviz favorabil, fie el temporar sau pe o perioadă nedeterminată. (2) – Distribuitorul de teste, solicitant de aviz este obligat să pună la dispoziŃia utilizatorului de teste care achiziŃionează un anumit produs, toate elementele necesare pentru administrarea, cotarea şi interpretarea rezultatelor de către utilizator. (3) – Psihologii cu drept de liberă practică care utilizează teste psihologice nu le pot utiliza în absenŃa unui manual de utilizare şi a informaŃiilor psihometrice menite să îmbunătăŃească interpretarea rezultatelor obŃinute, indiferent de forma de prezentare a testului: creion-hârtie, aparate, probe computerizate. (4) – Psihologii cu drept de liberă practică care folosesc metode sau tehnici avizate fără a avea drept de licenŃă asupra metodelor respective încalcă prevederile legale în vigoare şi sunt pasibili de sancŃiuni potrivit legii. (5) – Psihologii care achiziŃionează probe psihologice, dar le utilizează în alte condiŃii decât cele prevăzute prin licenŃa cumpărată de la distribuitor sau autor, ori le înstrăinează unei terŃe persoane încalcă prevederile legale în vigoare privind legea drepturilor de autor. (6) – Psihologii cu drept de liberă practică care folosesc metode sau tehnici avizate fără să dovedească competenŃele necesare utilizării de probe psihologice, cele care nu respectă prevederile aliniatelor (4) şi (5) ale prezentului articol sau cele care utilizează în exclusivitate metode care nu sunt avizate de către CM al CPR, încalcă prevederile codului deontologic şi sunt pasibili de sancŃiuni conform prevederilor codului deontologic adoptat de CPR. (7) – Prima abatere de se sancŃionează cu retragerea temporară a atestatului de liberă practică. Repetarea abaterii conduce la retragerea definitivă a atestatului de liberă practică. Art.23 – Cei care comercializează teste psihologice se supun reglementărilor şi dispoziŃiilor Consiliului ConcurenŃei şi Oficiului pentru ProtecŃia Consumatorului din România.

SecŃiunea 3 – Acreditarea cursurilor de specializare Art. 24 (1) - Cursurile de formare a competenŃelor generale specificate trebuie avizate de CD al CPR la propunerea CM. (2) - CM al CPR va întocmi şi reactualiza anual o listă a cursurilor acreditate pentru dobândirea competenŃelor generale de utilizare a testelor psihologice, aceasta fiind făcută public prin mijloace electronice. Art. 25 (1) - Pentru a obŃine acreditarea cursurilor, persoanele sau instituŃiile interesate de a organiza astfel de cursuri vor depune o cerere către CM a CPR, însoŃită de o documentaŃie tehnică ce include programa cursului / cursurilor respective, un CV al trainerului/formatorului şi resursele avute la dispoziŃie pentru a realiza într-o manieră profesionistă aceste cursuri.

84

(2) - În cazul unui răspuns favorabil, se plăteşte anual o taxă către CPR în valoare de 5% din veniturile brute obŃinute în urma derulării cursurilor în anul respectiv. (3) - Acreditarea primită din partea CPR, prin intermediul CM, are durata de doi ani de zile, ea putând fi reînnoită. (4) - Retragerea acreditării poate fi făcută înainte de termenul de valabilitate al acesteia atunci când CM constată că organizatorul cursurilor nu respectă documentaŃia tehnică specificată la obŃinerea acreditării, dacă nu se plăteşte taxa către CPR sau dacă survin probleme de natură deontologică sau penală legate de modul de desfăşurare a cursurilor. Art. 26 (1) - Persoanele care vor urma astfel de cursuri vor susŃine în final un examen de cunoştinŃe, pe baza unei metodologii şi a unei bibliografii specificate de către CM. (2) - ParticipanŃii care vor promova acest examen vor putea primi un certificat de absolvire a disciplinei sau disciplinelor evaluate.

Capitolul 4 - Avizarea tehnicilor şi metodelor de asistenŃă psihologică Art. 27 - Psihologul cu drept de liberă practică, poate apela la orice metodă sau tehnică de asistenŃă psihologică pentru care îşi asumă responsabilitatea, conform normelor deontologice, că este benefică pentru client şi pentru care certifică competenŃa de a o utiliza. Art. 28 (1) - Metodele şi tehnicile de asistenŃă psihologică sunt avizate implicit dacă sunt dobândite în următoarele condiŃii: a) pe parcursul studiilor universitare, masterale sau doctorale; b) prin intermediul unor training-uri sau altor cursuri de formare desfăşurate sub egida

CPR sau a altor asociaŃii profesionale ale psihologilor ori asimilate care au fost acreditate de CPR;

c) prin experienŃă sub supervizare, acolo unde este cazul. (2) - Metodele şi tehnicile de asistenŃă psihologică pot fi avizate explicit de către CM, la cererea unei Comisii aplicative a CPR. Art. 29 (1) - În vederea obŃinerii avizului explicit, CM cere solicitantului, interesat de promovarea unei anumite metode sau tehnici de asistenŃă psihologică, un dosar tehnic însoŃit de o declaraŃie de conformitate. (2) - DeclaraŃia de conformitate este o declaraŃie pe proprie răspundere că datele prezentate în documentaŃia tehnică sunt conforme cu realitatea şi că metodele sau tehnicile respective nu sunt nocive asupra individului sau organizaŃiei evaluate. (3) - Dosarul tehnic trebuie să cuprindă informaŃii despre: a) fundamentarea teoretică; b) domeniul de aplicabilitate (ex. domeniul clinic, organizaŃional, şcolar, apărare etc.); c) scopul metodei sau tehnicii; d) descrierea detaliată a metodei sau a tehnicii; e) dovezi despre eficienŃa metodei; f) limitele şi contraindicaŃiile existente; g) competenŃele necesare pentru utilizare; h) instituŃii şi persoane care oferă stagii de formare; i) bibliografia aferentă cu trimitere spre studii care susŃin valoarea metodei;

85

j) alte informaŃii utile în aprecierea metodei. Art. 30 (1) - Metodele şi tehnicile de asistenŃă psihologică, care intră sub procedura de avizare explicită pot primi aviz favorabil sau pot fi respinse. (2) - În cazul primirii unui aviz nefavorabil, solicitantul poate cere o nouă evaluare, pe baza unei documentaŃii reactualizate, după un an de zile de la data deciziei de respingere a metodei şi tehnicii respective. Art. 31 (1) - CM se poate sesiza din oficiu cu privire la utilizarea de metode sau tehnici de asistenŃă psihologică neavizate (2) - Procedura de avizare pentru situaŃiile prevăzute la alin. (1) este cea prevăzută în prezentele norme. Capitolul 5 - DispoziŃii finale

Art. 32 – Nivelul taxelor necesare acoperirii costurilor de avizare a metodelor şi tehnicilor de evaluare şi asistenŃă psihologică se aprobă de Consiliul Colegiului, la propunerea Comitetului director.

Art. 33 - Normele de avizare a metodelor şi tehnicilor de evaluare şi asistenŃă psihologică se aprobă de către ConvenŃia NaŃională a CPR şi intră în vigoare la data aprobării.

Art. 34 - Normele de avizare a metodelor şi tehnicilor de evaluare şi asistenŃă psihologică se aduc la cunoştinŃa tuturor membrilor CPR, după aprobare, prevederile acestora devenind obligatorii pentru toŃi psihologii.

Art. 35 – Normele prezente se completează cu prevederile Legii 213/2004 şi cu normele metodologice de aplicare a legii respective.

Art. 36 – Normele prezente pot fi modificate şi completate numai la propunerea CM cu aprobarea CD al CPR. ANEXA 1 Model cerere tip

Domnule Preşedinte, Subsemnatul …………………………………………….... de profesie ……………………, CNP …………………………. cu domiciliul in………………………………………………….. în calitate de …………………………………………………..... va rog sa avizati metoda/tehnica/testul ………………………. pentru a putea fi utilizat(a) in………………………………….

In acest scop anexez dosarul tehnic si declaratia de conformitate. Data : Semnatura:

ANEXA 2 DECLARATIE DE CONFORMITATE Nr. ................

86

Noi, .........................................................................., (denumirea completa a persoanei juridice sau persoanei fizice autorizate) ..............................................................................., (sediul) cu Certificat de înregistrare/AutorizaŃie nr. .............../................., asiguram, garantam si declaram pe propria răspundere, conform prevederilor art. 5 din Hotărârea Guvernului nr. 1.022/2002 privind regimul produselor si serviciilor care pot pune in pericol viata, sănătatea, securitatea muncii si protecŃia mediului, ca produsul/serviciul ...................................... ................................................................................ (denumirea, tipul sau modelul, eventual numărul lotului, seriei şi numărul de exemplare) la care se refera aceasta declaraŃie nu pune in pericol viaŃa, sănătatea, securitatea muncii, nu produce un impact negativ asupra mediului şi este în conformitate cu: ............................................................... ................................................................................ (titlul si/sau numărul şi data publicării documentului/documentelor normativ/normative) ................................. ............................................ (locul si data emiterii) (numele si prenumele in clar si stampila)

ANEXA 3 În curs de traducere şi de dezbatere: „The Revised Dutch Rating System for Test Quality”.

Glosar

87

A măsura înseamnă a atribui numere obiectelor sau fenomenelor potrivit unor reguli determinate (Stevens, 1951). Analiza factorială - un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza uneui set de măsurăori empirice ConsistenŃa internă a unui test - se referă la măsura în care toŃi itemii testului măsoară aceeaşi variabilă Criteriul – standardul la care este raportată performanŃa la un test Definirea populaŃiei - circumscriera persoanelor pentru care este destinat testul Etalon - reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia Etalonarea unui test - reprezintă stabilirea unui cadru de referinŃă, a unei scări care să permită determinarea locului ocupat de rezultatele unui subiect faŃă de rezultatele unei populaŃii de referinŃă, suficient de numeroasă, formată din persoane comparabile cu cea examinată. Etalonul (norma sau standardele) reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia Evaluarea psihologica este un proces de rezolvare de probleme care vizează descoperirea manifestărilor realitatii. Fidelitatea - reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare. Fidelitatea interevaluatori exprimă măsura în care testul este independent de erori datorate modalităŃii de cotare a răspunsurilor subiectului Item - stimul specific care determină un anumit comportament ce poate fi cotat şi evaluat independent. Itemi cu mai multe opŃiuni (polinomici) – au un format similar celor dihotomici, atâta doar că au mai mult de două alternative de răspuns Itemii dihotomici – oferă două alternative de răspuns (adevărat şi fals), de obicei uneia dintre acestea i se acordă un punct la cotarea performanŃei persoanei evaluate Metoda formelor paralele - două teste sunt paralele dacă pentru un subiect erorile de măsură la cele două administrări sunt variabile aleatoare independente PredicŃia - este procesul de stabilire a unor expectaŃii despre viitor având la baza date / evenimente curente Q- sort – este o metodă utilizată cu precădere în evaluarea personalităŃii. Persoana evaluată va primi o listă de adjective pe care le va sorta în funcŃie de măsura în care acestea îl caracterizează Scală categorială – este similară cu scalele Likert, dar utilizează un număr mai mare de opŃiuni de răspuns, de cele mai multe ori sunt utilizate scale cu 10 opŃiuni de răspuns Scale Likert – prezintă o formă foarte populară, utilizată mai ales în cadrul testelor de

88

personalitate, în care persoana evaluată trebuie să-şi exprime acordul sau dezacordul faŃă de a o afirmaŃie Scor standard - este un scor care a fost transformat dintr-o scală în alta, ultima fiind una pe baza căreia se pot face comparaŃii. Stabilitatea rezultatelor testării - ne indică în ce măsură la aplicări diferite în timp un subiect obŃine rezultate similare la un test psihologic Standardizarea - procesul de obiectivare şi uniformitate a unui test Testarea psihologica - constituie procesul de administrare, cotare si interpretarea a rezultatelor unui test psihologic Validarea – procesul prin care se obŃin informaŃii legate de validitatea unui test Validitate concurentă (presupune obŃinerea scorurilor la criteriu aproximativ în acelaşi timp cu scorurile la test. În cazul validităŃii concurente este vorba tot de o predicŃie, dar la aceasta se ajunge pe o cale puŃin diferită faŃă de cea urmată în studierea validităŃii predictive Validitate convergentă - măsura în care testul evaluează aceleaşi constructe ca şi alte teste Validitate de discriminare – măsura în care testul evaluează altceva decât alte teste despre care se ştie că se referă la constructe ce nu au legătură cu constructul măsurat de test Validitatea de aspect - ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară Validitatea de aspect este definită ca “ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară” Validitatea de construct - reprezintă măsura în care se poate susŃine că testul măsoară o variabilă sau o trăsătură specifică Validitatea de conŃinut - implică examinarea sistematică a conŃinutului testului pentru a se verifica dacă testul acoperă un eşantion reprezentativ din domeniul care se cere a fi evaluat prin test Validitatea de criteriu - indică măsura în care testul este un bun predictor pentru un eşantion de comportamente viitoare Validitatea predictivă - este definită ca acurateŃea cu care putem estima în ce măsură o anumită caracteristică sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii în care persoana posedă o serie de caracteristici sau aptitudini curente Scurtă biografie a titularului de curs

89

Lector univ. dr. Anca DOBREAN este titular la Catedra de Psihologie Clinică şi Psihoterapie din cadrul Universitatii Babes Bolyai. Domeniile sale de competenŃă includ: psihodiagnostic, psihodiagnostic validat ştiinŃific, patologia copilului şi adolescentului.

Anca Dobrean participat in calitate de director, coordonator sau membru in 8 proiecte de cercetare naŃionale şi internaŃionale, şi a publicat ca autor sau coautor peste 30 de studii stiintifice in reviste de specialitate, indexate ISI, recenzate in baze de date internaŃionale şi/sau recunoscute CNCSIS.

Psi Ho Diagnostic

Documents

Transcript of Psi Ho Diagnostic