IX. Metode de Constructie a Testelor Psihologice

download IX. Metode de Constructie a Testelor Psihologice

of 15

description

IX. Metode de constructie a testelor psihologice

Transcript of IX. Metode de Constructie a Testelor Psihologice

Bazele Teoretice ale Evaluarii Psihologice

IX. Metode de construcie a testelor psihologice

A) Generaliti

Construcia testelor ine att de tiin ct i de art. tiina trimite la analiza cantitativ a itemilor testului, n cadrul creia vor fi selectai itemii pertineni i respini cei neadecvai. Arta vizeaz redactarea formularea itemilor. Unii autori vorbesc i de arta de a selecta cei mai relevani itemi pentru un test.

Un test bine construit este, n primul rnd, un test care garanteaz fidelitatea msurtorilor realizate cu ajutorul lui. Accentul este pus pe omogenitatea scalelor testului (mai ales atunci cnd avem de a face cu chestionare / inventare de personalitate care conin mai multe scale referitoare la diferite trsturi). Trebuie s ne asigurm ca fiecare item al unei scale dintr-un test msoar acceai trstur sau acelai factor (de exemplu, aptitudinea numeric, anxietatea, nevrotismul etc). O bun construcie a unui test va asigura, ntr-o anumit msur, i validitatea acestuia n sensul c testul va oferi indicaii precise asupra caracteristicii pe care i-a propus s o msoare (valididate de construct).

n esen, exist dou modaliti de construcie a testelor: 1) metode bazat pe analiza de itemi sau pe analiza factorial; 2) metode empirice. n cazul primului tip de metode, analizele statistice au drept scop construirea unui test unidimensional (care s se refere la o singur dimensiune sau la un singur factor). Acest demers presupune ns existena unei teorii explicite i bine fundamentate cu privire la caracteristica (conceptul) presupus a fi msurat de test pe baza creia s fie redactai itemii. Ansamblul itemilor reinui va trebui apoi validat (adic trebuie s demonstrm c itemii msoar ntr-adevr ceea ce teoria / modelul teoretic care au stat la baza construirii lor susin c acetia msoar).

n demersul empiric, redactarea itemilor se bazeaz pe capacitatea constructorului de a ,,intui itemi cu un coninut pertinent i adecvat scopului pe care i-l propune testul. Selectarea unor itemi pentru a face parte dintr-un test sau respingerea lor depinde de capacitatea acestora de a diferenia subiecii dintr-un grup criteriu (de exemplu, subiecii anxioi) de subiecii dintr-un grup de control. Metoda empiric de construire a testelor implic dou dificulti care i limiteaz interesul i utilizarea: 1) problema alctuirii grupului criteriu; de exemplu, nu exist un acord real ntre specialitii n materie de diagnostic clinic n privina criteriilor de identificare a grupurilor de subieci n funcie de un ansamblu de simptome ncadrabile ntr-o tulburare; aceeai problem se pune n legtur cu o serie de criterii legate de performana / reuita profesional sau colar; 2) problema semnificaiei scalelor construite prin metoda empiric; subiecii care compun grupul criteriu (de exemplu, schizofreni, elevi buni la nvtur etc) difer de cei din grupul de control de obicei prin mai mult de o variabil (de exemplu, diferene la nivelul trsturilor de personalitate, inteligenei sau instruciei experienei etc); n consecin, chiar dac o scal sau un test difereniaz bine cele dou grupuri de subieci (de exemplu, elevii buni de cei slabi sau schizofrenii de persoanele normale din punct de vedere psihic) interpretarea rezultatelor la un test va rmne incert, mai ales atunci cnd delimitatrea factorilor prin analiz factorial nu este suficient argumentat. Aadar, dei metoda empiric de construire a testelor este departe de a fi ideal (n ceea ce privete fundamentarea explicaiilor psihologice), ea poate fi util mai ales atunci cnd se urmrete construirea unui test n vederea seleciei anumitor indivizi dup anumite criterii practice. De exemplu, dac un ansamblu de itemi a permis identificarea subiecilor care au euat ntr-un anumit domeniu profesional sau n atingerea performanelor ateptate dup ce au urmat un stagiu de formare, ansamblul itemilor poate fi considerat un instrument de selecie util.

B) Metoda analizei de itemi

Obiectivul acestei metode de construcie este de a asigura constituirea unui test omogen. Prin definiie, dac un test este omogen, fiecare item trebuie s msoare aceeai variabil (acelai factor). Deci, scorurile fiecrui item trebuie s coreleze cu scorul total al testului (obinut prin nsumarea scorurilor la itemi). Acest lucru presupune ca ansamblul itemilor din care vor fi selecionai itemii definitivi s constituie un eantion reprezentativ (ansamblu de itemi pertineni) n raport cu variabila msurat.

Procedurile care trebuie urmate n cadrul analizei de itemi vizeaz: 1) alegerea unui numr optim de itemi (dintr-un unuivers mai larg sau ceea ce se numete banc de itemi); 2) constituirea eantionului experimental de subieci pe care va fi aplicat ansamblul de itemi alei; 3) administrarea testului n varianta sa iniial; 4) analiza propriu-zis a itemilor (indice de dificultate n cazul testelor de aptitudini sau indice de popularitate n cazul testelor de personalitate, indice de discriminare, intercorelaii itemi, corelaii itemi scor total, consisten intern); 5) selecia itemilor (prin combinarea criteriilor rezultate). 6) rescrierea i validarea ncruciat (cross validation).

1) Alegerea numrului optim de itemi. Se recomand ca numrul iniial de itemi s fie de cel puin dou ori mai mare dect numrul din versiunea final a testului pentru care un numr de 20-30 de itemi este rezonabil. P. Kline (1994) consider c un test nu poate avea sub 10 itemi. Cele care conin un numr sub 10 itemi rareori au o fidelitate acceptabil (probabilitatea interveniei hazardului n rspunsurile date de subieci i implicit n valoarea scorurilor obinute de acestea este cu att mai mare cu ct un test / scal conine un numr mai mic de itemi). n principiu, un test trebuie s fie ct mai scurt posibil, dar trebuie s respecte exigenele legate de validitate i fidelitate. n practic, testele omogene (n special cele de aptitudini a cror administrare dureaz, de exemplu, mai mult de 30 de minute) nu sunt bine primite de subieci. Dar, economia de timp n administrarea unui test reprezint unul din aspectele validitii de faad a acestuia. Lungimea unui test va depinde de scopul su (natura variabilei pe care intenioneaz s o msoare) i de populaia creia i este destinat testul. De exemplu, un test de aptitudini cognitive nu poate fi foarte lung atunci cnd populaia vizat este reprezentat de copii sau vrstnici

2) Constituirea eantionului experimental de subieci pe care va fi aplicat ansamblul de itemi alei. Eantioanele experimentale trebuie s fie reprezentative pentru populaia creia i este destinat testul. Acest aspect este important n special pentru testele care se adreseaz unor grupe particulare de subieci (de exemplu, bolnavi pshihic sau copii cu o anumit vrst). Dificultatea itemilor i capacitatea de discriminare a acestora nu vor putea fi stabilite cu precizie dac eantioanele experimentale nu sunt reprezentative pentru populaia creia i este destinat testul. n constituirea eantioanelor experimentale, o variabil important de care trebuie s se in cont este reprezentat de sexul subiecilor. Alegerea unui eantion mixt (compus att din subieci de sex feminin ct i din subieci de sex masculin) sau a unor eantioane distincte depinde de natura variabilei presupus a fi msurat de test. De exemplu, aplicndu-se teste de aptitudini cognitive unor eantiane de fete i biei cu vrste medii sub 16 ani, s-a constatat c fetele au nregistrat performane superioare la testele care msurau aptitudinea verbal, n timp ce bieii au obinut performane superiare la factorul numeric. Ca regul general, este bine ca n faza de construire a unui test, eantioanele experimentale s fie distincte n ceea ce privete sexul subiecilor. Acest fapt permite eliminarea itemilor care sunt foarte sensibili la variabila sex i reinerea acelora care nu dau diferene notabile ntre scorurile obinute de subiecii de sexe diferite.

3) Administrarea testului n varianta sa iniial. n acest faz, este important s se verifice claritatea consemnului (instruciunile de completare a testului) care trebuie s fie redactat ntr-un limbaj simplu, inteligibil pentru subiect (de exemplu, fraze scurte i exemple de rspuns). Dac pentru un eantion de aduli, mai mult de 5 % dintre subieci nu respect consemnul unui test nseamn c acesta nu este suficient de clar i de explicit (pentru eantioanele de copii, procentul poate fi mai mare). De aceea, dup aplicarea testului n versiunea sa iniial, subiecii din eantionul experimental trebuie chestionai n legtur cu claritatea consemnului (dac au neles ceea ce au de fcut), dar i n legtur cu confuziile pe care le pot provoca formulrile unor itemi (n cazul testelor de aptitudini, subiecii trebuie ntrebai dac itemii li s-au prut prea grei sau prea uori).

4) Analiza itemilor. Aceast analiz presupune calcularea unor indicatori pentru fiecare item n parte, n funcie de combinarea crora se vor alege itemii cei mai pertineni pentru a face parte din varianta final a testului. Astfel avem: a) indicele de dificultate (pentru teste de aptitudini sau de cunotine) proporia de subieci care au rspuns corect la test; n cazul testelor de personalitate sau a scalelor de atitudini, se folosete indicele de popularitate care exprim msura n care subiecii au ales ntre diferitele variante de rspuns ale itemilor, fr ca aceste alegeri s poat fi evaluate ca fiind corecte / incorecte; de exemplu, n cazul unei scale de atitudini indicele de popularitate exprim msura n care subiecii au ales variantele de rspuns corespunztoare polului pozitiv al atitudinii; b) indicele de corelaie ntre scorurile la un item i scorul total la test / scal; c) indicele de discriminare a unui item; de exemplu,n cazul unui test de aptitudini se pune problema ca un item s separe clar subiecii care au un nivel slab al aptitudinii de cei care au un nivel ridicat al aptitudinii; indicele de discriminare poate fi pus n legtur cu dispersia (variana) scorurilor la itemi, precum i cu indicele de dificultate/pupularitate al unui item; d) intercorelaiile ntre itemi strns legate de indicele de consisten intern; de pild, pentru un test de personalitate cu mai multe scale (care msoar mai multe trsturi de personalitate), corelaiile ntre itemii unei aceleai scale trebuie s fie mai ridicate dect corelaiile ntre itemi aparinnd unor scale diferite.

n cazul testelor de aptitudini sau cunotine, scorul brut al subiecilor se bazeaz pe numrul de rspunsuri corecte (conform grilei) sau itemi corect rezolvai; de obicei, fiecare item este cotat dihotomic (1 punct pentru rspunsul corect / 0 puncte pentru rspunsul incorect). n urma calculrii proporiei de rspunsuri corecte pentru fiecare item n parte (adic numrul exprimat n valoarea absolut sau procentual de subieci din total care au dat un rspuns corect la item sau, cu alte cuvinte, indicele de dificultate ale itemului), se vor reine numai itemii a cror valoare a indicelui de dificultate este situat ntre 0,20 i 0,80 (P. Kline, 1994). Cu alte cuvinte, un item care a fost rezolvat de peste 80 % dintre subiecii testai poate fi considerat prea uor tot aa cum un item care nu a fost rezolvat dect de maximum 20 % dintre subieci poate fi considerat prea greu (sau nivelul mediu al subiecilor este prea slab). Ali autori indic limite care oscileaz uor n jurul valorilor indicate. Formula de calcul a indicelui de dificultate al unui item cotat dihotomic (0/1) este:

- n = numrul de rspunsuri corecte la item (care este echivalent cu suma scorurilor de 1 la item adic);

- N = numrul de subieci testai i p = indicele de dificultate sau proporia de rspunsuri corecte.

Facem precizarea c notaiile utilizate n formula de calcul a acestui indice, ca i a altor indici specifici analizei de coninut, variaz de la autor la autor dar se refer la acelai lucru. Se observ c, n cazul itemilor dihotomici, indicele de dificultate coincide chiar cu media aritmetic simpl a scorurilor la item. Nu acelai lucru se ntmpl pentru itemii polihotomici mai rar ntlnii n msurarea aptitudinilor (n cazul crora, se pot acorda 0 item nerezolvat deloc, 1 / 1,5 / 2 puncte sau mai multe pentru rezolvare parial sau n ntregime de exemplu, unele probe neverbale sau de performan din WISC) . Indicele de dificultate nu mai coincide cu media scorurilor la item, ci este dat de formula:

- = suma scorurilor la itemi;

- N = numrul de subieci testai;

- x max = punctajul maxim pe care l-ar obine un subiect la item dac l-ar rezolva integral.

De cele mai multe ori ns itemii testelor de aptitudini sau de cunotine (de exemplu, teste docimologice) au o singur variant corect de rspuns, deci sunt cotai dihotomic. n ceea ce privete eliminarea unui item, n cazul n care acesta nu ndeplinete exigena indicelui de dificultate situat ntre 0,20 i 0,80, se impune o precizare: dac un item are valoarea indicelui de dificultate apropiat de limita inferioar (de exemplu, 0,19), dar are o corelaie ridicat cu scorul total la test el va fi pstrat cel puin dup prima analiz n acest caz, verificarea celorlali indicatori specifici analizei statistice a rspunsurilor la un item (de exemplu, indicele de discriminare) ar putea aduce informaii utile n luarea deciziei de eliminare / pstrare a itemului din varianta final a testului. Muli autori atrag atenia asupra faptului c eliminarea unui item dintr-un test trebuie s se fac inndu-se cont de mai multe criterii corelativ i nu doar de unul singur.

Valoarea indicelui de dificultate depinde de particularitile grupului/eantionului experimental de subieci utilizat n cercetarea privind asigurarea calitii psihometrice ale testului. Aprecierea subiecilor depinde de modul n care au fost construii itemii, iar aprecierea caracteristicilor psihometrice ale itemilor depinde de caracteristicile subiecilor care au fost inclui n grupul / eantionul experimental. Intervenia hazardului n constituirea grupului / eantionului experimental (de exemplu, constructorul poate include subieci care nu acoper ntreagul continuum al nivelelor de prezena a caracteristicii msurate) este o problem de care trebuie s se in seama. n cazul testelor de aptitudini sau de cunotine (mai general, am putea spune n cazul testelor de randament) exist i probabilitatea de reuit prin hazard (rspunsul corect este ghicit). De exemplu, cnd numrul variantelor este egal cu trei, ansa de a ,,ghici rspunsul corect este de 33 %. Pe msur ce crete numrul variantelor de rspuns dintre care subiectul trebuie s aleag, ansa ca acesta s ghiceasc rspunsul corect scade. De aceea, indicele de dificultate este mai informativ n cazul testelor bazate pe itemi cu alegere multipl dect n cazul testelor cu itemi dihotomici. Posibilitatea interveniei hazardului n alegerea rspunsului corect face necesar calcularea unei corecii a indicelui de dificultate al unui item. Corecia nu va schimba ordinea de clasare a subiecilor. Cea mai cunoscut formul pentru corecia indicelui de dificultate este:

- p ' = indicele de dificultate corectat; p = indice.le de dificultate necorectat i M = numrul de variante de alegere dintre care doar una este corect

n cazul testelor de personalitate fixarea unor limite de admitere a itemilor devine mult mai problematic pentru astfel de probe, nsi denumirea de indice de dificultate este inadecvat. Autorii au propus diferite denumiri pentru indicele care concentreaz rspunsurile pe care subiecii le dau la itemii uniti de personalitate. De pild, pentru testele clasice n care rspunsul este cotat dihotomic cu 1 pentru DA (sau adevrat A) respectiv cu 0 pentru NU (sau fals - F), se utilizeaz frecvent indicele de popularitate care indic proporia de subieci din totalul celor testai care au rspuns afirmativ la enunul itemului; aceast proporie poate depinde de o serie de aspecte legate de validitatea aparent a itemului (de exemplu, dac enunul itemului este inteligibil pentru subieci sau dac itemul se refer la un aspect relevant legat de activitatea i comportamentul cotidian), precum i de existena la subiect a aspectului pe care itemul l operaionalizeaz. Sunt i teste de personalitate (de exemplu, 16 PF sau NEO PI-R) n care dispozitivul de rspuns al unui item conine o scal cu mai multe variante (de exemplu, a ntotdeauna, b frecvent, c niciodat sau 0 dezacord puternic, 1 dezacord, 2 neutru, 3 acord i 4 acord puternic), din care subiectul trebuie s aleag doar una.

Dar, un bun test psihologic presupune i capacitatea sa de a discrimina bine ntre subiecii care rspund, adic ntre diferite nivele ale caracteristicii msurate. De pild, este destul de uor s clasificm subiecii n funcie de msura n care acetia dispun de aptitudinea verbal n trei categorii (s spunem: nivel ridicat, nivel mediu i nivel slab) caz n care majoritatea subiecilor se vor situa n categoria ,,nivel mediu. Dar, distribuia scorurilor unui test de aptitudini verbale poate avea o amplitudine mare care, n esen, depinde de capacitatea de discriminare a itemilor componeni. De aceea, asigurarea capacitii de discriminare a testului depinde de potenialul de discriminare al itemilor. De exemplu, dac un item este rezolvat corect de majoritatea sau de toi subiecii testai, acesta se va dovedi inutil, ntruct practic nu permite nici un fel de discriminare ntre subieci. Tot aa, dac nici un subiect dintr-un lot testat nu rezolv un item acesta poate fi considerat ca avnd un potenial discriminant minim.

n cazul unui test de aptitudini sau cunotine, itemii dihotomici cu un indice de dificultate p = 0,50 (adic la care 50 % dintre subieci au dat un rspuns corect i 50 % au rspuns greit) pot fi considerai ca avnd cel puin teoretic un potenial maxim de discriminare. Cnd se construiete un test de aptitudini sau cunotine, trebuie reinui n primul rnd itemii care au p = 0,50. Dar ar fi o mare eroare s se rein numai acest tip de itemi, ntruct subiecii foarte buni i foarte slabi nu ar putea fi difereniai ntre ei. De aceea, este preferabil de a se ine cont de limitele 0,20-0,80 pentru valoarea indicelui de dificultate (p) al unui item atunci cnd vrem s selecionm itemii cu un potenial discriminant acceptabil pornind de la date obinute pe un eantion experimental corect construit.

Un alt criteriu de care trebuie s inem cont n selecia itemilor atunci cnd construim un test este corelaia dintre scorurile la itemi i scorul total la test. Selecia itemilor dup valoarea lui p este o condiie necesar dar nu i suficient. n lucrrile privind construcia testelor, exist numeroase discuii pe marginea celui mai potrivit coeficient de corelaie care poate fi utilizat pentru a estima relaia dintre scorurile la un item i scorurile totale la test. n practic, corelaia ntre scorurile unui item (oricare ar fi modul de cotare) i scorul total al testului se calculeaz de obicei prin metoda Bravais-Pearson. Existena unor programe statistice (de pild, SPSS) faciliteaz de multe ori calculul acestei corelaii, ca i a altor tipuri de corelaie.

n literatura de specialitate, limita inferioar a corelaiei ntre scorurile unui item i scorurile totale la test este fixat la r = 0,30 (P. Kline, 1993). Proporia din variana scorurilor totale la test explicat (acoperit) de scorurile la un item corespunztoare acestei limite va fi r2 = 0,30 0,30 = 0.09, deci itemul a crei corelaie cu scorul total este situat n jurul valorii de 0,30 acoper aproximativ 9 % din variana scorurilor totale la test. Se mai impune o observaie foarte important: dei valoarea foarte ridicat a coeficientului de corelaie ntre scorurile unui item i scorurile totale la testul pe care dorim s-l construim nseamn omogenitatea itemului n ansamblul testului, trebuie s ne ferim de o corelaie item-test foarte ridicat. n acest caz, testul ar msura o trstur foarte ngust sau prea specific. De exemplu, dac ntre doi itemi avem o corelaie aproape de (+1.00), unul dintre ei este total redundant i trebuie eliminat ntruct se dovedete a fi puin util (putem spune c cei doi itemi sunt virtual identici, se parafrazeaz unul pe altul). De aceea, este necesar examinarea simultan a indicilor statistici i a coninutului unui test, atunci cnd se studiaz aspectele legate de validitatea testului.

Idealul n construcia unui test este ca fiecare item al unei scale s coreleze puternic cu scorul total la test i, n acelai timp, s dea corelaii nule sau apropiate de zero cu ceilali itemi altfel, itemii independeni vor asigura o parte bine precizat din variana scorurilor totale la test i nu se vor suprapune ca n cazul testelor foarte nguste sau specifice. n practic, ndeplinirea unei astfel de exigene este relativ dificil.

5) Selectarea itemilor dup prima analiz. Aceast selecie se va efectua separat pentru eantionul de femei i pentru cel de brbai. De exemplu, pentru eantionul de brbai, vom parcurge urmtorii pai:

a) mai nti, selecionm toi itemii care au o corelaie cu scorul total la test mai mare sau egal cu valoarea 0,30 i a cror proporie a rspunsurilor ntr-un anumit sens (indicele de dificultate n cazul testelor de randament, respectiv indicele de popularitate n cazul testelor de personalitate) este situat ntre 0,20 i 0,80. Dac n final am reinut un numr de itemi egal sau apropiat cu cel vizat de noi n funcie de ndeplinirea unor exigene a cror verificare ne-am propus-o, pasul poate fi considerat ca fiind trecut; dac suntem nevoii s excludem un mare numr de itemi, datorit faptului c acetia se ndeprteaz mult de exigenele legate de indicele de dificultate/popularitate, capacitatea de discriminare, corelaiile cu scorul total la test i corelaiile ntre itemi, atunci este necesar rescrierea unor itemi sau dac nimic nu justific necesitatea de a avea un test cu o lungime considerabil scurtarea testului. Totui, dup unii autori (P. Kline, 1993) un test cu mai puin de 20 de itemi va pierde semnificativ din fidelitate ntruct, aceasta depinde de lungimea testului.

b) dat fiind faptul c, n general, obiectivul vizat atunci cnd construim un test este ca versiunea final a acestuia s acopere un eantion reprezentativ din comportamentul sau caracteristica a crei msurare o intenionm prin testul respectiv (de exemplu, n cazul unui test de aptitudine verbal, trebuie s reinem toi acei itemi care acoper urmtoarele aspecte eseniale ale aptitudinii avute n vedere: vocabular, fluen, comprehensiune etc.), al doilea pas va consta n analiza coninutului itemilor reinui dup selecia n funcie de exigenele psihometrice; n urma acestui proces, vom rescrie eventual acei itemi a cror coninut nu ni se pare suficient de precis sau la care am obinut date statistice preliminare prea diferite n eantioanele pentru femei i, respectiv, brbai; itemii la care se nregistreaz abateri prea mari de la exigenele psihometrice legate de dificultate/popularitate, corelaia cu scorul total i capacitatea de discriminare att n eantionul experimental pentru femei ct i n cel pentru brbai vor fi eliminai; totui, dac un item rspunde acestor exigene n unul din cele dou eantioane i se abate mai puin n cellalt, l putem pstra. n cazul testelor de personalitate, n coninutul unui test sunt eantionate de obicei un mare numr de comportamente reprezentative pentru dimensiunile/trsturile vizate de test (de pild, ntr-un test care msoar extraversiunea), dar este important s ne asigurm c itemii reinui acoper ansamblul sau gama reprezentativ de comportamente prin care este operaionalizat o trstur (de pild, n exemplul nostru, extraversiunea).

Prin analiza coninutului itemilor, ca i prin studierea unor indicatori psihometrici, ne putem uor da seama care itemi ofer un coninut redundant adic parafrazeaz coninutul altor itemi; acetia se dovedesc mai puin utili i trebuie eliminai. Totui, riscul const n reducerea validitii testului cu toate c i vom asigura omogenitatea (testul rezultat va msura un factor prea specific). Trebuie s inem cont c nici un test nu este ,,pur din punct de vedere psihologic deci nu ne va putea oferi indicaii strict numai asupra caracteristicii vizate; de pild, scorurile subiecilor la un test care msoar aptitudinea verbal vor fi n parte saturate i de experiena pe care subiectul o are n utilizarea textelor, dar i de factorul inteligen general. P. Kline (1993) atrage atenia asupra faptului c omogenitatea unui test nu este acelai lucru cu ,,puritatea n factorul msurat de test. Analiza de itemi dei poate asigura o omogenitate satisfctoare a testului, nu ne asigur neaprat i c testul izoleaz precis numai factorul pe care i propune s-l msoare. n cazul n care am dori s construim un test unifactorial aa cum se ntmpl de cele mai multe ori analiza de itemi se dovedete a fi inferioar analizei factoriale n ceea ce privete posibilitatea de a oferi certitudinea c testul nostru msoar ntr-adevr numai factorul vizat.

Analiza coninutului itemilor permite identificarea acelor itemi care au probleme de redactare (de pild, genereaz nenelegeri la subiecii respondeni) i care, n esen, ar trebui rescrii. De pild, itemii care conin termeni de specialitate, tehnici sau termeni mai puin utilizai n limbajul curent (regionalisme, arhaisme) trebuie rescrii. c) urmtorul pas n selecia itemilor const n a ne asigura de fidelitatea acestora. Majoritatea autorilor sunt de acord asupra limitei inferioare de 0,70 pentru a evalua un test ca fiind fidel. Coeficientul Cronbach (cel mai des utilizat pentru verificarea consistenei interne a itemilor unui test) pornete de la premisa c toi itemii unui test msoar aceeai caracteristic, c intercorelaiile dintre acetia sunt egale i c varianele itemilor sunt egale. Valoarea coeficientului de consisten intern depinde de: numrrul de itemi, varianele itemilor testului, precum i de variana scorurilor totale la test. d) n fine, trebuie rezolvat problema diferenelor dintre sexe n ceea ce privete scorurile la itemi i la test care pot reflecta o serie de diferenele reale n modul n care se repartizeaz caracteristica msurat de test n populaiile de sex feminin, respectiv masculin. Se va proceda la repetarea operaiilor statistice ntreprinse pe eantionul de sex masculin i pentru cel feminin. Dac diferenele ntre ndeplinirea exigenelor psihometrice rezultate sunt semnificative (situaie care, de altfel, se ntlnete mai rar), se poate rmne la dou variante ale testului care, ulterior vor fi standardizate pentru a se asigura echivalena scorurilor. Totui, inconvenientul practic al existenei a dou forme paralele ale unui test n funcie de sexul subiecilor const n aceea c utilizatorii testului pot avea dubii n legtur cu ce form s aplice. n plus, pot apare erori n aplicarea unei sau alteia dintre cele dou forme. Dac diferenele sunt nesemnificative, se va proceda la nlocuirea sau rescrierea itemilor problematici pentru fiecare din cele dou eantioane i, apoi, se poate stabili o variant mixt care s poat fi aplicat att subiecilor de sex feminin ct i celor de sex masculin. Este varianta cea mai frecvent i recomandat de constructorii de teste. Dar, o astfel de soluie reclam existena unei rezerve iniiale mai mare de itemi pentru a avea de unde s selectm itemii care nu rspund exigenelor psihometrice ntr-un eantion sau altul difereniate dup sex.

6) Rescrierea i validarea ncruciat a itemilor. Unul din avantejele analizei de itemi este c permite eliminarea efectului absenei fidelitii itemilor prin studierea proprietilor psihometrice ale acestora pe diferite grupuri independente extrase din populaia creia i este destinat testul (aa cum am vzut, se pot studia diferenele care exist ntre sexe sau dup grupele de vrst ale subiecilor). De aceea, itemii din versiunea rezultat dup prima analiz trebuie aplicai unui nou eantion experimental n structura cruia trebuie s se regseasc subiecii repartizai dup criteriile care au stat la baza analizelor difereniale (sex sau vrst), iar datele rezultate trebuie supuse unor noi verificri n ceea ce privete indicatorii specifici analizei de itemi (calculul indicatorului p dificultatea sau popularitatea itemilor dup natura testului, calculul capacitii de discriminare a itemilor, a corelaiilor itemi-scor total la test, a coeficientului de omogenitate sau consisten intern a itemilor etc.). Aceast procedur care poart numele de validare ncruciat trebuie urmat chiar i atunci cnd nu a fost necesar s modificm prea mult coninutul itemilor sau s adugm noi itemi. Ideal ar fi ca, n funcie i de resurse, s aplicm testul mai multor eantioane de subieci difereniate eventual dup acele criterii pe care le considerm importante pentru dinamica caracteristicii msurate sau care sunt specificate n modelul teoretic al constructului msurat de test.

n general, s-a constatat c la verificrile subiacente validrii ncruciate toi itemii reinui dup prima selecie rezist. Dac, eventual unul sau doi itemi (dar nu mai muli) ridic anumite probleme, nu trebuie s ne mai facem griji. Scopul validrii ncruciate este de a furniza date psihometrice independente de cele care au stat la baza construirii propriu-zise a testului. Ele pot fi luate i ca o confirmare a datelor anterior colectate, precum i a corectitudinii aplicrii procedurilor anterioare.

Unii autori consider validarea ncruciat ca fiind o etap a perfecionrii testului i au tendina de a o neglija. Dar, aa cum au subliniat numeroi constructori profesioniti de teste i autori n domeniul psihometriei, validarea i studiile de fidelitate ale unui test sunt procese cu o desfurare continu construcia unui test neputndu-se considera finalizat odat cu obinerea primelor date care s ne confirme ateptrile. S nu uitm c unii dintre psihologii care au construit teste ,,clasice (de pild, R. B. Cattell, H. J. Eysenck, J. C. Raven .a.) au ntreprins cercetri zeci de ani la rnd i nu au avut pretenia c testele lor erau perfecionate n aa msur nct s le considere finalizate !

7) Redactarea versiunii finale a testului. Dac, date fiind unele neclariti sau dificulti legate de coninut, este necesar rescrierea unor itemi n urma studiilor de validare ncruciat a acestora, noi itemi trebuie reaplicai mpreun cu cei originali unor noi eantioane i apoi resupui validrii ncruciate. Dac nici acum itemii nu rspund satisfctor exigenelor psihometrice specificate de analiza de itemi, se poate concluziona c aspectele (faetele) caracteristicii msurate de test pe care itemii le operaionalizau iniial nu sunt relevante pentru caracteristica n discuie iar itemii trebuie eliminai ca atare. n caz contrar, itemii vor fi adugai versiunii finale a testului.

Aceasta va cuprinde toi itemii care au fost reinui n urma analizei primare, respectiv a validrilor ncruciate succesive. nainte de a trece la procesul verificrii calitilor psihometrice ale testului (fidelitate, capacitate de discriminare, diferitele aspecte ale validitii), trebuie s cunoatem indicatorii eseniai rezultai din analiza de itemi (indicele de dificultate sau popularitate, corelaiile item-scor total la test, intercorelaiile itemilor, potenialul discriminant, precum i consistena intern a acestora). P. Kline (1993) atrage atenia asupra necesitii completrii analizei de item cu o analiz factorial a itemilor pentru a vedea care este saturaia n factorul (variabila) msurat de test att pentru scorurile la itemi ct i pentru cele la test.

Avantajele i limitele analizei de itemi

Principalul avantaj al acestei metode este simplitatea testele construite prin analiz de itemi difer foarte puin de cele construite prin alte metode mai sofisticate (de pild, cele bazate pe metoda analizei factoriale sau testele bazate pe teoria probabilist - ,,n vog printre unii specialiti).

Totui, se pune problema asigurrii omogenitii simultan cu unidimensionalitatea (unifactorialitatea) testului construit pe baza analizei de itemi. De pild, un test poate fi omogen dar nu i unifactorial. Un test unifactorial este de dorit unui saturat parial i n ali factori, ntruct scorul unui subiect permite evidenierea ct mai precis a poziiei acestuia pe continuumul care desemneaz factorul msurat. n schimb, n cele parial saturate n doi sau mai muli factori nu putem spune care este proporia din scorul unui subiect care se datoreaz interveniei factorului specific pe care dorim s-l msurm i care este proporia dat de ceilali factori nespecifici. n acest caz, scorul va fi o combinaie a factorului specific cu cei nespecifici i, prin urmare, precizia msurrii (adic, izolarea factorului specific) va scade. Este posibil ca acelai ansamblu de itemi s msoare doi factori ca de exemplu, un test de aptitudine verbal care, n parte, este saturat i de factorul inteligen. Ori, prin analiza de itemi putem seleciona acei itemi care aparin la doi factori i nu doar la unul aa cum intenionam iniial n ciuda omogenitii lor aparente evideniate prin calculul consistenei interne. De aceea, este necesar corelarea analizei de itemi cu analiza factorial care este specializat pe tehnicile de izolare a factorului/factorilor subsecveni matricei corelaiilor dintre mai multe variabile.

C) Metoda empiric de construcie a testelor psihologiceSpre deosebire de metodele care presupun existenta unei teorii explicate pe baza careia sa fie redactati itemi, in demersul empiric formularea itemilor se bazeaza pe capacitatea constructorului de a intui itemi pertinenti. Masura in care acesti itemi vor fi selectionati intr-o scala, va fi data de capacitatea lor de a diferentia subiectii dintr-un grup; criteriu (ex: anxiosi) de subiectii dintr-un grup de control (ex: subiecti apreciati de clinicieni drept lipsiti de anxietate). Versiunea finala a testului va fi compusa doar din itemi reprezentativi pentru grupul-criteriu. Etapele de urmat sunt: 1. Selectia grupelor de subiecti. Cea mai frecventa modalitate de selectie consta in: a) alcatuirea grupului-criteriu din subiecti care prezinta una sau mai multe caracteristici comune (ex: aceeasi ocupatie, aceeasi boala sau aceleasi simptome etc.; b) constituirea grupului de control din subiecti care nu prezinta caracteristica/caracteristicile care a fost folosita drept criteriu de selectie a primului grup (grupul-criteriu). n afara caracteristicii/caracteristicilor criteriu, cele doua grupe trebuie sa fie echivalente (ex: asemanatoare ca varsta, sex, nivel de instructie sau sa aiba aceeasi compozitie); c) o alta metoda de constituire a unor grupe-criterii se bazeaza pe scorurile obtinute la o proba de lucru (de expemplu). In acest caz grupele-criteriu vor fi formate din subiectii clasificati in treimea inferioara si din cei clasificati in treimea superioara (la proba de lucru). Uneori, cand dispunem de rezultatele unor examene, pot fi constituite grupe-criterii utilizand dihotomia reusita/esec. In ambele situatii, dupa aplicarea experimentala a testului vor fi retinuti itemii care vor discrimina intre cele doua grupuri.

2. Administrarea versiunii initiale a testului (o atenie deosebit trebuie acordat condiiilor de aplicare, consemn, durata etc.).

3. Calculul indicilor statistici si selectia itemilor pertinenti. Este vorba despre: a) r = corelaiile ntre rspunsurile corecte (sau semnificative) la itemi i apartenena (subiecilor) la un anumit grup (se poate aplica i testul t-Student pentru compararea a dou medii); n general testele empirice sunt construite mai degrab prin selecionarea itemilor care permit discriminarea ntre grupuri dect pe selecionarea lor pe baza corelrii cu un criteriu; b) p = proporia de subieci care au dat rspunsuri corecte sau semnificative (n sensul scalei). n versiunea final a testului, vor fi selectai numai itemii care satisfac simultan cele dou condiii statistice. Metoda empiric nu presupune analiza coninutului itemului selectat. Important este ca itemul s discrimineze grupurile de subieci.

4. Rescrierea i retestarea noilor itemi.5. Calculul consistenei interne a itemilor. Este de ateptat ca omogenitatea scalelor construite prin metoda empirica sa fie mai slaba in raport cu cea a testelor construite prin analiza de itemi sau analiza factoriala. Aceasta deoarece grupurile de subiecti ar putea diferi printr-o multitudine de variabile (nu numai prin cele luate n consideraie i care trebuie s-i diferenieze). n acest caz, este recomandabil utilizarea analizei factoriale pentru identificarea factorilor i deosebirea acestora de criteriile propriu-zise.

6. Validarea incrucisata a itemilor pe alte grupe de subiecti (echivalente cu primele), pentru a ne asigura de mrimea diferiilor coeficieni de validitate i de concluziile stabilite iniial.

Limitele/dezavantajele metodei empirice

1) Problema constituirii grupului-criteriu. De exemplu, nu exista un acord real intre specialisti in materie de diagnostic psihiatric, in privinta criteriului de constituire a grupurilor categoriilor clinice. O problema aparte apare, depild, n cazul inventarului MMPI (Minesotta Multiphasic Personality Inventory) - pe langa inexactitatea si nesiguranta clasificarii in diagnosticarile psihiatrice apar diferente intre utilizatori in privinta stapanirii sistemului de clasificare Kraepelin pe care l-au nuanat psihiatrii care au construit MMPI. Aceleasi probleme se intalnesc si in alte domenii: de pild, problema definirii i aplicrii criteriului care poate fi ambiguu i subiectiv (ex: note scolare, evaluari in domeniul ocupational).

2) Problema semnificatiei psihologice a scalelor (rezultatelor testului). Subiectii care compun grupul criteriu (ex: schizofreni, elevi buni la invatatura etc.) difera de cei din grupul de control prin mai mult de o variabila (diferente de personalitate, inteligenta, cultura etc.). n consecin, chiar daca scala diferentiaza bine cele doua grupe de subiecti (ex: elevi buni elevi slabi), interpretarea rezultatelor rmne incert. Itemii construiti astfel se pot referi la mai multe variabile care nu sunt neaprat delimitabile prin analiza factoriala.

3) Problema specificitii testelor construite prin metoda empiric. Rezultatele sunt greu de generalizat. De exemplu, n domeniul ocupaional, apare perimarea coninutului testelor de abiliti (deprinderi) sau de interese (legate de activitati, deprinderi concrete), ca urmare a progresului tehnologic. Tot aa, unele slujbe au un coninut diferit de la o ar/cultur la alta (ex: avocatura), ceea ce face ca un test valabil ntr-o cultur s nu mai poat fi utilizat i n altele.

n concluzie, metoda empirica de construire a testelor poate fi utila pentru satisfacerea unor scopuri practice. Dar, testele construite prin metoda analizei factoriale par a fi preferate (mai ales, de cei care lucreaz n domeniul seleciei de personal).

D) Construirea testelor pe baza analizei factorialeAnaliza factorial este o procedur matematic care permite determinarea (reinerea) itemilor (numrului minim de itemi) care descriu sau explic un anumit factor (factor unic), astfel rezultnd o scal sau un test omogen. Se asigur, astfel, construirea de scale (teste) omogene. Elementul (instrumentul) statistic de baz pentru studiile factoriale l constituie coeficientul de corelaie (r). El indic pn la ce punct doi itemi (dou teste) msoar acelai lucru. Astfel, dac se administreaz un set de itemi la un anumit numr de persoane i dac se calculeaz coeficienii de corelaie pentru fiecare pereche posibil de itemi (teste), se poate examina matricea corelaiilor care rezult pentru a descoperi gruprile formate din itemi ntre care exist o strns corelaie. ntr-un test unifactorial, vor fi reinui itemii ntre care exist corelaii semnificative (puternice). ntr-un test multifactorial, vor fi determinate gruprile de itemi constituite din itemi strns corelai ntre ei i slab corelai cu ceilalti. Se identific astfel grupuri de itemi (factori) relativ independente ntre ele, dar n interiorul crora itemii coreleaz foarte strns ntre ei.

Avantajele analizei factoriale in de faptul c:

1) nu exist nici un risc de a avea un test bifactorial (cnd vrem s construim un test care s se adreseze unui singur factor), analiza factorial dezvluind structura itemilor;

2) nu mai este necesar s existe eantioane distincte de brbai i femei; este suficient s clasificm distinct (0 / 1) sexele i vom putea identifica itemii sensibili la sex (acetia vor produce un factor distinct n care variabila sex nu va fi cea mai evident).

Dezavantajele analizei factoriale in de faptul c:

1) aceasta presupune utilizarea iniial a unui numr mare de itemi care s msoare un ansamblu variat de factori i cel puin de dou ori mai muli subieci dect itemi;

2) o problem care ine mai mult de interpretare dect de statistic este cea a factorilor (itemilor) tautologici (P. Kline, 1993) - itemi care nu sunt altceva dect parafrazri ale altora (deci, se suprapun n mare msur). Analiza factoriala va produce un factor specific saturat artificial care s-ar putea reduce doar la 2-3 itemi (prin eliminarea parafrazelor). Supraestimarea numrului de itemi (factori) semnificativi duce la ,,pulverizarea itemilor (factorilor) reali. Analiza factorial trebuie utilizat doar de specialiti. O soluie pentru combaterea acestui neajuns const n combinarea metodelor bazate pe analiza de itemi i analiza factorial. Construirea testului prin metoda analizei de itemi i factorizarea versiunii finale pentru a verifica daca testul este cu adevarat unifactorial reprezint o soluie. De exemplu, dac nu exist dect civa itemi care nu coreleaz cu ceilali (adic au o saturaie cu mai muli factori i nu doar una semnificativ cu un anume factor), atunci acetia pot fi eliminai.

EMBED PBrush

EMBED PBrush

EMBED PBrush

itemi polihotomici sunt foarte frecvent ntlnii n chestionarele de interese, n care intensitatea rspunsului dat de un subiect este mai fin difereniat, n majoritatea cazurilor nedepind ns valoarea 7; n astfel de cazuri, cu ct scorul obinut la item este mai mare cu att putem considera c un anumit interes este mai intens sau mai bine conturat la subiect

141

_1141804693.unknown

_1141804661.unknown