2014 04 c Prelucrare Statistica

METODE DE CHIMIE ANALITICA APLICATE IN CERCETAREA CRIMINALISTICA

Conf. Dr. Cecilia ARSENE Notiţe curs 04 Conf. Dr. Romeo Iulian OLARIU 1

C4. 4 Rolul prelucrării statistice şi a asigurării calităţii în analiza urmelor/microurmelor din laboratorul de criminalistică

4.1 Modalităţi de prezentare a măsurătorilor şi de transformare a variabilelor ............................. 2 4.1.1 Parametri de nivel şi mărimi pentru valorile medii............................................................ 2

4.1.1.1 Media ........................................................................................................................ 2 4.1.1.2 Mediana .................................................................................................................... 3

4.2 Gradul de distribuţie (parametri de dispersie) ......................................................................... 4 4.2.1 Varianţa şi deviaţia standard............................................................................................ 4 4.2.2 Coeficientul de variaţie..................................................................................................... 5

4.3 Coeficientul lui Student în calculul statistic ............................................................................. 5 4.4 Prezentarea rezultatului final al unei analize şi estimarea intervalelor de încredere .............. 6

4.4.1 Exprimarea rezultatului final al unei analize..................................................................... 6 4.4.2 Intervalele de încredere, toleranţă, predicţie.................................................................... 6

4.5 Compararea seturilor de date prin teste statistice. Teste de semnificativitate şi apreciere a exactităţii metodelor de analiză..................................................................................................... 8

4.5.1 Realizarea testelor de semnificativitate............................................................................ 8 4.5.2 Aprecierea exactităţii metodelor de analiză prin testul t ................................................. 10 4.5.3 Compararea valorilor σ2 şi s2 (testul F) .......................................................................... 11 4.5.4 Compararea mediilor a două seturi de probe................................................................. 12



4 Rolul prelucrării statistice şi a asigurării calităţii în analiza urmelor/microurmelor din laboratorul de criminalistică Parametrii statistici pot fi folosiţi în interpretarea rezultatelor obţinute în urma unor analize (de

exemplu se folosesc la estimarea performanţelor unei metode, aprecierea gradului de

reprezentativitate a unei valori numerice, sau la compararea caracteristicilor unor probe care

provin din locaţii diferite). Mărimea parametrilor statistici depinde în general de tipul de informaţii

valabile. Metodele statistice se aplică de obicei la interpretarea şi concluzionarea rezultatelor

obţinute în urma unui studiu care generează baze mari de date. Pentru o probă de un anumit tip,

deosebit de importante sunt mărimile caracteristice locaţiei (parametri de nivel) şi distribuţia

parametrilor de interes (parametri de dispersie sau de distribuţie). Cele mai importante mărimi care

caracterizează locaţia includ media şi mediana. Gradul de distribuţie este reflectat prin varianţă

sau deviaţia standard.

Pentru seturi numerice cu până la 20 valori pentru desemnarea parametrilor statistici se

folosesc notaţiile în caractere romane în timp ce în cazul populaţiilor cu mai mult de 20 valori

numerice, parametrii statistici caracteristici se redau prin simboluri (exemplu pentru medie, x şi µ).

În alte cuvinte putem spune că x şi s2 sunt estimări aproximative ale mediei unei populaţii de valori

numerice, µ, şi a varianţei acesteia, σ2.

4.1 Modalităţi de prezentare a măsurătorilor şi de transformare a variabilelor 4.1.1 Parametri de nivel şi mărimi pentru valorile medii

Valorile medii pot fi prezentate prin medie, moda, mediană, deja anterior prezentate, dar şi prin

medie geometrică definită ca fiind rădăcină de ordinul n din produsul valorilor individuale ale unei

populaţii de subiecţi numerici:

n n21 ....xxx ××

Media geometrică este folosită pentru calcularea mediilor secvenţelor la care subiecţii intervin cu

un raport constant. De menţionat faptul că la transformarea logaritmică a unei variabile, media

aritmetică estimată pentru datele transformate devine echivalentă cu media geometrică a valorilor

netransformate. Cei mai importanţi parametri de nivel includ media şi mediana.

4.1.1.1 Media Media este mărimea care se referă de obicei la media aritmetică a valorilor aceluiaşi parametru

dintr-un set de date. Pentru studii de monitorizare a calităţii mediului înconjurător media reprezintă

estimatorul tendinţei centrale a unui şir de valori numerice (se estimează prin intermediul unei

simple medii aritmetice care satisface cel mai bine condiţiile pe care trebuie să le îndeplinească un

asemenea parametru). Media este o valoare teoretică care poate substitui cel mai probabil orice



valoare din şir. Pentru un parametru caracterizat de n determinări notate cu x1, x2, ....., xn, media

care reflectă statistic acest parametru, notată de obicei cu x , se calculează cu relaţia

( ) ∑=++++==

n

1iin321 x

n1x....xxx

n1x

Pentru cazul în care pentru aceeaşi matrice există două sau mai multe probe de mărimi

diferite, n1 şi n2, caracterizate de mediile, 1x şi 2x , atunci media globală se calculează în baza

raportului dintre totalul pentru cele două probe şi numărul total de valori (n=n1+n2). Media globală

se poate calcula cu relaţia

( )n

xnxn 2211 +

Media anterior prezentată adeseori este cunoscută şi sub numele de media masică a două

probe cu ponderi masice proporţionale mărimii probelor. Media este un parametru de localizare a

repartiţiei sau de nivel al valorilor pentru că indică implicit ordinul de mărime al valorilor variabilei.

Media nu este un parametru statistic robust deoarece îşi pierde stabilitatea în prezenţa unor valori

extreme (mari sau mici), cu alte cuvinte media este un parametru puternic afectat de valori foarte

mari sau foarte mici din şirul de valori numerice.

4.1.1.2 Mediana Mediana (M) se referă la valoarea localizată în centrul unui şir de valori atunci când aceste valori

sunt aşezate în ordine crescătoare. Este o mărime robustă care poate servi în procesul de

verificare al mediei calculate.

Mediana este de fapt valoarea care împarte şirul crescător al valorilor unei serii în 2 părţi egale.

De exemplu, pentru o serie de măsurători care conţine un număr par de valori, mediana va fi dată

de media celor două valori din centrul şirului. În alte cuvinte dacă şirul de valori al unei probe are

un număr par de valori, 2n, mediana este media aritmetică a valorilor de rang n şi n+1 iar dacă

şirul are număr impar de valori distincte, 2n+1, mediana este valoarea de rang n+1. De obicei,

pentru serii mari de valori, din valorile numerice ale şirului 50% sunt mai mici şi 50% sunt mai mari,

în valoare, decât mediana. Pentru unele situaţii există posibilitatea ca numărul valorilor mai mari

sau mai mici decât mediana să fie mai mic decat 50% datorită faptului că în seria de date pot

exista valori egale chiar cu mediana.

Pentru un set mare de valori, mediana este mult mai reprezentativă decât media. Valoarea

medianei este mai puţin sensibilă în raport cu valorile extreme din seria de valori numerice (valori

foarte mari sau foarte mici în raport cu cele predominante) şi nu ţine seama de toţi termenii

repartiţiei. Adăugarea unei valori extrem de mari în seria de observaţii va schimba doar rangul

intervalului mediu, pe când media aritmetică va înregistra o schimbare majoră. Media şi mediana

vor furniza estimări similare a tendinţei centrale când toate datele din şirul de valori numerice au

acelaşi ordin de mărime.



4.2 Gradul de distribuţie (parametri de dispersie) Dispersia reprezintă parametrul care vizează estimarea variabilităţii rezultatelor obţinute în urma

unor măsurători multiple pe un sistem individual. Deşi dispersia se defineşte relativ la o măsură

specifică a tendinţei centrale, mărimea acesteia este independentă de valoarea centrală. Dintre

parametrii de dispersie cei care operează cu pătratul valorilor numerice (varianţa, deviaţia

standard) sunt de o importanţă deosebită.

4.2.1 Varianţa şi deviaţia standard Varianţa şi deviaţia standard reprezintă o măsură a gradului de distribuţie a valorilor dintr-o serie

de observaţii în raport cu media valorilor acelei serii. Varianţa este definită ca şi deviaţia pătratică

medie faţă de media seriei de valori iar deviaţia standard este rădăcina pătrată a varianţei. Deviaţia

pătratică medie reprezintă raportul dintre suma pătratelor deviaţiilor faţă de valoarea medie şi

numărul probelor (n). În practică se foloseşte varianţa care se calculează ca raportul dintre suma

pătratelor deviaţiilor faţă de valoarea medie şi (n-1) unde (n-1) poartă numele de numărul gradelor

de libertate. Se foloseşte (n-1) şi nu n deoarece deviaţia pătratică medie a probei tinde să

subestimeze varianţa setului de valori.

Cunoaşterea numărului gradelor de libertate pentru probe şi populaţii permite estimarea unui

component în situaţia în care acesta este necunoscut. În general, dacă proba conţine n

componente, valoarea componentului de ordinul n poate fi dedusă din componentele n-1 rămase şi

din media componentelor probelor. De exemplu, dacă avem o probă cu 5 componente din care se

dau doar componentele 1, 2, 3 şi 4 şi media probei care este 3, cel de-al cincilea component al

probei se poate determina conform

( ) ( ) 5432153xxxxnx 4321 =−−−−×=−−−−×

Varianţa poate fi estimată prin parametrul s2, care în cazul unei serii de observaţii cu un set de

valori n, notate cu x1, x2, x3, ...., xn, se determină în baza relaţiei:

( ) ( )∑ −−

==

n

1i

2i

2 xx1n

1s

Printr-o extragere de radical se obţine un nou parametru al dispersiei denumit deviaţie

standard care se notează cu s. Deviaţia standard are ca estimator valoarea

2ss = .

După obţinerea deviaţiei standard se poate calcula şi o deviaţie standard a mediei unui set de

valori, notată cu Xs , care de fapt este o măsură a dispersiei în populaţia de medii ce ar apare prin

extrageri repetate de n indivizi din populaţie.

Estimarea deviaţiei (erorii) standard a mediei se va face în baza relaţiei

nssX = .

Deviaţia standard a mediei este un parametru statistic foarte important care este folosit pentru

estimarea intervalului de încredere a valorii medii a unui set numeric incluzând n valori.



4.2.2 Coeficientul de variaţie Pentru măsurători care nu pot lua valori negative, coeficientul de variaţie (CV, coefficient of

variation) este dat de raportul dintre deviaţia standard şi medie (mărime adimensională care dă

informaţii asupra dispersiei în raport cu media). Coeficientul de variaţie este dat de relaţia:

xs

Deviaţia standard relativă se exprimă procentual (RSD %, relative standard deviation) şi se

obţine în baza relaţiei:

100xsRSD% ×=

4.3 Coeficientul lui Student în calculul statistic Aprecierea mediei globale a unei serii cu număr redus de determinări (până în 20) se realizează

printr-un proces de selecţie redusă folosind testul t al lui Student care are la bază compararea

mediei unei serii de valori cu distribuţie normală a valorilor. Distribuţia mărimii este dată de

coeficientul t cunoscut şi sub numele de coeficient Student:

xs

xxt

−=

Distribuţia variabilei t funcţie de frecvenţa de apariţie a sa are loc după funcţia lui Student care

are forma:

21N 2

N Nt1Bf(t)

+−

⎟⎟⎠

⎞⎜⎜⎝

⎛+=

în care BN este o constantă iar N = n-1 este numărul gradelor de libertate. De obicei valoarea lui t

depinde de numărul gradelor de libertate şi de probabilitatea aleasă. Probabilitatea P este raportul

dintre numărul de cazuri favorabile şi numărul total de cazuri posibile şi se poate exprima

procentual. Frecvent întâlnite sunt probabilităţile de 95,4 şi 99,7%. În Tabelul 4.1 sunt date valori

teoretice (t) ale coeficientului Student pentru mai multe grade de libertate.

Tabelul 4.1: Valori ale coeficientului Student pentru câteva grade de libertate şi nivele de confidenţialitate de 95,4 şi, respectiv, de 99,7%.

t 95,4% 99,7% t 95,4% 99,7% 1 12,71 63,66 18 2,10 2,88 2 4,30 9,92 20 2,09 2,85 3 3,18 5,84 25 2,06 2,79 4 2,78 4,60 30 2,04 2,75 5 2,57 4,03 35 2,03 2,72 6 2,45 3,71 40 2,02 2,70 7 2,37 3,50 50 2,01 2,68 8 2,31 3,36 100 1,98 2,62 9 2,26 3,25 200 1,97 2,60 10 2,23 3,17 300 1,96 2,59 12 2,18 3,06 ∞ 1,96 2,57 15 2,13 2,95



Se observă că pentru un număr de măsurători mai mare ca 20 valorile lui t sunt aproximativ

aceleaşi ca şi pentru un număr infinit de măsurători iar graficul curbei de distribuţie a variabilei t

(Student) are de asemeni alura curbei Gauss.

Pentru un număr redus de determinări (selecţie redusă) valoarea intervalului de o parte şi alta

a mediei de selecţie x în care se va găsi o determinare oarecare xi este de ts.

x - ts < x < x + ts.

4.4 Prezentarea rezultatului final al unei analize şi estimarea intervalelor de încredere 4.4.1 Exprimarea rezultatului final al unei analize Rezultatul unei analize reprezintă de fapt valoarea cea mai apropiată de valoarea adevărată. În

practica analitică pentru un număr redus de determinări (n < 20), pentru exprimarea rezultatului

final al unei analize se utilizează relaţia:

XstxV ⋅±=

4.4.2 Intervalele de încredere, toleranţă, predicţie Aceste intervale sunt folosite în mod uzual pentru a investiga dacă seturile de date sunt în

concordanţă cu seturi de date anterior obţinute sau pentru a prezenta un rezultat final al unei

analize. De exemplu, la compararea datelor obţinute pentru un compus specific cu valorile

concentraţiilor din background se poate pune întrebarea dacă site-ul este încă necontaminat.

Intervalele de încredere pot fi pentru populaţii şi pentru probe. Ele sunt modalităţi de raportare

a celor mai probabile valori ale mediilor unor populaţii de măsurători. Redau de fapt domeniul

rezultatelor din jurul valorii medii care pot fi explicate prin erorile întâmplătoare.

La calcularea intervalelor de încredere pentru populaţii se poate folosi relaţia

zσµxi ±=

unde z este factorul reprezentativ pentru intervalul de încredere solicitat şi σ este deviaţia

standard.

Intervalul de încredere poate fi exprimat şi în termeni de deviaţie standard a populaţiei şi

valoarea unui singur termen din şirul de observaţii.

zσxµ i ±=

Intervalele de încredere mai pot fi raportate folosind şi media unui set de n măsurători dintr-o

populaţie cu σ cunoscut.

nσσ x =

În aceste condiţii intervalul de încredere pentru media unei populaţii este

nzσxµ ±=

Pentru probe, intervalul



nzσxzσxµ ±=±=

devine de forma

ntsxµ ±=

unde t este definit în aşa fel încât t ≥ z la toate nivelele de încredere.

În Tabelul 4.2 sunt redate valorile intervalelor de încredere pentru curbe de distribuţie normale

cu limite cuprinse între zσµ ± .

Tabelul 4.2: Intervale de încredere.

z Intervale de încredere (%) 0,50 38,30 1,00 68,26 1,50 86,64 1,96 95,00 2,00 95,44 2,50 98,76 3,00 99,73 3,50 99,95

Mărimea intervalelor de încredere asociate cu orice estimări statistice va depinde de:

- mărimea probei: probelor mari le vor fi asociate valori de eroare mai mici;

- variabilitatea datelor: deviaţie standard mare înseamnă precizie scăzută a estimărilor;

- intervalul de încredere care urmează a fi estimate ar trebui să se afle în limitele celui calculat.

Intervalul de încredere II (de siguranţă sau certitudine) poate fi raportat folosind media pentru o

probă de mărime n, extrasă dintr-o populaţie cu deviaţie standard cunoscută. Acest interval

cuprinde domeniul valorilor între limita de încredere inferioară şi cea superioară. Media unei serii

de valori ar trebui să se găsească cu un anumit grad de siguranţă în acest interval.

Probabilitatea (nivelul de confidenţialitate) se redă procentual (95,4%) în timp ce nivelul de

încredere se redă sub forma

0,05100

alitateconfidenti de nivel1α =−=

Nivelul de încredere reprezintă şi riscul acceptabil de apariţie a unei erori. II este intervalul de o

parte şi de alta a mediei aritmetice de selecţie x în care se găseşte valoarea adevărată V şi este

dat de relaţia:

XtsII =

Se poate scrie:

xtsx − < V < xtsx +

sau

nstx − < V <

nstx + respectiv:

IIx − < V < IIx +



Diferenţa x – V este o măsură a exactităţii efectuate. Pentru creşterea exactităţii unui rezultat final

de obicei se creşte numărul determinărilor. Această creşterea este proporţională cu n şi de la un

anumit număr de determinări creşterea este nesemnificativă.

4.5 Compararea seturilor de date prin teste statistice. Teste de semnificativitate şi apreciere a exactităţii metodelor de analiză Procesul prin care se determină probabilitatea existenţei unei diferenţe semnificative dintre două

probe poartă numele de test de semnificativitate sau testarea ipotezelor. Aceste teste se referă la

metode statistice de determinare a faptului dacă datele sunt exacte şi precise sau dacă între serii

de măsurători populate de valori obţinute pe aceeaşi probă sau pe probe diferite există diferenţe

semnificative.

4.5.1 Realizarea testelor de semnificativitate Un test de semnificativitate este conceput în aşa fel încât să permită să se evidenţieze dacă

diferenţa dintre două sau mai multe valori este prea mare pentru a fi explicată prin erorile

nedeterminate.

Primul pas în realizarea unui test de semnificativitate constă în prezentarea problemei

experimentale ca o întrebare cu răspuns de tip da sau nu. De fapt, aşa numitele ipoteza zero şi

ipoteza alternativă furnizează un răspuns la întrebare. Ipoteza zero H0, face presupunerea că

eroarea nedeterminată este suficientă pentru a explica orice diferenţă dintre valorile comparate.

Ipoteza alternativă, HA, face presupunerea că diferenţa dintre două valori nu poate fi explicată prin

intermediul erorilor întâmplătoare. Un test de semnificativitate începe de la ipoteza zero care poate

fi adevărată sau falsă (caz în care este eliminată şi se menţine ipoteza alternativă). Înainte de a

face aprecierea validităţii ipotezei zero sau alternative se alege pentru analiză un nivel de

semnificativitate care reprezintă nivelul de încredere pentru reţinerea ipotezei nule sau în alte

cuvinte, probabilitatea ca ipoteza nulă să fie incorect eliminată. În primul caz nivelul de

semnificativitate este dat sub formă procentuală, în timp ce în al doilea caz este dat ca α unde α

este definit prin

100incredere de interval1α −=

Pentru un interval de încredere de 95,4%, α este 0,05.

Teste de semnificativitate uni- sau bi-direcţionale Se poate considera situaţia în care acurateţea unei metode noi de analiză este evaluată prin

analiza unui material de referinţă standard cu un µ cunoscut. Practic se determină media probei în

urma analizei experimentale. Ipoteza zero este că media probei experimentale este egală cu µ.

µx:H0 =



Dacă se conduce un test de semnificativitate la un interval de încredere de 95,4% (α = 0,05)

atunci ipoteza zero va fi reţinută doar dacă 95,4% din intervalul de încredere din jurul lui x conţine

µ.

Dacă ipoteza alternativă este

µx:HA ≠

atunci ipoteza zero va fi eliminată, şi ipoteza alternativă acceptată dacă µ se află în aria haşurată,

la sfârşitul distribuţiei de probabilitate a probelor conform Figurii 4.3a. Fiecare din ariile haşurate

contribuie cu 2,5% pentru aria de sub curba de distribuţie a probabilităţii. Acest caz este numit test

de semnificativitate bi-direcţional deoarece ipoteza zero este eliminată pentru valori ale lui µ la

oricare din extremităţile curbei de distribuţie a probabilităţilor.

Ipoteza alternativă poate porni şi de la una din situaţiile

µx:HA >

sau

µx:HA <

pentru care ipoteza zero este eliminată dacă µ se află în ariile haşurate din Figurile 4.3b şi 4.3c.

Valori

Valori

Valori

a b c Figura 4.3: Interpretarea grafică pentru ipoteza zero şi alternativă.

În fiecare din cazurile b şi c, aria haşurată reprezintă 5% din curba de distribuţie a

probabilităţilor. Exemplele anterior prezentate se înscriu în cazul testelor de semnificativitate uni-

direcţionale.

Pentru un nivel de încredere fix, testele bi-direcţionale sunt întotdeauna cele mai conservative

teste deoarece necesită diferenţe mai mari între x şi µ pentru a elimina ipoteza zero. Testul de

semnificativitate bi-direcţional reprezintă alegerea potrivită mai ales în situaţia în care nu există

indicii asupra mărimii parametrilor comparaţi. Testul uni-direcţional se foloseşte mai ales când se

aşteaptă ca un parametru să fie mai mare sau mai mic decât altul.

La efectuarea testelor de semnificativitate este posibil să apară erori de ordinul I şi erori de

ordinul II. Testele de semnificativitate se realizează la un nivel de încredere α, care defineşte

probabilitatea de eliminare a ipotezei zero care este adevărată. De exemplu, când un test de

semnificativitate este condus la α = 0,05, există o probabilitate de 95,4% ca ipoteza nulă să fie



incorect eliminată. Această situaţie este cunoscută ca eroare de tipul I şi riscul său este

întotdeauna α. Erorile de tipul II apar atunci când ipoteza nulă este reţinută chiar dacă este falsă.

4.5.2 Aprecierea exactităţii metodelor de analiză prin testul t În procesul de validare al unei metode, cea mai bună aproximare constă în analiza unei probe

standard de cantitate cunoscută în analit, µ. Acurateţea metodei presupune să se efectueze

determinări pentru cantitatea de analit din câteva probe după care să se determine media

acestora, x . Testele de semnificativitate sunt pentru a compara µ şi x . Ipoteza zero constă în

faptul că µ şi x sunt egale şi că orice diferenţă dintre cele două valori poate fi explicată prin

intermediul erorilor nedeterminate, erori care afectează determinarea lui x . Ipoteza alternativă

constă în presupunerea că diferenţa dintre µ şi x este mult prea mare pentru a putea fi explicată

de erorile nedeterminate.

Ecuaţia pentru testul statistic este derivată din intervalul de încredere pentru µ

n

stxµ exp ×

±=

Rearanjarea ecuaţiei anterioare conduce la

s

nxµtexp

×−=

care dă valoarea lui texp atunci când µ este fie la dreapta fie la stânga intervalului de încredere

aparent (Figura 4.4a). Valoarea lui texp este comparată cu o valoare critică t(α,ν), care este

determinată prin selectarea unui nivel de încredere α, a numărului adecvat al gradelor de libertate

ν şi al unui test de semnificativitate care poate fi uni- sau bi-direcţional. Valori pentru t(α,ν) pot fi

extrase din tabele.

Valorile critice t(α,ν) definesc intervalul de încredere care poate fi explicat prin erori

nedeterminate. Dacă texp > t(α,ν) atunci intervalul de încredere pentru date este mai larg decât cel

aşteptat din erorile nedeterminate (b). În acest caz ipoteza zero este eliminată şi se acceptă

ipoteza alternativă. Dacă texp < t(α,ν) atunci intervalul de încredere pentru date ar putea fi atribuit

erorilor nedeterminate şi ipoteza zero reţinută pentru nivelul de încredere considerat.

În cazul în care se găsesc evidenţe pentru erori determinate, sursele acestora se identifică şi

se corectează înainte de analiza altor probe. Neeliminarea ipotezei zero nu înseamnă neapărat că

metoda este acurată, ci poate indica faptul că nu există dovezi suficiente pentru a demonstra

neacurateţea metodei la intervalul de încredere considerat.

Utilitatea testului t pentru µ şi x poate fi îmbunătăţită prin optimizarea condiţiilor folosite în

determinarea lui x .

Testul de semnificativitate t poate fi îmbunătăţit prin creşterea numărului de determinări sau

prin creşterea preciziei analizei. Testul t poate da rezultate utile doar dacă deviaţia standard a



analizei este rezonabilă. Dacă deviaţia standard este cu mult mai mare decât cea aşteptată, σ,

intervalul de încredere în jurul lui x va fi atât de mare încât o diferenţă semnificativă între µ şi x va

putea fi cu greu demonstrată (se poate întâmpla şi reversul, caz în care s-ar identifica o diferenţă

între µ şi x chiar şi atunci când aceasta nu ar exista).

n

stx exp ×

+n

stx exp ×

−

Valori

n

stx exp ×

+n

stx exp ×

−

( )n

stx να, ×

+( )

nsνα,tx ×

−

n

stx exp ×

+n

stx exp ×

−

( )n

stx να, ×

+( )n

sνα,tx ×−

a b c Figura 4.4: Transpunerea grafică pentru aprecierea exactităţii metodelor de analiză.

Notă: Această apreciere permite stabilirea gradului de exactitate, respectiv, eventuala eroare

sistematică, a unei metode de analiză. Se fac determinări pe probe cu un conţinut cunoscut al

analitului. Se calculează t conform formulei.

Xs

Vxt

−=

Funcţie de nivelul de confidenţialitate şi numărul gradelor de libertate media aritmetică de

selecţie este afectată de o eroare sistematică.

Pentru o probabilitate aleasă, Vx − poate fi egală cel mult cu xst ⋅ încât, dacă

Vx − > xst ⋅

rezultatul x este afectat de o eroare sistematică iar metoda nu este suficient de exactă.

4.5.3 Compararea valorilor σ2 şi s2 (testul F)

La analiza de rutină a unei probe este posibil să se determine valoarea aşteptată, sau reală a

varianţei, σ2. Analiza unui număr finit de replicate furnizează ceea ce este cunoscut sub numele de

varianţă simplă, s2. Compararea lui σ2 cu s2 reprezintă un instrument puternic de determinare a

gradului de control statistic al metodei aplicate. Ipoteza zero presupune că σ2 şi s2 sunt identice în

timp ce ipoteza alternativă presupune că acestea nu sunt identice. Testul statistic de evaluare a

ipotezei zero în acest caz poartă numele de testul F şi este dat de



2

2

expσsF = dacă s2 > σ2

şi

2

2

expsσF = dacă s2 < σ2

De menţionat faptul că Fexp este definit în aşa fel încât valoarea sa să fie întotdeauna mai

mare sau egală cu 1. Dacă ipoteza zero este adevărată atunci se aşteaptă ca Fexp să fie egal cu 1

(erorile nedeterminate au drept rezultat valori pentru Fexp > 1). O valoare critică F(α,νnum,νden) dă

cea mai mare valoare a lui F care poate fi explicată de erorile nedeterminate. Se alege pentru un

nivel de încredere dat şi numărul gradelor de libertate pentru numitor şi numărător. Numărul

gradelor de libertate pentru s2 este n-1 unde n reprezintă numărul de replicate folosit la

determinarea varianţei probei.

Compararea varianţelor a două probe Testul F poate fi aplicat şi la determinarea varianţelor a două seturi de probe A şi B

2B

2A

exps

sF =

Unde A şi B sunt definite astfel ca 2B

2A ss ≥ .

4.5.4 Compararea mediilor a două seturi de probe În general, rezultatul unei analize este influenţat de 3 factori: metoda, proba şi analistul care

efectuează determinarea. Influenţa acestor factori poate fi studiată prin realizarea unor

experimente în care se modifică un singur factor. De exemplu, două metode pot fi comparate dacă

analistul este acelaşi şi probele supuse analizei sunt aceleaşi. În aceeaşi măsură se pot compara

rezultatele de la doi analişti sau de la două probe.

Testele de semnificativitate pentru compararea a două valori medii se împart în două categorii

funcţie de natura datelor. Datele sunt numite nepereche atunci când fiecare medie este obţinută

din analiza câtorva probe extrase de la aceeaşi sursă. Datele pereche sunt obţinute atunci când se

analizează o serie de probe extrase de la surse diferite.

Testul t (Student) permite compararea mediilor a două serii de date obţinute prin aceeaşi

metodă, pe acelaşi material, de doi chimişti din acelaşi laborator sau din laboratoare diferite, ori de

acelaşi chimist dar în laboratoare diferite. Prin acest test se pot obţine informaţii dacă rezultatele

medii se deosebesc sau nu esenţial (datorită unei erori sistematice sau întâmplătoare). Se pot

considera două probe, pentru care valorile medii sunt 1x şi 2x cu deviaţiile standard s1 şi s2.

Intervalele de încredere pentru µ1 şi µ2 pot fi scrise ca fiind:

1

111

nts

xµ ±= şi 2

222

nts

xµ ±=



unde n1 şi n2 reprezintă numărul de încercări conduse pentru probele luate în discuţie.

Se poate face presupunerea că µ1 şi µ2 sunt egale

2

22

1

21

21

2

22

1

21

212

22

1

11

ns

ns

xxt

ns

ns

txxn

tsx

nts

x

+

−=⇒+×=−⇒±=±

Deoarece varianţa nu se cunoaşte aceasta se determină în baza relaţiei dictate de ponderea

masică

( ) ( )[ ]( )2nn

s1ns1ns

21

222

2112

p −+

−+−=

Coeficientul t se va estima în baza relaţiei:

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−=

21

2p

21

n1

n1s

xxt

şi se va calcula cu formula:

21

21

p

21nn

nns

xxt

+−

=

în care sp poate fi exprimat şi sub forma:

2nn

)x(x)x(xs

21

2n

1j

22j

1n

1i

21i

p −+

∑ −+∑ −

= ==

Valoarea lui s este o deviaţie standard cumulată care utilizează ambele seturi de date. După ce

se calculează t se compară cu t din tabele pentru n1 + n2 – 2 grade de libertate şi probabilitatea

aleasă. Dacă t calculat este mai mare decât t din tabele, cele două rezultate sunt semnificativ

diferite pentru probabilitatea aleasă.

Dacă s1 şi s2 sunt semnificativ diferite t se estimează cu altă relaţia şi numărul gradelor de

libertate se derivă din expresia

( ) ( )

2

1n

ns

1n

ns

ns

ns

n

2

2

2

22

1

2

1

21

2

2

22

1

21

−

+

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛

++

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛+⎟

⎟

⎠

⎞

⎜⎜

⎝

⎛

=

Înainte de compararea mediilor se verifică dacă varianţele celor două analize sunt sau nu

diferite semnificativ (folosind testul F). sp poate fi calculat doar dacă ipoteza zero este adevărată.

Date pereche: în unele situaţii variaţiile dintre seturile de date care se compară sunt mult mai

semnificative decât diferenţa dintre mediile celor două seturi de date. Această problemă intervine

mai ales în studiile clinice şi de mediu, în care datele care se compară constau de obicei din seturi

de probe extrase de la pacienţi diferiţi sau din medii diferite. De exemplu, un studiu dezvoltat



pentru a investiga două proceduri diferite pentru monitorizarea concentraţiei de glucoză din sânge

implică probe de sânge extrase de la pacienţi diferiţi. În cazul în care variaţia nivelelor de glucoză

din sângele pacienţilor investigaţi este mai mare decât variaţia anticipată dintre metode, atunci o

analiză în care datele sunt tratate ca fiind nepereche nu va conduce la aflarea unei diferenţe

semnificative dintre metode. Datele pereche sunt folosite mai ales atunci când variaţiile investigate

sunt mai mici decât alte surse potenţiale de variaţie.

Într-un studiu care implică date pereche se calculează diferenţa dintre valorile pereche, di.

Diferenţa medie, d , şi deviaţia standard a diferenţei, sd se calculează de asemeni. Ipoteza zero

constă în faptul că d =0 şi că nu există o diferenţă semnificativă între rezultatele celor două seturi

de valori. Ipoteza alternativă presupune existenţa unei diferenţe semnificative şi a faptului că 0d ≠ .

Testul statistic texp este dedus dintr-un interval de încredre în jurul lui d

n

tsd0 d±=

unde n este nuărul datelor paired. Înlocuirea lui t cu texp şi rearanjarea ecuaţiei conduce la

dexp s

ndt =

Valoarea lui texp se compară cu valoarea critică tα,ν care este determinată prin alegerea unui nivel

de încredere α, a numărului gradelor de libertate, ν, şi a testului de semnificativitate uni- sau bi-

direcţional. Dacă texp > tα,ν atunci ipoteza zero se elimină şi se păstrează ipoteza alternativă. Dacă

texp < tα,ν atunci ipoteza zero se păstrează şi ipoteza alternativă se elimină.

Un test t poate fi folosit numai atunci când diferenţele individuale di aparţin aceleaşi populaţii.

Acest lucru va fi adevărat numai dacă erorile determinate şi nedeterminate care afectează

rezultatele sunt independente de concentraţia analitului din proba analizată. Dacă nu este aşa, o

singură probă cu o eroare mai mare ar putea conduce la o valoare a lui di care să fie substanţial

mai mare decât pentru probele rămase. Dacă această probă s-ar include în estimarea mediei lui d

şi a deviaţiei standard atunci aceşti parametri ar fi afectaţi de aşa numitul proces de biass.

2014 04 c Prelucrare Statistica

Documents

Transcript of 2014 04 c Prelucrare Statistica