1Prelucrarea Matematic-â a Datelor Experimentale

Prelucrarea matematică a datelor experimentale

I. Noţiuni teoretice

A. Indicatori de tendinţă centrală

Indicatorii de tendinţă centrală sunt valori ce localizează într-un fel oarecare

mijlocul setului de date. Dintre indicatorii de tendinţă centrală menţionăm:

Modul - valoarea care apare cel mai frecvent.

Un set de date poate fi non-modal (dacă toate valorile posibile au aceeaşi

frecvenţă), mono-modal (o singură valoare maximală), multi-modal (cu mai multe valori

ce apar cu aceeaşi frcvenţă maximală).

Mijlocul - media aritmetică a valorilor extreme ale setului de date.

Mediana - valoarea ce împarte setul de date în două grupe egal populate.

Pentru setul de date S={X1,..., Xn}, ordonat crescător, când n=2k+1 (număr impar

de date), mediana este Me=Xk+1. În cazul aceluiaşi set dar pentru n=2k (număr par de

date), mediana este:

2

XXM 1kk

e

Media - cele mai folosite sunt: media aritmetică (Xma), geometrică (XG), armonică

(XH) şi cuadratică (XQ). Se poate arăta uşor că aceste medii se află în relaţia:

QmaGH XXXX

B. Indicatori de poziţie

Indicatorii de poziţie sunt folosiţi pentru localizarea unui anumit subgrup de date

în relaţie cu restul eşantionului. Se numesc -cuantile acei indicatori ce împart

eşantionul în părţi egal populate. Cele mai utilizate sunt: cvartila (qk), decila şi

percentila (pk), valori ce împart datele în părţi conţinând o pătrime, o zecime, sau o

sutime din elemente.

Să considerăm un set de date ordonat crescător unde L este valoarea cea mai

mică din set iar H valoarea cea mai mare.

Percentila de ordinul pk este valoarea numerică pentru care k% din date sunt

mai mici decât pk iar (100-k)% sunt mai mari. Se observă că p50 = q2.

C. Indicatori de împrăştiere (dispersie)

Indicatorii de împrăştiere descriu variabilitatea datelor. Datele grupate strâns au

valori mici pentru indicatorii de dispersie, în timp ce datele împrăştiate au valori mari.

Principalii indicatori de împrăştiere sunt: domeniul, varianţa, deviaţia şi

momentele.

Domeniul – reprezintă intervalul de valori al datelor.

=[Xmin, Xmax]

Uneori se indică lărgimea domeniului (amplitudinea împrăştierii):

x= Xmax - Xmin

Toate deviaţiile medii faţă de un indicator de tendinţă centrală (media aritmetică,

geometrică, cuadratică, armonică sau modul, mediana, notate generic prin <x>) se

definesc în acelaşi fel, ca medii ale diferenţei între valoarea măsurată şi indicatorul

respectiv.

Mai general este momentul centrat de ordin q, mq(x) faţă de media x. În

continuare vom analiza semnificaţia şi utilitatea unora dintre momentele centrate:

- m1(x)=0, momentul centrat de ordinul 1, nu aduce nici o informaţie, întrucât ia

valoarea zero oricare ar fi distribuţia datelor; din această cauză nu este folosit.

- m2(x) se numeşte varianţă (V); rădăcina pătrată a varianţei se numeşte

deviaţie pătratică, notată cu . Ambele mărimi arată împrăştierea datelor.

Orice rezultat experimental trebuie prezentat prin media aritmetică deviaţia.

Intervalul (<x>- , <x>+ ) se numeşte interval de încredere sau confidenţă.

Întrucât în biologie şi medicină sunt în general puţine date de procesat, trebuie

să se înlocuiască varianţa V cu varianţa standard SV şi deviaţia n cu deviaţie

standard n-1 sau SD (se utilizează indicatorii standard n-1 şi SV când n<30, adică

setul are mai puţin de 30 de valori).

- m3(x) este numit înclinare sau oblicitate şi se utilizează la definirea

coeficientului de asimetrie, ac (numit în engleză skewness şi notat SKEW)

)x(SKEWm

ac33

Funcţie de valorile acestui coeficient există trei tipuri de distribuţii: cu înclinare

pozitivă, nulă şi negativă, aşa cum reiese din cazurile prezentate mai jos, unde

Mo=modul, Me=mediana, <x>=media.

- m4(x) se numeşte exces şi arată cât de aplatizată este distribuţia. Se foloseşte

la definirea coeficientului de aplatizare sau boltire, (numit în engleză kurtosis, notat

prin KURT):

)x(KURT3m

4

4

II. Parte experimentală

A. Determinarea intervalului de confidenţă

Să presupunem că în urma unui experiment se obţin „n” date experimentale: x1,

x2, ...., xn. Pentru acest set de date putem defini următoarele valori:

- media aritmetică: n

x...xX n1

med

- eroarea absolută: medii Xx

- deviaţia standard: 2

n

2

11n ...1n

1

Rezultatul determinărilor (R) în urma prelucrărilor statistice a datelor, se prezintă

sub forma:

1nmedXR

După efectuarea acestor calcule, putem trage concluzia că valoarea reală X a

mărimii cătuate se află în intervalul:

)X,X(I 1nmed1nmed

Acest interval se numeşte interval de confidenţă sau interval de încredere.

Problemă: Pentru etalonarea unui colorimetru s-au realizat un număr de n = 5

determinări, iar valorile transmisiei au fost următoarele: 50.2, 49.1, 49.6, 50.3, 48.9. Să

se calculeze rezultatul determinărilor (R) şi intervalul de confidenţă (I).

B. Reprezentarea grafică a datelor

Procesele fizice, chimice, biologice, etc., procese ce depind de mai mulţi

parametrii, pot fi reprezentate folosind un sistem de referinţă format din două drepte

concurente în plan, sau trei drepte concurente în spaţiu, numite axe. Dacă axele sunt

perpendiculare câte două, atunci sistemul se numeşte rectangular.

Coordonatele (xa, ya) ale unui punct A într-un sitem rectangular având originea O

măsoară proiecţiile segmentului OA pe axă.

Figura 1.1. Legătura dintre sistemul de referinţă rectangular şi cel polar.

În practică se mai utilizează şi sistemul de coordonate polare. În acest caz

coordonatele punctului A se definesc prin mărimile: r = OA (rază polară) şi unghiul φ

dintre OA şi axa OX. Această reprezentare se utilizează în momentul când funcţia

reprezentată depinde de unghi.

Legătura între cele două sisteme de coordonate este următoarea:

cosrx , sinry

22 yxr , y

xarctg

Pentru ca reprezentarea grafică a datelor în coordonate rectangulare să fie cât

mai clară, se recomandă să se ţină cont de următoatele indicaţii:

-asigurarea unei reprezentări grafice cât mai intuitive constă în alegerea scării

corespunzătoare atât pe scara absciselor cât şi pe scara ordonatelor (atunci când

valorile variabilelor x sau y încep de la un număr oarecare, acest număr se recomandă

să fie reprezentat cât mai aproape de originea axei respective).

-indicaţiile de pe axele x şi y trebuie să fie cât mai simple, adică cu cât mai puţine

cifre (de regulă indicaţiile de pe axe nu trebuie să conţină numere cu mai mult de două

cifre; dacă numerele sunt mai mari trebuie indicat un factor de multiplicare la sfârşitul

axei alături de unităţile de măsură).

-pe fiecare axă trebuie să se indice denumirea sau simbolul mărimii reprezentate

pe axa respectivă şi în mod obligatoriu unităţile de măsură.

Să urmărim în continuare un exemplu simplu: presupunem că la anumite

intervale de timp măsurăm temperatura unui bolnav (datele obţinute se regăsesc în

tabelul de mai jos) şi dorim să reprezentăm grafic acest proces: temperatura = f (timp).

Tabelul 1

Timp (ore)

1 2 3 4 5 6 7 8 9 10

Temp. (C0)

37,1 37,5 37,9 38 38,2 38,4 38,8 39 39,2 39,5

Ţinând cont de precizările de mai sus se trasează graficul prin puncte (dar fară a

le uni), având grijă să reprezentăm numai zona de interes (figura 1.2).

Figura 1.2. Reprezentarea grafică a datelor din tabelul 1.

Privind graficul de mai sus, ne putem pune următoarea întrebare: care este

valoarea de temperatură a pacientului la un moment de timp la care nu a fost făcută

măsurătoarea efectivă?

În această situaţie suntem nevoiţi să determinăm, pornind de la datele noastre,

„curba ce se potriveşte” cel mai bine cu punctele experi-mentale. În cazul graficului

reprezentat în figura 1.2, putem presupune o dependenţă de tip liniar: xaay 10 , unde

coeficienţii 10 a,a sunt necunoscute.

Cea mai simplă variantă de determinare a coeficienţilor, o oferă programul de

calcul tabelar Microsoft Excel.

36,5

37

37,5

38

38,5

39

39,5

40

0 1 2 3 4 5 6 7 8 9 10 11

Timp (ore)

Te

mp

era

tura

(g

rd C

)

După introducerea datelor în foaia de lucru şi trasarea graficului se utilizează

opţiunea Insert Trendline. Din fereastra de dialog (figura 1.3) se alege de la grupul Type

tipul de Trend dorit (în cazul nostru liniar), iar de la grupul Options se selectează

Display Equation on Chart. Rezultatul este prezentat în figura 1.4.

Figura 1.3. Fereastra de dialog „Format Trendline” a programului Microsoft Excel.

Facem menţiunea că utilizatorul este lăsat să aleagă, ţinând cont de distribuţia

punctelor, tipul funcţiei cu care urmează să fie făcută fittarea: liniară, logaritmică,

exponenţială, putere şi polinomială (până la gradul 6).

Figura 1.4. Determinarea coeficienţilor a0 şi a1 cu ajutorul programului Microsoft Excel.

Revenind la exemplul nostru, rezultatul este:

x2521.0973.36y

Aşa cum se poate vedea din graficul prezentat în figura 1.4, punctele

experimentale sunt apropiate de dreapa trasată. În cazul în care există puncte

y = 0,2521x + 36,973

36,5

37

37,5

38

38,5

39

39,5

40

0 1 2 3 4 5 6 7 8 9 10 11

Timp (ore)

Te

mp

era

tura

(g

rd C

)

depărtate de dreptă, atunci în acea regiune putem avea o altă dependenţa şi este

necesar reluarea procedeului cu alegerea unui trend adecvat.

Problemă: Să se reprezinte grafic datele din tabelul de mai jos y=f(x) şi apoi

utilizând programul Microsoft Excel să se traseze „curba ce se potriveşte” cel mai bine

cu punctele experimentale.

x 1 2 3 4 5 6 7 8 9 10

y 37.1 37.5 37.9 38.33 38.4 38.4 38.2 37.85 37.43 36.93

1Prelucrarea Matematic-â a Datelor Experimentale

Documents

Transcript of 1Prelucrarea Matematic-â a Datelor Experimentale