1Prelucrarea Matematic-â a Datelor Experimentale
-
Upload
nitu-marius -
Category
Documents
-
view
214 -
download
2
description
Transcript of 1Prelucrarea Matematic-â a Datelor Experimentale
Prelucrarea matematică a datelor experimentale
I. Noţiuni teoretice
A. Indicatori de tendinţă centrală
Indicatorii de tendinţă centrală sunt valori ce localizează într-un fel oarecare
mijlocul setului de date. Dintre indicatorii de tendinţă centrală menţionăm:
Modul - valoarea care apare cel mai frecvent.
Un set de date poate fi non-modal (dacă toate valorile posibile au aceeaşi
frecvenţă), mono-modal (o singură valoare maximală), multi-modal (cu mai multe valori
ce apar cu aceeaşi frcvenţă maximală).
Mijlocul - media aritmetică a valorilor extreme ale setului de date.
Mediana - valoarea ce împarte setul de date în două grupe egal populate.
Pentru setul de date S={X1,..., Xn}, ordonat crescător, când n=2k+1 (număr impar
de date), mediana este Me=Xk+1. În cazul aceluiaşi set dar pentru n=2k (număr par de
date), mediana este:
2
XXM 1kk
e
Media - cele mai folosite sunt: media aritmetică (Xma), geometrică (XG), armonică
(XH) şi cuadratică (XQ). Se poate arăta uşor că aceste medii se află în relaţia:
QmaGH XXXX
B. Indicatori de poziţie
Indicatorii de poziţie sunt folosiţi pentru localizarea unui anumit subgrup de date
în relaţie cu restul eşantionului. Se numesc -cuantile acei indicatori ce împart
eşantionul în părţi egal populate. Cele mai utilizate sunt: cvartila (qk), decila şi
percentila (pk), valori ce împart datele în părţi conţinând o pătrime, o zecime, sau o
sutime din elemente.
Să considerăm un set de date ordonat crescător unde L este valoarea cea mai
mică din set iar H valoarea cea mai mare.
Percentila de ordinul pk este valoarea numerică pentru care k% din date sunt
mai mici decât pk iar (100-k)% sunt mai mari. Se observă că p50 = q2.
C. Indicatori de împrăştiere (dispersie)
Indicatorii de împrăştiere descriu variabilitatea datelor. Datele grupate strâns au
valori mici pentru indicatorii de dispersie, în timp ce datele împrăştiate au valori mari.
Principalii indicatori de împrăştiere sunt: domeniul, varianţa, deviaţia şi
momentele.
Domeniul – reprezintă intervalul de valori al datelor.
=[Xmin, Xmax]
Uneori se indică lărgimea domeniului (amplitudinea împrăştierii):
x= Xmax - Xmin
Toate deviaţiile medii faţă de un indicator de tendinţă centrală (media aritmetică,
geometrică, cuadratică, armonică sau modul, mediana, notate generic prin <x>) se
definesc în acelaşi fel, ca medii ale diferenţei între valoarea măsurată şi indicatorul
respectiv.
Mai general este momentul centrat de ordin q, mq(x) faţă de media x. În
continuare vom analiza semnificaţia şi utilitatea unora dintre momentele centrate:
- m1(x)=0, momentul centrat de ordinul 1, nu aduce nici o informaţie, întrucât ia
valoarea zero oricare ar fi distribuţia datelor; din această cauză nu este folosit.
- m2(x) se numeşte varianţă (V); rădăcina pătrată a varianţei se numeşte
deviaţie pătratică, notată cu . Ambele mărimi arată împrăştierea datelor.
Orice rezultat experimental trebuie prezentat prin media aritmetică deviaţia.
Intervalul (<x>- , <x>+ ) se numeşte interval de încredere sau confidenţă.
Întrucât în biologie şi medicină sunt în general puţine date de procesat, trebuie
să se înlocuiască varianţa V cu varianţa standard SV şi deviaţia n cu deviaţie
standard n-1 sau SD (se utilizează indicatorii standard n-1 şi SV când n<30, adică
setul are mai puţin de 30 de valori).
- m3(x) este numit înclinare sau oblicitate şi se utilizează la definirea
coeficientului de asimetrie, ac (numit în engleză skewness şi notat SKEW)
)x(SKEWm
ac33
Funcţie de valorile acestui coeficient există trei tipuri de distribuţii: cu înclinare
pozitivă, nulă şi negativă, aşa cum reiese din cazurile prezentate mai jos, unde
Mo=modul, Me=mediana, <x>=media.
- m4(x) se numeşte exces şi arată cât de aplatizată este distribuţia. Se foloseşte
la definirea coeficientului de aplatizare sau boltire, (numit în engleză kurtosis, notat
prin KURT):
)x(KURT3m
4
4
II. Parte experimentală
A. Determinarea intervalului de confidenţă
Să presupunem că în urma unui experiment se obţin „n” date experimentale: x1,
x2, ...., xn. Pentru acest set de date putem defini următoarele valori:
- media aritmetică: n
x...xX n1
med
- eroarea absolută: medii Xx
- deviaţia standard: 2
n
2
11n ...1n
1
Rezultatul determinărilor (R) în urma prelucrărilor statistice a datelor, se prezintă
sub forma:
1nmedXR
După efectuarea acestor calcule, putem trage concluzia că valoarea reală X a
mărimii cătuate se află în intervalul:
)X,X(I 1nmed1nmed
Acest interval se numeşte interval de confidenţă sau interval de încredere.
Problemă: Pentru etalonarea unui colorimetru s-au realizat un număr de n = 5
determinări, iar valorile transmisiei au fost următoarele: 50.2, 49.1, 49.6, 50.3, 48.9. Să
se calculeze rezultatul determinărilor (R) şi intervalul de confidenţă (I).
B. Reprezentarea grafică a datelor
Procesele fizice, chimice, biologice, etc., procese ce depind de mai mulţi
parametrii, pot fi reprezentate folosind un sistem de referinţă format din două drepte
concurente în plan, sau trei drepte concurente în spaţiu, numite axe. Dacă axele sunt
perpendiculare câte două, atunci sistemul se numeşte rectangular.
Coordonatele (xa, ya) ale unui punct A într-un sitem rectangular având originea O
măsoară proiecţiile segmentului OA pe axă.
Figura 1.1. Legătura dintre sistemul de referinţă rectangular şi cel polar.
În practică se mai utilizează şi sistemul de coordonate polare. În acest caz
coordonatele punctului A se definesc prin mărimile: r = OA (rază polară) şi unghiul φ
dintre OA şi axa OX. Această reprezentare se utilizează în momentul când funcţia
reprezentată depinde de unghi.
Legătura între cele două sisteme de coordonate este următoarea:
cosrx , sinry
22 yxr , y
xarctg
Pentru ca reprezentarea grafică a datelor în coordonate rectangulare să fie cât
mai clară, se recomandă să se ţină cont de următoatele indicaţii:
-asigurarea unei reprezentări grafice cât mai intuitive constă în alegerea scării
corespunzătoare atât pe scara absciselor cât şi pe scara ordonatelor (atunci când
valorile variabilelor x sau y încep de la un număr oarecare, acest număr se recomandă
să fie reprezentat cât mai aproape de originea axei respective).
-indicaţiile de pe axele x şi y trebuie să fie cât mai simple, adică cu cât mai puţine
cifre (de regulă indicaţiile de pe axe nu trebuie să conţină numere cu mai mult de două
cifre; dacă numerele sunt mai mari trebuie indicat un factor de multiplicare la sfârşitul
axei alături de unităţile de măsură).
-pe fiecare axă trebuie să se indice denumirea sau simbolul mărimii reprezentate
pe axa respectivă şi în mod obligatoriu unităţile de măsură.
Să urmărim în continuare un exemplu simplu: presupunem că la anumite
intervale de timp măsurăm temperatura unui bolnav (datele obţinute se regăsesc în
tabelul de mai jos) şi dorim să reprezentăm grafic acest proces: temperatura = f (timp).
Tabelul 1
Timp (ore)
1 2 3 4 5 6 7 8 9 10
Temp. (C0)
37,1 37,5 37,9 38 38,2 38,4 38,8 39 39,2 39,5
Ţinând cont de precizările de mai sus se trasează graficul prin puncte (dar fară a
le uni), având grijă să reprezentăm numai zona de interes (figura 1.2).
Figura 1.2. Reprezentarea grafică a datelor din tabelul 1.
Privind graficul de mai sus, ne putem pune următoarea întrebare: care este
valoarea de temperatură a pacientului la un moment de timp la care nu a fost făcută
măsurătoarea efectivă?
În această situaţie suntem nevoiţi să determinăm, pornind de la datele noastre,
„curba ce se potriveşte” cel mai bine cu punctele experi-mentale. În cazul graficului
reprezentat în figura 1.2, putem presupune o dependenţă de tip liniar: xaay 10 , unde
coeficienţii 10 a,a sunt necunoscute.
Cea mai simplă variantă de determinare a coeficienţilor, o oferă programul de
calcul tabelar Microsoft Excel.
36,5
37
37,5
38
38,5
39
39,5
40
0 1 2 3 4 5 6 7 8 9 10 11
Timp (ore)
Te
mp
era
tura
(g
rd C
)
După introducerea datelor în foaia de lucru şi trasarea graficului se utilizează
opţiunea Insert Trendline. Din fereastra de dialog (figura 1.3) se alege de la grupul Type
tipul de Trend dorit (în cazul nostru liniar), iar de la grupul Options se selectează
Display Equation on Chart. Rezultatul este prezentat în figura 1.4.
Figura 1.3. Fereastra de dialog „Format Trendline” a programului Microsoft Excel.
Facem menţiunea că utilizatorul este lăsat să aleagă, ţinând cont de distribuţia
punctelor, tipul funcţiei cu care urmează să fie făcută fittarea: liniară, logaritmică,
exponenţială, putere şi polinomială (până la gradul 6).
Figura 1.4. Determinarea coeficienţilor a0 şi a1 cu ajutorul programului Microsoft Excel.
Revenind la exemplul nostru, rezultatul este:
x2521.0973.36y
Aşa cum se poate vedea din graficul prezentat în figura 1.4, punctele
experimentale sunt apropiate de dreapa trasată. În cazul în care există puncte
y = 0,2521x + 36,973
36,5
37
37,5
38
38,5
39
39,5
40
0 1 2 3 4 5 6 7 8 9 10 11
Timp (ore)
Te
mp
era
tura
(g
rd C
)
depărtate de dreptă, atunci în acea regiune putem avea o altă dependenţa şi este
necesar reluarea procedeului cu alegerea unui trend adecvat.
Problemă: Să se reprezinte grafic datele din tabelul de mai jos y=f(x) şi apoi
utilizând programul Microsoft Excel să se traseze „curba ce se potriveşte” cel mai bine
cu punctele experimentale.
x 1 2 3 4 5 6 7 8 9 10
y 37.1 37.5 37.9 38.33 38.4 38.4 38.2 37.85 37.43 36.93