Lucr_03

9
PRELUCRARE STATISTICA A SIRURILOR DE DATE ELIMINAREA VALORILOR ABERANTE A. Scopul lucrării: Se urmăreşte realizarea următoarelor obiective: - prezentarea metodelor de analiza in vederea depistării şi eliminării valorilor aberante; - prezentarea indicatorilor statistici necesari aplicării metodelor de analiza critica a şirurilor de date; - prezentarea noţiunilor generale legate de generarea şirurilor de date utilizând software-ul Excel; - prezentarea unei aplicaţii; B. Noţiuni de baza: Daca in cursul unei măsurători repetate se obţin rezultate care sunt mult diferite fata de marea majoritate a celorlalte, este de presupus ca s-au înregistrat erori. Întrucât rezultatele disparate (aberante) pot avea o influenta disproporţionat de mare asupra valorii medii, se impune ca de îndată ce au fost constatate, sa se verifice daca condiţiile de efectuare a măsurătorilor sunt corespunzătoare. Atunci când nu au fost sesizate situaţii deosebite (defecte tehnologice), in cursul măsurătorilor este necesar sa se analizeze oportunitatea eliminării datelor aberante in faza de prelucrare statistica a rezultatelor. Aceasta operaţie este posibila pe baza unor teste care impun alegerea unei probabilităţi funcţie de care se ia decizia de păstrare sau eliminare a lor. Aceasta verificare a şirurilor de date/ a eşantionului obţinut poarta denumirea de analiza critica a datelor, iar metodele care se aplica sunt: testul IRWIN, testul GRUBBS si testul ROMANOWSKI. 1. Testul IRWIN (testul λ) Daca şirul de n date se ordonează in sens crescător sau descrescător, valorile susceptibile a fi aberante sunt cele de la extremităţile şirului. Pentru verificarea valorii suspecte se calculează valoarea: s x x 1 0 0 (3.1) Unde: x 0 este valoarea susceptibila a fi aberanta iar s este abaterea medie pătratica a şirului celor x 1 , x 2 , …, x n date, determinata cu relaţia: 2 s s (3.2) Dispersia fiind data la rândul sau de relaţia: n i i x x n s x D 1 2 2 ) ( 1 ] [ (3.3) Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

description

statistica lab

Transcript of Lucr_03

Page 1: Lucr_03

PRELUCRARE STATISTICA A SIRURILOR DE DATE ELIMINAREA VALORILOR ABERANTE

A. Scopul lucrării: Se urmăreşte realizarea următoarelor obiective:

- prezentarea metodelor de analiza in vederea depistării şi eliminării valorilor aberante;

- prezentarea indicatorilor statistici necesari aplicării metodelor de analiza critica a şirurilor de date;

- prezentarea noţiunilor generale legate de generarea şirurilor de date utilizând software-ul Excel;

- prezentarea unei aplicaţii; B. Noţiuni de baza: Daca in cursul unei măsurători repetate se obţin rezultate care sunt mult diferite fata de marea majoritate a celorlalte, este de presupus ca s-au înregistrat erori. Întrucât rezultatele disparate (aberante) pot avea o influenta disproporţionat de mare asupra valorii medii, se impune ca de îndată ce au fost constatate, sa se verifice daca condiţiile de efectuare a măsurătorilor sunt corespunzătoare. Atunci când nu au fost sesizate situaţii deosebite (defecte tehnologice), in cursul măsurătorilor este necesar sa se analizeze oportunitatea eliminării datelor aberante in faza de prelucrare statistica a rezultatelor. Aceasta operaţie este posibila pe baza unor teste care impun alegerea unei probabilităţi funcţie de care se ia decizia de păstrare sau eliminare a lor. Aceasta verificare a şirurilor de date/ a eşantionului obţinut poarta denumirea de analiza critica a datelor, iar metodele care se aplica sunt: testul IRWIN, testul GRUBBS si testul ROMANOWSKI. 1. Testul IRWIN (testul λ) Daca şirul de n date se ordonează in sens crescător sau descrescător, valorile susceptibile a fi aberante sunt cele de la extremităţile şirului. Pentru verificarea valorii suspecte se calculează valoarea:

sxx 100

(3.1)

Unde: x0 este valoarea susceptibila a fi aberanta iar s este abaterea medie pătratica a şirului celor x1, x2, …, xn date, determinata cu relaţia:

2ss (3.2)

Dispersia fiind data la rândul sau de relaţia:

n

ii xx

nsxD

1

22 )(1

][ (3.3)

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 2: Lucr_03

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante 61

Valorile critice ale metodelor de analiza critica a şirurilor ale aplicaţiilor cel mai frecvent utilizate, stabilite pentru un nivel de încredere/ risc propus, se găsesc tabelate in tabelul 3.1. Astfel, comparând valoarea lui λ cu valoarea critica λcritic (stabilita in tabelul 3.1), valoarea x0 se elimina din şirul de date daca:

critic (3.4)

In caz contrar nu sunt motive suficiente pentru aceasta. Daca valoarea x0 a fost eliminata se recalculează abaterea medie pătratica pentru cele n-1 valori ramase si testul se aplica din nou, procesul continuând pana când nu se mai elimina date ale şirului. Observaţie: testului IRWIN nu este suficient in cazul care, in cadrul şirului de date exista mai multe valori suspecte, iar valoarea dispersiei este mare, in acest caz fiind necesara aplicarea celorlalte metode. 2. Testul GRUBBS (testul u) Acest test se aplica in general şirurilor mari de date (n>100), metoda de eliminare constând

in compararea valorii disparate x0 cu valoarea medie

x , calculata cu expresia:

n

iix

nx

1

1

(3.5)

Se va determina raportul:

s

xxu

0

(3.6)

Comparând valoarea u cu valoarea critica ucritic (din tabelul 3.1) pentru un nivel de încredere propus, valoarea xn se elimina din şirul de date daca:

criticuu (3.7)

In caz contrar, se impune concluzia ca nu exista motive suficiente de eliminare a valorii x0. 3. Testul ROMANOWSKI (testul t) Acest test presupune de asemenea o metoda de eliminare ce consta in compararea valorii

disparate x0 cu valoarea medie

x , corespunzătoare celorlalte n-1 valori din şirul de rezultate,

el aplicându-se pentru un sir de valori, n<100. In acest caz, calculul valorii medii

x , se realizează cu formula:

nxxx

x n

21 (3.8)

De asemenea este necesar sa se calculeze abaterea medie pătratica, neglijându-se valoarea disparata x0, (pentru n-1 valori). In continuare se determina raportul:

1

0

nns

xxt

(3.9)

Rezultatul acestui raport se compara cu valorile critice (tabelul 3.1) stabilite pentru un risc propus, iar daca valoarea t depăşeşte valoarea tcritic:

critictt (3.10)

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 3: Lucr_03

62 Lucrarea 3

atunci rezultatul x0 poate fi eliminat cu o siguranţă a concluziei de cel puţin cea propusă. In caz contrar, se impune concluzia că nu exista motive suficiente de eliminare a valorii x0.

Tab.3.1

Denumirea testului IRWIN GRUBBS ROMANOVSKI

Expresia analitica a testului

sxx 100

s

xxu

0

1

0

nns

xxt

Nivelul de incredere/ Risc (%) Numarul datelor sirului 0.95 0.98 0.99 0.95 0.98 0.99 0.95 0.98 0.99

3 4 5 6 7 8 9

10 11 12 13 14 15 16 17 18 19 20

1.79 1.64 1.51 1.39 1.31 1.24 1.20 1.18 1.14 1.11 1.09 1.07 1.06 1.05 1.04 1.03 1.03 1.03

2.17 2.05 1.93 1.81 1.69 1.57 1.51 1.46 1.43 1.41 1.39 1.37 1.35 1.33 1.31 1.29 1.28 1.27

2.90 2.75 2.60 2.45 2.30 2.16 2.09 2.03 2.00 1.97 1.94 1.91 1.88 1.86 1.84 1.82 1.81 1.80

4.93 3.56 3.04 2.78 2.62 2.51 2.43 2.37 2.33 2.29 2.26 2.24 2.22 2.20 2.18 2.17 2.16 2.15

8.04 5.08 4.11 3.64 3.36 3.18 3.05 2.96 2.89 2.83 2.78 2.74 2.71 2.68 2.66 2.64 2.62 2.60

9.46 6.53 5.04 4.36 3.96 3.71 3.54 3.41 3.31 3.23 3.17 3.12 3.08 3.04 3.01 3.00 2.95 2.93

1.41 1.71 1.92 2.07 2.18 2.27 2.35 2.41 2.47 2.52 2.56 2.60 2.64 2.67 2.70 2.73 2.75 2.78

1.41 1.72 1.96 2.13 2.27 2.37 2.46 2.54 2.61 2.66 2.71 2.76 2.80 2.84 2.87 2.90 2.93 2.96

1.41 1.73 1.97 2.16 2.31 2.43 2.53 2.62 2.69 2.75 2.81 2.86 2.91 2.95 2.98 3.02 3.05 3.08

Observaţie: Am prezentat in cadrul Lucrarii1, Introducerea in programul Excel. Achiziţii de date şi reprezentări grafice, introducerea diferitelor tipuri de date (care pot fi de tip text, cifre, date calendaristice, ore, formule, funcţii). Acesta in cazul in care avem datele respective obţinute in urma măsurătorilor. Excel oferă in plus şi posibilitatea generării unui sir de date, pentru aceasta fiind necesari parcurgerea următorilor paşi:

12

345

6

7

89

10

Fig.2.7: Generarea de şiruri de date

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 4: Lucr_03

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante 63

1- selectaţi opţiunea Tools, Data Analysis… (Instrumente, Analiza datelor..); 2- selectaţi din caseta de dialog care s-a deschis opţiunea Random Number Generation (

Genarare de numere aleatorii); 3- executaţi clic asupra butonului ok; In caseta de dialog care se deschide selectaţi: 4- Number of Variables (Numărul coloanelor generate); 5- Number of Random Number (Numărul rândurilor de generare); 6- Distribution, Normal (Distribuţia, Normala); 7- Mean (Media); 8- Standard Deviation (Abaterea standard); 9- Output Range (Afişarea generării), selectând/introducând domeniul (rândul/coloana)

unde dorim sa fie afişat şirul de date generat; 10- Executaţi clic asupra butonului ok. C. Desfăşurarea lucrării: C.1. Tema: Sa se genereze un sir de 100 de valori aşezate intr-un tabel cu 10 coloane. Generarea numerelor va fi aleatoare, datele vor fi normal repartizate, cu media egala cu ziua de naştere si dispersia cuprinsa in intervalul 0,0 – 0,4 va fi de forma 0,XX, unde XX reprezintă ziua naşterii. Sa se completeze un raport care sa cuprindă:

1. Tabelul datelor primare 2. Tabelul datelor sortate in ordine crescătoare pe coloane 3. Tabelul datelor sortate in ordine crescătoare 4. Numerele considerate aberante 5. Calculul mediei si dispersiei pe fiecare coloana 6. Coeficienţii Grubbs, Irwin si Romanowski 7. Decizia de păstrare sau eliminare a datelor aberante 8. Trasarea unei diagrame circulare pentru 6 clase

C.2. Prelucrarea rezultatelor: 1. Introducerea datelor Pe baza celor enunţate anterior se va introduce un sir de date, n=100, utilizând software-ul Excel, şi anume: 1- selectaţi opţiunea Tools, Data Analysis (Instrumente, Analiza datelor); 2- selectaţi din caseta de dialog care s-a deschis opţiunea Random Number Generation (

Generare de numere aleatorii); 3- executaţi clic asupra butonului ok;

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 5: Lucr_03

64 Lucrarea 3

In caseta de dialog care se deschide selectaţi: 4- Number of Variables (Numărul coloanelor generate): 10; 5- Number of Random Number (Numărul rândurilor generare): 10; 6- Distribution, Normal (Distribuţia, Normala): 7- Mean (Media): 19; 8- Standard Deviation (Abaterea standard): 0.19; 9- Output Range (Afişarea generării), selectând/introducând domeniul (rândul/coloana)

unde dorim sa fie afişat şirul de date generat; 10- Executaţi clic asupra butonului ok. 2. Sortarea pe coloane După afişarea tabelara a şirului generat se va trece la punctul 2 al cerinţelor temei si anume sortarea datelor in ordine crescătoare pe coloane si anume: 1- selectaţi casutele pe care doriţi sa le ordonaţi 2- selectaţi opţiunea Data, Sort… (Sortarea datelor) 3- selectaţi din casuta de dialog care se deschide opţiunea de sortare Ascending

(Crescător); astfel pe prima poziţie/celula se va vizualiza valoarea de minim xmin iar pe ultima poziţie xmax a coloanei selectate. Acest procedeu se va repeta pentru fiecare coloana in parte. 3. Sortarea globala Pentru afişarea tabelara a şirului generat in ordine crescătoare ne vom ajuta de foaia de calcul unde vom introduce pe o coloana toate datele şirului. Cu ajutorul opţiunii Data, Sort (Sortarea datelor) se va putea sorta in ordine crescătoare întregul sir. 4. Determinarea numerelor aberante In urma sortării in ordine crescătoare a şirului nostru in foaia de calcul se poate vizualiza pe prima poziţie valoarea de minim xmin , iar pe ultima poziţie/celula valoarea de maxim, xmax , a şirului. In cazul nostru: xmin = 18.51 iar xmax = 19.451 existând posibilitatea ca acestea sa fie valori aberante pentru nivelul de încredere adoptat, riscul de 5%. 5. Determinarea mediei aritmetice si a dispersiei pe fiecare coloana Utilizând tabelul 2 (Şirul de date sortat in ordine crescătoare pe coloane), vom putea determina mediile si dispersiile cu ajutorul formulei: Pentru medie: =AVERAGE(B16:B25) aceasta formula utilizându-se pentru fiecare coloana in parte; Pentru dispersie: =VAR(B16:B25) aceasta formula utilizându-se pentru fiecare coloana in parte 6. Calculul coeficienţilor Irwin, Grubbs, Romanowski Realizarea analizei critice a datelor, aplicându-se cele trei metodele de verificare, aceasta presupunând: - determinarea mediei aritmetice, dispersiei şi a abaterii medii pătratice; - determinarea valorilor λ, u şi t, in cazul celor trei metode de analiza critica a datelor; 6.1.- determinarea mediei aritmetice, dispersiei şi a abaterii medii pătratice, utilizând formulele (3.5), (3.3), (3.2): Media aritmetica. In cazul determinării mediei aritmetice avem:

n

iix

nx

1

1

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 6: Lucr_03

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante 65

Utilizând Excel, relaţia se va scrie:

=AVERAGE(B16:K25) obţinând astfel valoarea

x =18.992 Aceasta ocupând in continuare adresa C44. Dispersia. Pentru valorile x1, x2, .., xn dispersia se obţine cu relaţia:

n

ii xx

nsxD

1

22 )(1

][

La fel ca şi in cazul anterior, in calculul dispersiei (şi implicit si in calculul valorii abaterii medii pătratice), in funcţie de metoda de analiza critica a datelor, luam sau nu in calcul valorile aberante analizate. Astfel vom avea: 1. Cazul testului IRWIN. Se va aplica funcţia: =VAR(B16:K25), obţinând D[x]= s2=0.0425 valoare ce va ocupa in continuare adresa C51. 2. Cazul testului GRUBBS şi ROMANOWSKI, unde se va aplica funcţia: =VAR(M4:M101), obţinând valoarea D[x]= s2=0.0389 (deoarece in cazul nostru valorile aberante ocupa prima si ultima poziţie din şirul de valori din foaia de calcul). Abaterea medie pătratica, se calculează cu formula.

2ss Utilizând funcţiile Excel vom avea: =SQRT(C51) si =SQRT(E51) obţinând cele doua valori pentru fiecare caz in parte. Astfel vom avea valoarea

xD =s=0.2063, in cazul testului IRWIN (valoare ce va ocupa in continuare adresa C52) şi

valoarea xD =s=0.1971, in cazul testului GRUBBS şi ROMANOWSKI (valoare ce va

ocupa adresa E52). 6.2 determinarea valorilor λmin, λmax, umin, umax, tmin, tmax in cazul celor trei metode de analiza critica a datelor, se va realiza utilizând formulele (3.1), (3.6), (3.9) şi valorile anterior determinate (valorile mediei aritmetice, dispersiei si valorile abaterii medii pătratice): 1. cazul testului IRWIN

sxx 100

Utilizând Excel avem: =(M4-M3)/C52, obţinându-se valoarea λmin =0.3629 ce va ocupa adresa B55; =(M102-M101)/C52 obţinându-se valoarea λmax =0.1566 ce va ocupa adresa B56;

2. Cazul testului GRUBBS. Se va determina raportul:

s

xxu

0

astfel: =ABS(M3-C44)/E52 obţinându-se valoarea, umin =2.4455 valoare ce va ocupa adresa E55; =(M102-C44)/E52 obţinându-se valoarea , umax =2.3289 valoarea ce va ocupa adresa E56;

2. Cazul testului ROMANOWSKI. Se determina raportul:

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 7: Lucr_03

66 Lucrarea 3

1

0

nns

xxt

Raport care utilizând Excel se va nota: =ABS(M3-C44)/E52/SQRT(1.0101) obţinând valoarea tmin =2.4332 valoare ce va ocupa adresa H55; =(M102-C44)/E52/SQRT(1.0101) obţinând valoarea tmax =2.3172 valoare ce va ocupa adresa H56;

6.3.Prezentarea deciziei pentru riscul propus; Din tabelul 3.1 vom lua valorile critice pentru cele trei metode de analiza critica a datelor, pentru nivelul de încredere propus de 95% (risc de 5%). Deoarece in cazul nostru numărul datelor din sir este mai mare de 20, valorile critice se vor alege din rândul corespunzător şirului cu 20 de date. Astfel se vor găsi valorile:

λcritic=1.03, ucritic=2.15, tcritic=2.78 Se vor utiliza in continuare relaţiile (3.4), (3.7), (3.10), pentru a compara valorile critice stabilite in tabel pentru nivelul de încredere propus şi valorile calculate. Astfel ca:

λmin < λcritic, unde 0.3629<1.03 λmax <λcritic ,unde 0.1566<1.03

In cazul comparării valorilor obţinute in cazul testului GRUBBS, vom avea: umin >ucritic, unde 2.4455>2.15 umax>ucritic unde 2.3289>2.15

In cazul testului ROMANOWSKI, comparaţia se va realiza astfel: tmin < tcritic, unde 2.4332<2.78 tmax < tcritic unde 2.3172<2.78

7.Decizia Se impune astfel concluzia ca nu exista motive suficiente de eliminare a valorilor aberante , concluzie de asemenea prezentata in tabelar, tabelul 3.3:

Tab.3.2 TESTUL IRWIN TESTUL GRUBBS TESTUL ROMANOWSKI

sxx 100

s

xxu

0

1

0

nns

xxt

992.1811

n

iix

nx 992.181

1

n

iix

nx 992.181

1

n

iix

nx

n

ii xx

nsxD

1

22 )(1

][

n

ii xx

nsxD

1

22 )(1][

n

ii xx

nsxD

1

22 )(1][

S2=0,0425 S=0,2063 S2=0,0389 S=0,1971 S2=0,0389 S=0,1971 Min Max Min Max Min Max

18,5103 19,4514 18,5103 19,4514 18,5103 19,4514

λmin =0,3628 λmax =0,1566 umin =2,4455 umax =2,289 tmin =2,4332 tmax =2,3172

λcritic=1,03 ucritic=2,15 tcritic=2,78 0,3628<1,03 0,1566<1,03 2,4455>2,15 2,289>2,15 2,432<2,78 2,3172<2,78

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 8: Lucr_03

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante 67

Decizia Decizia Decizia Ramine Ramine Se elimina Se elimina Ramine Ramine 8. Trasarea diagramei circulare pentru cele 6 clase 8.1. Pentru determinarea diagramei trebuie mai intai sa se determine amplitudinea si subintervalele. Formulele utilizate fiind amintite in lucrarea precedenta. 8.2. Determinarea claselor , frecventei absolute si a frecventei relative – vezi lucrarea 2 8.3. Trasarea diagramei: 1- selectaţi datele pe care doriţi sa le reprezentaţi grafic: adresele ce reprezintă valorile

frecventelor relative fi; 2- executaţi clic asupra butonului ChartWizard (Asistent pentru grafice); 3- selectaţi tipul de grafic dorit: cazul reprezentării unei Diagrame Circulare; 1- selectaţi formatul graficului; 2- executaţi clic asupra butonului Next (Mai departe); 3- definirea datelor pe care doriţi sa le reprezentaţi grafic; 4- model de grafic; 5- executaţi clic asupra butonului Next (Mai departe); 6- efectuaţi modificările pe care le consideraţi necesare (titlul graficului, eticheta axei x,

eticheta axei y, eticheta legendei, etc); 7- executaţi clic asupra butonului Next (Mai departe); 8- determinaţi locaţia reprezentării grafice; 9- executaţi clic asupra butonului Finish (Terminare).

C3. Prezentarea rezultatelor: Rezultatele vor fi prezentate sub forma unui raport (vezi Anexa3) ce cuprinde:

- reprezentarea datelor primare, şirul de date: - reprezentarea datelor in ordine crescătoare pe coloane; - reprezentarea datelor in ordine crescătoare; - reprezentarea tabelara a valorilor considerate aberante; - reprezentarea tabelara a valorilor indicilor statistici: media aritmetica, dispersia,

abaterea medie pătratica; - reprezentarea tabelara a valorilor calculate in cazul celor trei metode de analiza

critica a datelor: λ, u şi t;

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 9: Lucr_03

68 Lucrarea 3

- prezentarea deciziei pentru riscul propus; - reprezentarea grafica a celor 6 clase, -

D. Bibliografie: [1] Apostolescu, N., Taraza, D., Bazele cercetării experimentale a masinilor termice,

Editura Didactica şi Pedagocica, Bucuresti, 1974. [2] Bulgaru, M., Bolboaca, L., Ingineria calitatii.Mangementul calitatii, statistica şi control,

masurari in 3D, Alma Mater, Cluj-Napoca 2001, ISBN 973-85153-0-0 [3] Cathy, K., Excel pentru Windows tm 95 in 503 imagini, Teora, Bucuresti, 1999, ISBN

973-601-457-6 [4] Faithe, W., Microsoft Office 97 Professional 6in 1, Teora, Bucuresti, 1998, ISBN 973-

601-907-1 [5] Tanasescu I Controlul statistic al proceselor si produselor, Editura didactica si

pedagogica, Bucuresti, 1987. [6] *** Colectie de standarde, Managementul şi asigurarea calitatii, Editura tehnica,

Bucuresti, 1996

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)