TESTUL KOLMOGOROV-SMIRNOV.doc

17

Click here to load reader

description

testul Kolmogorov-Smirnov

Transcript of TESTUL KOLMOGOROV-SMIRNOV.doc

Page 1: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

TESTUL KOLMOGOROV-SMIRNOV

Rezumat

Testul Kolmogorov-Smirnov este utilizat pentru a realiza estimarea normalităţii distribuţiei acolo unde se poate calcula media şi abaterea medie pătratică. Poate fi folosit pentru verificarea ipotezei că un eşantion de date urmează o anumită lege de distribuţie (redat în continuare), precum şi pentru compararea legilor de distribuţie ale populaţiilor din care provin două eşantioane.

Este un test recomandat pentru variabile ordinale, când ipoteza distribuţiei normale nu este plauzibilă sau atunci când variabilele sunt numerice, dar eşantioanele sunt mici şi informaţiile despre distribuţie sunt absente. Se aplică tabelelelor de incidenţă , adică cu două linii şi n coloane.

Testul se bazează pe o statistică calculată în mai mulţi paşi, care este comparată cu o statistică teoretică care nu se ia din tabele ci se calculează după formula:

unde n1 şi n2 sunt volumele eşantioanelor (totalurile pe cele două linii ale tabelului) şi K este o constantă ce depinde de pragul de semnificaţie dorit. Valorile lui K sunt date de tabelul urmator:

Pragul de semnificaţie

Valoarea prag a lui p

Valoarea lui K

Semnificaţie 0,95 1,36

Înaltă semnificaţie

0,99 1,63

Foarte înaltă semnificaţie

0,999 1,95

Valorile coeficientului K pentru calculul pragului teoretic al testului Kolmogorov-Smirnov

Se execută urmatorii pasi:

• Se fixează clase ca la realizarea unei histograme, prin împărţirea în segmente egale a diferenţei dintre valoarea minimă şi maximă din cele două serii de date cumulate• Se calculează frecvenţele relative pentru fiecare clasă în parte la fiecare din cele două serii de date• Se calculează frecvenţele relative cumulate pentru ambele serii de date• Se calculează diferenţele între frecvenţele relative cumulate ale celor două serii, la fiecare clasă în parte• Se alege cea mai mare diferenţă dintre cele calculate la punctul anterior. Aceasta este statistica testului

1

Page 2: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

• Se calculează statistica teoretică a testului, echivalentul valorii prag care se ia din tabele la celelalte teste. Aceasta statistica este Dt, dată mai sus • Daca statistica testului este mai mare decât cea teoretica, diferenta este semnificativa, altfel este nesemnificativa.

Cuvinte cheie

-repartiţie teoretică F(x) (normală, binomială, Poisson);-repartiţie experimentală Fe(x)

Introducere

Într-un experiment tipic, datele recoltate într-o anumită situaţie(am putea numi acest moment GRUPUL DE CONTROL) sunt comparate cu datele obţinute în cadrul unei alte situaţii(situaţie pe care am putea să o numim GRUPUL DE TRATAMENT). Scopul acestei comparaţii este de a vedea dacă rezulatetele din prima situaţie sunt net diferite de cele din situaţia a doua. Astfel, dacă rezultatele din grupul de tratament sunt identice cu cele din grupul de control atunci putem trage concluzia că tratamentul administrat nu a avut niciun efect. În foarte puţine cazuri se întâmplă ca cele cele două grupuri să fie identice, aşa în mod normal a apărut întrebarea: “Cât de diferite trebuie cele două grupuri¬?”.

Procesul de a atribui valori rezultatelor nu este deloc o sarcină uşoară. Nu există nicio metodă sigură care să ne spună dacă rezultatele obţinute arată eficienţa sau ineficienţa tratamentului urmărit prin acest experiment. De cele mai multe ori se întâmplă ca el puţin o strategie folosită să fie greşită. De aceea, fiecare test statistic poate face greseli la un moment dat:

- poate spune că tratamentul folosit este unul eficient c’nd el în realitate nu este (eroare de tip I)

- poate spune că tratamentul în cauză este unul ineficient când el de fapt are efecte pozitive (eroare de tip II)

Persoanele specializate în statistică încearcă să realizeze statistici în care erorile să fie prezente foarte rar

(mai puţin de 5% din timp). Au ajuns la concluzia că pentru a evita erorile pe cât posibil este suficient ca aceste teste să fie extraordinar de bune în a detecta diferenţe in situaţii comune. Astfel, aceste metode folosite doar în acele situaţii comune sunt cele mai bune teste posibile. Folosite in alte situaţii, decât cele iniţiale, atunci acetse teste pot da rezulate eronate. De exemplu, testul T presupune că situaţiile produc date „normale” care diferă numai în măsura în care media obţinută dintr-o determinare este diferită de media obţinută într-o altă determinare. De aceea dacă se aplică testul T unor date aparte creşte simţitor riscul apariţiei unor erori.

Unul dintre avantajele testului Kolmogorov-Smirnov este acela că prezintă datele într-o manieră grafică, permiţând astfel utilizatorului să detecteze distribuţiile normale.

Prezentare

Cele mai multe verificări a aplicabilităţii repartiţiilor teoretice necesită cunoaşterea în prealabil a legii de repartiţie, dar, în cazurile în care aceasta este necunoscută, se impun o categorie de teste valabile pentru "orice" repartiţie. În general aceste metode sunt mai puţin precise decât metodele de verificare clasice (la care se cunosc legile de repartiţie teoretica), din acest motiv, acestea din urmă se aplică ori de câte ori este posibil. Aceste metode, datorită

2

Page 3: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

posibilităţii aplicabilităţii pentru orice funcţie de repartiţie (deci

pentru orice parametrii) se numesc "neparametrice", ele fiind mai eficiente atunci când se testează mediile şi nu dispersiile.

Testul Kolmogorov-Smirnov încearcă să determine dacă două date de baze diferă în mod semnificativ. Această metodă de testare este avantajoasă pentru că nu face nici un fel de presupuneri asupra distribuţiei datelor, adică este un test non-parametric. Cu toate acestea, există alte teste care pot fi mult mai sensibile în cazul carecare datele respectă cerinţele testului respectiv.

Metoda de verificare Kolmogorov-Smirnov, K, verifică concordanţa dintre o repartiţie teoretică F(x) (normala, binomiala, Poisson) şi una experimentală Fe(x), paşii parcurşi fiind:

1- datele observate se grupează în intervale, (determinându-se numărul m de clase), calculându-se în continuare valorile frecvenţelor absolute ai, respectiv valorile frecvenţelor relative fi, corespunzătoare;

2- se calculează valoarea mediei aritmetice , utilizând relaţia:

respectiv abaterea medie pãtraticã s, utilizând relaţia

3- se calculeaza valorile funcţiei de repartiţie experimentale, utilizând relaţia:

Fe(xi)=∑fi

4- se aplica transformarea de variabila, aplicand relatia

pentru repartitia teoretica, valorile funcţiilor densitate de probabilitate f(z) şi ale funcţiei de repartiţie F(z) fiind date tabelare, aceasta in cazul verificarii normalitatii.

Observaţie: în cazul verificării altor repartiţii teoretice se vor aplica transformările specifice acestora. Astfel că, valorile funcţiei de repartiţie teoretice vor fi date de relaţia:

5- cu valorile grupate pe intervale se calculează diferenţa:

6- se determină valoarea maximă a diferenţei:

7- pentru un nivel semnificativ 1-α, (sau risc α ) adoptat , se scrie relaţia:

3

Page 4: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

Valoarea lui λ obţinându-se din tabelele funcţiei calculate K, calculându-se în continuare valoarea

raportului ;

8- dacă:

Se acceptă ipoteza concordanţei dintre repartiţia teoretică şi cea observată. În caz contrar ipoteza se respinge.

Observatie: Metoda de verificare Kolmogorov-Smirnov, este o metoda greoaie necesitand un esantion de volum foarte mare, respectiv un volum mare de calcul.

Exemplu de studiu şi utilizare a metodei:

1. Tema

Pe un eşantion de volum n=108, se măsoară rezistenţa la rupere şi se obţin valorile (în daN):

158.000 170.000 174.000 175.000 176.000 180.000 176.000 181.000 183.000 165.000 185.000 178.000 184.000 194.000 180.000 180.000 173.000 175.000 172.000 189.000 181.000 180.000 170.000 163.000 182.000 188.000 178.000 160.000 170.000 190.000 175.000 198.000 178.000 183.000 195.000 180.000 162.000 175.000 184.000 183.000 192.000 186.000 199.000 165.000 188.000 196.000 184.000 179.000 183.000 182.000 167.000 164.000 177.000 190.000 174.000 174.000 166.000 169.000 167.000 177.000 185.000 190.000 194.000 177.000 185.000 190.000 191.000 199.000

178.000 171.000 172.000 172.000 185.000 201.000 187.000 194.000 187.000 179.000 185.000 181.000 185.000 200.000 182.000 180.000 183.000 180.000 181.000 182.000 175.000 183.000 190.000

184.000 179.000 188.000 179.000 159.000 183.000 186.000 174.000 181.000 187.000 171.000 173.000 167.000 171.000 173.000 171.000 172.000

- să se verifice ipoteza conform căreia datele statistice sunt variabile aleatoare repartizate normal, pentru un nivel de incredere de 0.950, (1-α=95%).

2. Prelucrarea rezultatelor:

În vederea verificării normalităţii datelor, ţinându-se seama de volumul eşantionului, n=108, se pot aplica testele:- testul χ2 pentru verificarea normalitatii;- testul Kolmogorov-Smirnov, K.

Noi vom utiliza în această situaţie testul Kolmogorov-Smirnov, K, pentru verificarea normalităţii.

Utilizând funcţiile oferite de software-ul Excel, verificarea normalităţii functiei de repartiţie aplicând de aceasta dată testul Kolmogorov-Smirnov, K, presupune parcurgerea următorilor paşi:

1.1 se determină valorile de minim, xmin şi a celor de maxim, xmax;

1- selectaţi opţiunea Insert, Function;

2- selectaţi din căsuţa de dialog care se deschide categoria Statistical;

3- selectaţi opţiunea MIN;

4

Page 5: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

astfel pentru şirul de date selectat se va obţine valoarea de minim, xmin=158,

4- selectaţi opţiunea MAX;

obţinând în acest caz valoarea de maxim, xmax , a şirului, în cazul nostru: xmax = 201;

1.2 se calculează numărul de clase m;

Se foloseşte formula

Utilizând funcţiile Excel, această formulă va fi scrisă in celula selectată sub forma:

=1+3.322*LOG10(108)

Se obţine în final valoarea: m=7.755;

Fiind necesar un număr întreg de clase, se adoptă un număr de 8 clase, astfel că:m=8 este valoarea numărului de clase aproximat,

Valoarea va ocupa adresa B31 în cadrul raportului Excel.

1.3 se calculează amplitudinea W, utilizând formula:

Utilizând funcţiile Excel, formula utilizată este:

W=(MAX(A1:I12)-MIN(A1:I12))

rezultând: W=43.000;

5

Page 6: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

1.4 se determină mărimea unui sub-interval cu ajutorul formulei:

Utilizând Excel, valoarea obţinută este:

=B32/B31,

rezultând: d=5.375

Adresa B32 corespunde valorii amplitudinii, iar B31 valorii numărului de clase aproximat; valoarea sub-intervalului obţinut va corespunde în continuare adresei B33.

1.5 se realizează tabelul datelor grupate, reprezentând valorile intervalelor:

[xmin: Xmin+d); [xmin+d: xmin+2d);… (xmax];

Utilizând Excel, introducerea acestor valori poate fi realizată utilizând:

[=$K$2 si =$B$2+$B$33); [=$K$2+$B$33 si

=$K$2+2*$B$33) ş.a.m.d.

Se obţine tabelul următor:

1.6 se calculează frecvenţele absolute, ai, verificându-se rezultatele obţinute:5- selectaţi opţiunea Insert, Function...;6- selectaţi din căsuţa de dialog care se deschide categoria Statistical;7- selectaţi opţiunea COUNTIF (Contabilizare conditionata);

În final se vor obţine valorile:

a1=5; a2=7; a3=19; a4=18; a5=27; a6=20; a7=6; a8=6

6

Page 7: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

În Excel se introduc formulele următoare:=COUNTIF(A1:I12;"<163,375") pentru primul interval, [x min+d);=COUNTIF(A1:I12;"<168.750")-C16, pentru intervalul, [x min+d, x min+2d);=COUNTIF(A1:I12;"<174.125")-SUM(C16:C17), pentru intervalul, [x min+2d, x min+3d),având: =COUNTIF(A1:I12;"<201.0")+1-SUM(C16:C22), pentru ultimul interval, [x min+6d,xmax]1.7 verificarea rezultatelorAcest pas se realizează cu ajutorul formulei:

Utilizând Excel, aceasta va fi scrisă sub forma:

=SUM(C16:C23) sau =SUM(a1,a2, a3,a4,a5, a6, a7, a8);

Astfel, observăm că rezultatele obţinute sunt corecte, deoarece avem:

5+7+19+18+27+20+6+6=108 -adevarat,

această valoare corespunzând C24.

1.8 se calculeză frecvenţele relative, fi, utilizând formula:

Astfel avem:

=C16/$C$24;=C17/$C$24; ş.a..m.d

pentru fiecare valoare f1, f2, ...f7;

Valorile obţinute, reprezentate tabelar, şi care vor ocupa în continuare adresele D16-D23 în cadrul protocolului Excel, sunt:

f1=0.046; f2=0.065; f3=0.176; f4=0.167; f5=0.250; f6=0.185;

f7=0.056; f8=0.056

7

Page 8: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

Verificarea rezultatelor presupune însumarea valorilor frecvenţelor relative, şi anume:

=SUM(G16:G23);

valoarea obtinută este 1.00 (ceea ce este conform formulei, valoarea obtinută corespunzând adresei D24).

1.9 se trasează histograma valorilor calculate, având pe abscisa valorile clasei, iar pe ordonată valorile frecvenţelor, urmând paşii:

1- selectaţi datele pe care doriţi să le reprezentaţi grafic: adresele ce reprezintă valorile frecvenţelor relative fi;2- executaţi clic asupra butonului ChartWizard;3- selectaţi tipul de grafic dorit: cazul reprezentării unei Histograme:1- selectaţi formatul graficului;2- executaţi clic asupra butonului Next;3- definirea datelor pe care doriţi să le reprezentaţi grafic;4- model de grafic;5- executaţi clic asupra butonului Next;6- efectuaţi modificările pe care le consideraţi necesare (titlul graficului,

eticheta axei x, eticheta axei y, eticheta legendei, etc);7- executaţi clic asupra butonului Next;

8- determinaţi locaţia reprezentării grafice;9- executaţi clic asupra butonului Finish.

1.10 se determină valoarea mediei aritmetice M[x] şi valoarea dispersiei D[x];

Pentru determinarea mediei aritmetice, având formulele:

sau

utilizând opţiunile oferite de software-ul Excel: Insert, Function…, selectând din caseta de

8

Page 9: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

dialog care se deschide, categoria: Statistical, vom avea:

=AVERAGE($A$2:$I$13)

Valoarea obţinută fiind: M[x]=179.852 (şi ea va corespunde adresei B34);pentru determinarea dispersiei, avem formula:

sau

Utilizând Excel, se va aplica funcţia:

=AVEDEV($A$2:$I$13)

obţinând valoarea D[x]= s2=7.366, valoare ce va ocupă adresa B35.

1.11 se calculează abaterea standard (abaterea medie pătratică)

=

POWER(SUM(POWER(($A$2:$I$13-$B$34),2),108),1/2)

sau=SQRT(B35)

obţinând valoarea s=2.714,

(valoare ce va ocupa adresa B36).

1.12 se face schimbarea de variabilă conform formulei:

În cadrul programului Excel vom avea:

=(B16-$B$34)/$B$36; =(B17-$B$34)/$B$36; …=(B23-$B$34)/$B$36

9

Page 10: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

Se obţin valorile:

z1=-6.071; z2=-4.091; z3=-2.110; z4=-0.130; z5=1.851; z6=3.831;

z7=5.812; z8=7.792 (+∞)

valori ce vor ocupa în continuare adresele F16-F23 în cadrul raportului Excel.

1.13 se calculează valorile funcţiei de repartiţie experimentale, utilizând relaţia:

Utilizând Excel, vom avea:

=SUM(D16); =SUM(D16:D17); … =SUM(D16:D23);

Valorile obţinute, valori ce vor ocupa în continuare adresele H16-H23 în cadrul raportului, fiind:

Fe1=0.046; Fe2=0.111; Fe3=0.287; Fe4=0.454; Fe5=0.704; Fe6=0.889;

Fe7=0.994; Fe8=1.000;

1.14 cu valorile grupate pe intervale se calculează diferenţa:

Astfel, vom avea:

=H16-G16; =H17-G17; … =H23-G23;

unde valorile din adresele G16:G23 sunt valorile funcţiei de repartiţie F(z), sunt date tabelare.

Valorile obţinute, fiind:

Dif1=0.045; Dif2=0.110; Dif3=0.270; Dif4=0.006;

Dif5=-2.264;Dif6=-0.110; Dif7=-0.055; Fe8=0.991

Aceste valori vor ocupa în continuare adresele I16-I23 în cadrul raportului Excel.

10

Page 11: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

1.15 se determină valoarea maximă a diferenţei:

Utilizând relaţia:

=MAX(I16:I23)

obţinând valoarea: de=0.990;

Valoarea va ocupa adresa I24, în cadrul raportului Excel.

1.17 se calculează în continuare

valoarea raportului , care

utilizând Excel va fi dat de relaţia:

=1,72⁄(POWER(108,1⁄2))

Se obţine valoarea 0.1655

1.18 se va face verificarea:

Astfel încât, dacă relaţia se verifică, se acceptă ipoteza concordanţei dintre repartiţa teoretică şi cea observată. În caz contrar ipoteza se respinge. În cazul nostru avem:

=0,1655

11

1.16 pentru nivelul semnificativ 1-α, (sau risc α ) adoptat, (1-α= 0.950 = 95%), se scrie relaţia:

Valoarea lui λ obţinandu-se din tabelele functiei calculate K. Deoarece 95% se apropie mai mult de valoarea din stânga a intervalului [0.9477- 0.9505], vom găsi valoarea λ:

λ1=1.720

Page 12: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

Rezultate

Astfel că, ipoteza cum că repartiţia teoretică a valorilor studiate ar fi o repartiţie normală, se respinge, decizia finală fiind:

"repartitia experimentala nu corespunde unei repartitii

normale".

12

Page 13: TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOVUMF CAROL DAVILA BUCUREŞTI 4/27/2023

Bibliografie

-http://orzanm.ase.ro/spss/pdf/SPSS_1.pdf-http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test-http://www.scritube.com/stiinta/matematica/Testul-

KolmogorovSmirnov1412352217.php-http://www.cermi.utcluj.ro/doc/Lucr_05.pdf-http://www.scribd.com/doc/56794524/86/Testul-KOLMOGOROV-

SMIRNOV-http://l.academicdirect.org/Horticulture/GAs/Refs/

Jantschi&Sestras_2010_Annex_3.pdf-http://www.physics.csbsju.edu/stats/KS-test.html

13