Tema 5 - Analiza Variantei

18
1 FACULTATEA DE FINANŢE, BĂNCI ŞI CONTABILITATE BRAŞOV CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR ECONOMICE TEMA 5 ANALIZA VARIANŢEI (ANOVA) Conf. univ. dr. Nicolae BÂRSAN-PIPU Facultatea de Finanţe, Bănci şi Contabilitate Braşov Universitatea Creştină “Dimitrie Cantemir” Obiective Cunoaşterea conceptelor referitoare la analiza varianţei Analiza modelelor uni şi bifactoriale Cuprins 5.1 Concepte referitoare la analiza varianţei 2 5.2 ANOVA unifactorială 2 5.2 Procedura de comparare a mediilor 7 5.3 ANOVA bifactorială 9 5.4 Bibliografie selectivă 18

description

ase

Transcript of Tema 5 - Analiza Variantei

Page 1: Tema 5 - Analiza Variantei

1

FACULTATEA DE FINANŢE, BĂNCI ŞI CONTABILITATE BRAŞOV

CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A

PROCESELOR ECONOMICE

TEMA 5

ANALIZA VARIANŢEI (ANOVA)

Conf. univ. dr. Nicolae BÂRSAN-PIPU

Facultatea de Finanţe, Bănci şi Contabilitate Braşov

Universitatea Creştină “Dimitrie Cantemir”

Obiective

Cunoaşterea conceptelor referitoare la analiza varianţei

Analiza modelelor uni şi bifactoriale

Cuprins

5.1 Concepte referitoare la analiza varianţei 2

5.2 ANOVA unifactorială 2

5.2 Procedura de comparare a mediilor 7

5.3 ANOVA bifactorială 9

5.4 Bibliografie selectivă 18

Page 2: Tema 5 - Analiza Variantei

2 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

5.1 Concepte referitoare la analiza varianţei

Analiza varianţei sau analiza dispersională (în engleză ANalysis Of

VAriance sau ANOVA) este o metodă ce permite compararea a două sau mai

multe populaţii statistice. Vom denumi în continuare populaţiile statistice pe

care le analizăm ca fiind grupuri, iar experimentele statistice ca fiind

tratamente.

În multe situaţii practice ne interesează examinarea diferenţelor dintre

mediile a mai mult de două grupuri, care sunt clasificate în funcţie de nivelele

unor anumiţi factori. În acest scop, ANOVA analizează variaţia inter şi intra

grupuri. Să presupunem că avem k grupuri din care extragem eşantioane

aleatoare independente de efective knnn ...,, ,21 , cu mediile aritmetice kxxx ,...,, 21

şi abaterile standard ksss ,...,, 21 .

Vom analiza în continuare două clase de modele ANOVA, cu unul sau doi

factori de variaţie, respectiv:

ANOVA unifactorială;

ANOVA bifactorială.

5.2 ANOVA unifactorială

Metoda ANOVA unifactorială analizează diferenţele dintre mediile

grupurilor prin evaluarea variaţiei inter grupuri (în engleză Among-Group) şi

a variaţiei intra grupuri (în engleză Within-Group), care formează variaţia

totală.

Vom defini în continuare variaţia totală ca fiind suma pătratelor totală,

notată SST (în engleză Sum of Squares Total) diferenţelor dintre valorile efective

şi media totală a grupurilor.

Definiţia 5.1: Variaţia totală SST în ANOVA unifactorială este dată de

suma totală a pătratelor, calculată cu relaţia:

k

j

n

i

ij

j

xxSST1 1

2. (5.1)

unde:

x este media totală a grupurilor, dată de relaţia:

n

x

x

k

j

n

i

ij

j

1 1

;

ijx este valoarea i din grupul j;

jn este numărul de valori din grupul j;

n este numărul total de grupuri, knnnn ...21 ;

k este numărul total de grupuri.

Page 3: Tema 5 - Analiza Variantei

TEMA 5: ANALIZA VARIANŢEI (ANOVA) 3

Variaţia inter grupuri, notată SSA (în engleză Sum of Squares Among

groups) se obţine prin însumarea diferenţelor dintre mediile eşantioanelor şi

media totală, ponderate de efectivele fiecărui eşantion.

Definiţia 5.2: Variaţia inter grupuri SSA în ANOVA unifactorială este

dată de suma pătratelor inter grupuri, calculată cu relaţia:

k

j

jj xxnSSA1

2. (5.2)

unde:

jx este media eşantionului grupului j;

jn este numărul de valori din grupul j;

k este numărul total de grupuri.

Variaţia intra grupuri, notată SSW (în engleză Sum of Squares Within

groups) se obţine prin însumarea diferenţelor dintre fiecare valoare şi mediile

eşantioanelor respective.

Definiţia 5.3: Variaţia intra grupuri SSW în ANOVA unifactorială este

dată de suma pătratelor intra grupuri, calculată cu relaţia:

k

j

n

i

jij

j

xxSSW1 1

2. (5.3)

unde:

ijx este valoarea i din grupul j;

jx este media eşantionului grupului j;

jn este numărul de valori din grupul j;

n este numărul total de grupuri, knnnn ...21 ;

k este numărul total de grupuri.

Prin compararea celor k grupuri, rezultă 1k grade de libertate asociate

sumei pătratelor inter grupuri. Deoarece fiecare grup are 1jn grade de

libertate, avem prin însumare kn grade de libertate asociate sumei pătratelor

intra grupuri. De asemenea, avem 1n grade de libertate asociate sumei

pătratelor totală.

Dacă vom împărţi sumele pătratelor determinate anterior la numărul de

grade de libertate corespunzător, obţinem mediile pătratice (în engleză Mean

Squares), respectiv varianţele sau dispersiile următoare:

Media pătratică inter grupuri (MSA);

Media pătratică intra grupuri (MSW);

Media pătratică totală (MST).

Page 4: Tema 5 - Analiza Variantei

4 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

Definiţia 5.4: Mediile pătratice, respectiv varianţele sau dispersiile, sunt

calculate cu relaţiile:

Media pătratică (varianţa) inter grupuri (MSA):

1

k

SSAMSA ; (5.4a)

Media pătratică (varianţa) inter grupuri (MSW):

kn

SSWMSW

; (5.4b)

Media pătratică (varianţa) totală (MST):

1

n

SSTMST . (5.4c)

Deşi ne propunem să comparăm mediile a k populaţii, metoda ANOVA

constă de fapt în analiza varianţelor sau dispersiilor grupurilor

(populaţiilor) investigate.

Pentru aplicarea ANOVA sunt necesare satisfacerea următoarelor cerinţe

privind grupurile analizate:

Caracterul aleator şi independenţa;

Normalitatea;

Omogenitatea varianţelor.

Prima cerinţă, caracterul aleator şi independenţa se referă la

modalitatea de extragere a eşantioanelor din populaţiile care ne interesează.

A doua cerinţă, normalitatea, implică faptul că eşantioanele din fiecare

grup provin din populaţii cu distribuţie normală.

A treia cerinţă, omogenitatea varianţelor, implică faptul că varianţele

(dispersiile) celor k grupuri sunt egale, respectiv 22

2

2

1 ... k , proprietate

cunoscută sub denumirea de homoscedasticitate. În cazul în care varianţele nu

sunt egale, proprietate cunoscută sub denumirea de heteroscedasticitate,

efectul asupra inferenţei cu metoda ANOVA poate fi semnificativ.

Pentru aplicarea ANOVA, vom testa atunci ipoteza egalităţii mediilor

k ,...,, 21 celor k grupuri:

kH ...: 210 ,

cu alternativa că nu toate mediile sunt egale, respectiv există cel puţin două

medii diferite:

jiH jia ,: .

Pentru verificarea ipotezei nule în cadrul ANOVA, vom aplica testul F, cu

următoarea statistică a testului:

Definiţia 5.5: Statistica testului F, în ANOVA unifactorială este dată de

relaţia:

MSW

MSAFcalculat . (5.5)

Page 5: Tema 5 - Analiza Variantei

TEMA 5: ANALIZA VARIANŢEI (ANOVA) 5

Statistica testului calculatF urmează o distribuţie F cu 1k grade de

libertate la numărător şi kn grade de libertate la numitor. Pentru un anumit

nivel de semnificaţie , decizia asupra ipotezei H0 a egalităţii mediilor se ia

astfel:

Dacă knkFF criticcalculat ;1; se respinge H0 (se acceptă Ha);

Dacă knkFF criticcalculat ;1; se acceptă H0.

Să remarcă faptul că atunci când se acceptă H0 valoarea calculatF se apropie

de 1, iar dacă se respinge H0 valoarea calculatF se este mai mare de 1.

Tabelul 5.1 conţine organizarea datelor pentru aplicarea ANOVA

unifactorială.

Tabelul 5.1: Organizarea datelor pentru aplicarea ANOVA unifactorială

Grupul 1

...

Grupul k

Total

Grupul 1

...

Grupul k

xi1 xik 211 xxi 21 xxi 2kik xx 2xxik

x11 ... x1k 2111 xx 211 xx ... 21 kk xx 21 xx k

x21 ... x2k 2111 xx 221 xx ... 21 kk xx 22 xx k

11nx ... knkx 2111

xxn 211xxn ... 2kkn xx

k 2xx knk

1

1

1

n

i

ix ...

kn

i

ikx1

k

j

n

i

ij

j

x1 1

1

1

2

11

n

i

i xx

1

1

2

1

n

i

i xx ...

kn

i

kik xx1

2

kn

i

ik xx1

2

1

1

1

1

1

n

x

x

n

i

i ...

k

n

i

ik

kn

x

x

k

1

n

x

x

k

j

n

i

ij

j

1 1

11

1

2

112

1

1

n

xx

s

n

i

i

...

1

1

2

2

k

n

i

kik

kn

xx

s

k

SSA =

k

j

jj xxn1

2 211 xxn ... 211 xxn

SSW =

k

j

n

i

jij

j

xx1 1

2

1

1

2

11

n

i

i xx ...

kn

i

kik xx1

2

SST =

k

j

n

i

ij

j

xx1 1

2

1

1

2

1

n

i

i xx

kn

i

ik xx1

2

Tabelul de sinteză pentru aplicarea ANOVA unifactorială este prezentat în

Tabelul 5.2.

Tabelul 5.2: Tabelul de sinteză pentru aplicarea ANOVA unifactorială

Sursa de

variaţie

Grade de

libertate

Suma

pătratelor

Media pătratică

(Varianţa) Testul F

Inter grupuri 1k SSA 1

k

SSAMSA

MSW

MSAFcalculat Intra grupuri kn SSW

kn

SSWMSW

Totală 1n SST 1

n

SSTMST

Page 6: Tema 5 - Analiza Variantei

6 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

Exemplul 5.1: Un producător de echipamente electronice aprovizionează o

anumită componentă pentru calculatoare de la patru furnizori. Pentru evaluarea

unei anumite caracteristici de calitate (un singur factor) din loturile livrate au

fost extrase eşantioane cu efective egale de 5 unităţi. Datele înregistrate sunt

prezentate mai jos:

Furnizor 1

xi1

Furnizor 2

xi2

Furnizor 3

xi3

Furnizor 4

xi4

42,0 57,6 46,2 55,8

53,0 55,6 55,4 44,8

39,4 53,0 46,6 50,2

44,8 47,4 54,4 40,0

41,0 54,0 50,8 45,8

Să se aplice metoda ANOVA unifactorială pentru testarea ipotezei egalităţii

mediilor:

43210 : H ,

4,3,2,1, ,,: jijiH jia ,

cu nivelul de semnificaţie = 0,05.

Rezolvare: Avem k = 4 grupuri şi 54321 nnnn . Vom utiliza organizarea

tabelară a datelor prezentată anterior. Pentru mediile eşantioanelor şi media

totală avem tabelul de valori:

Furnizor 1

xi1

Furnizor 2

xi2

Furnizor 3

xi3

Furnizor 4

xi4 Total

42,0 57,6 46,2 55,8

53,0 55,6 55,4 44,8

39,4 53,0 46,6 50,2

44,8 47,4 54,4 40,0

41,0 54,0 50,8 45,8

51 n 52 n 53 n 54 n 20n

2,2205

1

1 i

ix 267,65

1

2 i

ix 253,45

1

3 i

ix 236,65

1

1 i

ix 8,9774

1

5

1

j i

ijx

44,045

2,2201 x 52,35

5

6,2672 x ,6805

5

4,2533 x 32,47

5

6,2364 x 89,48

20

8,977x

Calculăm în continuare a doua parte a tabelului de date pentru ANOVA:

Furnizor 1

xi1

Furnizor 2

xi2

Furnizor 3

xi3

Furnizor 4

xi4 Total

211 xxi 21 xxi 222 xxi 22 xxi 233 xxi 23 xxi 244 xxi 24 xxi

4,1616 47,4721 16,6464 75,8641 20,0704 7,2361 71,9104 47,7481

80,2816 16,8921 4,3264 45,0241 22,2784 42,3801 6,3504 16,7281

21,5296 90,0601 0,2704 16,8921 16,6464 5,2441 8,2944 1,7161

0,5776 16,7281 37,4544 2,2201 13,8384 30,3601 53,5824 79,0321

9,2416 62,2521 0,2304 26,1121 0,0144 3,6481 2,3104 9,5481

115,792 233,4045 58,928 166,1125 72,848 88,8685 142,448 154,7725

117,6125 107,1845 16,0205 12,3245 253,1420

115,792 58,928 72,848 142,448 390,0160

233,4045 166,1125 88,8685 154,7725 643,1580

Page 7: Tema 5 - Analiza Variantei

TEMA 5: ANALIZA VARIANŢEI (ANOVA) 7

Obţinem tabelul de sinteză pentru ANOVA unifactorială:

Sursa de

variaţie

Grade de

libertate Suma pătratelor

Media pătratică

(Varianţa) Testul F

Inter

grupuri 314 SSA = 253,1420

84,3807

3

253,1420

MSA

3,4616

24,3760

84,3807

calculatF Intra

grupuri 16420 SSW = 390,0160

24,3760

16

390,0160

MSW

Totală 19120 SST = 643,1580 33,8504

19

643,1580

MST

Pentru = 0,05, determinăm valoarea critică a testului F, utilizând funcţiile

statistice din Excel FINV(.) şi FDIST(.) şi obţinem:

criticF FINV(0,05; 3; 16) = 3,2389.

Avem 2389,316;3;05,04616,3 criticcalculat FF şi deci se respinge H0.

Aplicând acum metoda valorii p, avem:

p FDIST(3,4616; 3; 16) = 0,0414.

Avem p = 0,0414 < = 0,05 şi deci se respinge H0 şi după metoda valorii p.

5.2 Procedura de comparare a mediilor

Atunci când utilizăm ANOVA pentru a testa egalitatea mediilor a k grupuri

(populaţii), respingerea ipotezei nule ne conduce la concluzia că mediile

grupurilor analizate nu sunt egale. În continuare, ne propunem să comparăm

două cîte două mediile grupurilor, pentru a vedea dacă există diferenţe între

aceste medii.

Procedura de comparare a mediilor se bazează pe metoda celei mai mici

diferenţe semnificative sau LSD (în engleză Least Significant Difference), care

constă în următorii paşi:

P1: Se stabileşte ipoteza ce trebuie testată:

jiH :0 ,

kjijiH jia ,...,2,1,,,: .

P2: Se calculează statistica testului ca fiind diferenţa dintre mediile

grupurilor i şi j:

jiij xxD .

P3: Se calculează statistica critică a testului pentru nivelul de semnificaţie :

ji

ijnn

MSWtLSD11

2 ,

Page 8: Tema 5 - Analiza Variantei

8 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

unde ji nn , sunt efectivele eşantioanelor i, j, iar 2t este valoarea distribuţiei t cu

n – k grade de libertate.

P4: Decizia asupra acceptării/respingerii ipotezei H0 este:

Dacă ijij LSDD se acceptă H0;

Dacă ijij LSDD se respinge H0 (se acceptă Ha).

Pentru aplicarea procedurii de comparare multiplă aplicăm procedura de

mai sus de 2)1(2 kkCk ori şi putem organiza rezultatele conform tabelului

următor:

Grupuri Grupul 1 Grupul 2 ... Grupul k–1 Grupul k

Medii 1x 2x ... 1kx kx

1x 0 2112 xxD ... 111,1 kk xxD kk xxD 11

2x 12LSD 0 ... 121,2 kk xxD kk xxD 22

... ... ... ... ... ...

1kx 1,1 kLSD 1,2 kLSD ... 0 kkkk xxD 1,1

kx kLSD1 kLSD2 ... kkLSD ,1 0

Să notăm că atunci când valorile ijLSD sunt constante, respectiv grupurile

au acelaşi efectiv, în tabelul de mai sus, sub diagonala principală, putem înscrie

chiar decizia pentru comparaţia mediilor.

Exemplul 5.2: Considerăm problema şi eşantionul de date din Exemplul 5.1.

Să se aplice, cu nivelul de semnificaţie = 0,05, procedura de comparare a

mediilor pentru testarea multiplă a ipotezei egalităţii mediilor:

jiH :0 ,

4,3,2,1, ,,: jijiH jia ,

Rezolvare: Avem k = 4 grupuri, 54321 nnnn şi n = 20. Din exemplul

anterior avem 1x =44,04, 2x =53,52, 3x =50,68, 4x =47,32 şi MSW = 24,376. Vom

utiliza organizarea tabelară a datelor prezentată anterior. Pentru mediile

eşantioanelor şi diferenţele dintre perechile de medii avem tabelul:

Grupuri Grupul 1 Grupul 2 Grupul 3 Grupul 4

Medii 1x =44,04 2x =53,52 3x =50,68 4x =47,32

1x =44,04 0 9,48

52,5304,4412

D

6,64

68,5004,4413

D

3,28

32,4704,4414

D

2x =53,52 aH

D

62,6

9,4812 0

2,84

68,5052,5323

D

6,20

32,4752,5324

D

3x =50,68 aH

D

62,6

6,6412

0

23

62,6

2,84

H

D

0

3,36

32,4768,5034

D

4x =47,32 0

14

62,6

3,28

H

D

0

24

62,6

6,20

H

D

0

34

62,6

3,36

H

D

0

Page 9: Tema 5 - Analiza Variantei

TEMA 5: ANALIZA VARIANŢEI (ANOVA) 9

Pentru = 0,05 şi n – k = 20 – 4 = 16 grade de libertate avem cu funcţia

statistică TINV(.):

025,02 tt TINV(2 0,025; 16) = 2,1199.

Atunci valoarea critică a testului LSDLSDij (deoarece toate

eşantioanele au acelaşi efectiv) va fi:

6,625

1

5

124,3762,1199

112

ji nnMSWtLSD .

Pentru decizie, comparăm valorile ijD calculate cu valoarea constatntă a

LSD = 6,62. Deciziile sunt înscrise în tabelul anterior, în celulele de sub

diagonala principală.

Observăm că am respins ipoteza egalităţii mediilor numai pentru grupurile

1 şi 2, cât şi 1 şi 3, pentru celelalte perechi de medii comparate acceptând ipoteza

egalităţii mediilor.

5.3 ANOVA bifactorială

În multe situaţii practice, ne interesează să analizăm doi sau mai mulţi

factori care ne influenţează experimentele statistice. Asemenea experimente sunt

denumite experimente factoriale.

Vom discuta în continuare experimentele statistice cu doi factori, denumite

bifactoriale, în care scop vom defini analiza varianţei cu doi factori sau

ANOVA bifactorială.

Pentru un experiment bifactorial, să considerăm factorul A, notat FA, cu a

nivele şi factorul B, cu b nivele. Dacă pentru fiecare din combinaţiile de nivele

avem o singură înregistrare ijx spunem că avem date fără replicare. Tabelul

bifactorial fără replicare (Tabelul 5.2) conţine în total ba valori. Valoarea ijx

reprezintă celula cu nivelul i din factorul FA ( ai 1 ) şi nivelul j din factorul FB

( bj 1 ).

Tabelul 5.2: Tabelul bifactorial fără replicare

Factori Factorul FB

Factorul FA

Nivele Nivelul 1 Nivelul 2 ... Nivelul b

Nivelul 1 11x 12x ... bx1

Nivelul 2 21x 22x ... bx2

... ... ... ... ...

Nivelul a 1ax 2ax ... abx

Să considerăm acum că fiecare din valorile tabelului bifactorial sunt

replicate sau înregistrate de r ori. Tabelul bifactorial cu replicare (Tabelul 5.3)

conţine în total rba valori. Valoarea ijkx reprezintă valoarea din celula cu

nivelul i din factorul FA ( ai 1 ), nivelul j din factorul FB ( bj 1 ) şi valoarea

replicată k ( rk 1 ).

Page 10: Tema 5 - Analiza Variantei

10 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

Tabelul 5.2: Tabelul bifactorial cu replicare

Factori Factorul FB

Factorul FA

Nivele Nivelul B1 Nivelul B2 ... Nivelul Bb

Nivelul A1

111x

112x

...

rx11

121x

122x

...

rx12

...

11bx

21bx

...

brx1

Nivelul A2

211x

212x

...

rx21

221x

222x

...

rx22

...

12bx

22bx

...

brx2

... ... ... ... ...

Nivelul Aa

11ax

12ax

...

rax 1

21ax

22ax

...

rax 2

...

1abx

2abx

...

abrx

Pentru aplicarea procedurii ANOVA bifactoriale va trebui să partiţionăm

suma totală a pătratelor SST (Sum of Squares Total) în patru componente:

Suma pătratelor pentru factorul A, notată SSFA;

Suma pătratelor pentru factorul B, notată SSFB;

Suma pătratelor pentru interacţiunea dintre factorul A şi factorul B,

notată SSFAB;

Suma pătratelor datorată erorilor sau variaţiei aleatoare, notată SSE;

Rezultă de aici:

SSESSFABSSFBSSFASST .

Pentru aplicarea procedurii ANOVA bifactoriale vom utiliza notaţiile:

a = numărul de nivele ale factorului FA;

b = numărul de nivele ale factorului FB;

r = numărul de replicări;

n = rba = numărul total de valori înregistrate în experiment.

Principalele componente ale ANOVA bifactoriale cu r replicări subt

sintetizate în Tabelul 5.4. Tabelul conţine sursele de variaţie, sumele pătratelor,

numărul gradelor de libertate şi elementele pentru calculul statisticii F.

Pentru statistica F trebuie să determinăm mediile pătratice (varianţele)

pentru fiecare sursă de variaţie, cu notaţiile:

MSFA = media pătratică (varianţa) pentru factorul FA;

MSFB = media pătratică (varianţa) pentru factorul FB;

MSFAB = media pătratică (varianţa) pentru interacţiunea dintre

factorul FA şi factorul B;

MSE = media pătratică (varianţa) pentru erori;

MST = media pătratică (varianţa) totală.

Page 11: Tema 5 - Analiza Variantei

TEMA 5: ANALIZA VARIANŢEI (ANOVA) 11

Tabelul 5.4: Tabelul de sinteză pentru aplicarea ANOVA bifactorială

Sursa de

variaţie

Suma

pătratelor

Grade de

libertate

Media pătratică

(Varianţa) Testul F

Factorul FA SSFA 1a 1

a

SSFAMSFA

MSE

MSFAFcalcFA

Factorul FB SSFB 1b 1

b

SSFBMSFB

MSE

MSFBFcalcFB

Interacţiunea

FA, FB SSFAB 11 ba

11

ba

SSFABMSFAB

MSE

MSFABFcalcFAB

Erorile SSE 1rab 1

rab

SSEMSE

Totală SST 1n 1

n

SSTMST

Datele de calcul ale mediilor de mai sus se obţin din tabelul următor:

Factori Factorul

FB Total

pe linii

Mediile

FA

Factorul

FA

Nivele Nivelul B1 ... Nivelul Bb

Nivelul

A1

111x

...

rx11

...

11bx

...

brx1

b

j

r

k

jkx1 1

1

br

x

x

b

j

r

k

jk

A

1 1

1

1

r

k

kx1

11 ...

r

k

bkx1

1

r

x

x

r

k

k 1

11

11 ...

r

x

x

r

k

bk

b

1

1

1

... ... ... ... ... ...

Nivelul

Aa

11ax

...

rax 1

...

1abx

...

abrx

b

j

r

k

ajkx1 1

br

x

x

b

j

r

k

ajk

aA

1 1

r

k

kax1

1 ...

r

k

abkx1

r

x

x

r

k

ka

a

1

1

1 ...

r

x

x

r

k

abk

ab

1

Total pe

coloane

a

i

r

k

kix1 1

1 ...

a

i

r

k

ibkx1 1

a

i

b

j

r

k

ijkx1 1 1

Mediile

FB ar

x

x

a

i

r

k

ki

B

1 1

1

1 ...

ar

x

x

a

i

r

k

ibk

bB

1 1

abr

x

x

a

i

b

j

r

k

ijk

1 1 1

Faţă de notaţiile anterioare, tabelul de mai sus foloseşte şi următoarele

notaţii:

iAx = media eşantioanelor pentru nivelul (tratamentul) i al factorului FA;

Page 12: Tema 5 - Analiza Variantei

12 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

jBx = media eşantioanelor pentru nivelul (tratamentul) j al factorului FB;

ijx = media observaţiilor pentru nivelul (tratamentul) i al factorului FA şi

nivelul (tratamentul) j al factorului FB;

x = media totală (generală) a celor n observaţii înregistrate în

experiment.

Relaţiile de calcul pentru sumele pătratelor pentru fiecare sursă de variaţie

sunt următoarele:

Suma totală a pătratelor SST:

a

i

b

j

r

k

ijk xxSST1 1 1

2.

Suma pătratelor pentru factorul A, SSFA:

a

i

iA xxbrSSFA1

2.

Suma pătratelor pentru factorul B, SSFB:

b

j

jB xxarSSFB1

2.

Suma pătratelor pentru interacţiunea dintre factorul A şi factorul B,

SSFAB:

a

i

b

j

jBiAij xxxxrSSFAB1 1

2.

Suma pătratelor datorată erorilor, SSE;

SSFABSSFBSSFASSTSSE .

În continuare se determină mediile pătratice (varianţele) pentru fiecare

sursă de variaţie:

Media pătratică (varianţa) pentru factorul FA, MSFA:

1

a

SSFAMSFA .

Media pătratică (varianţa) pentru factorul FB, MSFB:

1

b

SSFBMSFB .

Media pătratică (varianţa) pentru interacţiunea dintre factorul FA şi

factorul B, MSFAB:

11

ba

SSFABMSFAB .

Media pătratică (varianţa) pentru erori, MSE:

1

rab

SSEMSE .

Media pătratică (varianţa) totală MST:

1

n

SSTMST .

În fine, acum se pot calcula valorile critice ale testului F pentru factorul FA,

factorul FB şi interacţiunea lor:

Page 13: Tema 5 - Analiza Variantei

TEMA 5: ANALIZA VARIANŢEI (ANOVA) 13

MSE

MSFAFcalcFA ,

MSE

MSFBFcalcFB ,

MSE

MSFABFcalcFAB .

Ipotezele statistice care se pot defini în ANOVA bifactorială sunt

următoarele:

(1) Testarea ipotezei că nu există diferenţe ale mediilor – pe linie – datorate

factorului FA:

aAAAH ...: 210 ,

jiH jia ,: .

Ipozeza nulă se respinge cu nivelul de semnificaţie dacă:

)1(;1; rabaFF criticcalcFA .

(2) Testarea ipotezei că nu există diferenţe ale mediilor – pe coloană –

datorate factorului FB:

bBBBH ...: 210 ,

jiH jia ,: .

Ipozeza nulă se respinge cu nivelul de semnificaţie dacă:

)1(;1; rabbFF criticcalcFB .

(3) Testarea ipotezei că nu există interacţiune între factorul FA şi factorul

FB:

:0H Interacţiunea între FA şi FB este 0,

:aH Interacţiunea între FA şi FB este diferită de 0.

Ipozeza nulă se respinge cu nivelul de semnificaţie dacă:

)1(;1; rabbFF criticcalcFAB .

Cu ajutorul statisticilor F calculate se pot determina şi probabilităţile

corespunzătoare pentru verificarea prin metoda valorii p a ipotezelor ce ne

interesează.

Exemplul 5.3: Se consideră experimentul bifactorial din tabelul de mai jos.

Factori Factorul FB

Factorul

FA

Nivele B1 B2 B3

A1 390 418 396

A2 406 402 380

A3 402 412 374

Să se aplice, cu nivelul de semnificaţie = 0,05, procedura ANOVA bifactorială.

fără replicare.

Rezolvare: Având în vedere că pentru fiecare factor avem o singură

înregistrare vom aplica procedura ANOVA bifactorială fără replicare. Avem a = 3

, b = 3 şi 933 ban . Vom construi un tabel ANOVA adaptat situaţiei în

care avem numai valori ijx care reprezintă celula cu nivelul i din factorul FA

( 31 i ) şi nivelul j din factorul FB ( 31 j ). În acest scop bordăm tabelul

iniţial cu încă trei linii şi trei coloane.

Page 14: Tema 5 - Analiza Variantei

14 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

Factori Factorul FB Total

pe linii

Mediile

FA 2xxiA

Factorul

FA

Nivele B1 B2 B3

A1 390 418 396 1204 401,33 12,64

A2 406 402 380 1188 396,00 3,16

A3 402 412 374 1188 396,00 3,16

Total

pe coloane 1198 1232 1150 3580 18,96

Mediile

FA 399,33 410,67 383,33 x 397,78

2xxiB 2,42 166,12 208,64 377,19

Putem acum calcula două sume de pătrate, respectiv:

Suma pătratelor pentru factorul A, SSFA:

56,8996,18333

1

2

i

iA xxSSFA .

Suma pătratelor pentru factorul B, SSFB:

1131,56377,19333

1

2

j

jB xxSSFB .

Pentru celelalte sume de pătrate, construim un tabel suplimentar prin

transpunerea liniilor tabelului iniţial. Obţinem:

FA FB ijij xx x iAx iBx 2xxij 2xxxx jBiAij

A1 B1 390 397,78 401,33 399,33 60,49383 166,1235

A1 B2 418 397,78 401,33 410,67 408,9383 14,2716

A1 B3 396 397,78 401,33 383,33 3,160494 83,01235

A2 B1 406 397,78 396,00 399,33 67,60494 71,30864

A2 B2 402 397,78 396,00 410,67 17,82716 47,45679

A2 B3 380 397,78 396,00 383,33 316,0494 2,419753

A3 B1 402 397,78 396,00 399,33 17,82716 19,75309

A3 B2 412 397,78 396,00 410,67 202,2716 9,679012

A3 B3 374 397,78 396,00 383,33 565,3827 57,08642

Total 1659,5556 471,1111

Putem acum calcula şi celelalte două sume de pătrate, respectiv:

Suma totală a pătratelor SST:

3

1

3

1

2

i j

ijk xxSST 1659,5556.

Suma pătratelor pentru interacţiunea dintre factorul A şi factorul B,

SSFAB:

3

1

3

1

2471,1111

i j

jBiAij xxxxSSFAB .

Suma pătratelor datorată erorilor, SSE:

0.471,11111131,5656,89 1659,5556

SSFABSSFBSSFASSTSSE

Rezultă tabelul de sinteză pentru aplicarea ANOVA bifactorială fără

replicare cu valorile:

Page 15: Tema 5 - Analiza Variantei

TEMA 5: ANALIZA VARIANŢEI (ANOVA) 15

Sursa de

variaţie

Suma

pătratelor

Grade de

libertate

Media pătratică

(Varianţa) Testul F

Factorul FA SSFA =

=56,89 213

4444,28

1

a

SSFAMSFA

0,2415

MSFAB

MSFAFcalcFA

Factorul FB SSFB =

=1131,56 213

7778,565

1

b

SSFBMSFB

4,8038

MSFAB

MSFBFcalcFB

Interacţiunea

FA, FB

SSFAB =

=471,111 41313

117,7778

11

ba

SSFABMSFAB

Erorile SSE = 0

Totală SST =

=1659,5556 819

207,4444

1

n

SSTMST

Ipotezele statistice în ANOVA bifactorială pe care le analizăm , cu nivelul de

semnificaţie = 0,05, sunt următoarele:

(1) Testarea ipotezei că nu există diferenţe ale mediilor – pe linie – datorate

factorului FA. Avem:

6,94434;2;05,0FINV4;2;05,00,2415 criticcalcFA FF ,

deci ipozeza nulă se acceptă.

(2) Testarea ipotezei că nu există diferenţe ale mediilor – pe coloană –

datorate factorului FB. Avem:

6,94434;2;05,0FINV4;2;05,04,8038 criticcalcFB FF ,

deci ipozeza nulă se acceptă.

Cu ajutorul statisticilor F calculate determinăm acum probabilităţile

corespunzătoare pentru verificarea prin metoda valorii p a ipotezelor ce ne

interesează. Obţinem:

FAp FDIST(0,2415; 2; 4) = 0,7961 > 0,05,

FBp FDIST(4,8038; 2; 4) = 0,0964 > 0,05.

Observăm că şi conform metodei valorii p ipotezele nule se acceptă, atât

pentru factorul FA, cât şi pentru factorul FB.

În concluzie, analiza ne indică faptul că nu există o diferenţă semnificativă

între linii (factorul FA) şi nici între coloane (factorul FB).

Exemplul 5.4: Se consideră experimentul bifactorial din tabelul de mai jos.

Factori Factorul FB

Factorul

FA

Nivele B1 B2 B3

A1 1950 2090 1980

2030 2010 1900

A2 2010 2060 1870

2090 2120 1930

A3 2060 2050 2030

2100 2030 1960

Să se aplice, cu nivelul de semnificaţie = 0,05, procedura ANOVA bifactorială.

cu replicare.

Page 16: Tema 5 - Analiza Variantei

16 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

Rezolvare: Având în vedere că pentru fiecare factor avem două înregistrări vom

aplica procedura ANOVA bifactorială cu replicare. Avem a = 3 , b = 3, r = 2 şi

18233 rban . Vom construi un tabel ANOVA în interiorul căruia

calculăm sumele şi pe coloană pentru fiecare factor FB, iar pentru totaluri pe

linie şi pe coloană bordăm tabelul iniţial cu trei linii şi trei coloane.

Factori Factorul FB Total

pe linii

Mediile

FA 2xxiA

Factorul

FA

Nivele B1 B2 B3

A1 1950 2090 1980

2030 2010 1900

Suma 3980 4100 3880 11960

Media 1990 2050 1940 1993,33 469,44

A2 2010 2060 1870

2090 2120 1930

Suma 4100 4180 3800 12080

Media 2050 2090 1900 2013,33 2,78

A3 2060 2050 2030

2100 2030 1960

Suma 4160 4080 3990 12230

Media 2080 2040 1995 2038,33 544,44

Total

pe coloane 12240 12360 11670 36270 1016,67

Mediile

FA 2040 2060 1945 x 2015

2xxiB 625 2025 4900 7550

Putem acum calcula primele două sume de pătrate, respectiv:

Suma pătratelor pentru factorul A, SSFA:

610067,10166233

1

2

i

iA xxSSFA .

Suma pătratelor pentru factorul B, SSFB:

4530075506233

1

2

j

jB xxSSFB .

Pentru celelalte sume de pătrate, construim un tabel suplimentar prin

transpunerea liniilor tabelului iniţial.

Putem acum calcula şi celelalte două sume de pătrate, respectiv:

Suma totală a pătratelor SST:

3

1

3

1

2

1

2

i j k

ijk xxSST = 85450.

Suma pătratelor pentru interacţiunea dintre factorii A şi B, SSFAB:

142007100223

1

3

1

2

i j

jBiAij xxxxSSFAB .

Suma pătratelor datorată erorilor, SSE:

19850.42001530041006 85450

SSFABSSFBSSFASSTSSE

Page 17: Tema 5 - Analiza Variantei

TEMA 5: ANALIZA VARIANŢEI (ANOVA) 17

FA FB r ijkx x 2xxijk ijx iAx iBx 2xxxx jBiAij

A1 B1 1 1950 2015 4225 1990 1993,33 2040 802,78

A1 B1 2 2030 2015 225

A1 B2 1 2090 2015 5625 2050 1993,33 2060 136,11

A1 B2 2 2010 2015 25

A1 B3 1 1980 2015 1225 1940 1993,33 1945 277,78

A1 B3 2 1900 2015 13225

A2 B1 1 2010 2015 25 2050 2013,33 2040 136,11

A2 B1 2 2090 2015 5625

A2 B2 1 2060 2015 2025 2090 2013,33 2060 1002,78

A2 B2 2 2120 2015 11025

A2 B3 1 1870 2015 21025 1900 2013,33 1945 1877,78

A2 B3 2 1930 2015 7225

A3 B1 1 2060 2015 2025 2080 2038,33 2040 277,78

A3 B1 2 2100 2015 7225

A3 B2 1 2050 2015 1225 2040 2038,33 2060 1877,78

A3 B2 2 2030 2015 225

A3 B3 1 2030 2015 225 1995 2038,33 1945 711,11

A3 B3 2 1960 2015 3025

Total 85450 Total 7100

Rezultă tabelul de sinteză pentru aplicarea ANOVA bifactorială cu replicare

cu valorile:

Sursa de

variaţie

Suma

pătratelor

Grade de

libertate

Media pătratică

(Varianţa) Testul F

Factorul FA SSFA =

=6100 213

3050

1

a

SSFAMSFA

38,1

MSE

MSFAFcalcFA

Factorul FB SSFB =

=45300 213

22650

1

b

SSFBMSFB

27,10

MSE

MSFBFcalcFB

Interacţiunea

FA, FB

SSFAB =

=14200 41313

5503

11

ba

SSFABMSFAB

61,1

MSE

MSFABFcalcFAB

Erorile SSE =

19850 91233

6,2205

1

rab

SSEMSE

Totală SST =

=85450 171233

5,0265

1

n

SSTMST

Ipotezele statistice în ANOVA bifactorială pe care le analizăm , cu nivelul de

semnificaţie = 0,05, sunt următoarele:

(1) Testarea ipotezei că nu există diferenţe ale mediilor – pe linie – datorate

factorului FA. Avem:

4,269;2;05,0FINV9;2;05,038,1 criticcalcFA FF ,

de unde rezultă că ipozeza nulă se acceptă.

Page 18: Tema 5 - Analiza Variantei

18 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR

ECONOMICE

(2) Testarea ipotezei că nu există diferenţe ale mediilor – pe coloană –

datorate factorului FB. Avem:

4,269;2;05,0FINV9;2;05,027,10 criticcalcFB FF ,

de unde rezultă că ipozeza nulă se respinge.

(3) Testarea ipotezei că nu există interacţiune între factorul FA şi factorul

FB. Avem:

3,639;4;05,0FINV9;4;05,061,1 criticcalcFAB FF ,

de unde rezultă că ipozeza nulă se acceptă.

Cu ajutorul statisticilor F calculate determinăm probabilităţile

corespunzătoare pentru verificarea prin metoda valorii p a ipotezelor ce ne

interesează:

Obţinem:

FAp FDIST(1,38; 2; 4) = 0,2994 > 0,05,

FBp FDIST(10,27; 2; 4) = 0,0048 < 0,05.

FABp FDIST(1,61; 4; 9) = 0,2537 > 0,05.

În concluzie, analiza ne indică faptul că nu există o diferenţă semnificativă

între linii (factorul FA), dar există o diferenţă semnificativă între coloane

(factorul FB). De asemenea, nu există o diferenţă semnificativă între factori.

5.4 Bibliografie selectivă

1. Anderson, David, Dennis Sweeney, și Thomas Williams. Statistics for Business and

Economics. Mason: South-Western Cengage Learning, 205.

2. Bârsan-Pipu, Nicolae. Statistică economică - Note de curs. Braşov: UCDC - FBC,

2008.

3. Berenson, Mark, David Levine, și Timothy Krehbiel. Basic Business Statistics:

Concepts and Applications. Boston: Prentice Hall, 2012.

4. Francis, Andy. Statistică matematică pentru managementul afacerilor. Bucureşti:

Editura Tehnică, 2004.

5. Isaic-Maniu, Alexandru, Mitruţ Constantin, şi Voineagu, Vergil. Statistica pentru

managementul afacerilor. Bucureşti: Editura Economică, 1999.

6. Jaba, Elisabeta. Statistica. Bucureşti: Editura Economică, 2002.

7. Keller, Gerald. Statistics for Management and Economics. Mason: South-Western

Cengage Learning, 2012.

8. Mendenhall, William, şi Sincich, Terry. Statistics for the Engineering and Computer

Sciences. Santa Clara: Dellen Publishing, 1984.

9. Ott, Lyman, și Michael Longnecker. An introduction to statistical methods and data

analysis. Pacific Grove: Duxbury, 2001.

10. Ross, Sheldon. Introductory Statistics. Burlington: Elsevier, 2010.

11. Waller, Derek. Statistics for Business. Burlington: Butterworth-Heinemann, 2008.