Tema 5 - Analiza Variantei
-
Upload
moiseelena -
Category
Documents
-
view
250 -
download
1
description
Transcript of Tema 5 - Analiza Variantei
1
FACULTATEA DE FINANŢE, BĂNCI ŞI CONTABILITATE BRAŞOV
CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A
PROCESELOR ECONOMICE
TEMA 5
ANALIZA VARIANŢEI (ANOVA)
Conf. univ. dr. Nicolae BÂRSAN-PIPU
Facultatea de Finanţe, Bănci şi Contabilitate Braşov
Universitatea Creştină “Dimitrie Cantemir”
Obiective
Cunoaşterea conceptelor referitoare la analiza varianţei
Analiza modelelor uni şi bifactoriale
Cuprins
5.1 Concepte referitoare la analiza varianţei 2
5.2 ANOVA unifactorială 2
5.2 Procedura de comparare a mediilor 7
5.3 ANOVA bifactorială 9
5.4 Bibliografie selectivă 18
2 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
5.1 Concepte referitoare la analiza varianţei
Analiza varianţei sau analiza dispersională (în engleză ANalysis Of
VAriance sau ANOVA) este o metodă ce permite compararea a două sau mai
multe populaţii statistice. Vom denumi în continuare populaţiile statistice pe
care le analizăm ca fiind grupuri, iar experimentele statistice ca fiind
tratamente.
În multe situaţii practice ne interesează examinarea diferenţelor dintre
mediile a mai mult de două grupuri, care sunt clasificate în funcţie de nivelele
unor anumiţi factori. În acest scop, ANOVA analizează variaţia inter şi intra
grupuri. Să presupunem că avem k grupuri din care extragem eşantioane
aleatoare independente de efective knnn ...,, ,21 , cu mediile aritmetice kxxx ,...,, 21
şi abaterile standard ksss ,...,, 21 .
Vom analiza în continuare două clase de modele ANOVA, cu unul sau doi
factori de variaţie, respectiv:
ANOVA unifactorială;
ANOVA bifactorială.
5.2 ANOVA unifactorială
Metoda ANOVA unifactorială analizează diferenţele dintre mediile
grupurilor prin evaluarea variaţiei inter grupuri (în engleză Among-Group) şi
a variaţiei intra grupuri (în engleză Within-Group), care formează variaţia
totală.
Vom defini în continuare variaţia totală ca fiind suma pătratelor totală,
notată SST (în engleză Sum of Squares Total) diferenţelor dintre valorile efective
şi media totală a grupurilor.
Definiţia 5.1: Variaţia totală SST în ANOVA unifactorială este dată de
suma totală a pătratelor, calculată cu relaţia:
k
j
n
i
ij
j
xxSST1 1
2. (5.1)
unde:
x este media totală a grupurilor, dată de relaţia:
n
x
x
k
j
n
i
ij
j
1 1
;
ijx este valoarea i din grupul j;
jn este numărul de valori din grupul j;
n este numărul total de grupuri, knnnn ...21 ;
k este numărul total de grupuri.
TEMA 5: ANALIZA VARIANŢEI (ANOVA) 3
Variaţia inter grupuri, notată SSA (în engleză Sum of Squares Among
groups) se obţine prin însumarea diferenţelor dintre mediile eşantioanelor şi
media totală, ponderate de efectivele fiecărui eşantion.
Definiţia 5.2: Variaţia inter grupuri SSA în ANOVA unifactorială este
dată de suma pătratelor inter grupuri, calculată cu relaţia:
k
j
jj xxnSSA1
2. (5.2)
unde:
jx este media eşantionului grupului j;
jn este numărul de valori din grupul j;
k este numărul total de grupuri.
Variaţia intra grupuri, notată SSW (în engleză Sum of Squares Within
groups) se obţine prin însumarea diferenţelor dintre fiecare valoare şi mediile
eşantioanelor respective.
Definiţia 5.3: Variaţia intra grupuri SSW în ANOVA unifactorială este
dată de suma pătratelor intra grupuri, calculată cu relaţia:
k
j
n
i
jij
j
xxSSW1 1
2. (5.3)
unde:
ijx este valoarea i din grupul j;
jx este media eşantionului grupului j;
jn este numărul de valori din grupul j;
n este numărul total de grupuri, knnnn ...21 ;
k este numărul total de grupuri.
Prin compararea celor k grupuri, rezultă 1k grade de libertate asociate
sumei pătratelor inter grupuri. Deoarece fiecare grup are 1jn grade de
libertate, avem prin însumare kn grade de libertate asociate sumei pătratelor
intra grupuri. De asemenea, avem 1n grade de libertate asociate sumei
pătratelor totală.
Dacă vom împărţi sumele pătratelor determinate anterior la numărul de
grade de libertate corespunzător, obţinem mediile pătratice (în engleză Mean
Squares), respectiv varianţele sau dispersiile următoare:
Media pătratică inter grupuri (MSA);
Media pătratică intra grupuri (MSW);
Media pătratică totală (MST).
4 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
Definiţia 5.4: Mediile pătratice, respectiv varianţele sau dispersiile, sunt
calculate cu relaţiile:
Media pătratică (varianţa) inter grupuri (MSA):
1
k
SSAMSA ; (5.4a)
Media pătratică (varianţa) inter grupuri (MSW):
kn
SSWMSW
; (5.4b)
Media pătratică (varianţa) totală (MST):
1
n
SSTMST . (5.4c)
Deşi ne propunem să comparăm mediile a k populaţii, metoda ANOVA
constă de fapt în analiza varianţelor sau dispersiilor grupurilor
(populaţiilor) investigate.
Pentru aplicarea ANOVA sunt necesare satisfacerea următoarelor cerinţe
privind grupurile analizate:
Caracterul aleator şi independenţa;
Normalitatea;
Omogenitatea varianţelor.
Prima cerinţă, caracterul aleator şi independenţa se referă la
modalitatea de extragere a eşantioanelor din populaţiile care ne interesează.
A doua cerinţă, normalitatea, implică faptul că eşantioanele din fiecare
grup provin din populaţii cu distribuţie normală.
A treia cerinţă, omogenitatea varianţelor, implică faptul că varianţele
(dispersiile) celor k grupuri sunt egale, respectiv 22
2
2
1 ... k , proprietate
cunoscută sub denumirea de homoscedasticitate. În cazul în care varianţele nu
sunt egale, proprietate cunoscută sub denumirea de heteroscedasticitate,
efectul asupra inferenţei cu metoda ANOVA poate fi semnificativ.
Pentru aplicarea ANOVA, vom testa atunci ipoteza egalităţii mediilor
k ,...,, 21 celor k grupuri:
kH ...: 210 ,
cu alternativa că nu toate mediile sunt egale, respectiv există cel puţin două
medii diferite:
jiH jia ,: .
Pentru verificarea ipotezei nule în cadrul ANOVA, vom aplica testul F, cu
următoarea statistică a testului:
Definiţia 5.5: Statistica testului F, în ANOVA unifactorială este dată de
relaţia:
MSW
MSAFcalculat . (5.5)
TEMA 5: ANALIZA VARIANŢEI (ANOVA) 5
Statistica testului calculatF urmează o distribuţie F cu 1k grade de
libertate la numărător şi kn grade de libertate la numitor. Pentru un anumit
nivel de semnificaţie , decizia asupra ipotezei H0 a egalităţii mediilor se ia
astfel:
Dacă knkFF criticcalculat ;1; se respinge H0 (se acceptă Ha);
Dacă knkFF criticcalculat ;1; se acceptă H0.
Să remarcă faptul că atunci când se acceptă H0 valoarea calculatF se apropie
de 1, iar dacă se respinge H0 valoarea calculatF se este mai mare de 1.
Tabelul 5.1 conţine organizarea datelor pentru aplicarea ANOVA
unifactorială.
Tabelul 5.1: Organizarea datelor pentru aplicarea ANOVA unifactorială
Grupul 1
...
Grupul k
Total
Grupul 1
...
Grupul k
xi1 xik 211 xxi 21 xxi 2kik xx 2xxik
x11 ... x1k 2111 xx 211 xx ... 21 kk xx 21 xx k
x21 ... x2k 2111 xx 221 xx ... 21 kk xx 22 xx k
11nx ... knkx 2111
xxn 211xxn ... 2kkn xx
k 2xx knk
1
1
1
n
i
ix ...
kn
i
ikx1
k
j
n
i
ij
j
x1 1
1
1
2
11
n
i
i xx
1
1
2
1
n
i
i xx ...
kn
i
kik xx1
2
kn
i
ik xx1
2
1
1
1
1
1
n
x
x
n
i
i ...
k
n
i
ik
kn
x
x
k
1
n
x
x
k
j
n
i
ij
j
1 1
11
1
2
112
1
1
n
xx
s
n
i
i
...
1
1
2
2
k
n
i
kik
kn
xx
s
k
SSA =
k
j
jj xxn1
2 211 xxn ... 211 xxn
SSW =
k
j
n
i
jij
j
xx1 1
2
1
1
2
11
n
i
i xx ...
kn
i
kik xx1
2
SST =
k
j
n
i
ij
j
xx1 1
2
1
1
2
1
n
i
i xx
kn
i
ik xx1
2
Tabelul de sinteză pentru aplicarea ANOVA unifactorială este prezentat în
Tabelul 5.2.
Tabelul 5.2: Tabelul de sinteză pentru aplicarea ANOVA unifactorială
Sursa de
variaţie
Grade de
libertate
Suma
pătratelor
Media pătratică
(Varianţa) Testul F
Inter grupuri 1k SSA 1
k
SSAMSA
MSW
MSAFcalculat Intra grupuri kn SSW
kn
SSWMSW
Totală 1n SST 1
n
SSTMST
6 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
Exemplul 5.1: Un producător de echipamente electronice aprovizionează o
anumită componentă pentru calculatoare de la patru furnizori. Pentru evaluarea
unei anumite caracteristici de calitate (un singur factor) din loturile livrate au
fost extrase eşantioane cu efective egale de 5 unităţi. Datele înregistrate sunt
prezentate mai jos:
Furnizor 1
xi1
Furnizor 2
xi2
Furnizor 3
xi3
Furnizor 4
xi4
42,0 57,6 46,2 55,8
53,0 55,6 55,4 44,8
39,4 53,0 46,6 50,2
44,8 47,4 54,4 40,0
41,0 54,0 50,8 45,8
Să se aplice metoda ANOVA unifactorială pentru testarea ipotezei egalităţii
mediilor:
43210 : H ,
4,3,2,1, ,,: jijiH jia ,
cu nivelul de semnificaţie = 0,05.
Rezolvare: Avem k = 4 grupuri şi 54321 nnnn . Vom utiliza organizarea
tabelară a datelor prezentată anterior. Pentru mediile eşantioanelor şi media
totală avem tabelul de valori:
Furnizor 1
xi1
Furnizor 2
xi2
Furnizor 3
xi3
Furnizor 4
xi4 Total
42,0 57,6 46,2 55,8
53,0 55,6 55,4 44,8
39,4 53,0 46,6 50,2
44,8 47,4 54,4 40,0
41,0 54,0 50,8 45,8
51 n 52 n 53 n 54 n 20n
2,2205
1
1 i
ix 267,65
1
2 i
ix 253,45
1
3 i
ix 236,65
1
1 i
ix 8,9774
1
5
1
j i
ijx
44,045
2,2201 x 52,35
5
6,2672 x ,6805
5
4,2533 x 32,47
5
6,2364 x 89,48
20
8,977x
Calculăm în continuare a doua parte a tabelului de date pentru ANOVA:
Furnizor 1
xi1
Furnizor 2
xi2
Furnizor 3
xi3
Furnizor 4
xi4 Total
211 xxi 21 xxi 222 xxi 22 xxi 233 xxi 23 xxi 244 xxi 24 xxi
4,1616 47,4721 16,6464 75,8641 20,0704 7,2361 71,9104 47,7481
80,2816 16,8921 4,3264 45,0241 22,2784 42,3801 6,3504 16,7281
21,5296 90,0601 0,2704 16,8921 16,6464 5,2441 8,2944 1,7161
0,5776 16,7281 37,4544 2,2201 13,8384 30,3601 53,5824 79,0321
9,2416 62,2521 0,2304 26,1121 0,0144 3,6481 2,3104 9,5481
115,792 233,4045 58,928 166,1125 72,848 88,8685 142,448 154,7725
117,6125 107,1845 16,0205 12,3245 253,1420
115,792 58,928 72,848 142,448 390,0160
233,4045 166,1125 88,8685 154,7725 643,1580
TEMA 5: ANALIZA VARIANŢEI (ANOVA) 7
Obţinem tabelul de sinteză pentru ANOVA unifactorială:
Sursa de
variaţie
Grade de
libertate Suma pătratelor
Media pătratică
(Varianţa) Testul F
Inter
grupuri 314 SSA = 253,1420
84,3807
3
253,1420
MSA
3,4616
24,3760
84,3807
calculatF Intra
grupuri 16420 SSW = 390,0160
24,3760
16
390,0160
MSW
Totală 19120 SST = 643,1580 33,8504
19
643,1580
MST
Pentru = 0,05, determinăm valoarea critică a testului F, utilizând funcţiile
statistice din Excel FINV(.) şi FDIST(.) şi obţinem:
criticF FINV(0,05; 3; 16) = 3,2389.
Avem 2389,316;3;05,04616,3 criticcalculat FF şi deci se respinge H0.
Aplicând acum metoda valorii p, avem:
p FDIST(3,4616; 3; 16) = 0,0414.
Avem p = 0,0414 < = 0,05 şi deci se respinge H0 şi după metoda valorii p.
5.2 Procedura de comparare a mediilor
Atunci când utilizăm ANOVA pentru a testa egalitatea mediilor a k grupuri
(populaţii), respingerea ipotezei nule ne conduce la concluzia că mediile
grupurilor analizate nu sunt egale. În continuare, ne propunem să comparăm
două cîte două mediile grupurilor, pentru a vedea dacă există diferenţe între
aceste medii.
Procedura de comparare a mediilor se bazează pe metoda celei mai mici
diferenţe semnificative sau LSD (în engleză Least Significant Difference), care
constă în următorii paşi:
P1: Se stabileşte ipoteza ce trebuie testată:
jiH :0 ,
kjijiH jia ,...,2,1,,,: .
P2: Se calculează statistica testului ca fiind diferenţa dintre mediile
grupurilor i şi j:
jiij xxD .
P3: Se calculează statistica critică a testului pentru nivelul de semnificaţie :
ji
ijnn
MSWtLSD11
2 ,
8 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
unde ji nn , sunt efectivele eşantioanelor i, j, iar 2t este valoarea distribuţiei t cu
n – k grade de libertate.
P4: Decizia asupra acceptării/respingerii ipotezei H0 este:
Dacă ijij LSDD se acceptă H0;
Dacă ijij LSDD se respinge H0 (se acceptă Ha).
Pentru aplicarea procedurii de comparare multiplă aplicăm procedura de
mai sus de 2)1(2 kkCk ori şi putem organiza rezultatele conform tabelului
următor:
Grupuri Grupul 1 Grupul 2 ... Grupul k–1 Grupul k
Medii 1x 2x ... 1kx kx
1x 0 2112 xxD ... 111,1 kk xxD kk xxD 11
2x 12LSD 0 ... 121,2 kk xxD kk xxD 22
... ... ... ... ... ...
1kx 1,1 kLSD 1,2 kLSD ... 0 kkkk xxD 1,1
kx kLSD1 kLSD2 ... kkLSD ,1 0
Să notăm că atunci când valorile ijLSD sunt constante, respectiv grupurile
au acelaşi efectiv, în tabelul de mai sus, sub diagonala principală, putem înscrie
chiar decizia pentru comparaţia mediilor.
Exemplul 5.2: Considerăm problema şi eşantionul de date din Exemplul 5.1.
Să se aplice, cu nivelul de semnificaţie = 0,05, procedura de comparare a
mediilor pentru testarea multiplă a ipotezei egalităţii mediilor:
jiH :0 ,
4,3,2,1, ,,: jijiH jia ,
Rezolvare: Avem k = 4 grupuri, 54321 nnnn şi n = 20. Din exemplul
anterior avem 1x =44,04, 2x =53,52, 3x =50,68, 4x =47,32 şi MSW = 24,376. Vom
utiliza organizarea tabelară a datelor prezentată anterior. Pentru mediile
eşantioanelor şi diferenţele dintre perechile de medii avem tabelul:
Grupuri Grupul 1 Grupul 2 Grupul 3 Grupul 4
Medii 1x =44,04 2x =53,52 3x =50,68 4x =47,32
1x =44,04 0 9,48
52,5304,4412
D
6,64
68,5004,4413
D
3,28
32,4704,4414
D
2x =53,52 aH
D
62,6
9,4812 0
2,84
68,5052,5323
D
6,20
32,4752,5324
D
3x =50,68 aH
D
62,6
6,6412
0
23
62,6
2,84
H
D
0
3,36
32,4768,5034
D
4x =47,32 0
14
62,6
3,28
H
D
0
24
62,6
6,20
H
D
0
34
62,6
3,36
H
D
0
TEMA 5: ANALIZA VARIANŢEI (ANOVA) 9
Pentru = 0,05 şi n – k = 20 – 4 = 16 grade de libertate avem cu funcţia
statistică TINV(.):
025,02 tt TINV(2 0,025; 16) = 2,1199.
Atunci valoarea critică a testului LSDLSDij (deoarece toate
eşantioanele au acelaşi efectiv) va fi:
6,625
1
5
124,3762,1199
112
ji nnMSWtLSD .
Pentru decizie, comparăm valorile ijD calculate cu valoarea constatntă a
LSD = 6,62. Deciziile sunt înscrise în tabelul anterior, în celulele de sub
diagonala principală.
Observăm că am respins ipoteza egalităţii mediilor numai pentru grupurile
1 şi 2, cât şi 1 şi 3, pentru celelalte perechi de medii comparate acceptând ipoteza
egalităţii mediilor.
5.3 ANOVA bifactorială
În multe situaţii practice, ne interesează să analizăm doi sau mai mulţi
factori care ne influenţează experimentele statistice. Asemenea experimente sunt
denumite experimente factoriale.
Vom discuta în continuare experimentele statistice cu doi factori, denumite
bifactoriale, în care scop vom defini analiza varianţei cu doi factori sau
ANOVA bifactorială.
Pentru un experiment bifactorial, să considerăm factorul A, notat FA, cu a
nivele şi factorul B, cu b nivele. Dacă pentru fiecare din combinaţiile de nivele
avem o singură înregistrare ijx spunem că avem date fără replicare. Tabelul
bifactorial fără replicare (Tabelul 5.2) conţine în total ba valori. Valoarea ijx
reprezintă celula cu nivelul i din factorul FA ( ai 1 ) şi nivelul j din factorul FB
( bj 1 ).
Tabelul 5.2: Tabelul bifactorial fără replicare
Factori Factorul FB
Factorul FA
Nivele Nivelul 1 Nivelul 2 ... Nivelul b
Nivelul 1 11x 12x ... bx1
Nivelul 2 21x 22x ... bx2
... ... ... ... ...
Nivelul a 1ax 2ax ... abx
Să considerăm acum că fiecare din valorile tabelului bifactorial sunt
replicate sau înregistrate de r ori. Tabelul bifactorial cu replicare (Tabelul 5.3)
conţine în total rba valori. Valoarea ijkx reprezintă valoarea din celula cu
nivelul i din factorul FA ( ai 1 ), nivelul j din factorul FB ( bj 1 ) şi valoarea
replicată k ( rk 1 ).
10 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
Tabelul 5.2: Tabelul bifactorial cu replicare
Factori Factorul FB
Factorul FA
Nivele Nivelul B1 Nivelul B2 ... Nivelul Bb
Nivelul A1
111x
112x
...
rx11
121x
122x
...
rx12
...
11bx
21bx
...
brx1
Nivelul A2
211x
212x
...
rx21
221x
222x
...
rx22
...
12bx
22bx
...
brx2
... ... ... ... ...
Nivelul Aa
11ax
12ax
...
rax 1
21ax
22ax
...
rax 2
...
1abx
2abx
...
abrx
Pentru aplicarea procedurii ANOVA bifactoriale va trebui să partiţionăm
suma totală a pătratelor SST (Sum of Squares Total) în patru componente:
Suma pătratelor pentru factorul A, notată SSFA;
Suma pătratelor pentru factorul B, notată SSFB;
Suma pătratelor pentru interacţiunea dintre factorul A şi factorul B,
notată SSFAB;
Suma pătratelor datorată erorilor sau variaţiei aleatoare, notată SSE;
Rezultă de aici:
SSESSFABSSFBSSFASST .
Pentru aplicarea procedurii ANOVA bifactoriale vom utiliza notaţiile:
a = numărul de nivele ale factorului FA;
b = numărul de nivele ale factorului FB;
r = numărul de replicări;
n = rba = numărul total de valori înregistrate în experiment.
Principalele componente ale ANOVA bifactoriale cu r replicări subt
sintetizate în Tabelul 5.4. Tabelul conţine sursele de variaţie, sumele pătratelor,
numărul gradelor de libertate şi elementele pentru calculul statisticii F.
Pentru statistica F trebuie să determinăm mediile pătratice (varianţele)
pentru fiecare sursă de variaţie, cu notaţiile:
MSFA = media pătratică (varianţa) pentru factorul FA;
MSFB = media pătratică (varianţa) pentru factorul FB;
MSFAB = media pătratică (varianţa) pentru interacţiunea dintre
factorul FA şi factorul B;
MSE = media pătratică (varianţa) pentru erori;
MST = media pătratică (varianţa) totală.
TEMA 5: ANALIZA VARIANŢEI (ANOVA) 11
Tabelul 5.4: Tabelul de sinteză pentru aplicarea ANOVA bifactorială
Sursa de
variaţie
Suma
pătratelor
Grade de
libertate
Media pătratică
(Varianţa) Testul F
Factorul FA SSFA 1a 1
a
SSFAMSFA
MSE
MSFAFcalcFA
Factorul FB SSFB 1b 1
b
SSFBMSFB
MSE
MSFBFcalcFB
Interacţiunea
FA, FB SSFAB 11 ba
11
ba
SSFABMSFAB
MSE
MSFABFcalcFAB
Erorile SSE 1rab 1
rab
SSEMSE
Totală SST 1n 1
n
SSTMST
Datele de calcul ale mediilor de mai sus se obţin din tabelul următor:
Factori Factorul
FB Total
pe linii
Mediile
FA
Factorul
FA
Nivele Nivelul B1 ... Nivelul Bb
Nivelul
A1
111x
...
rx11
...
11bx
...
brx1
b
j
r
k
jkx1 1
1
br
x
x
b
j
r
k
jk
A
1 1
1
1
r
k
kx1
11 ...
r
k
bkx1
1
r
x
x
r
k
k 1
11
11 ...
r
x
x
r
k
bk
b
1
1
1
... ... ... ... ... ...
Nivelul
Aa
11ax
...
rax 1
...
1abx
...
abrx
b
j
r
k
ajkx1 1
br
x
x
b
j
r
k
ajk
aA
1 1
r
k
kax1
1 ...
r
k
abkx1
r
x
x
r
k
ka
a
1
1
1 ...
r
x
x
r
k
abk
ab
1
Total pe
coloane
a
i
r
k
kix1 1
1 ...
a
i
r
k
ibkx1 1
a
i
b
j
r
k
ijkx1 1 1
Mediile
FB ar
x
x
a
i
r
k
ki
B
1 1
1
1 ...
ar
x
x
a
i
r
k
ibk
bB
1 1
abr
x
x
a
i
b
j
r
k
ijk
1 1 1
Faţă de notaţiile anterioare, tabelul de mai sus foloseşte şi următoarele
notaţii:
iAx = media eşantioanelor pentru nivelul (tratamentul) i al factorului FA;
12 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
jBx = media eşantioanelor pentru nivelul (tratamentul) j al factorului FB;
ijx = media observaţiilor pentru nivelul (tratamentul) i al factorului FA şi
nivelul (tratamentul) j al factorului FB;
x = media totală (generală) a celor n observaţii înregistrate în
experiment.
Relaţiile de calcul pentru sumele pătratelor pentru fiecare sursă de variaţie
sunt următoarele:
Suma totală a pătratelor SST:
a
i
b
j
r
k
ijk xxSST1 1 1
2.
Suma pătratelor pentru factorul A, SSFA:
a
i
iA xxbrSSFA1
2.
Suma pătratelor pentru factorul B, SSFB:
b
j
jB xxarSSFB1
2.
Suma pătratelor pentru interacţiunea dintre factorul A şi factorul B,
SSFAB:
a
i
b
j
jBiAij xxxxrSSFAB1 1
2.
Suma pătratelor datorată erorilor, SSE;
SSFABSSFBSSFASSTSSE .
În continuare se determină mediile pătratice (varianţele) pentru fiecare
sursă de variaţie:
Media pătratică (varianţa) pentru factorul FA, MSFA:
1
a
SSFAMSFA .
Media pătratică (varianţa) pentru factorul FB, MSFB:
1
b
SSFBMSFB .
Media pătratică (varianţa) pentru interacţiunea dintre factorul FA şi
factorul B, MSFAB:
11
ba
SSFABMSFAB .
Media pătratică (varianţa) pentru erori, MSE:
1
rab
SSEMSE .
Media pătratică (varianţa) totală MST:
1
n
SSTMST .
În fine, acum se pot calcula valorile critice ale testului F pentru factorul FA,
factorul FB şi interacţiunea lor:
TEMA 5: ANALIZA VARIANŢEI (ANOVA) 13
MSE
MSFAFcalcFA ,
MSE
MSFBFcalcFB ,
MSE
MSFABFcalcFAB .
Ipotezele statistice care se pot defini în ANOVA bifactorială sunt
următoarele:
(1) Testarea ipotezei că nu există diferenţe ale mediilor – pe linie – datorate
factorului FA:
aAAAH ...: 210 ,
jiH jia ,: .
Ipozeza nulă se respinge cu nivelul de semnificaţie dacă:
)1(;1; rabaFF criticcalcFA .
(2) Testarea ipotezei că nu există diferenţe ale mediilor – pe coloană –
datorate factorului FB:
bBBBH ...: 210 ,
jiH jia ,: .
Ipozeza nulă se respinge cu nivelul de semnificaţie dacă:
)1(;1; rabbFF criticcalcFB .
(3) Testarea ipotezei că nu există interacţiune între factorul FA şi factorul
FB:
:0H Interacţiunea între FA şi FB este 0,
:aH Interacţiunea între FA şi FB este diferită de 0.
Ipozeza nulă se respinge cu nivelul de semnificaţie dacă:
)1(;1; rabbFF criticcalcFAB .
Cu ajutorul statisticilor F calculate se pot determina şi probabilităţile
corespunzătoare pentru verificarea prin metoda valorii p a ipotezelor ce ne
interesează.
Exemplul 5.3: Se consideră experimentul bifactorial din tabelul de mai jos.
Factori Factorul FB
Factorul
FA
Nivele B1 B2 B3
A1 390 418 396
A2 406 402 380
A3 402 412 374
Să se aplice, cu nivelul de semnificaţie = 0,05, procedura ANOVA bifactorială.
fără replicare.
Rezolvare: Având în vedere că pentru fiecare factor avem o singură
înregistrare vom aplica procedura ANOVA bifactorială fără replicare. Avem a = 3
, b = 3 şi 933 ban . Vom construi un tabel ANOVA adaptat situaţiei în
care avem numai valori ijx care reprezintă celula cu nivelul i din factorul FA
( 31 i ) şi nivelul j din factorul FB ( 31 j ). În acest scop bordăm tabelul
iniţial cu încă trei linii şi trei coloane.
14 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
Factori Factorul FB Total
pe linii
Mediile
FA 2xxiA
Factorul
FA
Nivele B1 B2 B3
A1 390 418 396 1204 401,33 12,64
A2 406 402 380 1188 396,00 3,16
A3 402 412 374 1188 396,00 3,16
Total
pe coloane 1198 1232 1150 3580 18,96
Mediile
FA 399,33 410,67 383,33 x 397,78
2xxiB 2,42 166,12 208,64 377,19
Putem acum calcula două sume de pătrate, respectiv:
Suma pătratelor pentru factorul A, SSFA:
56,8996,18333
1
2
i
iA xxSSFA .
Suma pătratelor pentru factorul B, SSFB:
1131,56377,19333
1
2
j
jB xxSSFB .
Pentru celelalte sume de pătrate, construim un tabel suplimentar prin
transpunerea liniilor tabelului iniţial. Obţinem:
FA FB ijij xx x iAx iBx 2xxij 2xxxx jBiAij
A1 B1 390 397,78 401,33 399,33 60,49383 166,1235
A1 B2 418 397,78 401,33 410,67 408,9383 14,2716
A1 B3 396 397,78 401,33 383,33 3,160494 83,01235
A2 B1 406 397,78 396,00 399,33 67,60494 71,30864
A2 B2 402 397,78 396,00 410,67 17,82716 47,45679
A2 B3 380 397,78 396,00 383,33 316,0494 2,419753
A3 B1 402 397,78 396,00 399,33 17,82716 19,75309
A3 B2 412 397,78 396,00 410,67 202,2716 9,679012
A3 B3 374 397,78 396,00 383,33 565,3827 57,08642
Total 1659,5556 471,1111
Putem acum calcula şi celelalte două sume de pătrate, respectiv:
Suma totală a pătratelor SST:
3
1
3
1
2
i j
ijk xxSST 1659,5556.
Suma pătratelor pentru interacţiunea dintre factorul A şi factorul B,
SSFAB:
3
1
3
1
2471,1111
i j
jBiAij xxxxSSFAB .
Suma pătratelor datorată erorilor, SSE:
0.471,11111131,5656,89 1659,5556
SSFABSSFBSSFASSTSSE
Rezultă tabelul de sinteză pentru aplicarea ANOVA bifactorială fără
replicare cu valorile:
TEMA 5: ANALIZA VARIANŢEI (ANOVA) 15
Sursa de
variaţie
Suma
pătratelor
Grade de
libertate
Media pătratică
(Varianţa) Testul F
Factorul FA SSFA =
=56,89 213
4444,28
1
a
SSFAMSFA
0,2415
MSFAB
MSFAFcalcFA
Factorul FB SSFB =
=1131,56 213
7778,565
1
b
SSFBMSFB
4,8038
MSFAB
MSFBFcalcFB
Interacţiunea
FA, FB
SSFAB =
=471,111 41313
117,7778
11
ba
SSFABMSFAB
Erorile SSE = 0
Totală SST =
=1659,5556 819
207,4444
1
n
SSTMST
Ipotezele statistice în ANOVA bifactorială pe care le analizăm , cu nivelul de
semnificaţie = 0,05, sunt următoarele:
(1) Testarea ipotezei că nu există diferenţe ale mediilor – pe linie – datorate
factorului FA. Avem:
6,94434;2;05,0FINV4;2;05,00,2415 criticcalcFA FF ,
deci ipozeza nulă se acceptă.
(2) Testarea ipotezei că nu există diferenţe ale mediilor – pe coloană –
datorate factorului FB. Avem:
6,94434;2;05,0FINV4;2;05,04,8038 criticcalcFB FF ,
deci ipozeza nulă se acceptă.
Cu ajutorul statisticilor F calculate determinăm acum probabilităţile
corespunzătoare pentru verificarea prin metoda valorii p a ipotezelor ce ne
interesează. Obţinem:
FAp FDIST(0,2415; 2; 4) = 0,7961 > 0,05,
FBp FDIST(4,8038; 2; 4) = 0,0964 > 0,05.
Observăm că şi conform metodei valorii p ipotezele nule se acceptă, atât
pentru factorul FA, cât şi pentru factorul FB.
În concluzie, analiza ne indică faptul că nu există o diferenţă semnificativă
între linii (factorul FA) şi nici între coloane (factorul FB).
Exemplul 5.4: Se consideră experimentul bifactorial din tabelul de mai jos.
Factori Factorul FB
Factorul
FA
Nivele B1 B2 B3
A1 1950 2090 1980
2030 2010 1900
A2 2010 2060 1870
2090 2120 1930
A3 2060 2050 2030
2100 2030 1960
Să se aplice, cu nivelul de semnificaţie = 0,05, procedura ANOVA bifactorială.
cu replicare.
16 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
Rezolvare: Având în vedere că pentru fiecare factor avem două înregistrări vom
aplica procedura ANOVA bifactorială cu replicare. Avem a = 3 , b = 3, r = 2 şi
18233 rban . Vom construi un tabel ANOVA în interiorul căruia
calculăm sumele şi pe coloană pentru fiecare factor FB, iar pentru totaluri pe
linie şi pe coloană bordăm tabelul iniţial cu trei linii şi trei coloane.
Factori Factorul FB Total
pe linii
Mediile
FA 2xxiA
Factorul
FA
Nivele B1 B2 B3
A1 1950 2090 1980
2030 2010 1900
Suma 3980 4100 3880 11960
Media 1990 2050 1940 1993,33 469,44
A2 2010 2060 1870
2090 2120 1930
Suma 4100 4180 3800 12080
Media 2050 2090 1900 2013,33 2,78
A3 2060 2050 2030
2100 2030 1960
Suma 4160 4080 3990 12230
Media 2080 2040 1995 2038,33 544,44
Total
pe coloane 12240 12360 11670 36270 1016,67
Mediile
FA 2040 2060 1945 x 2015
2xxiB 625 2025 4900 7550
Putem acum calcula primele două sume de pătrate, respectiv:
Suma pătratelor pentru factorul A, SSFA:
610067,10166233
1
2
i
iA xxSSFA .
Suma pătratelor pentru factorul B, SSFB:
4530075506233
1
2
j
jB xxSSFB .
Pentru celelalte sume de pătrate, construim un tabel suplimentar prin
transpunerea liniilor tabelului iniţial.
Putem acum calcula şi celelalte două sume de pătrate, respectiv:
Suma totală a pătratelor SST:
3
1
3
1
2
1
2
i j k
ijk xxSST = 85450.
Suma pătratelor pentru interacţiunea dintre factorii A şi B, SSFAB:
142007100223
1
3
1
2
i j
jBiAij xxxxSSFAB .
Suma pătratelor datorată erorilor, SSE:
19850.42001530041006 85450
SSFABSSFBSSFASSTSSE
TEMA 5: ANALIZA VARIANŢEI (ANOVA) 17
FA FB r ijkx x 2xxijk ijx iAx iBx 2xxxx jBiAij
A1 B1 1 1950 2015 4225 1990 1993,33 2040 802,78
A1 B1 2 2030 2015 225
A1 B2 1 2090 2015 5625 2050 1993,33 2060 136,11
A1 B2 2 2010 2015 25
A1 B3 1 1980 2015 1225 1940 1993,33 1945 277,78
A1 B3 2 1900 2015 13225
A2 B1 1 2010 2015 25 2050 2013,33 2040 136,11
A2 B1 2 2090 2015 5625
A2 B2 1 2060 2015 2025 2090 2013,33 2060 1002,78
A2 B2 2 2120 2015 11025
A2 B3 1 1870 2015 21025 1900 2013,33 1945 1877,78
A2 B3 2 1930 2015 7225
A3 B1 1 2060 2015 2025 2080 2038,33 2040 277,78
A3 B1 2 2100 2015 7225
A3 B2 1 2050 2015 1225 2040 2038,33 2060 1877,78
A3 B2 2 2030 2015 225
A3 B3 1 2030 2015 225 1995 2038,33 1945 711,11
A3 B3 2 1960 2015 3025
Total 85450 Total 7100
Rezultă tabelul de sinteză pentru aplicarea ANOVA bifactorială cu replicare
cu valorile:
Sursa de
variaţie
Suma
pătratelor
Grade de
libertate
Media pătratică
(Varianţa) Testul F
Factorul FA SSFA =
=6100 213
3050
1
a
SSFAMSFA
38,1
MSE
MSFAFcalcFA
Factorul FB SSFB =
=45300 213
22650
1
b
SSFBMSFB
27,10
MSE
MSFBFcalcFB
Interacţiunea
FA, FB
SSFAB =
=14200 41313
5503
11
ba
SSFABMSFAB
61,1
MSE
MSFABFcalcFAB
Erorile SSE =
19850 91233
6,2205
1
rab
SSEMSE
Totală SST =
=85450 171233
5,0265
1
n
SSTMST
Ipotezele statistice în ANOVA bifactorială pe care le analizăm , cu nivelul de
semnificaţie = 0,05, sunt următoarele:
(1) Testarea ipotezei că nu există diferenţe ale mediilor – pe linie – datorate
factorului FA. Avem:
4,269;2;05,0FINV9;2;05,038,1 criticcalcFA FF ,
de unde rezultă că ipozeza nulă se acceptă.
18 CERCUL ŞTIINŢIFIC MODELAREA STATISTICO-MATEMATICA A PROCESELOR
ECONOMICE
(2) Testarea ipotezei că nu există diferenţe ale mediilor – pe coloană –
datorate factorului FB. Avem:
4,269;2;05,0FINV9;2;05,027,10 criticcalcFB FF ,
de unde rezultă că ipozeza nulă se respinge.
(3) Testarea ipotezei că nu există interacţiune între factorul FA şi factorul
FB. Avem:
3,639;4;05,0FINV9;4;05,061,1 criticcalcFAB FF ,
de unde rezultă că ipozeza nulă se acceptă.
Cu ajutorul statisticilor F calculate determinăm probabilităţile
corespunzătoare pentru verificarea prin metoda valorii p a ipotezelor ce ne
interesează:
Obţinem:
FAp FDIST(1,38; 2; 4) = 0,2994 > 0,05,
FBp FDIST(10,27; 2; 4) = 0,0048 < 0,05.
FABp FDIST(1,61; 4; 9) = 0,2537 > 0,05.
În concluzie, analiza ne indică faptul că nu există o diferenţă semnificativă
între linii (factorul FA), dar există o diferenţă semnificativă între coloane
(factorul FB). De asemenea, nu există o diferenţă semnificativă între factori.
5.4 Bibliografie selectivă
1. Anderson, David, Dennis Sweeney, și Thomas Williams. Statistics for Business and
Economics. Mason: South-Western Cengage Learning, 205.
2. Bârsan-Pipu, Nicolae. Statistică economică - Note de curs. Braşov: UCDC - FBC,
2008.
3. Berenson, Mark, David Levine, și Timothy Krehbiel. Basic Business Statistics:
Concepts and Applications. Boston: Prentice Hall, 2012.
4. Francis, Andy. Statistică matematică pentru managementul afacerilor. Bucureşti:
Editura Tehnică, 2004.
5. Isaic-Maniu, Alexandru, Mitruţ Constantin, şi Voineagu, Vergil. Statistica pentru
managementul afacerilor. Bucureşti: Editura Economică, 1999.
6. Jaba, Elisabeta. Statistica. Bucureşti: Editura Economică, 2002.
7. Keller, Gerald. Statistics for Management and Economics. Mason: South-Western
Cengage Learning, 2012.
8. Mendenhall, William, şi Sincich, Terry. Statistics for the Engineering and Computer
Sciences. Santa Clara: Dellen Publishing, 1984.
9. Ott, Lyman, și Michael Longnecker. An introduction to statistical methods and data
analysis. Pacific Grove: Duxbury, 2001.
10. Ross, Sheldon. Introductory Statistics. Burlington: Elsevier, 2010.
11. Waller, Derek. Statistics for Business. Burlington: Butterworth-Heinemann, 2008.