ELEMENTE DE ANALIZĂ DISPERSIONALĂ (ANOVA)
description
Transcript of ELEMENTE DE ANALIZĂ DISPERSIONALĂ (ANOVA)
ELEMENTE DE ANALIZĂ DISPERSIONALĂ
(ANOVA)
CURS 5
ANALIZA DISPERSIONALĂ (ANOVA)
Metoda analizei dispersionale (ANOVA) (“analiză de varianţă”), este utilizată pentru a verifica gradul în care valorile reale, empirice ale unei caracteristici se abat de la valorile teoretice, determinate în general cu ajutorul mediilor sau al ecuaţiilor de regresie.
Ea studiază efectul variabilei/variabilelor independente asupra celei dependente, altfel spus, măsura în care variaţia caracteristicii rezultative este dependentă sau nu de factorul (factorii) de grupare.
are la bază metoda grupării, prin ea separându-se influenţa factorilor esenţiali (determinanţi) de influenţa factorilor consideraţi întâmplători (aleatori) asupra caracteristicii “efect”.
în funcţie de numărul factorilor înregistraţi ce-şi exercită influenţa asupra caracteristicii rezultative (unul, doi sau mai mulţi), analiza dispersională se poate efectua după un model unifactorial, bifactorial sau multifactorial.
ANALIZA DISPERSIONALĂ (ANOVA)
Pentru fiecare variantă/interval de variaţie a caracteristicii cauzale X, se înregistrează o distribuţie de valori ale variabilei efect Y, distribuţie pe care o putem caracteriza, de regulă, prin nivelul mediu.
Dacă aceste medii ale variabilei Y, pe grupe după X sunt egale sau foarte puţin diferite, atunci se concluzionează că variabila independentă X nu influenţează variaţia variabilei dependente Y (vezi a)
Cu cât mediile lui Y pe grupe după X diferă mai mult unele de altele, cu atât X influenţează mai mult pe Y.
Analiza dispersională unifactorială
a) medii de grupă egale; b) mediile de grupă inegale
Analiza dispersională unifactorială
Ipoteza nulă susţine egalitatea între mediile grupelor din colectivitatea generală, alcătuite după variabila X:
Ipoteza alternativă susţine că cel puţin două medii ale grupelor nu sunt egale:
Se testează, deci, dacă diferentele intre mediile de grupă nu sunt prea mari pentru a fi puse doar pe seama întâmplării (a factorilor aleatori), iar dacă există cel puţin două medii semnificativ diferite, înseamnă că factorul de grupare X are o influenţă semnificativă asupra variabilei Y.
Mediile grupelor din colectivitatea generală sunt aproximate prin mediile grupelor din eşantion ( , ),
r ....... : H 210
ji : H 1 j i
iy ri ,1
Analiza dispersională unifactorială
Analiza dispersională unifactorială
Medii condiţionate (medii parţiale):
Media generală a eşantionului:
i
n
jij
i n
y
y
i
1 ri ,1
r
i
i
r
i
n
j
ij
n
y
y
i
1
1 1
r
i
i
r
iii
n
ny
1
1
Analiza dispersională unifactorială
Totalitatea factorilor de
influenţă ai lui Y
Factori sistematici, determinanţi (X –
factorul de grupare)
+
Factori neesenţiali, aleatori (ceilalţi
factori, în afară de X)
=
Variaţia totală a lui Y
= Variaţia dintre grupe
+ Variaţia din
interiorul grupelor
Varianţa totală a lui Y =
Varianţa sistematică, factorială + Varianţa reziduală
Analiza dispersională unifactorială
Varianţa dintre grupe (varianţă factorială, sistematică) arată influenţa factorului cauzal asupra variaţiei lui Y:
Varianţa din interiorul grupelor (varianţă reziduală) exprimă influenţa factorilor aleatori asupra lui Y:
Varianţa totală reflectă influenţa tuturor factorilor (sistematici – X şi reziduali) asupra lui Y:
r
1ii
2i1 n)y-y(S
r
1i
n
1j
2iij2
i
)y-(y S
21
2r
1i
n
1j
ij
i
)y-(y S SS
Analiza dispersională unifactorială
Pentru a asigura comparabilitatea varianţelor, ele sunt raportate la numărul gradelor de libertate, obţinându-se dispersii corectate:
Dispersia corectată factorială (sistematică):
Dispersia corectată reziduală:
1-r
n)y-y(
1-r
Ss
r
1i
i2
i12
1
r-n
)y-(y
r-n
Ss
r
1i
n
1j
2iij
222
i
Analiza dispersională unifactorială
Testul F (Fisher) este raportul între dispersia corectată sistematică şi cea reziduală:
Presupuneri pentru aplicarea testului F: cele “r” grupe din eşantion sunt extrase aleator din cele “r” grupe ale
colectivităţii totale; Fiecare grupă din colectivitatea generală are o distribuţie normală, iar
abaterile medii pătratice ale acestora sunt egale:
22
21
s
s F
r ...21
Analiza dispersională unifactorială
Analiza dispersională unifactorială
Valoarea calculată a testului F se compară cu valoarea critică, corespunzătoare nivelului de semnificaţie α şi gradelor de libertate (r-1) şi (n-r): F α; r-1; n-r.
Regula de decizie este: Dacă Fcalc≤ F α; r-1; n-r , atunci se acceptă H0, deci mediile de grupă nu
diferă semnificativ unele de altele, iar eventualele diferenţe ce pot apare pot fi puse pe seama întâmplării. În acest caz, variabila Y este independentă de factorul de grupare X şi analiza dispersională este punctul final al analizei.
Dacă Fcalc> F α; r-1; n-r , atunci se acceptă H1, deci între mediile de grupă există o diferenţă semnificativă, care nu poate fi pusă pe seama acţiunii factorilor aleatori. În acest caz, variabila Y depinde semnificativ de factorul de grupare X şi trebuie aplicate în continuare metodele de analiză a legăturilor dintre variabile.
Analiza dispersională unifactorială
Aplicaţie: Un producător de sucuri de mere a realizat un nou produs: concentrat
lichid. Acest produs are câteva avantaje faţă de vechiul produs, printre care:
Este mai practic (uşor) de utilizat; Are o calitate cel puţin la fel de bună ca şi a vechiului produs; Preţul noului produs este semnificativ mai mic decât al vechiului produs.
Pentru a decide care este cea mai bună strategie de marketing, directorul acestui departament a dispus realizarea unui studiu în 3 oraşe:
În oraşul A, campania de publicitate s-a axat pe uşurinţa folosirii noului produs; În oraşul B, campania de publicitate s-a axat pe calitatea net superioară a noului
produs; În oraşul C, campania de publicitate s-a axat pe preţul inferior al noului produs.
În toate cele 3 oraşe, s-au înregistrat vânzările săptămânale, în mai multe săptămâni consecutive.
Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între vânzările medii săptămânale din cele 3 oraşe (nivel de semnif. 5%)
Analiza dispersională unifactorială
Aplicaţie:
;3,2,1,
,:
:
1
3210
ji
jiH
H
ji
Analiza dispersională unifactorială
Volumul mediu al vânzărilor pe fiecare strategie:
Volumul mediu al vânzărilor pe total:
Varianţele:
6210
6201 y 69
8
5522 y 58
12
6963 y
27,6230
1890y
86,58112)27,6258(8)27,6269(10)27,6262(n)y-y(S 222r
1ii
2i1
22147903621062)y-(y Sr
1i
n
1j
2iij2
i
Analiza dispersională unifactorială
Dispersiile corectate:
Statistica F:
Cum rezultă că se respinge H0, se acceptă H1, deci cel puţin două medii diferă semnificativ. Aşadar, pentru o probabilitate de 95%, se poate afirma că tactica de marketing aleasă pentru promovare produsului a influenţat vânzările.
93,2901-3
86,581
1-r
Ss
121 82
3-30
2214
r-n
Ss
222
55,382
93,290
s
s F
22
21
calc
35,327;2;05,0,1, FFF rnrcritic
criticcalc FF
Aplicaţie. Prelucrare în EXCEL
Aplicaţie. Prelucrare în EXCEL
Varianţă sistematică
Varianţă reziduală
Varianţă totală
Grade de libertate
Dispersie corec-tată sistematică
Dispersie corec-tată reziduală
Val. calc. a test F
Nivel minim de semnificaţie→prob. maximă cu care garantăm că H1 adev.
Val. critică a test F
Analiza dispersională unifactorială
Analiza dispersională unifactorială
Formulele devin:
m
1jij
m
1jijj
i
n
ny
y
r
1ii.
r
1ii.i
m
1j.j
m
1j.jj
n
ny
n
ny
y
r
1i
i2
i1 n)y-y(S ij
r
1i
m
1j
2ij2 n)y-(y S
Modelul de analiză dispersională bifactorială
se identifică doi factori de influenţă, iar variabilitatea caracteristicii rezultative poate să fie pusă: pe seama influenţei primului factor; pe seama influenţei celui de-al doilea factor; pe seama interacţiunii celor doi factori; pe seama întâmplării (factorului rezidual).
Concluzii modelele de analiză dispersională nu explică relaţia dintre variabile verifică doar măsura în care valorile reale ale unei caracteristici se
abat de la valorile teoretice, precum şi măsura în care aceste variaţii sunt sau nu dependente de factorul/factorii de grupare.
metoda analizei dispersionale poate fi utilizată atât înaintea, cât şi după aplicarea metodelor corelaţiei şi regresiei statistice.
Testul F se poate utiliza şi pentru testarea validităţii modelului de regresie.
în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt niveluri ale unei variabile categoriale (numite şi tratamente), dar, cum ceea ce este valabil pentru o scală inferioară (nominală) este valabil şi pentru orice altă scală superioară (ordinală, de intervale, de rapoarte), analiza se poate extinde.