Norbert Petrovici - ANOVA Simplu

download Norbert Petrovici - ANOVA Simplu

of 14

Transcript of Norbert Petrovici - ANOVA Simplu

  • Analiza de varian simplCompararea mediilor dintre grupuri

    [email protected]

  • Cnd se folosete metoda?Uneori dorim s rspundem la ntrebri de tipul:Exist diferene ale venitului mediu ntre persoanele cu ocupaii diferite sau educaie diferit.Exist diferene n performana medie educaional la copii provenii din medii sociale diferite.Exist diferene ntre venitul mediu al gospodriei i evaluarea direciei n care se ndreapt Romnia

    n aceste cazuri dorim s evalum relaia dintre valorile unei Variabile msurate pe o scal de intervale sau rapoarte (Y)In categoriile unei variabile categoriale (X)

    Analiza de varian este un test explorativ prin care se testeaz dac exist dovezi n privina diferenelor ntre un set de medii ale unor grupuri. dac exist suficiente dovezi n acest sens vom ncerca s estimm mrimea acestor diferene ntre perechile de medii.

  • Cnd se foloseste metoda?

  • Problema de rezolvat:Dorim s evalum n ce msur exist diferene reale ale (a) variabilei cantitative n (b) grupurile formate de variabila categorialS presupunem c avem dou seturi de date a. diferenele sunt foarte clare:

    b. diferenele sunt mai puin clare:

    n cazul n care grupurile se suprapun parial, care este criteriul utilizat pentru a decide dac chiar exist diferene? Mai ales dac trebuie s lum n calcul i erorile de eantionare, iar acest caz media nu este un indicator suficient al diferenelor (ea se generalizeaz la nivelul populaiei sub forma unui interval.

  • Ho: Ipoteza nulMedia variabilei cantitative Y este aceeai pentru toate cele m grupuri formate de variabila categorial X. = 1 = 2 = = m

    Ha: Ipoteza alternativCel puin dou medii sunt diferite

    Formularea problemei de rezolvat:

  • Logica analizei de varian: grupuri conturate i deprtateSoluia const n a evalua n ce msur grupurile formate (de valorile variabilei cantitative n clasele formate de variabila categorial) sunt diferite.A. Ct de deprtate sunt grupurile unele de alteleB. Gradul de heterogenitate a grupurilor (mrimea grupurilor)C. mprim distana dintre grupuri la hetorogenitatea grupurilorB. Distana dintre grupuri A. Mrimea grupurilor

  • B. Mrimea grupurilor: suma intragrupal a distanelor ptratice fa de mediePentru a calcula mrimea unui grup am putea folosi distana dintre cea mai mic i cea mai mare valoare. Atunci ns mrimea grupului va fi influenat de valorile extreme.

    O alt strategie ar fi s calculm toate distanele fa de un punct dat (de exemplu media) i s calculm media acestor distane. Dar abaterea standard este tocmai abaterea medie a valorilor de la medie. Prin urmare vom estima mrimea unui grup i cu ajutorul variantei: i2 = (Y1j - Y1)2/ niPutem calcula mrimile tuturor grupurilor, iar apoi le putem aduna. Adic:WSS = (Y1j - Y1)2 + (Y2j Y2)2 + + (Ymj - Ym)2Unde m este numrul total de grupuri. Astfel am obinut o mrime sintetic a mrimi tuturor grupurilor: suma intragrupal a distanelor ptratice fa de medie (Within Sume of Squares)

  • A. Distana dintre grupuri: suma intergrupal a distanelor ptratice fa de medie Astfel am obinut o mrime sintetic a distanelor tuturor grupurilor unele fa de altele: suma intergrupal a distanelor ptratice fa de medie (Between Sume of Squares)

  • C. Testarea HoIpoteza nul: valoare medie a variabilei Y este aceeai pentru toate cele m grupuri create de categoriile variabilei X = 1 = 2 = = mValoarea de test:

    F este mai mare cu ct:Distana dintre grupuri este mai mare sau dispersia mediilor grupurilor n jurul medie generale este mai mare iGrupurile sunt mai mici sau eroarea reprezentat de dispersia valorilor n interiorul grupurilor este mai micDeci valori relativ mari a lui F reprezint argumente puternice mpotriva Ho.Valoarea P este probabilitatea de a obine o valoare F care este cel puin la fel de mare ca cea observat de noi dac Ho ar fi adevrar. Prin urmare cu ct este mai mic P cu att ansele ca Ho s fie adevrate sunt mai mici. Pentru P < 0.05 putem respinge Ho

    F = Variana estimat intergrupalVariana estimat intragrupal

    F = BSS /(m-1)WSS /(N-m)

  • C. Testarea Ho: ExempluIpoteza nul: valoare medie a variabilei venit subiect este aceeai pentru toate cele 3 grupuri create de categoriile variabilei educaie = superior = mediu = elementar

    Suma intergrupal a ptratelor = 3659,794 grade de libertate = 3-1=2Suma intragrupal a ptratelor = 15943,278 grade de libertate = 1353-3 = 1350Ipoteza nul se respinge: valoarea p = 0.000 este probabilitatea de a obine o valoare F care este cel puin la fel de mare ca cea observat dac ar fi Ho adevrar. Adic este o valoare foarte mic.Se accept ipoteza alternativ: cel puin dou medii sunt egale. Care?

    F = 3659,794/215943,278/1350

  • Testul F al analizei de variane verific dac toate mediile variabilei Y sunt egale n categoriile variabilei X. Dac nu sunt egale i se confirm ipoteza alternativ nu tim care sunt categoriile n care mediile difer.

    De aceea putem compara toate mediile ntre ele pe rnd. ns i aici pot interveni erorile de eantionare: dac avem m categorii, atunci va trebui s facem m(m-1)/2 comparaiine ateptm ca n medie doar 95% dintre intervalele de confien n jurul diferenelor s conin valoarea real. Cu ct avem mai multe comparaii de fcut cu att este mai mare ansa de a face o inferen greit

    Soluia se gsete n intervale de confiden simultane: atunci cnd dorim s facem un numr mare de comparaii folosim proprietatea c toate intervalele conin cu o anumit probabilitate adevratele diferene ntre mediile grupurilor.O soluie incomplet: cine este diferit?Testele Post Hoc

  • Testele Post HocO soluie incomplet: cine este diferit?Pentru exemplu nostru iat intervale de confiden simultane.Dou medii vor fi considerate egale dac intervalul de confiden simultan conin valoarea 0 sau dac nivelul de probabilitate (sig.)
  • Pentru ca testul F s fie robust i puternic este nevoie s fie testate trei asumpii legate de date:

    1. Distribuia variabilei Y este normal n cele m grupuri formate de categoriile lui X

    2. Abaterea standard a distribuiei populaiei n cele m grupuri este egal

    3. Sunt selectate eantioane aleatorii independente pentru cele m populaiiAsumpii ale analizei de variane

  • Asumpia 2. Abaterea standard n cele m categoriiAceast asumpie este testat cu ajutorul testului Levene:Ho: 1=2==mHa: cel puin dou abateri sunt diferite

    Dac L > F(, m-1, N-m) atunci ipoteza nul (Ho) este respins i acceptat ipoteza alternativ (Ha). P este probabilitate de a obine o valoare F cel puin ct cea observat (L). Dac P