Metode Cantitative - Regresia Multipla

download Metode Cantitative - Regresia Multipla

of 34

Transcript of Metode Cantitative - Regresia Multipla

Regresia multiplCe vom nva n acest capitol: Ce este analiza de regresie multipl? Rolul important pe care l are computerul n analiza regresiei multiple. Cum pot fi utilizate distribuiile t i F pentru testarea semnificaiei relaiilor n analiza regresiei multiple. Conceptul de multicolinearitate. Utilizarea variabilelor fictive n analiza de regresie. Cesenelegeprinfuncii curbilinii deregresiei unmodel liniar generalizat. Cum poate fi utilizat analiza de regresie multipl n analiza varianei.Cuprins Modelul de regresie multipl Problema Butler Trucking Construirea ecuaiei estimate a regresiei Testarea semnificaiei relaiei Determinarea acceptabilitii modelului Utilizarea variabilelor calitative Stabilirea situaiilor n care trebuie s tergem sau s adugm variabile Estimare i predicie Funcii curbilinii de regresie Regresia multipl ca instrument de analiz a varianeiAm discutat deja asupra modului n care poate fi utilizat analiza de regresie pentru a construi ecuaii matematice care s ateste legturadintredouvariabile. Reamintimfaptul cvariabilacare urmeazafi explicat, sauasupracreiaurmeazafi efectuate predicii, poartnumele de variabil dependent; variabila care urmeaz a fi utilizat pentru predicii, sau observat, poart numele de variabil independent. Vom continua studiul analizei de regresie lund n considerare situaia care implic dou sau mai multe variabile independente i artnd modul n care tehnicile regresiei pot fi adaptatelamodelul relaiei curbilinii. Studiul modelelor de regresiecareimplicmai mult deovariabilindependenteste numit analiza regresiei multiple.15. 1. Modelul regresiei multipleConsiderm o situaie care se refer la vnzarea unui nou produs (y) ntr-o anumit regiune. Presupunem c avem motive s considerm c vnzrile au legtur cu dimensiunea populaiei (1x ) i cu repartizareavenitului mediu(2x ) al locuitorilor dinregiune, prin urmtorul model de regresie: + + + 2 2 1 1 0x x y (15. 1)Relaiadin(15. 1.)esteunmodel deregresiemultiplimplicnd dou variabile independente. Notm c dac02 , atunci2x nu este n relaie cu y i deci modelul de regresie multipl se reduce n acest caz la un model de regresie cu o sigur variabil independent i are astfel forma: + + 1 1 0x y. Modelul deregresiemultipl(15.1.) poatefi extinslacazul ap variabileindependentedoar prinadugareamai multor termeni. Cazul general este descris de relaia (15.2.):Modelul de regresie multipl + + + + + p p 2 2 1 1 0x ... x x y (15. 2)Notmc dac0 ...p 4 3 , atunci (15.2.) se reduce la modelul deregresiecudouvariabileindependente, din(15.1.). Toate presupunerile pe care le-am fcut asupra termenului eroare n cazul regresiei simple le vom pstra i n analiza regresiei multiple:este o variabil aleatoare normal distribuit, care ia valori pozitivei negativei reflecterorile, saudeviaiiledintre valoarea lui y i valoarea rezultat din calcul prin nlocuirea lui x corespunztor n + + + + + p p 2 2 1 1 0x ... x x. Eroarea are media egal cu zero: ( ) 0 M . Eroarea are dispersia 2 , care rmne aceeai indiferent de valorile variabilelor independentep 2 1x , ... , x , x. Valorile erorilor sunt independente.Utilizndpresupunerea2, putemaplicavaloareamedienambii membri din (15.2.) i obinemecuaia multipl a regresiei din (15.3.):( )p p 2 2 1 1 0x ... x x y M + + + + (15.3.)Aceastecuaie arat relaia dintre valorile variabilelor independentei mediavariabilei dependente. Pentruaptrunde mai profundnformapecarene-oofer(3), considermpentru moment urmtoarea ecuaie de regresie pentru dou variabile independente:( )2 2 1 1 0x x y M + + (15.4.)Graficul acestei ecuaii este un plan n spaiul tridimensional. Figura 15.1. aratoastfel dereprezentaregraficpentru1x i2x pe axele orizontale, iar y pe axa vertical. Notm c este diferena dintre valoarea efectiv a lui y i valoarea medie a lui y, ( ) y M, unde 1 1x xi 2 2x x . Figura 1. Reprezentarea grafic a ecuaiei de regresie pentru analiza regresiei multiple n cazul a dou variabile nanalizaderegresietermenul devariabilrspunseste utilizat adeseanlocul termenului devariabildependent. Mai departe, pentru c ecuaia de regresie multipl genereaz un plan, sau o suprafa, graficul ei este cunoscut sub numele de suprafa de rspuns. n capitolul anterior am utilizat metoda celor mai mici ptrate pentruaconstrui estimatori pentru0i1 pentrumodelul de regresie liniar simpl. n analiza de regresie multipl metoda celor mai mici ptrate se utilizeaz ntr-o manier similar pentru a construi estimatori pentru parametrii0,1 , ... , p. Aceti estimatori i vom nota cu 0 , 1 , ... respectiv p. Ecuaia estimat corespunztoare modelului de regresie multimpl este urmtoarea:Ecuaia estimat a regresieip p 2 2 1 1 0x... xx y + + + + (5)n acest punct vom ncepe s vedem similaritile ntre conceptele specifice analizei de regresie multipl i cele ale capitolului anterior. Vomextindeconceptelespecificeregresiei simplelacazul care implicdousaumai multevariabileindependente. nseciunea urmtoare vom aplica aceste concepte problemei companiei BT.2. Problema Companiei BTBT este o companiei independent localizat n sudul Californiei. Cea mai mare parte a afacerilor BT implic distribuie n acest perimetru. Pentruadezvoltaunprogramdemanagementmai bun, se impune construcia unei ecuaii estimate de regresie care va ajuta la efectuarea de predicii relativ la timpul zilnic total de lucru pentru oferii companiei. Iniial se credec timpul de lucru este n relaie strnscunumrul dekilometri caretrebuieparcuri. Afot ales aleator un eantion pentru 10 zile de munc. Datele obinute sunt trecute nTabelul 1, iar diagramascatter corespunztoareeste reprezentat n Figura 2.Ziua Mile parcurse Timpul cltoriei (ore)1 100 9,32 50 4,83 100 8,94 100 5,85 50 4,26 80 6,87 75 6,68 80 5,99 90 7,610 90 6,1Tabelul 1. Date preliminare pentru problema companiei BTDiagrama scatter arat faptul c numrul de km parcuri1xitimpul ct dureaz cltoriayaparcafiindnrelaiepozitiv: odat cu creterea lui 1xse nregistreaz i o cretere a lui y. Dup observarea diagramei scatter, managerulcompanieiemite ipoteza funcionalitii urmtorului model de regresie: + + 1 1 0x yFigura 2. Diagrama scatter pentru datele preliminare din problema companiei BTNotmcastanuestenimicaltcevadect modelul deregresie liniar simpl n care am nlocuit cu 1x pe x. Ca rezultat al acestei schimbri de notaie, vom utiliza i 1x pentru a desemna observaia cu numrul i a variabilei independente 1x . Tabelul 2 arat aplicarea formulelor pe care le ofer metoda celor mai mici ptrate i pe care le-amntlnit dejancapitolul referitor laregresialiniarsimpl, pentru calculul coeficienilor 0 i 1. Dup efectuarea rotunjirilor, ecuaiaestimataregresiei carearatrelaiadintre timpul de cltorie i i numrul milelor parcurse este dat de 1x 067 , 0 13 , 1 y + .Ziua (i)i 1x- milele parcurseiy- timpul de deplasare (ore)i 1xiy2i 1x1 100 9,3 930 100002 50 4,8 240 25003 100 8,9 890 100004 100 5,8 580 100005 50 4.2 210 25006 80 6,8 544 64007 75 6,6 495 56258 80 5,9 472 64009 90 7,6 684 810010 90 6,1 549 8100Total 815 66 5594 69625Tabelul 2. Calculul prin metoda celor mai mici ptrate pentru modelul care implic doar o singur variabil independent6 , 61066y , 5 , 8110815x1 ( )0671 . 08151016962566 8151015594xn1xy xn1y x22n1 iin1 i2in1 iin1 iin1 ii i1

,_

1314 , 1 5 , 81 0671 , 0 6 , 6 xy1 1 0 Mile parcurse(i 1x )Timpul de deplasare (iy )Timpul de deplasare estimat (iy)Erorileiy- iy(iy- iy)2100 9,3 7,830 1,470 2,160950 4,8 4,480 0,320 0,1024100 8,9 7,830 1,070 1,1449100 5,8 7,830 -2,030 4,120950 4.2 4,480 -0,280 0,078480 6,8 6,490 0,310 0,096175 6,6 6,155 0,445 0,198080 5,9 6,490 -0,590 0,348190 7,6 7,160 0,440 0,193690 6,1 7,160 -1,060 1,1236Suma ptratelor erorilor SSE 9,5669Tabelul 3. Calculul erorilor i al mrimii SSE pentru problema Butler Trucking, utiliznd 1x 067 , 0 13 , 1 y + Astfel, coeficientul de determinare este:6 , 0244331 , 14SSTSSRR2 Deoarece 6 , 0 R2 , concluzionmc60%dinvariaiilennivelul timpului decltorieesteexplicatderelaiacunumrul demile parcurse. Se observ c 40% din variaie este nc neexplicat iar analiza rezidual care este reprezentat n Figura 3 arat aceast problemi,mai mult,punentrebarea dac modelul utilizat este adecvat contextului. Cutnd posibile alternative, managementul firmei sugereaz c poate numrul de livrri ar putea fi de ajutorla estimarea timpului de cltorie i deci la mbuntirea modelului de regresie. Datele care cuprind i numrul de livrri sunt prezentate n Tabelul 4 unde prin i 2xam notat numrul livrrilor efectuate n ziua i.Ziua(i)Mile parcurse(i 1x )Numr livrri(i 2x )Timpul de deplasare (iy )1 100 4 9,32 50 3 4,83 100 4 8,94 100 2 5,85 50 2 4.26 80 1 6,87 75 3 6,68 80 2 5,99 90 3 7,610 90 2 6,1Tabelul 4. Date pentru problema companiei BT cu numrul de mile parcurse (i 1x ) i numrul de livrri (i 2x ) ca variabile independenteConsidernd numrul de livrri incluse ca o a doua variabil independent, se obine umtorul model de regresie mulipl: + + + 2 2 1 1 0x x y (6)Am notat: 1x=numrul de mile parcurse; 2x= numrul de livrri; y = timpul de cltorie. Aa cum am artat n seciunea 1, pe baza presupunerii c valoarea medie a termenului eroare este zero acest model implic fptul c valoarea ateptat a lui y este n relaie cu 1xi 2xdup cum urmeaz: ( )2 2 1 1 0x x y E + + (7)Desigur, valorile parametrilor2 1 0, , nu vor fi cunoscute n practicdeci avemnevoiedeestimareaacestorautiliznddatele statistice din Tabelul 4. Ecuaia estimat a regresiei este de forma:2 2 1 1 0xx y + + .(8)n seciunea urmtoarevomvedeacumputem determina valorile corespunztoare pentru 2 1 0,, .3. Construcia ecuaiei estimate a regresieinCapitolul 14amprezentat formulepentruestimarealui 1 0, pentru modelul de regresie + + 1 1 0x y. n cazul general al regresiei multiple prezentarea obinuit a formulelor de calcul al coeficienilor ecuaiei estimate a regresiei imlic utilizarea algebrei matriceale iaceasta depete scopurile prezentuluitext.Totui, pentru cazul special n care discutm dou variabile putem arta ce se ntmpl. n aceast se ciune ne vom ocupa cu determinarea lui 2 1 0,, pentru situaie a dou variabile independente pe care o presupune problema BT. n seciunea anterioar am artat c prin includerea efectului numrului de livrri obinem urmtoarea ecuaie estimat a regresiei:2 2 1 1 0xx y + + , unde1x =numrul demileparcurse;2x =numrul delivrri. Utiliznd aceste notaii, valoarea prezis pentru observaia cu numrul i este: i 2 2 i 1 1 0 ixx y + + undei 1x =valoareacunumrul i alui1x ,i 2x =valoareacu numrul i a lui2x , iariy este valoarea prezis pentru timpul de cltorieexprimat noreatunci cnd1x =i 1x i2x =i 2x . Pentru cazul a dou variabile, reziduurile se definesc dup cum urmeaz:Reziduul pentru observaia i =( )i 2 2 i 1 1 0 i i ixx y y y + + (9)Metodacelormai mici ptratedeterminvalorile2 1 0,, care minimizeaz suma ptratelor reziduurilor. Astfel, trebuie s alegem 2 1 0,, astfel nct s satisfac urmtorul criteriu:( ) [ ]2i 2 2 i 1 1 0 ixx y min + + (10)Utiliznd calcul diferenial poate fi artat c valorile 2 1 0,, care minimizeaz (10) trebuie s satisfac urmtoarele trei ecuaii, numite ecuaii normale.Ecuaiile normale cazul a dou variabile( ) ( ) + + i 2 i 2 1 i 1 0yxxn(11)( ) ( ) ( ) + + i i 1 2 i 2 i 1 12i 1 0 i 1y xx xxx(12)( ) ( ) ( ) + + i i 2 22i 2 1 i 2 i 1 0 i 2y xxx xx(13)Pentru a aplica ecuaiile normale trebuie s utilizm mai nti datele pentru a determina valorile coeficienilor lui 2 1 0,, i valorile din partea dreapt a acestor ecuaii. Datele necesare pentru problema BT se afl n Tabelul 5. iyi 1xi 2x2i 1x2i 2xi 1xi 2xi 1xiyi 2xiy9,3 100 4 10000 16 400 930 37,24,8 50 3 2500 9 150 240 14,48,9 100 4 10000 16 400 890 35,65,8 100 2 10000 4 200 580 11,64.2 50 2 2500 4 100 210 8,46,8 80 1 6400 1 80 544 6,86,6 75 3 5625 9 225 495 19,85,9 80 2 6400 4 160 472 11,87,6 90 3 8100 9 270 684 22,86,1 90 2 8100 4 180 549 12,266,0 815 26 69625 76 2165 5594 180,6Tabelul 5. Calculul coeficienilor pentru ecuaia normal a regresieiUtiliznd informaiile din Tabelul 5 putem face nlocuirile n ecuaiile normale i obinem: 6626815102 1 0 + + (14)55942165696258152 1 0 + + (15)6 , 180762165262 1 0 + + (16)Prin rezolvarea acestui sistem de ecuaii obinem soluia:7639 , 0, 0562 , 0, 0367 , 02 1 0 nconsecin, ecuaiaestimataregresiei pentruproblemaBT este:2 1x 7639 , 0 x 0562 , 0 0367 , 0 y + + .Not asupra interpretrii coeficienilor:Putem face acum o observaie n legtur cu relaia dintre ecuaia estimat a regresiei n care numrul de km parcuri apare ca unic variabil independent i cea care conine numrul de livrri ca a douavariabilindependent.Valoarealui1nuesteaceeai n cele dou cazuri. n regresia liniar simpl l interpretm pe 1 ca fiind cantitatea cu care se modific y ca urmare a modficriicu o unitate a variabilei independente. n cazul regresiei multiple, interpretareatrebuiesasemodificecumva. nregresiamultipl interpretm coeficienii dup cum urmeaz:ireprezint modificarea care apare la y ca urmare a modificrii cu o unitate a variabilei independenteix , cnd toate celelalte variabile independente sunt meninute constante. De exemplu, n problema BT sunt implicate dou variabile independente i 0562 , 01 . Aadar, timpul de cltorie este de ateptat s nregistreze o cretere cu 0,0562 ore ca urmare a creterii cu o unitate a numruluide km parcuri, numrulde livrrirmmnd constant. Similar, din7639 , 02 aflm c durata cltoriei va fi de ateptat s se majorezecu0,7639 oredac numruldelivrri crete cu1i numrul de km parcuri rmne neschimbat. ExerciiiExerciiul1. Un magazin de pantofi a construit urmtoarea ecuaie estimat a regresiei, care arat relaia dintre vnzri, investiia n inventar si cheltuielile cu reclama:2 1x 8 x 10 25 y + + unde 1x = cheltuielile cu reclama (mii USD);2x = vnzri (mii USD).a) Estimaivnzrile dac exist 15.000 USD investiin inventar i un buget pentru reclam de 10.000 USD.b) Interpretai parametrii acestei ecuaii a regresiei.Exerciiul 2.Proprietarul unui cinematograf ar dori sa investigheze efectul pe care l are reclama televizat asupra ncasrilor sptmnale pentru anumite filme care beneficiaz de promoii speciale. Se cunosc urmtoarele date istorice:ncasri sptmnale (mii USD) Reclam televizat (mii USD)96 590 295 492 2.595 394 3,594 2,594 3a) Pebazaacestordate,construii o ecuaieestimata regesiei care atar relaia dintre ncasrile sptmnale i cheltuielile cu reclama televizat.b) Estimai venitul sptmnal pentru 3500 USD cheltuii pentu reclam televizat. Exerciiul 3.Considermposibilitateaincorporrii efectului reclamei n ziare alturi de cel al reclamei televizate asupra ncasrilor sptmnale. Se cunosc urmtoarele date istorice: ncasri sptmnale (mii USD)Reclam n ziar (mii USD)Reclam televizat (mii USD)96 1,5 590 2 295 1,5 492 2,5 2.595 3,3 394 2,3 3,594 4,2 2,594 2,5 3Am notat 1x=cheltuielile cu reclama n ziar (mii USD); 2x= cheltuielile cu reclama televizat (mii USD).a) Scriei ecuaiile normale care trebuie rezolvate pentru a gsi 2 1 0,, .b) Rezolvai aceste ecuaii i determinai ecuaia estimat a regresiei pentru ncasrile sptmnale n funcie de cheltuielile cu cele dou tipuri de reclam.c) Coeficientul carecorespundecheltuielilor cureclama televizat este acelai pentru Exerciiul 2a i Exerciiul 3b?Interpretai rezultatul nfiecaredintreceledou cazuri n parte.Exerciiul 4.Compania H consider c nivelul vnzrilor pentruunanumit prodsudepindedepreul acestuiai d preul produselor similare oferite de concuren. Vom nota cu y cantitatea vndut (mii USD), 1x = preul produsului concurent (USD); 2x= preul produsului companiei H (USD). Se dorete estimarea ecuaiei de regresie care pune n legtur nivelul vnzrilor cu cele dou preuri. Datele urmtoare aduc informaii din zece orae diferite.Preul prodsului concurentPreul produsului companiei HCantitatea vndut120 100 102140 110 100190 90 120130 150 77155 210 46175 150 93125 250 26145 270 69180 300 65150 250 85a) Scriei ecuaiile normale.b) Rezolvai ecuaiile normale entru a obine valorile parametrilor din ecuaia estimat a regresiei.c) Prognozai cantitatea vndut ntr-un ora unde preul produsului Companiei H este 160 USD iar al competitorilor este 170 USD.d) Interpretai parametrii ecuaiei estimate a regresiei.15.5. Determinarea acceptabilitii modeluluiTestelepecarele-amdiscutat ncursul anterior ar trebui sfie utilizate doar atunci cnd ipotezele referitoare la termenul eroare sunt ndeplinite. Aceste ipoteze sunt importante pentru c ele stau defaptlabazatestelorpecarele-amprezentatanterior. Analiza rezidual ne va permite s judecm n ce msur sunt ndeplinite aceste ipoteze i, de asemenea, n ce msur modelul pe care l-am ales casdescriedatelepecarele-amavut ladispoziie este corespunztor sau nu. Se poate ntmpla ca datele s fie descrise mai bine pe baza unui alt tip de model, a unei alte funcii dect cea liniar, iar analiza rezidual ne ajut s stabilim dac lucrul acesta se ntmpl sau nu.Analiza rezidual 2 1x 7639 , 0 x 0562 , 0 0367 , 0 y + + Analizarezidualdinregresiamultiplestesimilarcuaceeadin regresia care implic o singur variabil independent. Una dintre cele mai obinuite reprezentri care poate fi utilizat pentru examinarea ipotezelor legate de termenul eroare este reprezentareareziduurilor nraport cuvalorileiy. (nanalizade regresieestedeasemeneadesntlnitexaminareareprezentrii reziduurilor n raport cu oricare dintre variabilele independente ale modelului.) Figura urmtoare arat acest tip de analiz a reziduurilor pentruproblemaBT, pentrucareecuaiaestimata regresiei este0367 , 0 y +1x 0562 , 0 +2x 7639 , 0 + . Prin compararea acestei reprezentri grafice cu acelea care sunt tipice unor reziduuri care arat c modelul este relevant, putem concluziona c n figura de mai jos nu nregistrm niciun fel de anomalii care s ne spun c erorile nu ar ndeplini ipotezele. Analiza reziduala - BT.spoFigura 6. Reprezentarea reziduurilor n raport cu valorile iy pentru problema BTPrin urmare, vomconcluziona c ipotezele modelului apar a fi ndeplinitei deci concluziilestatisticepecarele-amenunat ca urmare a testrii semnificaiei sunt justificate.Intensitatea relaiein acest moment putem spune c am concluzionat asupra faptului c ipotezele modelului sunt corespunztoare i c ecuaia estimat a regresiei0367 , 0 y 1x 0562 , 0 +2x 7639 , 0 + este statistic semnificativ. Aceastanseamncexistorelaiesemnificativ ntre 1x , 2xi y i c ecuaia estimat a regresiei poate fi utilizat pentrupredicii asupravalorilor y. Acum, amdori scalculmo valoare care s indice o msur a intensitii relaiei, sau a bunei potriviri a ecuaiei de regresie cu datele observate. n cazul modelului liniar unifactorial, amutilizat coeficientul de determinare 2r pentru a evalua intensitatea relaiei de regresie i l-am calculat dup formula:SPTSPRr2 .nanalizaregresiei multiplesecalculeazocantitatesimilarpe care o numim coeficient de determinare multipl:Coeficientul de determinare multiplSPTSPRR2 (21)Atunci cndestenmulitcu100,acestcoeficientdedeterminare multipl reprezint procentul din variaia lui y care poate fi explicat de ecuaia estimat a regresiei. n cazul problemei firmei de curierat, gsim7896 , 00000 , 249499 , 18R2 Prin urmare, 78,96% din variaia luiy este explicat de relaia cu numrul de kilometri parcuri de o main i cu numrul de livrri. Dac ne referim la prima seciune discutat pentru acest model, se observ c atunci cnd am luat n calcul ca variabil independent doar numrul dekilometri parcuri deomaincoeficientul de determinare a fost 6 , 0 r2 . Prin urmare, procentul care explic variabilitatea a crescut de la 60%la 78,96%. n general, este adevrat c procentul corespunztor lui 2Rva crete pe msur ce n ecuaia de regresie se adaug noi variabile independente, pentru c adugarea de variabile face ca erorile de predicie s fie din ce n ce mai mici deci se reduce valoarea lui SPE. Din cauza relaiei SPT = SPR + SPT, atunci cnd SPE devine din ce n ce mai mic, SPR devine din ce n ce mai mare i atunci raportul prin care este definit2R , anume SPTSPRR2 , va crete. Muli analiti recomandajustareavalorii2R pentrunumrul de variabile independente, pentru a evita supraestimarea impactului pe care l are adugarea de alte variabile independente la explicarea variabilitii lui y. Acest aa zis coeficient ajustat de determinare se calculeaz astfel:Coeficientul ajustat de determinare multipl( )1 p n1 nR 1 1 R2 2a (22)unde n este numrul de observaii, iar p este numrul de variabile independente. Pentru problema BT, obinem:( ) 7295 , 01 2 101 107896 , 0 1 1 R2a Att valoarea 2R , ct i valoarea 2aRsunt oferite de SPSS.Exerciii10. Referitor la datele din Exerciiul 8:a) Calculai 2Rb) Calculai 2aRc) Modelul explic o mare parte din variabilitatea datelor?11. Referitor la datele din Exerciiul 5:a) Pentru ecuaia estimat de regresie, calculai 2Rb) Calculai 2aRc) Modelul explic o mare parte din variabilitatea datelor?15.6. Utilizarea variabilelor calitativePn acum, variabilele pe care le-am utilizat n construcia modelului care exprim timpul total de lucru au fost variabile cantitative, adicvariabilecaresemsoarntermeni devalori numerice (numr de kmparcuri,sau numr delivrri).Frecvent, totui, suntem n situaia s inserm n astfel de modele variabile care nu pot fi msurate n termeni de valori numerice. Ne vom referi la astfel de variabile ca lavariabile calitative. De exemplu, s presupunem c suntem interesai s estimm nivelul vnzrilor unui produs care se comercializeaz att n sticle, ct i n pachete. n modevident, variabilaindependenttipul derecipientarputea influena variabila dependent nivel al vnzrilor, dar natura containerului este o variabil calitativ pe care nu o putem msura pe baza a ct de mult?; aceste variabile se utilizeaz ca s descrie atribute care sunt sau nu sunt prezente.Svedemacummodul ncareputemutilizavariabilelecalitative pentru problema firmei de curierat. Presupunemc managerul firmei bnuiete c tipul mainii utilizate este de asemenea importantnstabilireatimpului delucrupentruunangajat. Acest tip de main este un exemplu de variabil calitativ. Tabelul9 arat mulimea extins de date pentru problema firmei BT, n care am adugat variabila independent tipul de main ca fiind a treia variabil independent. Pentru a incorpora efectul variabilei calitative n model, vom defini urmtoarea variabil x3:'van pentru , 1scuter pentru , 0x3nanalizaderegresie, oastfel devariabilpoartfirnumelede variabil dummy, fie de variabil indicator. Tabel 15.9. Datele pentru problema firmei de curierat, care includ tipul mainii utilizateZiua (i) Numr km parcuri (x1)Numr de livrri (x2)Tipul mainii (x3)Timp de lucru (y ore)1 100 4 Van 1 9,32 50 3 Scuter0 4,83 100 4 Van 1 8,94 100 2 Scuter0 5,85 50 2 Scuter0 4,26 80 1 Van 1 6,87 75 3 Van 1 6,68 80 2 Scuter0 5,99 90 3 Scuter0 7,610 90 2 Van 1 6,1Prinadugareaacestei atreiavariabilelafunciaanterioarde regresie folosit pentru estimarea timpului de lucru, obinem:( )3 3 2 2 1 1 0x x x y E + + + (1)Se poate observa c atunci cnd x3 0, corespunztor situaiei n care maina este un scuter, ecuaia de regresie se reduce la ( )2 2 1 1 0x x y E + + (2)Dac, dimpotriv, dorimsvedemtimpul delucruatunci cnd maina utilizat este un van, avem x3 1 i prin urmare ecuaia de regresie folosit este:( )3 2 2 1 1 0 x x y E + + + (3)Dac facem diferena ntre (3) i (2), deducem c 3este de fapt diferena n timpul de lucru care se datoreaz folosirii unui van n loc de un scuter. Pornind de la (1), obinem ecuaia estimat a regresiei pentru situaia n care lum n considerare variabila calitativ:3 3 2 2 1 1 0x b x b x b b y + + + Ca de obicei, valoarea 3beste estimatorul lui3care rezult din metoda celor mai mici ptrate. Soluia problemei BTEcuaia estimat a regresiei care rezult prin utilizarea SPSS este:3 2 1x 9 , 0 x 71 , 0 x 046 , 0 522 , 0 y + + + Seobserv, aadarc9 , 0 b3 . Aadar, ceamai bunestimarea diferenei ntre timpul ateptat de lucru care provine din utilizarea unor tipuri deferite de main este de 0,9 ore, adic 54 de minute. Pentru a testa semnificaia variabilei3xn contextul n care variabilele 2 1x , xsunt date vom stabili ipotezele:o : H0 : H3 13 0Utilizm 05 , 0 i 6 1 p n grade de libertate i oblinem din tabel valoarea luit ca fiind 447 , 2 t025 , 0. Din datele rezultate din analiza computerizat, deducemc7 , 1 528 , 0 / 9 , 0 s / b3b 3 . Deoarece1,7 2,447, nu putem respinge ipoteza nul i trebuie s concluzionm c tipul mainii nu este, de fapt, un factor semnificativ n estimarea timpului de lucru, odat ce numrul de kilometri parcuri i numrul delivrri aufostluatencalcul. Concluziafinalestenuctipul mainii nu este semnificativ n sine, ci c el nu mai este semnificativ odat ce au fost luate n calcul celelalte dou elemente. Acesta este un aspect deosebit de important, care va fi discutat n continuare.Exerciii12. Urmtorul model de regresie a fot propus pentrua estima nivelul vnrilor la un fast food: x x x y3 3 2 2 1 1 0+ + + + . Semnificaia variabilelor este urmtoarea:1x estenumrul decompetitori perazde1 km; 2xeste populaia pe raz de un km, exprimat n mii de persoane;3xia valoarea 1 dac exist o fereastr special pentrumaini (drive upwindow) i iavaloarea0dac aceast fereastr nu exist; y este nivelul vnzrilor, exprimat n mii euro. Dup nregistrarea de date efective de la 20 de fast-fooduri, a fost construit urmtoarea ecuaie estimat a regresiei:3 2 1x 3 , 15 x 8 , 6 x 2 , 4 1 , 10 y + + a) Careestenivelul vnzrilorcareseatribuieferestrei pentru maini?b) Estimai nivelul vnzrilor pentru un punct fast food cu doi competitori i populaie de 3000 de locuitori pe raz de 1 km i fr fereastr pentru maini.c) Estimai nivelul vnzrilor pentru un punct fast food cu doi competitori i populaie de 3000 de locuitori pe raz de 1 km i cu fereastr pentru maini.13. Pentruainvestigarelaiadintretimpul petrecutdeo main n service pentru reparaii i timpul care a trecut de la reparaia precedent exprimat n luni (1) i natura defeciunii, care poate fi mecanic sau electric (2), au fot culese urmtoarele date:Timpul pentru reparaii (ore)Timpul trecut de la precedenta solicitare de service (luni)Tipul defeciunii2,9 2 Electric3 6 Mecanic4,8 8 Electric1,8 3 Mecanic2,9 2 Electric4,9 7 Electric4,2 9 Mecanic4,8 8 Mecanic4,4 4 Electric4,5 6 ElectricIgnorai acumtipul defeciunii. Construii unmodel liniar simplu pentru a estima durata reparaiei, pe baza numrului de luni de la ultima solicitare se service. 14. Ecuaia pe care ai construit-o la exerciiul anterior ofer o bun aproximare a datelor observate? Explicai.15 +16. Aceast poblem este oextensie a problemei descrise la Exerciiul 13. n ncercarea de a incorpora posibilele efecte ale tipului de defeciune, a fost adugat urmtoarea variabil dummy:'mecanic , 0electric , 1x2Odat adugat aceast variabil, ecuaia de regresie devinedeforma( )2 2 1 1 0x x y E + + , unde1x estenumrul de luni care au trecut de la precedenta solicitare de service, iar y este timpul necesar pentru reparaii, exprimat n ore. Care este interpretarea lui2 n aceast ecuaie de regresie?Ecuaia estimat de regresie n acest caz este:2 1x 2627 , 1 x 3876 , 0 9305 , 0 y + + 17. Pentruunnivel desemnificaie05 , 0 , testai dac ecuaia de regresie construit n exerciiile 15 + 16 indic o relaie semnificativ ntre variabila dependent i variabilele independente. 18. Considera c ecuaia pe care ai construit-o la Exerciiile 15 + 16 este mai potrivit dect cea pe care ai construit-o la exerciiul 13? Explicai.19. Utilizai ecuaiaestimataregresiei dinexerciiul 16 pentru a determina n medie cu ct difer timpul de service pentru o main care are o defeciune electric, fa de o main cu o defeciune mecanic.15.7. Stabilim cnd s adugm i cnd s tergem variabilen seciunea 15.4. am discutat asupra utilizrii unui test F pentru a determina dac este sau nu avantajos s adugmo anumit variabil, sau un grup de variabile, ntr-un model de regresie multipl. Acesttest sebazeazpedeterminareagradului ncare suma ptratelor erorilor se reduceca urmare a adugrii uneia sau mai multor variabile independente n model. Vom ilustra mai nti utilizarea testuluin cazulproblemeiBT, stabilinddac adugarea variabilei 2xla modelul iniial cu o singur variabil (numrul de km parcuri) a fost sau nu avantajoas. Cu numrul de kmparcuri ca unic variabil independent , metoda celor mai mici ptrate conduce la urmtoarea ecuaie estimat a regresiei:1x 067 , 0 13 , 1 y + Tabelul 15.3. arat calculul reziduurilor i valoarea SPE pentru aceast ecuaie. Vedem din acest tabel c SPE 9,5669Odatceamadugat2x ,numrul delivrri, caadouavariabil independent a modelului, am obinut ecuaia estimat a regresiei ca fiind:2 1x 7639 , 0 x 0562 , 0 0367 , 0 y + + . Din Tabelul 15.6. se observ c n acest caz SPE 5,0501. n mod evident, prin adugareacelei de-adouavariabile s-aobinut o reducere a valorii SPE. ntrebarea creia dorim s i rspundem este urmtoarea: Prinadugareavariabilei2x s-aobinut oreducere semnificativa valorii SPE, sau puteam s meninem modelul cu o singur variabil?Pentruaceastseciune, vomutiliza notaiaSPE(1x ) pentrua desemna suma ptratelor erorilor pentru modelul cu o singur variabili notaiaSPE(1x ,2x ) pentrusumaptratelor erorilor pentru modelul cu dou variabile. Deci, reducerea care s-a nregistrat prin trecerea de ma modelul unifactorial la modelul bifactorial este SPE (1x,2x) - SPE (1x) 9,5669 5,0501 4,5168Aplicm acum testul F pentru a stabili dac aceast reducere este semnificativ. Numrrorul statisticii F pe care o utilizmeste reducerea care s-a nregistrat n valoarea SPE, mprit la numrul devariabileadugatelamodelul iniial. ncazul defa, afost adugat o singur variabil i ca atare numitorul utilizat este 1:( ) ( )1x , x SPE x SPE2 1 14,5168Numrtorul este, aadar, omsurareducerii SPEpervariabil adugat n model. Numitorul statisticii FestemediaMPEaptratelorerorilorpentru modelul care include toate variabilele. n cazul nostru, aceasta corespunde modelului care include att variabila 1x , ct i variabila 2xi deci valoarea p este 2:( )7214 , 070501 , 51 p nx , x SPEMPE2 1 Urmtoarea statistic F ofer baza de testare a semnificaiei adugrii celei de-a doua variabile n model:( ) ( )( )1 2 10x , x SPE1x , x SPE x SPEF2 12 1 1 (15.26)Numrul de grade de libertate de la numrtorul testului F este egal cu numrul variabilelor adugate n model, iar numrul gradelor de libertate de la numitor este 10 2 1. Pentru problema firmei de curierat, obinem prin calcul direct:26 , 670501 , 515168 , 4F Pede alt parte,din tabele obinem la un nivel de semnificaie 05 , 0 :59 , 5 F05 , 0Pentru c 59 , 5 F 26 , 6 F05 , 0 > , respingem ipoteza nul cum c 2xnu estestatistic semnificativ. Cualtecuvinte, adugarealui2x n model aconduslaoscderesemnificativaerorii deestimare (exprimat c sum a ptratelor erorilor) pe care am fi fcut-o prin utilizarea unei singure variabile i anume a lui 1x . Atunci cnddorimstestmsemnificaiaadugrii unei singure variabile independente unui model deja existent, rezultatul pe care l-am obinut pe baza testului F se poate obine i pe baza testului t pe care l-ai nvat n Seciunea 15.4. ntr-adevr, statistica pe care tocmai am calculat-o este ptratul statisticii t pe care o utilizm ca s stabilim dac un anumit parametru este nul. Pentru c testul t este echivalent cu testul F doar pentru o singur variabil independent suplimentar, detaliile cu privire la utilizarea lui pentru parametrii individuali sunt clare. Dac un parametru individual nueste semnificativ, atunci variabila corespunztoare poate fi eliminat din model. Totui, pe baza acestui test nu putem eliminadectosingurvariabil: dacovariabilesteeliminat, cealalt variabil care nu a fost iniial semnificativ, poate deveni. Revenim la ntrebarea legat de cte variabile putem aduga astfel nct rezultatul s fie ntr-adevr o reducere semnificativ a sumei ptratelor erorilor. Cazul general:Considermurmtorul model deregresie multiplcareimplic un numr de q variabile independente: x ... x x yq q 2 2 1 1 0+ + + + + (15.27)Dac adugm variabilele1 qx+ ,2 qx+ , ...,px, vom obine un model care implic p variabile independente: x ... x x x ... x x yp p 2 q 2 q 1 q 1 qq q 2 2 1 1 0+ + + + ++ + + + + + + + +(15.28)Pentru a testa dac adugarea acestor variabile este statistic semnificativ, fixm ipoteza nul i pe cea alternativ astfel:0 ... : Hp 2 q 1 q 0 + +: H1 cel puin unul dintre coeficieni este diferit de zeroUrmtoarea statistic ofer baza de testare a semnificaiei statistice a variabilelor adugate n model:( ) ( )( )1 p nx ..., , x , x , x ..., , x , x SPEq px ..., , x , x , x ..., , x , x SPE x ..., , x , x SPEFp 2 q 1 q q 2 1p 2 q 1 q q 2 1 q 2 1 + ++ + (15.29)Sfacemobservaiacpentrucazul particularncareqeste1, (15.29) se reduce la (15.26).Exerciii20. ntr-o analiz de regresie care implic 27 de observaii, a fost obinut urmtoarea ecuaie estimat a regresiei: 3 2 1x 8 , 5 x 1 , 12 x 3 , 2 3 , 16 y + + De asemenea, au fost obinute urmtoarele erori standard: 53 , 0 s1b,15 , 8 s2b,30 , 1 s3b. La un nivel de semnificaie 05 , 0 , testai urmtoarele ipoteze:a)0 : H1 0 versus 0 : H1 1b)0 : H2 0 versus 0 : H2 1c)0 : H3 0 versus 0 : H3 1d) Gsii vreuna dintre cele trei variabile care s poat fi eliminat din model? De ce da, sau de ce nu?21. ntr-o analiz de regresie care implic 30 de observaii, a fost obinut urmtoarea ecuaie estimat a regresiei: 4 3 2 1x 7 , 2 x 6 , 7 x 3 , 2 x 8 , 3 6 , 17 y + + + .Pentru acest model, SPT 1805 i SPR 1705. a) Calculai 2Rb) Calculai 2aRc) Testai semnificaia relaiei dintre variabile la un nivel de semnificaie 05 , 0 22. ReferitorlaExerciiul 21: variabilele1x i4x aufost elimitatedinmodel i afostobinuturmtoareaecuaie estimat a regresiei:3 2x 1 , 8 x 6 , 3 1 , 11 y + Pentru acest model, SPT 1805 i SPR 1705. a) Calculai ( )4 3 2 1x , x , x , x SPEb) Calculai( )4 2x , x SPEc) Utilizai testul Fi unnivel de semnificaie05 , 0 pentru a stabili dac 1xi 4xcontribuie semnificativ la model. 15.8. Estimare i predicieEstimarea valorii medii a lui y i predicia unei valori individuale y n regresiamultimplsuntsimilareaceloradinregresiasimpl, care implic doar o variabil independent. Reamintim mai nti faptul c n Capitolul 14 am artat c estimatorulvalorii ateptatea lui y pentru oanumit valoare xa fostacelaica iestimatorulvalorii individuale y. Am folosit ca estimator pe x b b y1 0 + .n regresia multipl utilizm aceeai procedur. Mai exact, nlocuim valorile lui p 2 1x ..., , x , xn ecuaia estimat a regresieii utilizm valoareacarerezultpentru p p 1 1 0x b ... x b b y + + + caestimator. n cazul problemei firmei decurierat dorimsfacectevaestimri astfel:o S estimm valoarea medie a timpului de lucru pentru toatemainilecareparcurg50dekmi audefcut dou livrri.o Sestimmtimpul delucrupentruoanumitmain care parcurge 50 de km i are de fcut dou livrri.Pebazaecuaiei deregresiepecareamdeterminat-oanteriori nlocuind valorile50 x1 i2 x2 obinem:3745 , 4 2 7639 , 0 50 056 , 0 0367 , 0 y + + Deci estimatorul timpului delucrupentruambelesituaii estede aproximativ 4,4 ore. Pentru a construi un interval de estimare pentru valoarea medie a lui y i pentru o valoare individual y, utilizm aceeai procedur ca i n cazul regresiei simple. Formulele care sunt implicate aici sunt dincolo de scopurile propuse pentru acest material. Cu toate acestea, pachetele computerizate pentru regresia multipl ofer adesea informaii despre intervalele de ncredere odat ce valorile pentrup 2 1x ..., , x , x sunt specificate. n Tabelul 15.10. sunt indicate intervaleledencredere95%pentruproblemafirmei decurierat, pentru valori precizate ale variabilelor1x i2x . Trebuie s observm c intervalele de estimare pentru valori individuale ale lui ysuntmai mari dectcelepentruvaloareamedieatimpului de lucru. Aceasta reflect faptul c pentru valori date ale lui1x i2xputem prognoza cu mai mult precizie timpul mediu de lucru pentru toate mainile care sencadreaznacele condiii,dect ncazul unei singure maini. Tabelul 15.10. Intervale de ncredere 95% pentru problema firmei de curieratValoarea lui 1xValoarea lui 2xValoarea ateptat a lui yValoarea individual a lui yLimita inferioarLimita superioarLimita inferioarLimita superioar50 2 3,0841 5,6649 1,9869 6,762150 3 3,7127 6,5642 2,6750 7,601880 1 3,9907 6,7097 2,9006 7,692680 2 5,2984 6,8226 3,9120 8,2091100 2 6,0774 8,2916 4,8908 9,4782100 4 7,4853 9,9394 6,3584 11,0662Exerciii:23. Referitor laecuaiaderegresiedinExerciiul 22, fie 10 x2 i 20 x3 . Estimai valoarea lui y. 24. Urmtoarea ecuaie estimat a regresiei a fost construit pentru a prognoza vnzrile anuale realizate de angajaii unui departament de vnzri:2 1x 15 x 8 160 y + + , unde1x numrul de ani de experien n domeniu i 1 x2 dac respectivul angajat a urmat cursuri de pregtire specific, iar0 x2 altfel. a) Estimainivelulanualalvnzrilor pentruun angajat care are trei ani de experien n domeniu i care nu a urmat niciun curs de pregtire n domeniu.b) Estimainivelulanualalvnzrilor pentruun angajat carearedoi ani deexperienndomeniui carea urmat cursuri de pregtire n domeniu.c) Care este nivelulateptat de cretere a vnzrilor ca rezultat al urmrii unui curs de pregtire n domeniu?15.9. Funcii curbilinii de regresieCa ilustrare a unei situaii care implic o ecuaie de regresie care nu indic orelaie liniar, sanalizmproblema unui fabricant de materiale de construcii. Conducerea firmei a studiat nivelul vnzrilor unui anumit produs n sensul relaiei particulare care se stabilete ntre dimensiunea comenzii pe care o realizeaz anual un acelai client i numrul de solicitri pe care fabricantul le primete anual. A fost selectat aleator un eantion provenind de la apte clieni, iar datele rezultate sunt cele din Tabelul 15.11. i respectiv din Figura 15.8. Tabelul 15.11. Dimensiuneacomenzilor solicitateanual i numrul de comenzi, pentru problema ofertantului de materiale de construciiNumr de comenzi (x)Vnzri anuale (mii lei)2 123 174 165 246 267 348 46Figura 15.8. Diagrama scatter pentru datele dinTabelul 5.11.Conformreprezentrii dinFigura15.8. aparecafiindrezonabil s considerm c relaia dintre x i y poate fi aproximat printr-o linie dreapt. Calculul unei astfel de ecuaii estimate a regresiei conduce la urmtoarele rezultate:x 21 , 5 07 , 1 y + , cu91 , 0 r2 .DacrealizmuntestFdesemnificaiepentru05 , 0 , obinem concluzia c x i y sunt ntr-adevr n relaie. Lista reziduurilor care corespundacestei regresii estereprezentatnTabelul 15.12. i respectiv n Figura 15.9.Tabelul 15.12. Reziduurile pentru ecuaia estimat a regresiei x 21 , 5 07 , 1 y + ClientVariabila xVariabila yValoareaestimat yReziduul y y 1 2 12 9,35 2,652 3 17 14,56 2,443 4 16 19,77 - 3,774 5 24 24,98 - 0,985 6 26 30,19 - 4,196 7 34 35,40 - 1,407 8 46 40,61 5,39Figura 15.8.Reprezentarea reziduurilor pentru ecuaia estimat a regresiei x 21 , 5 07 , 1 y + Din analiza Tabelului 15.12. se poate observa c exist ceva deranjant nmodul ncaresunt distribuite reziduurile negative: patru astfel de valori una dup alta, ceea ce nseamn c modelul liniar cumvasupraestimeazvariabiladependentpentruaceste valori. Mai mult, reprezentarea reziduurilor din Figura 15.8. nu arat cpunctelearfi aleator distribuitedeopartei dealtaaliniei orizontale pe msur ce valorile lui y cresc. Cu toate c relaia dintre cele dou variabile s-a dovedit a fi intens i statistic semnificativ, putem s ncepem s ne ntrebm dac ipoteza pe care am impus-o, anume c relaia dintre variabile ar fi una liniar este ntr-adevr corect. Din modul n care arat diagrama scatter pe care am reprezentat-o n Figura 15.8. ne putemgndi cpoateorelaieneliniarestemult mai apropiatde realitate. S presupunem acum c ipoteza iniial este aceea a unei relaii ntre x i y de tipul x y21 0+ + . La prima vedere, acesta pare a fi un model complet diferit de cel pe care l-am studiat anterior. Totui, dac nlocuim 2x cu o variabil pe care o notm cu z, putem rescrie modelul de regresie astfel: z y1 0+ + Aceast nou form de model sugereaz c pentru estimarea coeficienilor si putemutiliza aceeai procedur cai ncazul anterior, n care variabila independent era notat cu x. Vom rescrie formulele pe care le putem utiliza acum, n care singura modificare fa de cazul deja studiat al regresiei cu o singura variabil independent va fi notaia diferit a acesteia: z n loc de x.( )2i2ii i i i1zn1zy zn1y zb (15.30)z b y b1 0 (15.31.)Pentru problema ofertantului de materiale de construcii, avem 2i ix z . Singura diferen care apare n calculul coeficienilor este c va trebui s folosim valorile 2x n loc de valorile x. Calculul coeficienilor 0b i 1beste rezumat n Tabelul 15.13. Tabelul 15.13. Calculul coeficienilor ecuaiei estimate a regresiei pentru 21 0x b b y + Clientul xz 2xy zy2z1 2 4 12 48 162 3 9 17 153 813 4 16 16 256 2564 5 25 24 600 6255 6 36 26 936 12966 7 49 34 1666 24017 8 64 46 2944 4096Totaluri 35 203 175 6603 8771297203nzzi 257175nyyi ( )5298 , 0203718771175 203716603zn1zy zn1y zb22i2ii i i i1 6358 , 9 29 5298 , 0 25 b0 Rotunjind valorile rezultate la doar dou zecimale i apoi nlocuind z cu 2x, obinem urmtoarea ecuaie estimat a regresiei:2x 53 , 0 64 , 9 y + Aceast ecuaie indic o relaie curbilinie (ptratic) ntre x i y. O reprezentaregraficareziduurilor pentruacest noumodel este prezentat n Figura 15.10. Acum se pare c tiparul neobinuit care aprea mai devreme a fost eliminat. Se poate arta c relaia dintre y i 2x este statistic semnificativ i c n acest caz coeficientul de determinare este 0,97. Figura 15.10. Reprezentarea reziduurilor pentru ecuaia de regresie 2x 53 , 0 64 , 9 y + Pe baza acestei analize, recomandm ca pentru perspectiva efecturii unor predicii s fie utilizat ecuaia estimat a regresiei 2x 53 , 0 64 , 9 y + . Cu toate acestea, trebuie spus c nu recomandm ca acest model s fie utilizat pentru efectuarea de predicii n afara intervalului de valori pe care le-am observat pentru x. Modelul liniar generalModelul deregresiemultiplcupvariabileindependentepoatefi generalizat pentruaincludefuncii curbilinii pentruuneledintre variabilele independente. Un model general de regresie care include p variabile independente poate fi scris astfel: x ... z z yp p 2 2 1 1 0+ + + + + (15.32.)n (15.32.), fiecare dintre variabilele z este o funcie de alte variabile x. Ce mai simplu caz este acela n care i ix z pentru toate cele p valori posibile ale lui i. Exist, desigur, i situaii mai complexe. Un exempluar puteafi acelapentrucarep 2,1 1x z i21 2x z . Modelul se scrie, n acest caz, astfel: x x y21 2 1 1 0+ + + Multealtemodele pot fi imaginatepentruancercadescrierea relaiei dintre variabile pentru diferitele situaiipractice. n analiza de regresie, (15.32.) este cunoscut sub numele de model statistic liniar. Termenul liniar face referire aici la faptul c toi coeficienii p 2 1 0 ..., , , , ai modelului au exponent 1 i nu are legtur cu faptul c relaia dintre variabile este liniar. Modelele n care coeficienii p 2 1 0 ..., , , , ai modelului au exponeni diferii de 1 sunt cunoscute sub numele de modele statistice neliniare.Chiar in aceste cazurise poate uneoris le transformmn modele statistice liniare care s ne permit s aplicmtehniciledecalcul delamodelul liniar. Deexemplu, s considerm urmtoarea ecuaie neliniar de regresie:x1 0 ) y ( E (15.33.)Prin logaritmare n ambii membri ai ecuaiei, obinem:( )1 0 log x log ) y ( E log + (15.34.)Snotmacum( ) ) y ( E log y ,0 0 log i1 1 log . Ecuaiade regresie devine:x y1 0 + . Este limpede c acum pot fi utilizate formulele pentru regresia liniar simpl pentru a determina estimatori pentru 0 i 1, iar ecuaia estimat a regresiei va fi:x b b y1 0 + (15.35.)Pentru a obine predicii pentru variabila dependent original, anumey, datfiindovaloarealui x, vatrebui camai nti s nlocuim valoarea x n (15.35.) i s determinm astfel y. Aplicnd inversa funciei logaritm luiy vom obine valoarea cutat pentru y, sau pentru valoarea ei medie. nncheiereaacstei seciuni dorimsclarificmfaptul cexist multe modele neliniare care nu pot fi transformate n modele liniare echivalente. Aceste modele au, ns, aplicabilitate limitat n domeniul economiei i al afacerilor. Instrumentul matematic necesar studiului acestor modele depete scopurile prezentului material. Exerciii25. Poliia rutier realizeaz un studiu cu privire la relaia dintre fluena traficului n zone aglomerate i viteza cu care se circul. Se presupune c urmtorul model este o ipotez corespunztoare pentru a descrie aceast relaie: x y1 0+ + , unde y reprezint fluena traficului i este exprimat n vehicule pe or, iar x este viteza vehiculelor i este exprimat nkmpe or. Urmtoarele date aufost obinute la orele de vrf n ase zone aglomerate din ora: Fluena traficului (y)Viteza autovehiculelor (x)1256 351329 401226 301335 451349 501124 25a) Construii o ecuaie estimat a regresiei pentru aceste date.b) Testai relaiapecareai obinut-o, launnivel de semnificaie de 0,01.26. Referitor la problema anterioar, statisticienii sugereaz utilizarea urntoarei ecuaii de regresie: 22 1 0x b x b b y + + . a) Utilizaidatele de la Ecerciiul25 pentru a determina parametrii acestei ecuaii estimate a regresiei.b) Testai, la un nivel de semnificaie de 0,01, semnificaia relaiei pe care ai obinut-o.c) Estimai fluena traficului exprimat n vehicule pe or, dac viteza de cirsulaie este de 38 km/or. 27. Urmtoarea ecuaie de regresie a fost construit pentru adescrierelaiacaresestabiletentrenivelul vnzrilor (mii lei) i dimensiunea magazinului (10.000 mp): 2x 10 x 100 150 y + . Ecuaia a fost construit pe baza datelor provenite dintr-un eantion format cu 10 magazine. Au fost obinute, de asemenea, valorile:168000 SPTi140000 SPR . a) Calculai 2Ri 2aRb) Testai semnificaia statistic a relaiei la un nivel de semnificaie de 0,05.15.10. Regresia multipl i analiza varianein seciunea 15.6. amdiscutat utilizarea variabilelor dummy n analizaderegresiemultipl. naceastseciuneartmcumpot utilizarea variabilelor dummy ntr-o ecuaie de regresie cu mai multe variabile poate oferi o alt abordare pentru rezolvarea problemelor de analiz a varianei. Ne vom referi la exemplul GMAT din Capitolul al 13 lea.Reamintim c obiectivul studiului GMAT a fost s stabilim dac cele trei programe de pregtire (o sesiune recapitulativ de trei ore; un program de recapitulare de o zi i un curs de 10 sptmni) sunt diferitenmodul ncaresereflectnpunctajul obinut dectre studeni laexamenul final. Amavutladispoziiedatedeselecie provenite de la studeni care au urmat cele trei programe de pregtire i ne-am referit la cele trei populaii corespunztoare.ncepem abordarea cu ajutorul analizei de regresie prin definirea a douvariabiledummycarevor indicapopulaiadincareafost selectat fiecaredintreeantioane. PentrucnproblemaGMAT exist trei populaii, avem nevoie de doar dou variabile dummy. n general, n problem dac exist k populaii, atunci avem nevoie de doar k 1 variabile dummy. n Tabelul 15.14. definim 1xi 2x . Tabelul 15.14. Variabilele dummy pentru problema GMAT1x2x Aceste valori sunt utilizate ori de cte ori:0 0 Observaia este asociat programului de 3 ore1 0 Observaia este asociat programului de o zi0 1 Observaia este asociat programului de 10 sptmniPutem utiliza variabilele dummy 1x i2x pentru a pune n relaie punctajul obinut de fiecare student cu tipul de program pe care l-a urmat. Vom nota cu E(y) valoarea ateptat a punctajului GMAT, iar aceast valoare este:( )2 2 1 1 0x x y E + + Astfel, dac suntem interesai s tim care este punctajul ateptat pentru un student care a urmat un program de pregtire de 3 ore, nuavemdect snlocuimvalorile variabilelor independenten ecuaia de regresie: ( )0 2 1 0 0 0 y E + + Aadar, putem interpreta valoarea lui 0 ca fiind valoarea ateptat a punctajului pe care l obine un student care a urmat un program depregtirede3ore. ncontinuare, svedemcareesteforma ecuaiei estimate a regresiei pentru fiecare dintre celelalte programe. Pentru programul de o zi,1 x1 i0 x2 . Atunci:( )1 0 2 1 0 0 1 y E + + + Similar, pentru programulde10 sptmni, avem0 x1 i 1 x2 . Atunci:( )2 0 2 1 0 1 0 y E + + + Observm c 1 0 +este valoarea ateptat a punctajului pe care l obine un student care a urmat un program de pregtire de o zi, iar 2 0 +estevaloareaateptatapunctajului pecarel obineun student care a urmat un program de pregtire de zece sptmni. Dorim acums estimm aceticoeficieniis construim ecuaia estimat aregresiei carene va ajutasdeterminmpunctajul ateptat pentru orice programde pregtire. Eantionul de 15 observaii care a provenit de la cei 5 studeni pentru fiecare din cele trei programe este n Tabelul 15.15. i a fost prelucrat cu ajutorul unui soft special de analiz a datelor. Rezultatele acestei analize au condus la urmtoarele valoripentru estimatorii celor trei coeficieni:509 b0 , 17 b1 i 43 b2 . n consecin, ceamai bunestimarepentruvalorileateptateale punctajelor celor trei programe este nregistrat n tabelul urmtor:Tipul programului Estimatorul lui E(y)3 ore de recapitulare509 b0 Program de o zi 526 17 509 b b1 0 + +Curs de 10 sptmni552 43 509 b b2 0 + + Tabelul 15.15. Datele iniiale pentru problema GMATObservaia1x2xy3 ore recapitulare 0 0 4910 0 5790 0 4510 0 5210 0 503Program de o zi 1 0 5881 0 5021 0 5501 0 5201 0 470Curs de 10 sptmni0 1 5330 1 6280 1 5020 1 5370 1 561Trebuie s observm c aceste cele mai bune estimri pe care le-am obinut pe baza analizei de regresie coincid cu valorile medii din fiecare eantion pe care le-amgsit atunci cnd amaplicat procedura ANOVA i anume:509 x1 ,526 x2 , 552 x3 . S vedem cum putem utiliza rezultatele pe care le-am obinut din analiza datelor de regresie pentru a efectua testarea ANOVA asupra diferenei demedii pentruceletrei programe. Sobservmmai nti c, dac nu exist diferene ntre medii, atunci:E(y) pentru programul de o zi E(y) pentru programul de 3 ore 0E(y) pentru programul de 10 sptmni - E(y) pentru programul de 3 ore 0PentrcE(y) pentruprogramul deozi 1 0 +, E(y) pentru programul de 3 ore 0 i E(y) pentru programul de 10 sptmni 2 0 +, diferenele de mai sus se rescriu astfel:E(y) pentru programul de o zi E(y) pentru programul de 3 ore 1E(y) pentru programul de 10 sptmni - E(y) pentru programul de 3 ore 2Deci, ajungem la concluzia c nu exist diferene ntre medii n cazul n care 0 1 i 0 2 . Aadar,ipoteza nul pe care trebuie s o avem n vedere este:0 : H2 1 0 S reamintim din Seciunea 15.4. c dac dorim s testm semnificaia relaiei de regresie prin acest tip de ipotez, avem de comparatvaloarearaportului MPR/MPEcuvaloareacriticalui F care are ca numr de grade de libertate la numrtor i la numitor, acelai numr degradedelibertatepecareleauSPRi SPE, respectiv. n cazul nostru, SPR are dou grade de libertate i SPE are 12 grade de libertate. Prin urmare, valorile MPR i MPE sunt urmtoarele:2345246902SPRMPR (SPSS)2165122598012SPEMPE (SPSS)Prin urmare, valoarea calculat a lui F este 2345/2145, adic 1,0831. La un nivel de semnificaie egal cu 0,05 valoarea critic a lui F cu dou grade de libertate la numrtor i 12 grade de libertate la numitor este 3,89. Pentru c valoarea calculat a lui F este mai mic sau egal cu valoarea critic a lui F, nu putem respinge ipoteza nul 0 : H2 1 0 , ceeacenseamncnuputemconcluzionacar exista diferene ntre rezultatul celor trei programe de pregtire.