_Econometrie UI2

1

CURS ECONOMETRIE

Unitatea de învăţare 2:

FUNDAMENTAREA DECIZIILOR FOLOSIND TESTAREA IPOTEZEL OR

STATISTICE

Cuprins:

1. Ce am învăţat în Unitatea de învăţare 1

2. Obiectivele Unităţii de învăţare 2

3. Concepte generale în testarea ipotezelor statistice

4. Repartiţii teoretice remarcabile

5. Testarea ipotezei cu privire la legea de repartiţie a unei variabile aleatoare

6. Răspunsuri şi comentarii la testele de autoevaluare

7. Bibliografia Unităţii de învăţare 2

8. Lucrare de verificare 2

1. Ce am învăţat în Unitatea de învăţare 1

“ Econometria poate fi definită ca analiza cantitativă a fenomenelor economice actuale

bazată pe dezvoltarea în paralel a teoriilor şi observaţiilor relativ la metodele de inferenţă

potrivite” (P.A. Samuelson, T.C. Koopmans, J.R.N. Stone – Econometrica 1954)

Modelul econometric: Descrie, cu ajutorul unui set de simboluri, relaţiile de dependenţă

dintre fenomenele economice, pe baza unei ecuaţii sau a unui sistem de ecuaţii, permiţând

înţelegerea, explicarea sau obţinerea de informaţii noi privind comportamentul fenomenelor

cercetate.

Variabilele economice determină structura modelului econometric: variabile exogene sau

variabile endogene

Variabila aleatoare (ε): sintetizează totalitatea variabilelor (în afara celor factoriale) care

influenţează variabila endogenă, dar nu sunt specificate în cadrul modelului (factori aleatori)

Variabila timp (t) se introduce în anumite modele econometrice ca variabilă fictivă.

Într-un model econometric, un fenomen oarecare X=(x1, x2, ...,xn) poate fi introdus cu

următoarele valori:

2

• Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură

specifice naturii fenomenului cu media x şi dispersia 2xσ

• Valori centrate : xxx ii −=* cu media 0 şi dispersia 2xσ

• Valori centrate şi normate: x

ii

xxx

σ−=** cu media 0 şi dispersia 1

Tipuri de date:

• date de tip profil : "tăieturi informaţionale" efectuate într-o populaţie la un moment dat

• date de tip serii de timp: "secţiuni informaţionale" de-a lungul axei timpului

• date de tip panel: "tăieturi informaţionale mixte" transversale şi longitudinale, în

raport cu axa timpului.

Relaţiile statistice pe care se formulează modelul econometric pot fi:

• relaţii de identitate: sunt formulări logice cu privire la procesul economic descris

• relaţii de comportament: ecuaţii stochastice care modelează răspunsul variabilei

endogene Y la un set de valori ale variabilei exogene X;

• relaţii tehnologice: restricţiile impuse output-urilor în raport cu input-urile

• relaţii instituţionale: reflectă unele reglementări impuse de lege

Tipologia modelelor econometrice

1. după numărul factorilor luaţi în considerare

• modele unifactoriale: Y = f(X)+ ε

• modele multifactoriale: Y = f(X1,X2,...,Xp)+ ε

2. după forma legăturii dintre variabila rezultativă şi variabilele cauză

• modele liniare

• modele neliniare

3. după sfera de cuprindere a modelului

• modele globale (agregate)

• modele parţiale

4. după includerea factorului timp în model

• modele statice: Y t = f(X1t,...,Xjt,...,Xkt) + εt

• modele dinamice: Yt = f(Xt,t) + ε t ; Yt = f(X t,Yt-k) + ε t ;Yt = f(Xt,Xt-1,... Xt-k) + ε t

5. După numărul de ecuaţii din model

• modele cu o singură ecuaţie: toate modelele prezentate anterior

• modele cu ecuaţii multiple: sunt formate dintr-un sistem de ecuaţii

3

2. Obiectivele Unităţii de învăţare 2

După studiul acestei unităţi de învăţare vei avea cunoştinţe despre:

1. Noţiunile generale privind testarea ipotezelor statistice

2. Repartiţiile Normală, Student, χ2 , Fisher

3. Testarea legii de repartiţie a unei variabile aleatoare

3. Concepte generale în testarea ipotezelor statistice

Procesul de luare a deciziilor presupune analiza, judecarea şi interpretarea evidenţelor

oferite de datele pe care le avem la dispoziţie. Managerii trebuie să fie pregătiţi să ia decizii

privind acţiunile viitoare pe baza informaţiilor disponibile. Astfel ei emit ipoteze pe care le

pot testa ştiinţific utilizând metodele şi tehnicile statistice.

Testarea ipotezelor statistice reprezintă o altă modalitate, alături de estimaţia pe interval

de încredere, de a realiza inferenţa statistică. Scopul acestui tip de inferenţe statistice este să

determinăm dacă există suficiente dovezi statistice care să ne permită să concluzionăm că o

afirmaţie (sau o ipoteză) despre un parametru este adevărată.

☺☺☺☺ Exemplu

Sute de produse noi sunt lansate în fiecare an. Dintr-o varietate de motive, multe dintre

acestea nu reuşesc să cucerească piaţa. De aceea, produsele care ajung în stagiul final de

lansare pe piaţă sunt evaluate de specialiştii în marketing, care doresc să facă predicţii asupra

succesului produselor (cu alte cuvinte, cât de bine se vor vinde). Evident, informaţii complete

şi sigure nu se pot obţine şi atunci specialiştii vor dori să tragă concluzii valide, pe baza

datelor disponibile din cercetări parţiale. Să presupunem că un lanţ de magazine doreşte să

vândă un nou produs lansat pe piaţă şi speră să aibă succes. După o analiză financiară,

specialiştii determină că, dacă mai mult de 10% dintre potenţialii cumpărători vor cumpăra

produsul, lanţul de magazine va obţine profit. Un eşantion aleator de clienţi potenţiali este

selectat şi persoanele sunt întrebate dacă ar cumpăra produsul. Procedeul de eşantionare şi de

culegere a datelor este cunoscut, din capitolele precedente, iar parametrul reprezintă proporţia

clienţilor care ar cumpăra produsul. Testarea ipotezei statistice se referă, atunci, la a

determina dacă proporţia cumpărătorilor este mai mare de 10%.

4

În urma prelevării unui eşantion dintr-o populaţie statistică, prin prelucrarea datelor

provenite din sondaj se obţine un estimator al parametrului urmărit în populaţia de origine. Se

pune atunci problema în ce măsură parametrul estimat pe baza rezultatelor sondajului asigură

„credibilitatea” aprecierilor făcute asupra întregii colectivităţi. Estimatorul este, aşadar, o

„presupunere” asupra parametrului, deci o ipoteză statistică. Nu este nevoie să testăm ipoteze

statistice atunci când ştim totul despre un fenomen, ci doar când există incertitudine.

Ipoteza statistică este ipoteza care se face cu privire la parametrul unei repartiţii sau la

legea de repartiţie pe care o urmează anumite variabile aleatoare. O ipoteză statistică nu este

neapărat adevărată. Ea poate fi corectă sau greşită.

În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza alternativă.

Ipoteza statistică ce urmează a fi testată se numeşte ipoteză nulă şi este notată, uzual, H0. Ea

constă întotdeauna în admiterea caracterului întâmplător al deosebirilor, adică în presupunerea

că nu există deosebiri esenţiale. Respingerea ipotezei nule care este testată implică acceptarea

unei alte ipoteze. Această altă ipoteză este numită ipoteză alternativă, notată H1. Cele două

ipoteze reprezintă teorii, mutual exclusive şi exhaustive, asupra valorii parametrului

populaţiei sau legii de repartiţie. Spunem că ele sunt mutual exclusive deoarece este

imposibil ca ambele ipoteze să fie adevărate. Spunem că ele sunt exhaustive deoarece

acoperă toate posibilităţile, adică ori ipoteza nulă, ori ipoteza alternativă trebuie să fie

adevărată.

Procedeul de verificare a unei ipoteze statistice se numeşte test sau criteriu de

semnificaţie. O secvenţă generală de paşi se aplică la toate situaţiile de testare a ipotezelor

statistice. Există patru componente principale ale unui test privind o ipoteză:

• ipoteza nulă;

• ipoteza alternativă;

• testul statistic;

• regiunea critică (de respingere).

Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul rămâne

acelaşi, parcurgându-se următorii paşi:

5

1) Se identifică ipoteza statistică specială despre parametrul populaţiei sau legea de

reparti ţie (H0). Ipoteza statistică – numită şi ipoteză nulă – specifică întotdeauna o singură

valoare a parametrului populaţiei şi reprezintă status- quo-ul, ceea ce este acceptat până se

dovedeşte a fi fals.

2) Întotdeauna ipoteza nulă este însoţită de ipoteza alternativă (de cercetat), H1, ce

reprezintă o teorie care contrazice ipoteza nulă. Ea va fi acceptată doar când există

suficiente dovezi, evidenţe, pentru a se stabili că este adevărată.

Ipoteza alternativă este cea mai importantă, deoarece este ipoteza care ne răspunde la

întrebare. Ipoteza alternativă poate căpăta trei forme, care răspund la trei tipuri de întrebări

referitoare la parametrul studiat:

- dacă parametrul este diferit (mai mare sau mai mic) decât valoarea specificată în ipoteza

nulă;

- dacă parametrul este mai mare decât valoarea specificată în ipoteza nulă;

- dacă parametrul este mai mic decât valoarea specificată în ipoteza nulă;

3) Se calculează indicatorii statistici în eşantion, utilizaţi pentru a accepta sau a respinge

ipoteza nulă şi se determină testul statistic ce va fi utilizat drept criteriu de acceptare sau de

respingere a ipotezei nule.

Pentru cele mai multe testări statistice ale ipotezelor, testul statistic este derivat din

estimatorul punctual al parametrului ce va fi testat. Spre exemplu, deoarece media

eşantionului este un estimator punctual al mediei din colectivitatea generală, ea va fi utilizată

în testarea ipotezelor privind parametrul media colectivităţii generale.

4) Se stabileşte regiunea critică, Rc. Regiunea critică reprezintă valorile numerice ale

testului statistic pentru care ipoteza nulă va fi respinsă. Regiunea critică este astfel aleasă încât

probabilitatea ca ea să conţină testul statistic, când ipoteza nulă este adevărată, să fie α, cu α

mic (α=0.01 etc). Verificarea ipotezei nule se face pe baza unui eşantion de volum n, extras

din populaţia X, care este o variabilă aleatoare. Dacă punctul definit de vectorul de sondaj

x1,x2,…,xn cade în regiunea critică Rc, ipoteza H0 se respinge, iar dacă punctul cade în afara

regiunii critice Rc, ipoteza H0 se acceptă. Regiunea critică este delimitată de valoarea critică,

C – punctul de tăietură în stabilirea acesteia.

6

În baza legii numerelor mari, numai într-un număr foarte mic de cazuri punctul rezultat

din sondaj va cădea în Rc, majoritatea vor cădea în afara regiunii critice. Nu este însă exclus

ca punctul din sondaj să cadă în regiunea critică, cu toate că ipoteza nulă despre parametrul

populaţiei este adevărată. Cu alte cuvinte, atunci când respingem ipoteza nulă, trebuie să ne

gândim de două ori, deoarece există două posibilităţi: ea este falsă într-adevăr şi ea este totuşi

adevărată, deşi pe baza datelor din sondaj o respingem.

La fel şi pentru situaţia în care acceptăm ipoteza nulă H0. Când ipoteza nulă nu poate fi

respinsă (nu există suficiente dovezi pentru a fi respinsă), sunt două posibilităţi: ipoteza nulă

este adevărată şi ipoteza nulă este totuşi falsă, greşită, deşi nu am respins-o. De aceea, este

mai corect să spunem că pe baza datelor din eşantionul studiat, nu putem respinge ipoteza

nulă, decât să spunem că ipoteza nulă este adevărată.

Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată, se numeşte eroare

de genul întâi. Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi

(α) şi se numeşte nivel sau prag de semnificaţie.

Nivelul de încredere al unui test statistic este (1-α), iar în expresie procentuală, (1-α)100

reprezintă probabilitatea de garantare a rezultatelor.

Eroarea pe cere o facem acceptând o ipoteză nulă, deşi este falsă, se numeşte eroare de

genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se notează cu β.

Puterea testului statistic este (1-β).

Tabelul 1 ilustrează legătura dintre decizia pe care o luăm referitor la ipoteza nulă şi

adevărul sau falsitatea acestei ipoteze.

Tabelul 1 Erorile în testarea ipotezelor statistice

Decizia de acceptare Ipoteza adevărată

H0 H1

H0 Decizie corectă

(probabilitate 1-α) Eroare de gen II

(risc β)

H1 Eroare de gen I

(risc α) Decizie corectă

(probabilitate 1-β)

7

Cu cât probabilităţile comiterii erorilor de genul întâi şi de genul al doilea sunt mai mici,

cu atât testul este mai bun. Acest lucru se poate realiza prin mărirea volumului eşantionului, n.

Nivelurile riscurilor se stabilesc în funcţie de considerente economice şi de natura testului.

Am văzut că:

α = P(respingere H0 | H0 este corectă) = P(eroare de gen I)

β = P(acceptare H0 | H0 este falsă) = P(eroare de gen II)

Alegerea nivelului (pragului) de semnificaţie depinde şi de costurile asociate cu

producerea unei erori de genul I.

☺☺☺☺ Exemplu

Pragul de semnificaţie ales de o firmă ce fabrică îngheţată, interesată în greutatea medie a

cutiilor de îngheţată va putea fi diferit de pragul de semnificaţie ales de o companie

farmaceutică, interesată de cantitatea medie a unui ingredient activ dintr-un tip de

medicament. Evident, costul în prima situaţie prezentată este mult mai mic, comparativ cu

costul asociat în cazul producerii unei erori de genul I pentru compania farmaceutică: o can-

titate prea mică de ingredient activ poate face medicamentul ineficient; o cantitate prea mare

de ingredient activ poate cauza efecte secundare, dăunătoare sau poate avea, chiar, efecte

letale.

Similar, există costuri asociate cu producerea unei erori de genul al II-lea. Între eroarea de

genul I şi eroarea de genul al II-lea există o legătură, o condiţionare. O modalitate de a

vizualiza această legătură este să presupunem că există doar două distribuţii care ne

interesează. O distribuţie corespunde ipotezei nule H0, iar cealaltă corespunde ipotezei

alternativei H1. În acest caz, presupunem că şi ipoteza nulă şi cea alternativă sunt ipoteze

simple. Într-o manieră uşor de înţeles, să considerăm că ipoteza nulă este de forma H0: µ=µ0,

iar ipoteza alternativă este de forma H1:µ=µ1 (figura 1):

8

xµ0

xf( )

C

H1

µ1

H0

α

β

Figura 1 - Legătura dintre probabilit ăţile α şi β

Pe grafic se observă că cele două distribuţii se suprapun şi, din procesul de testare a

ipotezei nule, pot rezulta două tipuri de erori.

Eroarea de genul I apare atunci când respingem ipoteza nulă H0, în situaţia în care, de fapt,

aceasta este adevărată. Adică, deşi distribuţia lui x este cea corespunzătoare ipotezei H0,

respingem H0, deoarece media de sondaj este mai mare decât valoarea critică, C, şi se situează în

regiunea critică. Probabilitatea comiterii unei astfel de erori (α ) este aria de sub curba de dis-

tribuţie H0, care se situează la dreapta valorii critice C. Deseori, când lucrăm cu soft-ware

specializat, întâlnim „valoarea-p“ („p-value“). Aceasta reprezintă nivelul observat de

semnificaţie, adică cel mai mic nivel la care H0 poate fi respinsă pentru un set de valori date.

Eroarea de genul al doilea apare atunci când nu respingem (adică acceptăm) H0, deşi H1

în loc de H0 este corectă. În acest caz, deşi distribuţia lui x este cea corespunzătoare ipotezei

H1, acceptăm H0 deoarece media de sondaj este mai mică decât valoarea critică, C (nu se află în

regiunea critică). Probabilitatea comiterii unei astfel de erori (β) este aria de sub curba de

distribuţie H1, care se situează la stânga valorii critice, C.

Dacă alegem un prag de semnificaţie, α, mai mic (adică reducem riscul comiterii unei

erori de genul întâi), va creşte β (riscul comiterii unei erori de genul al doilea). Cu toate

acestea, prin creşterea volumului n al eşantionului, este posibil să reducem riscul β, fără a

creşte riscul α.

Cum n

ss xx

= , o dată cu creşterea volumului n al eşantionului, abaterile medii pătratice

ale distribuţiilor pentru H0 şi H1 devin mai mici şi, evident, atât α, cât şi β descresc (figura 2).

9

xµ0

xf( )

C

H1

µ1

H0

α

β

Figura 2 - α şi β când volumul eşantionului n' > n

5) După ce am stabilit pragul de semnificaţie şi regiunea critică, trecem la pasul următor,

în care vom face principalele presupuneri despre populaţia sau populaţiile ce sunt

eşantionate (normalitate etc.).

6) Se calculează apoi testul statistic şi se determină valoarea sa numerică, pe baza

datelor din eşantion.

7) La ultimul pas, se desprind concluziile: ipoteza nulă este fie acceptată, fie respinsă,

astfel:

• dacă valoarea numerică a testului statistic cade în regiunea critică (Rc),

respingem ipoteza nulă şi concluzionăm că ipoteza alternativă este adevărată.

Vom şti că această decizie este incorectă doar în 100 α % din cazuri;

• dacă valoarea numerică a testului nu cade în regiunea critică (Rc), se acceptă

ipoteza nulă H0.

Ipoteza alternativă poate avea, aşa cum am arătat, una din trei forme (pe care le vom

exemplifica pentru testarea egalităţii parametrului „media colectivităţii generale”, µ cu

valoarea µ0):

i) să testăm dacă parametrul din colectivitatea generală (media µ) este egal cu o anumită

valoare (inclusiv zero, µ0), cu alternativa media diferită de valoarea µ0. Atunci:

H0: µ = µ0,

H1: µ ≠ µ0 (µ < µ0 sau µ > µ0)

şi acest test este un test bilateral;

ii) să testăm ipoteza nulă µ = µ0, cu alternativa media µ este mai mare decât µ0.

H0: µ = µ0,

H1: µ > µ0,

10

care este un test unilateral dreapta;

iii) să testăm ipoteza nulă µ = µ0, cu alternativa media µ este mai mică decât µ0.

H0: µ = µ0,

H1: µ < µ0,

care este un test unilateral stânga.

Regiunea critică pentru testul bilateral diferă de cea pentru testul unilateral. Când

încercăm să detectăm o diferenţă faţă de ipoteza nulă, în ambele direcţii, trebuie să stabilim o

regiune critică Rc în ambele cozi ale distribuţiei de eşantionare pentru testul statistic. Când

efectuăm un test unilateral, vom stabili o regiune critică într-o singură parte a distribuţiei de

eşantionare, astfel (figura 3):

α/2 α αα/2

µ µ µ a) b) c)

Figura 3 Regiunea critică pentru:

a) test bilateral; b) test unilateral dreapta; c) test unilateral stânga

Test de autoevaluare 1

1. Într-un proces de verificare a ipotezelor statistice nivelul de încredere reprezintă

probabilitatea:

a) α

b) 1-α

c) β

d) 1-β

e) α+β

2. Într-un proces de testare a ipotezelor statistice, eroarea de genul al doilea este:

f) eroarea pe care o facem acceptând ipoteza nulă când ea este adevărată;

11

g) eroarea pe care o facem acceptând ipoteza alternativă când ea este falsă;

h) eroarea pe care o facem acceptând ipoteza nulă când ea este falsă;

i) eroarea pe care o facem eliminând ipoteza nulă când ea este adevărată;

j) eroarea pe care o facem eliminând ipoteza alternativă atunci când ea este falsă.

3. Într-un proces de testare a ipotezelor statistice, eroarea de genul întâi este:

a) eroarea pe care o facem acceptând ipoteza nulă când ea este adevărată;

b) eroarea pe care o facem acceptând ipoteza nulă atunci când ea este falsă;

c) eroarea pe care o faccem acceptând ipoteza alternativă când ea este adevărată;

d) eroarea pe care o facem eliminând ipoteza nulă atunci când ea este adevărată;

e) eroarea pe care o facem eliminând ipoteza alternativă atunci când ea este adevărată.

4. Repartiţii teoretice remarcabile

1. Curba normală reprezintă grafic densitatea de probabilitate a repartiţiei normale.

Pentru repartiţia normală standard se obţine imaginea următoare, mai cunoscută sub

denumirea de clopotul lui Gauss.

Figura 4 - Curba lui Gauss

Utilitatea acestei repartiţii se datorează mai multor cauze, printre care:

12

• Multe fenomene aleatoare din natură se supun exact sau aproximativ acestei legi.

Astfel, deviaţiile stânga-dreapta de la medie ale erorilor de măsurare urmează această

lege simetrică şi cu proprietatea că, erori din ce în ce mai mari sunt din ce în ce mai

rare.

• O teoremă foarte importantă, teorema limită centrală, asigură acestei repartiţii un rol

privilegiat prin faptul că suma unui număr mare de variabile aleatoare

independente una de alta, dar identic repartizate, este repartizată Gauss sau

aproximativ Gauss. Această teoremă ne asigură de exemplu, de faptul că, media

calculată pe un lot are o repartiţie Gauss sau apropiată.

• S-a demonstrat că multe repartiţii empirice întâlnite în practică pot fi aduse la o

repartiţie Gauss prin transformări simple şi în felul acesta devin mai uşor de studiat.

2. Densitatea Student este o repartiţie care intervine mult în aplicaţiile referitoare la

testele statistice. Are o formă simetrică şi seamănă ca aspect cu distribuţia Gauss standard.

Este în realitate o familie infinită de repartiţii, pentru fiecare n, număr de grade de

libertate (df), având o formă diferită.

Figura 5 - Curbe de repartiţie Student corespunzător la 3, 6 şi n>120 grade de

libertate.

Această densitate are proprietatea că are un maxim în 0 şi este simetrică stânga-dreapta

lui 0, ca formă. Are un aspect cu atât mai aplatizat cu cât numărul de grade de libertate este

mai mic. Deşi pare să se asemene cu curba lui Gauss, a densităţii normale, în realitate, între

ele este o diferenţă.

13

Cînd numărul de grade de libertate tinde la infinit, aspectul ei se apropie tot mai mult de

forma repartiţiei Gauss.

3. Repartiţia chi pătrat este o repartiţie care intervine mult în calculul şi testele statistice

referitoare la disperiile şi deviaţiile standard ale variabilelor aleatoare. Se ştie că pentru

calculul dispersiilor trebuie sumate pătratele celor n diferenţe dintre valorile dintr-o serie de

date şi media lor. Cum toate aceste diferenţe pot fi de multe ori asimilate unor variabile

aleatoare distribuite Gauss cu media 0 şi abaterea standard s, a populaţiei din care provine

eşantionul, suma pătratelor este o variabilă aleatoare repartizată chi pătrat. Se spune că avem

o repartiţe chi pătrat cu dispersia s2 şi cu n grade de libertate.

Graficul repartiţiei chi pătrat este asimetric, cu atât mai asimetric cu cât n este mai mic. În

figura 6, sunt desenate graficele a patru repartiţii chi pătrat, corespunzător la un număr de

grade de libertate n=2, n=5, n=15 şi n=25. Se observă că odată cu creşterea lui n, graficul

devine din ce în ce mai simetric.

Figura 6 - Curbe de repartiţie χ2

4. Repartiţia Fisher este introdusă ca o repartiţie utilă în testarea ipotezelor statistice

privind compararea a două dispersii. Repartiţia F depinde de doi parametri, ν1 şi ν2, ambii

având semnificaţia unor grade de libertate. Notaţia uzuală este F(ν1, ν2) sau Fν1; ν2.

14

Figura 6 - Curbe de repartiţie F

5. Testarea ipotezei cu privire la legea de repartiţie a unei variabile aleatoare

Până acum am presupus că repartiţia teoretică a variabilei aleatoare X este specificată, iar

în cele mai multe cazuri este repartiţia normală.

De foarte multe ori chiar specificarea repartiţiei reprezintă o ipoteză care trebuie

verificată. De aceea, practica statistică pune problema realizării unei legături între variabila

empirică (de selecţie) *X şi variabila teoretică X .

Fie variabilele:

ki

ki

nnnn

xxxxX

KK

KK

21

21* : ; 11

=∑=

k

iin , şi

)(:

xf

xX .

Se va cerceta dacă şirul numeric al frecvenţelor absolute empirice in reflectă legea

ipotetică a variabilei teoretice X , concretizată în funcţia ),...,;( 1 kaaxf .

Rezolvarea acestei probleme presupune parcurgerea următoarelor etape:

1. Estimarea parametrilor, făcută ţinând seama de eventualele semnificaţii pe care le pot

avea în legătură cu caracteristicile distribuţiei teoretice şi de calităţile estimaţiei respective.

2. Se construieşte, după estimarea parametrilor, variabila pseudo-teoretică:

ki

ki

nnnn

xxxxX

'''':

21

21'

KK

KK

; 1'1

=∑=

k

iin , făcându-se legătura între variabila

empirică *X şi variabila teoretică X .

15

Determinarea frecvenţelor absolute calculate in este realizată prin intermediul funcţiei de

probabilitate, folosind relaţia:

),...,;( 1

*

ki

i aaxfn

n = , de unde ),...,;( 1*

kii aaxfnn ⋅= , ni ,...,1= .

Datorită unor proprietăţi ale au funcţiilor de probabilitate )(xf pentru determinarea

frecvenţelor calculate in' , de cele mai multe ori se folosesc formulele de recurenţă, pornindu-

se de la valoarea dominantă (cu maximum de probabilitate a realizării argumentului).

3. Verificarea ipotezei 0H de concordanţă între repartiţia empirică şi repartiţia teoretică,

ipoteză ce se verifică folosind aşa-numitele teste de concordanţă .

a) Testul de concordanţă 2χ :

Studiind funcţia ∑=

−=k

i i

ii

n

nn

1

22

'

)'(χ , K.Pearson a arătat că, în cazul unui sondaj cu

revenire în populaţia studiată, când probabilităţile ip nu sunt apropiate de 0 sau 1, iar

produsele iii pnn ⋅=' , unde )( ii xfp = , după estimarea parametrilor, nu sunt prea mici

(practic nu sunt mai mici decât 5), funcţia considerată are repartiţia 2χ cu ks −− )1( grade

de libertate, s fiind numărul de valori observate, iar k numărul parametrilor estimaţi.

Observaţii :

◊ Dacă legea presupusă este legea Poisson, ea are un singur parametru, deci 1=k , iar

numărul gradelor de libertate va fi 21)1( −=−− ss ; dacă legea presupusă este legea

normală, atunci 2=k şi avem 32)1( −=−− ss grade de libertate.

◊ După cum am precizat mai sus, legea 2χ condiţia ca iii pnn ⋅=' să nu fie numere mai

mici decât 5. În cazul în care există astfel de numere, se vor cumula la prima frecvenţă in mai

mare ca 5. Aceasta face ca numărul s să fie modificat corespunzător noii situaţii, devenind s~ ,

iar numărul gradelor de libertate devenind ks −− )1~( . Dacă între repartiţia de selecţie şi

repartiţia teoretică există concordanţă, atunci statistica 2χ definită în relaţia

∑=

−=k

i i

ii

n

nn

1

22

'

)'(χ trebuie să fie mai mică şi nu va depăşi o valoare determinată 2

;)1( αχ ks −−

corespunzătoare numărului gradelor de libertate ks −− )1( şi pragului de semnificaţie α dat.

16

Regiunea critică a testului va fi dată de inegalitatea 2

;)1(2

αχχ ks −−> şi deci, dacă

2;)1(

2αχχ ks −−≤ acceptăm ipoteza 0H , în caz contrar o respingem.

b) Testul de concordanţă al lui Kolmogorov:

Din studierea convergenţei funcţiei empirice de repartiţie )(xF către funcţia teoretică de

repartiţie )(xF , Kolmogorov a demonstrat următoarea teoremă:

∑∞

−∞=

−

∞→−==

<k

kkn

neK

ndP 22 2

)1()(lim λλλ, unde 0>λ şi )()(max xFxFd nn −= .

Funcţia )(λK este calculată în tabele pentru diverse valori ale lui λ (tabelul distribuţiei

Kolmogorov) .

Cu ajutorul acestei teoreme se poate da un criteriu de verificare a ipotezei 0H că

repartiţia empirică urmează o anumită lege de repartiţie.

Dacă ipoteza 0H este adevărată, atunci diferenţele )()( xFxFn − nu vor depăşi o

anumită valoare nd ;α pe care o fixăm astfel încât: αα => )/( 0; HddP nn , unde α este riscul

de gradul întâi. Dar )(1)( ;; nnnn ddPddP αα ≤−=> .

Luând n

d nα

αλ=; , înseamnă că atunci când 0H este adevărată şi n suficient de mare

avem: αλλλα

αα =−=

≤−=

> )(11 Kn

dPn

dP nn .

Unui prag de semnificaţie α dat îi corespunde prin relaţia αλα −= 1)(K o valoare αλ

astfel încât, pentru un volum n dat al selecţiei găsim valoarea n

d nα

αλ=; .

Regiunea critică pentru ipoteza 0H este dată de relaţia n

dnαλ> . Deci:

� dacă n

dnαλ< , există concordanţă între )(xFn şi )(xF şi se acceptă ipoteza 0H

� dacă n

dnαλ≥ , nu există concordanţă şi respingem ipoteza 0H .

17

Exemplu

Distribuţia unui lot de noi automobile, după consumul de carburant la 100 km parcurşi, se prezintă astfel:

Intervale de variaţie a consumului (l) Nr. automobile

6,2 – 6,6, 4 6,6 – 7,0 12 7,0 – 7,4 44 7,4 – 7,8 90 7,8 – 8,2 107 8,2 – 8,6 86 8,6 – 9,0 36 9,0 – 9,4 15 9,4 – 9,8 6

Total 400 Să se verifice normalitatea distribuţiei utilizând testul χ2.

Rezolvare:

Pentru verificarea normalităţii repartiţiei empirice se parcurg următoarele etape:

a) Se calculează x şi sx pentru distribuţia prezentată în tabel.

litri n

nxx

i

ii 8997,7400

8,3198 ≈===∑

∑

( )3596,0

400

84,1432

2 ==−

=∑

∑

i

iix n

nxxs

sx = 0,5997 litri

b) Se calculează valorile variabilei normale normate pentru limitele superioare ale intervalelor:

σxx

z supii

−=

Limita superioară a ultimei grupe se consideră +∞, iar limita inferioară a primului interval se

consideră -∞, ţinând cont de faptul că distribuţia normală tinde către 0, asimptotic.

c) Se calculează probabilităţile φ(zi), ce reprezintă probabilităţile ca o valoare z să fie cuprinsă între 0

şi zi, ţinând cont că )z()z( ii φφ −=−

d) Probabilităţile teoretice ca o valoare să se situeze în intervalul i sunt:

)z(F)z(Fp supisupii 1−−= sau )z()z(p supisupii 1−−= φφ .

Excepţie face primul interval, pentru care: )z(,),()z(p supsup 111 5050 φφ +=−−=

şi ultimul interval, pentru care: )z(,p suprr 150 −−= φ .

Suma probabilităţilor de apariţie a evenimentelor este 1.

e) Frecvenţele teoretice se determină, pe baza probabilităţilor teoretice, astfel:

iiteor pnn ⋅=

18


1. Un analist economic studiază distribuţia firmelor după procentul din venituri cheltuit pentru

cercetare-dezvoltare. Pentru a verifica ipoteza normalităţii empirice obţinute, el utilizează

f) Se calculează statistica ( )

∑=

−=k

i i

ii

np

npn

1

22χ .

g) Din tabel rezultă: 4432 ,calculat =χ .

Din tabelele anexe se citeşte valoarea lui 5916,1226,05,0, === ltabαχ , unde l = numărul gradelor de

libertate, l = r – k – 1 = 9 - 2 - 1 = 6.

Cum 22tabcalculat χχ < , se acceptă ipoteza că între distribuţia empirică şi cea teoretică există

concordanţă.

Limitele intervalelor

ni xi xini ii n)xx( 2−

6,2-6,6 4 6,4 25,6 10,24 6,6-7,0 12 6,8 81,6 17,28 7,0-7,4 44 7,2 316,8 28,16 7,4-7,8 90 7,6 684,0 14,40 7,8-8,2 107 8,0 856,0 0 8,2-8,6 86 8,4 722,4 13,76 8,6-9,0 36 8,8 316,8 23,04 9,0-9,4 15 9,2 138,0 21,60 9,4-9,8 6 9,6 57,6 15,36 Total 400 - 3198,8 143,84

Limitele intervalelor

x

supii s

xxz

−=

φφφφ(z) pi npi ( )i

ii

np

npn 2−

6,2-6,6 -2,3340 -0,4901 0,0099 4 0 6,6-7,0 -1,6675 -0,4525 0,0376 15 0,6 7,0-7,4 -1,0005 -0,3413 0,1112 44 0 7,4-7,8 -0,3335 -0,1293 0,2120 85 0,29 7,8-8,2 0,3335 0,1293 0,2586 104 0,09 8,2-8,6 1,0005 0,3413 0,2120 85 0,01 8,6-9,0 1,6675 0,4525 0,1112 44 1,45 9,0-9,4 2,3340 0,4901 0,0376 15 0 9,4-9,8 ∞ 0,5000 0,0099 4 1 Total - - 1,00 400 3,44

19

testul χ2 şi obţine, pentru un număr de grade de libertate, l=10, valoarea 30,182 =calcχ .

Probabilitatea maximă cu care se garantează rezultatul este:

a) 75%;

b) 90%;

c) 95%;

d) 99%;

e) 97,5%.

6. Răspunsuri şi comentarii la testele de autoevaluare


1. b) 1-α

2. c) eroarea pe care o facem acceptând ipoteza nulă când ea este falsă;

3. d) eroarea pe care o facem eliminând ipoteza nulă atunci când ea este adevărată;


1. b)

7. Bibliografia Unităţii de învăţare 2

� V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose, C.Boboc, D.Pele – Teorie şi

practică econometricăm Ed; Meteor Press, 2007

� T. Andrei, Statistică şi econometrie, Ed. Economică, 2003

8. Lucrare de verificare 2

1. Ce reprezintă regiunea critică?

2. Când comitem o eroare de genul întâi?

3. Ce reprezintă ipoteza nulă într-un proces de testare de ipoteze statistice?

4. Pentru fiecare dintre următoarele regiuni critice, schiţaţi distribuţia lui z şi indicaţi locul

regiunii critice (Rc):

20

a) z > 1,96;

b) z > 1,645

c) z > 2,575

d) z < -1,29

e) z < -1,645 sau z > 1,645

f) z < -2,575 sau z > 2,575.

5. Care este diferenţa dintre H0 şi H1?

_Econometrie UI2

Documents

Transcript of _Econometrie UI2