_Econometrie UI2
-
Upload
jason-vlad -
Category
Documents
-
view
17 -
download
4
Transcript of _Econometrie UI2
1
CURS ECONOMETRIE
Unitatea de învăţare 2:
FUNDAMENTAREA DECIZIILOR FOLOSIND TESTAREA IPOTEZEL OR
STATISTICE
Cuprins:
1. Ce am învăţat în Unitatea de învăţare 1
2. Obiectivele Unităţii de învăţare 2
3. Concepte generale în testarea ipotezelor statistice
4. Repartiţii teoretice remarcabile
5. Testarea ipotezei cu privire la legea de repartiţie a unei variabile aleatoare
6. Răspunsuri şi comentarii la testele de autoevaluare
7. Bibliografia Unităţii de învăţare 2
8. Lucrare de verificare 2
1. Ce am învăţat în Unitatea de învăţare 1
“ Econometria poate fi definită ca analiza cantitativă a fenomenelor economice actuale
bazată pe dezvoltarea în paralel a teoriilor şi observaţiilor relativ la metodele de inferenţă
potrivite” (P.A. Samuelson, T.C. Koopmans, J.R.N. Stone – Econometrica 1954)
Modelul econometric: Descrie, cu ajutorul unui set de simboluri, relaţiile de dependenţă
dintre fenomenele economice, pe baza unei ecuaţii sau a unui sistem de ecuaţii, permiţând
înţelegerea, explicarea sau obţinerea de informaţii noi privind comportamentul fenomenelor
cercetate.
Variabilele economice determină structura modelului econometric: variabile exogene sau
variabile endogene
Variabila aleatoare (ε): sintetizează totalitatea variabilelor (în afara celor factoriale) care
influenţează variabila endogenă, dar nu sunt specificate în cadrul modelului (factori aleatori)
Variabila timp (t) se introduce în anumite modele econometrice ca variabilă fictivă.
Într-un model econometric, un fenomen oarecare X=(x1, x2, ...,xn) poate fi introdus cu
următoarele valori:
2
• Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură
specifice naturii fenomenului cu media x şi dispersia 2xσ
• Valori centrate : xxx ii −=* cu media 0 şi dispersia 2xσ
• Valori centrate şi normate: x
ii
xxx
σ−=** cu media 0 şi dispersia 1
Tipuri de date:
• date de tip profil : "tăieturi informaţionale" efectuate într-o populaţie la un moment dat
• date de tip serii de timp: "secţiuni informaţionale" de-a lungul axei timpului
• date de tip panel: "tăieturi informaţionale mixte" transversale şi longitudinale, în
raport cu axa timpului.
Relaţiile statistice pe care se formulează modelul econometric pot fi:
• relaţii de identitate: sunt formulări logice cu privire la procesul economic descris
• relaţii de comportament: ecuaţii stochastice care modelează răspunsul variabilei
endogene Y la un set de valori ale variabilei exogene X;
• relaţii tehnologice: restricţiile impuse output-urilor în raport cu input-urile
• relaţii instituţionale: reflectă unele reglementări impuse de lege
Tipologia modelelor econometrice
1. după numărul factorilor luaţi în considerare
• modele unifactoriale: Y = f(X)+ ε
• modele multifactoriale: Y = f(X1,X2,...,Xp)+ ε
2. după forma legăturii dintre variabila rezultativă şi variabilele cauză
• modele liniare
• modele neliniare
3. după sfera de cuprindere a modelului
• modele globale (agregate)
• modele parţiale
4. după includerea factorului timp în model
• modele statice: Y t = f(X1t,...,Xjt,...,Xkt) + εt
• modele dinamice: Yt = f(Xt,t) + ε t ; Yt = f(X t,Yt-k) + ε t ;Yt = f(Xt,Xt-1,... Xt-k) + ε t
5. După numărul de ecuaţii din model
• modele cu o singură ecuaţie: toate modelele prezentate anterior
• modele cu ecuaţii multiple: sunt formate dintr-un sistem de ecuaţii
3
2. Obiectivele Unităţii de învăţare 2
După studiul acestei unităţi de învăţare vei avea cunoştinţe despre:
1. Noţiunile generale privind testarea ipotezelor statistice
2. Repartiţiile Normală, Student, χ2 , Fisher
3. Testarea legii de repartiţie a unei variabile aleatoare
3. Concepte generale în testarea ipotezelor statistice
Procesul de luare a deciziilor presupune analiza, judecarea şi interpretarea evidenţelor
oferite de datele pe care le avem la dispoziţie. Managerii trebuie să fie pregătiţi să ia decizii
privind acţiunile viitoare pe baza informaţiilor disponibile. Astfel ei emit ipoteze pe care le
pot testa ştiinţific utilizând metodele şi tehnicile statistice.
Testarea ipotezelor statistice reprezintă o altă modalitate, alături de estimaţia pe interval
de încredere, de a realiza inferenţa statistică. Scopul acestui tip de inferenţe statistice este să
determinăm dacă există suficiente dovezi statistice care să ne permită să concluzionăm că o
afirmaţie (sau o ipoteză) despre un parametru este adevărată.
☺☺☺☺ Exemplu
Sute de produse noi sunt lansate în fiecare an. Dintr-o varietate de motive, multe dintre
acestea nu reuşesc să cucerească piaţa. De aceea, produsele care ajung în stagiul final de
lansare pe piaţă sunt evaluate de specialiştii în marketing, care doresc să facă predicţii asupra
succesului produselor (cu alte cuvinte, cât de bine se vor vinde). Evident, informaţii complete
şi sigure nu se pot obţine şi atunci specialiştii vor dori să tragă concluzii valide, pe baza
datelor disponibile din cercetări parţiale. Să presupunem că un lanţ de magazine doreşte să
vândă un nou produs lansat pe piaţă şi speră să aibă succes. După o analiză financiară,
specialiştii determină că, dacă mai mult de 10% dintre potenţialii cumpărători vor cumpăra
produsul, lanţul de magazine va obţine profit. Un eşantion aleator de clienţi potenţiali este
selectat şi persoanele sunt întrebate dacă ar cumpăra produsul. Procedeul de eşantionare şi de
culegere a datelor este cunoscut, din capitolele precedente, iar parametrul reprezintă proporţia
clienţilor care ar cumpăra produsul. Testarea ipotezei statistice se referă, atunci, la a
determina dacă proporţia cumpărătorilor este mai mare de 10%.
4
În urma prelevării unui eşantion dintr-o populaţie statistică, prin prelucrarea datelor
provenite din sondaj se obţine un estimator al parametrului urmărit în populaţia de origine. Se
pune atunci problema în ce măsură parametrul estimat pe baza rezultatelor sondajului asigură
„credibilitatea” aprecierilor făcute asupra întregii colectivităţi. Estimatorul este, aşadar, o
„presupunere” asupra parametrului, deci o ipoteză statistică. Nu este nevoie să testăm ipoteze
statistice atunci când ştim totul despre un fenomen, ci doar când există incertitudine.
Ipoteza statistică este ipoteza care se face cu privire la parametrul unei repartiţii sau la
legea de repartiţie pe care o urmează anumite variabile aleatoare. O ipoteză statistică nu este
neapărat adevărată. Ea poate fi corectă sau greşită.
În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza alternativă.
Ipoteza statistică ce urmează a fi testată se numeşte ipoteză nulă şi este notată, uzual, H0. Ea
constă întotdeauna în admiterea caracterului întâmplător al deosebirilor, adică în presupunerea
că nu există deosebiri esenţiale. Respingerea ipotezei nule care este testată implică acceptarea
unei alte ipoteze. Această altă ipoteză este numită ipoteză alternativă, notată H1. Cele două
ipoteze reprezintă teorii, mutual exclusive şi exhaustive, asupra valorii parametrului
populaţiei sau legii de repartiţie. Spunem că ele sunt mutual exclusive deoarece este
imposibil ca ambele ipoteze să fie adevărate. Spunem că ele sunt exhaustive deoarece
acoperă toate posibilităţile, adică ori ipoteza nulă, ori ipoteza alternativă trebuie să fie
adevărată.
Procedeul de verificare a unei ipoteze statistice se numeşte test sau criteriu de
semnificaţie. O secvenţă generală de paşi se aplică la toate situaţiile de testare a ipotezelor
statistice. Există patru componente principale ale unui test privind o ipoteză:
• ipoteza nulă;
• ipoteza alternativă;
• testul statistic;
• regiunea critică (de respingere).
Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul rămâne
acelaşi, parcurgându-se următorii paşi:
5
1) Se identifică ipoteza statistică specială despre parametrul populaţiei sau legea de
reparti ţie (H0). Ipoteza statistică – numită şi ipoteză nulă – specifică întotdeauna o singură
valoare a parametrului populaţiei şi reprezintă status- quo-ul, ceea ce este acceptat până se
dovedeşte a fi fals.
2) Întotdeauna ipoteza nulă este însoţită de ipoteza alternativă (de cercetat), H1, ce
reprezintă o teorie care contrazice ipoteza nulă. Ea va fi acceptată doar când există
suficiente dovezi, evidenţe, pentru a se stabili că este adevărată.
Ipoteza alternativă este cea mai importantă, deoarece este ipoteza care ne răspunde la
întrebare. Ipoteza alternativă poate căpăta trei forme, care răspund la trei tipuri de întrebări
referitoare la parametrul studiat:
- dacă parametrul este diferit (mai mare sau mai mic) decât valoarea specificată în ipoteza
nulă;
- dacă parametrul este mai mare decât valoarea specificată în ipoteza nulă;
- dacă parametrul este mai mic decât valoarea specificată în ipoteza nulă;
3) Se calculează indicatorii statistici în eşantion, utilizaţi pentru a accepta sau a respinge
ipoteza nulă şi se determină testul statistic ce va fi utilizat drept criteriu de acceptare sau de
respingere a ipotezei nule.
Pentru cele mai multe testări statistice ale ipotezelor, testul statistic este derivat din
estimatorul punctual al parametrului ce va fi testat. Spre exemplu, deoarece media
eşantionului este un estimator punctual al mediei din colectivitatea generală, ea va fi utilizată
în testarea ipotezelor privind parametrul media colectivităţii generale.
4) Se stabileşte regiunea critică, Rc. Regiunea critică reprezintă valorile numerice ale
testului statistic pentru care ipoteza nulă va fi respinsă. Regiunea critică este astfel aleasă încât
probabilitatea ca ea să conţină testul statistic, când ipoteza nulă este adevărată, să fie α, cu α
mic (α=0.01 etc). Verificarea ipotezei nule se face pe baza unui eşantion de volum n, extras
din populaţia X, care este o variabilă aleatoare. Dacă punctul definit de vectorul de sondaj
x1,x2,…,xn cade în regiunea critică Rc, ipoteza H0 se respinge, iar dacă punctul cade în afara
regiunii critice Rc, ipoteza H0 se acceptă. Regiunea critică este delimitată de valoarea critică,
C – punctul de tăietură în stabilirea acesteia.
6
În baza legii numerelor mari, numai într-un număr foarte mic de cazuri punctul rezultat
din sondaj va cădea în Rc, majoritatea vor cădea în afara regiunii critice. Nu este însă exclus
ca punctul din sondaj să cadă în regiunea critică, cu toate că ipoteza nulă despre parametrul
populaţiei este adevărată. Cu alte cuvinte, atunci când respingem ipoteza nulă, trebuie să ne
gândim de două ori, deoarece există două posibilităţi: ea este falsă într-adevăr şi ea este totuşi
adevărată, deşi pe baza datelor din sondaj o respingem.
La fel şi pentru situaţia în care acceptăm ipoteza nulă H0. Când ipoteza nulă nu poate fi
respinsă (nu există suficiente dovezi pentru a fi respinsă), sunt două posibilităţi: ipoteza nulă
este adevărată şi ipoteza nulă este totuşi falsă, greşită, deşi nu am respins-o. De aceea, este
mai corect să spunem că pe baza datelor din eşantionul studiat, nu putem respinge ipoteza
nulă, decât să spunem că ipoteza nulă este adevărată.
Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată, se numeşte eroare
de genul întâi. Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi
(α) şi se numeşte nivel sau prag de semnificaţie.
Nivelul de încredere al unui test statistic este (1-α), iar în expresie procentuală, (1-α)100
reprezintă probabilitatea de garantare a rezultatelor.
Eroarea pe cere o facem acceptând o ipoteză nulă, deşi este falsă, se numeşte eroare de
genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se notează cu β.
Puterea testului statistic este (1-β).
Tabelul 1 ilustrează legătura dintre decizia pe care o luăm referitor la ipoteza nulă şi
adevărul sau falsitatea acestei ipoteze.
Tabelul 1 Erorile în testarea ipotezelor statistice
Decizia de acceptare Ipoteza adevărată
H0 H1
H0 Decizie corectă
(probabilitate 1-α) Eroare de gen II
(risc β)
H1 Eroare de gen I
(risc α) Decizie corectă
(probabilitate 1-β)
7
Cu cât probabilităţile comiterii erorilor de genul întâi şi de genul al doilea sunt mai mici,
cu atât testul este mai bun. Acest lucru se poate realiza prin mărirea volumului eşantionului, n.
Nivelurile riscurilor se stabilesc în funcţie de considerente economice şi de natura testului.
Am văzut că:
α = P(respingere H0 | H0 este corectă) = P(eroare de gen I)
β = P(acceptare H0 | H0 este falsă) = P(eroare de gen II)
Alegerea nivelului (pragului) de semnificaţie depinde şi de costurile asociate cu
producerea unei erori de genul I.
☺☺☺☺ Exemplu
Pragul de semnificaţie ales de o firmă ce fabrică îngheţată, interesată în greutatea medie a
cutiilor de îngheţată va putea fi diferit de pragul de semnificaţie ales de o companie
farmaceutică, interesată de cantitatea medie a unui ingredient activ dintr-un tip de
medicament. Evident, costul în prima situaţie prezentată este mult mai mic, comparativ cu
costul asociat în cazul producerii unei erori de genul I pentru compania farmaceutică: o can-
titate prea mică de ingredient activ poate face medicamentul ineficient; o cantitate prea mare
de ingredient activ poate cauza efecte secundare, dăunătoare sau poate avea, chiar, efecte
letale.
Similar, există costuri asociate cu producerea unei erori de genul al II-lea. Între eroarea de
genul I şi eroarea de genul al II-lea există o legătură, o condiţionare. O modalitate de a
vizualiza această legătură este să presupunem că există doar două distribuţii care ne
interesează. O distribuţie corespunde ipotezei nule H0, iar cealaltă corespunde ipotezei
alternativei H1. În acest caz, presupunem că şi ipoteza nulă şi cea alternativă sunt ipoteze
simple. Într-o manieră uşor de înţeles, să considerăm că ipoteza nulă este de forma H0: µ=µ0,
iar ipoteza alternativă este de forma H1:µ=µ1 (figura 1):
8
xµ0
xf( )
C
H1
µ1
H0
α
β
Figura 1 - Legătura dintre probabilit ăţile α şi β
Pe grafic se observă că cele două distribuţii se suprapun şi, din procesul de testare a
ipotezei nule, pot rezulta două tipuri de erori.
Eroarea de genul I apare atunci când respingem ipoteza nulă H0, în situaţia în care, de fapt,
aceasta este adevărată. Adică, deşi distribuţia lui x este cea corespunzătoare ipotezei H0,
respingem H0, deoarece media de sondaj este mai mare decât valoarea critică, C, şi se situează în
regiunea critică. Probabilitatea comiterii unei astfel de erori (α ) este aria de sub curba de dis-
tribuţie H0, care se situează la dreapta valorii critice C. Deseori, când lucrăm cu soft-ware
specializat, întâlnim „valoarea-p“ („p-value“). Aceasta reprezintă nivelul observat de
semnificaţie, adică cel mai mic nivel la care H0 poate fi respinsă pentru un set de valori date.
Eroarea de genul al doilea apare atunci când nu respingem (adică acceptăm) H0, deşi H1
în loc de H0 este corectă. În acest caz, deşi distribuţia lui x este cea corespunzătoare ipotezei
H1, acceptăm H0 deoarece media de sondaj este mai mică decât valoarea critică, C (nu se află în
regiunea critică). Probabilitatea comiterii unei astfel de erori (β) este aria de sub curba de
distribuţie H1, care se situează la stânga valorii critice, C.
Dacă alegem un prag de semnificaţie, α, mai mic (adică reducem riscul comiterii unei
erori de genul întâi), va creşte β (riscul comiterii unei erori de genul al doilea). Cu toate
acestea, prin creşterea volumului n al eşantionului, este posibil să reducem riscul β, fără a
creşte riscul α.
Cum n
ss xx
= , o dată cu creşterea volumului n al eşantionului, abaterile medii pătratice
ale distribuţiilor pentru H0 şi H1 devin mai mici şi, evident, atât α, cât şi β descresc (figura 2).
9
xµ0
xf( )
C
H1
µ1
H0
α
β
Figura 2 - α şi β când volumul eşantionului n' > n
5) După ce am stabilit pragul de semnificaţie şi regiunea critică, trecem la pasul următor,
în care vom face principalele presupuneri despre populaţia sau populaţiile ce sunt
eşantionate (normalitate etc.).
6) Se calculează apoi testul statistic şi se determină valoarea sa numerică, pe baza
datelor din eşantion.
7) La ultimul pas, se desprind concluziile: ipoteza nulă este fie acceptată, fie respinsă,
astfel:
• dacă valoarea numerică a testului statistic cade în regiunea critică (Rc),
respingem ipoteza nulă şi concluzionăm că ipoteza alternativă este adevărată.
Vom şti că această decizie este incorectă doar în 100 α % din cazuri;
• dacă valoarea numerică a testului nu cade în regiunea critică (Rc), se acceptă
ipoteza nulă H0.
Ipoteza alternativă poate avea, aşa cum am arătat, una din trei forme (pe care le vom
exemplifica pentru testarea egalităţii parametrului „media colectivităţii generale”, µ cu
valoarea µ0):
i) să testăm dacă parametrul din colectivitatea generală (media µ) este egal cu o anumită
valoare (inclusiv zero, µ0), cu alternativa media diferită de valoarea µ0. Atunci:
H0: µ = µ0,
H1: µ ≠ µ0 (µ < µ0 sau µ > µ0)
şi acest test este un test bilateral;
ii) să testăm ipoteza nulă µ = µ0, cu alternativa media µ este mai mare decât µ0.
H0: µ = µ0,
H1: µ > µ0,
10
care este un test unilateral dreapta;
iii) să testăm ipoteza nulă µ = µ0, cu alternativa media µ este mai mică decât µ0.
H0: µ = µ0,
H1: µ < µ0,
care este un test unilateral stânga.
Regiunea critică pentru testul bilateral diferă de cea pentru testul unilateral. Când
încercăm să detectăm o diferenţă faţă de ipoteza nulă, în ambele direcţii, trebuie să stabilim o
regiune critică Rc în ambele cozi ale distribuţiei de eşantionare pentru testul statistic. Când
efectuăm un test unilateral, vom stabili o regiune critică într-o singură parte a distribuţiei de
eşantionare, astfel (figura 3):
α/2 α αα/2
µ µ µ a) b) c)
Figura 3 Regiunea critică pentru:
a) test bilateral; b) test unilateral dreapta; c) test unilateral stânga
Test de autoevaluare 1
1. Într-un proces de verificare a ipotezelor statistice nivelul de încredere reprezintă
probabilitatea:
a) α
b) 1-α
c) β
d) 1-β
e) α+β
2. Într-un proces de testare a ipotezelor statistice, eroarea de genul al doilea este:
f) eroarea pe care o facem acceptând ipoteza nulă când ea este adevărată;
11
g) eroarea pe care o facem acceptând ipoteza alternativă când ea este falsă;
h) eroarea pe care o facem acceptând ipoteza nulă când ea este falsă;
i) eroarea pe care o facem eliminând ipoteza nulă când ea este adevărată;
j) eroarea pe care o facem eliminând ipoteza alternativă atunci când ea este falsă.
3. Într-un proces de testare a ipotezelor statistice, eroarea de genul întâi este:
a) eroarea pe care o facem acceptând ipoteza nulă când ea este adevărată;
b) eroarea pe care o facem acceptând ipoteza nulă atunci când ea este falsă;
c) eroarea pe care o faccem acceptând ipoteza alternativă când ea este adevărată;
d) eroarea pe care o facem eliminând ipoteza nulă atunci când ea este adevărată;
e) eroarea pe care o facem eliminând ipoteza alternativă atunci când ea este adevărată.
4. Repartiţii teoretice remarcabile
1. Curba normală reprezintă grafic densitatea de probabilitate a repartiţiei normale.
Pentru repartiţia normală standard se obţine imaginea următoare, mai cunoscută sub
denumirea de clopotul lui Gauss.
Figura 4 - Curba lui Gauss
Utilitatea acestei repartiţii se datorează mai multor cauze, printre care:
12
• Multe fenomene aleatoare din natură se supun exact sau aproximativ acestei legi.
Astfel, deviaţiile stânga-dreapta de la medie ale erorilor de măsurare urmează această
lege simetrică şi cu proprietatea că, erori din ce în ce mai mari sunt din ce în ce mai
rare.
• O teoremă foarte importantă, teorema limită centrală, asigură acestei repartiţii un rol
privilegiat prin faptul că suma unui număr mare de variabile aleatoare
independente una de alta, dar identic repartizate, este repartizată Gauss sau
aproximativ Gauss. Această teoremă ne asigură de exemplu, de faptul că, media
calculată pe un lot are o repartiţie Gauss sau apropiată.
• S-a demonstrat că multe repartiţii empirice întâlnite în practică pot fi aduse la o
repartiţie Gauss prin transformări simple şi în felul acesta devin mai uşor de studiat.
2. Densitatea Student este o repartiţie care intervine mult în aplicaţiile referitoare la
testele statistice. Are o formă simetrică şi seamănă ca aspect cu distribuţia Gauss standard.
Este în realitate o familie infinită de repartiţii, pentru fiecare n, număr de grade de
libertate (df), având o formă diferită.
Figura 5 - Curbe de repartiţie Student corespunzător la 3, 6 şi n>120 grade de
libertate.
Această densitate are proprietatea că are un maxim în 0 şi este simetrică stânga-dreapta
lui 0, ca formă. Are un aspect cu atât mai aplatizat cu cât numărul de grade de libertate este
mai mic. Deşi pare să se asemene cu curba lui Gauss, a densităţii normale, în realitate, între
ele este o diferenţă.
13
Cînd numărul de grade de libertate tinde la infinit, aspectul ei se apropie tot mai mult de
forma repartiţiei Gauss.
3. Repartiţia chi pătrat este o repartiţie care intervine mult în calculul şi testele statistice
referitoare la disperiile şi deviaţiile standard ale variabilelor aleatoare. Se ştie că pentru
calculul dispersiilor trebuie sumate pătratele celor n diferenţe dintre valorile dintr-o serie de
date şi media lor. Cum toate aceste diferenţe pot fi de multe ori asimilate unor variabile
aleatoare distribuite Gauss cu media 0 şi abaterea standard s, a populaţiei din care provine
eşantionul, suma pătratelor este o variabilă aleatoare repartizată chi pătrat. Se spune că avem
o repartiţe chi pătrat cu dispersia s2 şi cu n grade de libertate.
Graficul repartiţiei chi pătrat este asimetric, cu atât mai asimetric cu cât n este mai mic. În
figura 6, sunt desenate graficele a patru repartiţii chi pătrat, corespunzător la un număr de
grade de libertate n=2, n=5, n=15 şi n=25. Se observă că odată cu creşterea lui n, graficul
devine din ce în ce mai simetric.
Figura 6 - Curbe de repartiţie χ2
4. Repartiţia Fisher este introdusă ca o repartiţie utilă în testarea ipotezelor statistice
privind compararea a două dispersii. Repartiţia F depinde de doi parametri, ν1 şi ν2, ambii
având semnificaţia unor grade de libertate. Notaţia uzuală este F(ν1, ν2) sau Fν1; ν2.
14
Figura 6 - Curbe de repartiţie F
5. Testarea ipotezei cu privire la legea de repartiţie a unei variabile aleatoare
Până acum am presupus că repartiţia teoretică a variabilei aleatoare X este specificată, iar
în cele mai multe cazuri este repartiţia normală.
De foarte multe ori chiar specificarea repartiţiei reprezintă o ipoteză care trebuie
verificată. De aceea, practica statistică pune problema realizării unei legături între variabila
empirică (de selecţie) *X şi variabila teoretică X .
Fie variabilele:
ki
ki
nnnn
xxxxX
KK
KK
21
21* : ; 11
=∑=
k
iin , şi
)(:
xf
xX .
Se va cerceta dacă şirul numeric al frecvenţelor absolute empirice in reflectă legea
ipotetică a variabilei teoretice X , concretizată în funcţia ),...,;( 1 kaaxf .
Rezolvarea acestei probleme presupune parcurgerea următoarelor etape:
1. Estimarea parametrilor, făcută ţinând seama de eventualele semnificaţii pe care le pot
avea în legătură cu caracteristicile distribuţiei teoretice şi de calităţile estimaţiei respective.
2. Se construieşte, după estimarea parametrilor, variabila pseudo-teoretică:
ki
ki
nnnn
xxxxX
'''':
21
21'
KK
KK
; 1'1
=∑=
k
iin , făcându-se legătura între variabila
empirică *X şi variabila teoretică X .
15
Determinarea frecvenţelor absolute calculate in este realizată prin intermediul funcţiei de
probabilitate, folosind relaţia:
),...,;( 1
*
ki
i aaxfn
n = , de unde ),...,;( 1*
kii aaxfnn ⋅= , ni ,...,1= .
Datorită unor proprietăţi ale au funcţiilor de probabilitate )(xf pentru determinarea
frecvenţelor calculate in' , de cele mai multe ori se folosesc formulele de recurenţă, pornindu-
se de la valoarea dominantă (cu maximum de probabilitate a realizării argumentului).
3. Verificarea ipotezei 0H de concordanţă între repartiţia empirică şi repartiţia teoretică,
ipoteză ce se verifică folosind aşa-numitele teste de concordanţă .
a) Testul de concordanţă 2χ :
Studiind funcţia ∑=
−=k
i i
ii
n
nn
1
22
'
)'(χ , K.Pearson a arătat că, în cazul unui sondaj cu
revenire în populaţia studiată, când probabilităţile ip nu sunt apropiate de 0 sau 1, iar
produsele iii pnn ⋅=' , unde )( ii xfp = , după estimarea parametrilor, nu sunt prea mici
(practic nu sunt mai mici decât 5), funcţia considerată are repartiţia 2χ cu ks −− )1( grade
de libertate, s fiind numărul de valori observate, iar k numărul parametrilor estimaţi.
Observaţii :
◊ Dacă legea presupusă este legea Poisson, ea are un singur parametru, deci 1=k , iar
numărul gradelor de libertate va fi 21)1( −=−− ss ; dacă legea presupusă este legea
normală, atunci 2=k şi avem 32)1( −=−− ss grade de libertate.
◊ După cum am precizat mai sus, legea 2χ condiţia ca iii pnn ⋅=' să nu fie numere mai
mici decât 5. În cazul în care există astfel de numere, se vor cumula la prima frecvenţă in mai
mare ca 5. Aceasta face ca numărul s să fie modificat corespunzător noii situaţii, devenind s~ ,
iar numărul gradelor de libertate devenind ks −− )1~( . Dacă între repartiţia de selecţie şi
repartiţia teoretică există concordanţă, atunci statistica 2χ definită în relaţia
∑=
−=k
i i
ii
n
nn
1
22
'
)'(χ trebuie să fie mai mică şi nu va depăşi o valoare determinată 2
;)1( αχ ks −−
corespunzătoare numărului gradelor de libertate ks −− )1( şi pragului de semnificaţie α dat.
16
Regiunea critică a testului va fi dată de inegalitatea 2
;)1(2
αχχ ks −−> şi deci, dacă
2;)1(
2αχχ ks −−≤ acceptăm ipoteza 0H , în caz contrar o respingem.
b) Testul de concordanţă al lui Kolmogorov:
Din studierea convergenţei funcţiei empirice de repartiţie )(xF către funcţia teoretică de
repartiţie )(xF , Kolmogorov a demonstrat următoarea teoremă:
∑∞
−∞=
−
∞→−==
<k
kkn
neK
ndP 22 2
)1()(lim λλλ, unde 0>λ şi )()(max xFxFd nn −= .
Funcţia )(λK este calculată în tabele pentru diverse valori ale lui λ (tabelul distribuţiei
Kolmogorov) .
Cu ajutorul acestei teoreme se poate da un criteriu de verificare a ipotezei 0H că
repartiţia empirică urmează o anumită lege de repartiţie.
Dacă ipoteza 0H este adevărată, atunci diferenţele )()( xFxFn − nu vor depăşi o
anumită valoare nd ;α pe care o fixăm astfel încât: αα => )/( 0; HddP nn , unde α este riscul
de gradul întâi. Dar )(1)( ;; nnnn ddPddP αα ≤−=> .
Luând n
d nα
αλ=; , înseamnă că atunci când 0H este adevărată şi n suficient de mare
avem: αλλλα
αα =−=
≤−=
> )(11 Kn
dPn
dP nn .
Unui prag de semnificaţie α dat îi corespunde prin relaţia αλα −= 1)(K o valoare αλ
astfel încât, pentru un volum n dat al selecţiei găsim valoarea n
d nα
αλ=; .
Regiunea critică pentru ipoteza 0H este dată de relaţia n
dnαλ> . Deci:
� dacă n
dnαλ< , există concordanţă între )(xFn şi )(xF şi se acceptă ipoteza 0H
� dacă n
dnαλ≥ , nu există concordanţă şi respingem ipoteza 0H .
17
Exemplu
Distribuţia unui lot de noi automobile, după consumul de carburant la 100 km parcurşi, se prezintă astfel:
Intervale de variaţie a consumului (l) Nr. automobile
6,2 – 6,6, 4 6,6 – 7,0 12 7,0 – 7,4 44 7,4 – 7,8 90 7,8 – 8,2 107 8,2 – 8,6 86 8,6 – 9,0 36 9,0 – 9,4 15 9,4 – 9,8 6
Total 400 Să se verifice normalitatea distribuţiei utilizând testul χ2.
Rezolvare:
Pentru verificarea normalităţii repartiţiei empirice se parcurg următoarele etape:
a) Se calculează x şi sx pentru distribuţia prezentată în tabel.
litri n
nxx
i
ii 8997,7400
8,3198 ≈===∑
∑
( )3596,0
400
84,1432
2 ==−
=∑
∑
i
iix n
nxxs
sx = 0,5997 litri
b) Se calculează valorile variabilei normale normate pentru limitele superioare ale intervalelor:
σxx
z supii
−=
Limita superioară a ultimei grupe se consideră +∞, iar limita inferioară a primului interval se
consideră -∞, ţinând cont de faptul că distribuţia normală tinde către 0, asimptotic.
c) Se calculează probabilităţile φ(zi), ce reprezintă probabilităţile ca o valoare z să fie cuprinsă între 0
şi zi, ţinând cont că )z()z( ii φφ −=−
d) Probabilităţile teoretice ca o valoare să se situeze în intervalul i sunt:
)z(F)z(Fp supisupii 1−−= sau )z()z(p supisupii 1−−= φφ .
Excepţie face primul interval, pentru care: )z(,),()z(p supsup 111 5050 φφ +=−−=
şi ultimul interval, pentru care: )z(,p suprr 150 −−= φ .
Suma probabilităţilor de apariţie a evenimentelor este 1.
e) Frecvenţele teoretice se determină, pe baza probabilităţilor teoretice, astfel:
iiteor pnn ⋅=
18
Test de autoevaluare 2
1. Un analist economic studiază distribuţia firmelor după procentul din venituri cheltuit pentru
cercetare-dezvoltare. Pentru a verifica ipoteza normalităţii empirice obţinute, el utilizează
f) Se calculează statistica ( )
∑=
−=k
i i
ii
np
npn
1
22χ .
g) Din tabel rezultă: 4432 ,calculat =χ .
Din tabelele anexe se citeşte valoarea lui 5916,1226,05,0, === ltabαχ , unde l = numărul gradelor de
libertate, l = r – k – 1 = 9 - 2 - 1 = 6.
Cum 22tabcalculat χχ < , se acceptă ipoteza că între distribuţia empirică şi cea teoretică există
concordanţă.
Limitele intervalelor
ni xi xini ii n)xx( 2−
6,2-6,6 4 6,4 25,6 10,24 6,6-7,0 12 6,8 81,6 17,28 7,0-7,4 44 7,2 316,8 28,16 7,4-7,8 90 7,6 684,0 14,40 7,8-8,2 107 8,0 856,0 0 8,2-8,6 86 8,4 722,4 13,76 8,6-9,0 36 8,8 316,8 23,04 9,0-9,4 15 9,2 138,0 21,60 9,4-9,8 6 9,6 57,6 15,36 Total 400 - 3198,8 143,84
Limitele intervalelor
x
supii s
xxz
−=
φφφφ(z) pi npi ( )i
ii
np
npn 2−
6,2-6,6 -2,3340 -0,4901 0,0099 4 0 6,6-7,0 -1,6675 -0,4525 0,0376 15 0,6 7,0-7,4 -1,0005 -0,3413 0,1112 44 0 7,4-7,8 -0,3335 -0,1293 0,2120 85 0,29 7,8-8,2 0,3335 0,1293 0,2586 104 0,09 8,2-8,6 1,0005 0,3413 0,2120 85 0,01 8,6-9,0 1,6675 0,4525 0,1112 44 1,45 9,0-9,4 2,3340 0,4901 0,0376 15 0 9,4-9,8 ∞ 0,5000 0,0099 4 1 Total - - 1,00 400 3,44
19
testul χ2 şi obţine, pentru un număr de grade de libertate, l=10, valoarea 30,182 =calcχ .
Probabilitatea maximă cu care se garantează rezultatul este:
a) 75%;
b) 90%;
c) 95%;
d) 99%;
e) 97,5%.
6. Răspunsuri şi comentarii la testele de autoevaluare
Test de autoevaluare 1
1. b) 1-α
2. c) eroarea pe care o facem acceptând ipoteza nulă când ea este falsă;
3. d) eroarea pe care o facem eliminând ipoteza nulă atunci când ea este adevărată;
Test de autoevaluare 2
1. b)
7. Bibliografia Unităţii de învăţare 2
� V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose, C.Boboc, D.Pele – Teorie şi
practică econometricăm Ed; Meteor Press, 2007
� T. Andrei, Statistică şi econometrie, Ed. Economică, 2003
8. Lucrare de verificare 2
1. Ce reprezintă regiunea critică?
2. Când comitem o eroare de genul întâi?
3. Ce reprezintă ipoteza nulă într-un proces de testare de ipoteze statistice?
4. Pentru fiecare dintre următoarele regiuni critice, schiţaţi distribuţia lui z şi indicaţi locul
regiunii critice (Rc):
20
a) z > 1,96;
b) z > 1,645
c) z > 2,575
d) z < -1,29
e) z < -1,645 sau z > 1,645
f) z < -2,575 sau z > 2,575.
5. Care este diferenţa dintre H0 şi H1?