Introducere in Statistica

46
Universitatea Bucureşti Facultatea de Filosofie STATISTICĂ Coord. - Lector drd. Lucian Pop Introducere, Cap. 1, 2, 6 - Lucian Pop Cap 3, 5 - Lucian Pop, Cosmin Marian Cap 4 - Asist. Cosmin Marian Cap 7 - Lector dr. Gabriel Badescu 2001 CUPRINS Introducere şi concepte de bază .................................................................................................................. 3 Capitolul 1 .................................................................................................................................................. 8 Descrierea variabilelor................................................................................................................................ 8 Capitolul 2 ................................................................................................................................................ 23 Distribuţii de probabilitate........................................................................................................................ 23 Capitolul 3 ................................................................................................................................................ 32 Eşantionarea. Distribuţia de eşantionare. Intervale de ncredere .............................................................. 32 Capitolul 4 ................................................................................................................................................ 45 Proceduri de eşantionare........................................................................................................................... 45 Capitolul 5 ................................................................................................................................................ 54 Testarea ipotezelor statistice. Teste de semnificaţie ................................................................................. 54 Capitolul 6 ................................................................................................................................................ 62 Asocierea variabilelor calitative ............................................................................................................... 62 Capitolul 7 ................................................................................................................................................ 69 Studiul relaţiilor ntre variabile cantitative ............................................................................................... 69 Anexa 1. Distribuţia normală normată (standard) .................................................................................... 87 Anexa 2. Valorile critice ale lui t pentru aria de sub curbă aflată la dreapta valorii. ................................ 89 Anexa 3. Valorile critice ale lui χ 2 ........................................................................................................... 91

description

Cartea de introducere in statistica a Universitatii Bucuresti, 2001

Transcript of Introducere in Statistica

Page 1: Introducere in Statistica

Universitatea BucureştiFacultatea de Filosofie

STATISTICĂ

Coord. - Lector drd. Lucian PopIntroducere, Cap. 1, 2, 6 - Lucian Pop

Cap 3, 5 - Lucian Pop, Cosmin MarianCap 4 - Asist. Cosmin Marian

Cap 7 - Lector dr. Gabriel Badescu

2001

CUPRINS

Introducere şi concepte de bază.................................................................................................................. 3Capitolul 1 .................................................................................................................................................. 8Descrierea variabilelor................................................................................................................................ 8Capitolul 2 ................................................................................................................................................ 23Distribuţii de probabilitate........................................................................................................................ 23Capitolul 3 ................................................................................................................................................ 32Eşantionarea. Distribuţia de eşantionare. Intervale de încredere .............................................................. 32Capitolul 4 ................................................................................................................................................ 45Proceduri de eşantionare........................................................................................................................... 45Capitolul 5 ................................................................................................................................................ 54Testarea ipotezelor statistice. Teste de semnificaţie ................................................................................. 54Capitolul 6 ................................................................................................................................................ 62Asocierea variabilelor calitative ............................................................................................................... 62Capitolul 7 ................................................................................................................................................ 69Studiul relaţiilor între variabile cantitative ............................................................................................... 69Anexa 1. Distribuţia normală normată (standard) .................................................................................... 87Anexa 2. Valorile critice ale lui t pentru aria de sub curbă aflată la dreapta valorii. ................................ 89Anexa 3. Valorile critice ale lui χ2........................................................................................................... 91

Page 2: Introducere in Statistica

Introducere şi concepte de bazăDeseori, în viaţa de zi cu zi, folosim sau auzim expresii cum ar fi: "statisticile

arată că �", "o statistică simplă sugereaza că �" etc.. De multe ori, oamenii asociazăstatistica cu o simplă "colecţie" de numere. Totuşi, statistica reprezintă mult mai multdecât atât, ea dezvoltându-se ca o metodă ştiinţifică de analiză larg utilizată în multedomenii. În ştiinţele sociale, rolul ei a devenit din ce în ce mai important cu deosebire înultimii 30-40 de ani. Şi în acest domeniu, ca şi în multe altele, colectarea, organizarea şianaliza informaţiei sunt "instrumente" deosebit de utile. Tehnicile de culegere ainformaţiei sunt variate, de la cercetări pe bază de chestionar sau interviuri telefonice laexperimente. Informaţiile astfel culese poartă numele generic de "date" şi se referă îngeneral la măsurarea unor atribute sau caracteristici ale "subiecţilor" analizaţi. Măsurareaeste efectuată prin clasificarea "observaţiilor" (subiecţilor) conform unor reguli specifice(de exemplu, măsurarea vârstei constă în clasificarea indivizilor în funcţie de numărul deani de la naştere).

În general, statistica în ştiinţele sociale se preocupă de trei mari aspecte: a) modulîn care datele sunt culese, sau mai exact modul în care se face selecţia observaţiilor careurmează sa fie analizate, b) descrierea acestor date şi c) explicarea şi/sau predicţia unorfenomene studiate. Înainte însă de a trece la tratarea pe larg a acestor aspecte este nevoiede introducerea unor concepte de bază, precum şi a câtorva distincţii. Una dintre acestea,şi cea mai importantă poate, este aceea între statistica pur descriptivă şi statisticainferenţială. Practic, aceasta din urmă constituie "nucleul dur" al statisticii. Pentru aînţelege distincţia mai sus amintită, e nevoie însă mai întâi de clarificarea conceptelor depopulaţie (statistică) şi eşantion.

Termenul de populaţie are o semnificaţie aparte în statistică. Populaţia statisticăreprezintă mulţimea tuturor obiectelor sau indivizilor care prezintă interes pentru studiu.De exemplu, dacă cineva doreşte sa studieze problema neparticipării şcolare, atuncipopulaţia va consta din totalitatea copiilor de vârstă şcolară din România. Dacă însăobiectul studiului este gradul de poluare a localitaţilor urbane, atunci populaţia va constadin toate oraşele României. În statistică aşadar, când ne referim la populaţie avem înminte mulţimea unitaţilor de analiză, indiferent ce reprezintă acestea (şcoli, oraşe,întreprinderi, ţări, oameni sau chiar procese, fenomene şi acţiuni).

Un eşantion nu este nimic altceva decât un subset sau o submulţime a populaţieianalizate. Extragerea unui eşantion din populaţie este utilă şi chiar necesară în condiţiileîn care resursele (financiare, de timp etc.) de care dispun iniţiatorii studiului nu suntsuficiente pentru a asigura investigarea întregii populaţii. Să ne imaginăm că cineva ardori să studieze problema sărăciei în România. În absenţa unui eşantion, respectivulcercetător ar fi pus în situaţia de a investiga peste 7 milioane de gospodării, ceea ce arduce la costuri financiare imense şi la o extindere extraordinară a timpului rezervatculegerii de informaţii. În acelaşi timp, un subset din populaţia analizată, extras conformunei scheme de eşantionare riguroase, poate furniza toată informaţia necesară la un nivelde acurateţe foarte ridicat.

Putem acum clarifica distincţia dintre statistica descriptivă şi cea inferenţială: întimp ce metodele statistice descriptive constă în descrierea sintetică a informaţieicuprinse într-un set de date, metodele statistice inferenţiale constă în acele tehnici şiproceduri folosite pentru a face generalizări despre caracteristicile unei populaţii, pebaza informaţiilor culese de la un eşantion extras din acea populaţie. Practic marea

provocare a statisticii o constituie exact acest proces de inferenţă (generalizare) de ladatele de eşantion la populaţie.

Exemplul I.1 Primarul unui oraş doreşte înfiinţarea unor noi locuri de joacă pentru copii.Pentru acest lucru însă, ar mai avea nevoie de fonduri suplimentare, pe care se gândeştesă le obţină prin introducerea unei noi taxe. Totuşi, pentru că alegerile se apropie,primarul ar dori să ştie în ce măsură populaţia cu drept de vot a oraşului consideră calegitimă introducerea acestei noi taxe. În acest caz, populaţia vizată este constituită decidin toate persoanele în vârstă de peste 18 ani din respectivul oraş. Deoarece este practicimposibil ca primarul să discute cu fiecare alegător în parte, el va efectua (cu ajutorulunei firme specializate) un sondaj de opinie pe un eşantion de - să zicem - 500 depersoane. Rezultatele sondajului arată că 55% din persoanele investigate sunt în favoareaintroducerii acestei taxe. Totuşi acest rezultat nu reprezintă "adevărata" valoare aprocentului din populaţia cu drept de vot care este dispusă să susţină iniţiativa primarului.Pentru a afla "adevăratul" procent din populaţie, primarul (respectiv cei care au efectuatsondajul şi analizează datele) va trebui sa apeleze la inferenţa statistică.

Este momentul acum să introducem două noi concepte, şi anume acelea deparametrii şi respectiv statistici la nivel de eşantion.

Caracteristicile populaţiei despre care facem ineferenţe pe baza eşantionului senumesc parametrii. Caracteristicile eşantionului pe baza cărora inferăm se numesc purşi simplu statistici. În exemplul de mai sus, 55% reprezintă o statistică descriptivă,deoarece ea descrie sintetic o caracteristică a eşantionului. Cele mai multe studii sunt însăinteresate în aflarea parametrilor, care în general sunt necunoscuţi (exemple: Câţi săraciexista în România? Care este procentul din populaţie de susţinători ai unui partid? etc.).Eşantioanele şi statisticile descriptive sunt utile în măsura în care ele pot oferi informaţiidespre parametrii de interes. Statistica inferenţială este aceea care permite obţinerea uneimasuri a acurateţei statisticilor folosite pentru estimarea valorii parametrilor. Înconsecinţă, atunci când întreaga populaţie este cuprinsă într-un studiu, statisticainferenţială nu este necesară.

În final ne vom opri asupra unei ultime noţiuni deosebit de importante pentrustudiul statisticii, şi anume asupra variabilelor. Vom defini variabila ca fiind oricecaracteristică a membrilor unei populaţii sau unui eşantion care variază (în respectivapopulaţie/eşantion). Astfel, culoarea părului indivizilor dintr-o populaţie este o variabilăîn măsura în care indivizii care compun respectiva populaţie au păr de culori diferite.Dacă toţi indivizii ar fi blonzi, să zicem, atunci culoarea părului ar fi constantă înrespectiva populaţie. Cu cât o caracteristică are o variaţie mai mare, cu atît respectivapopulaţie este mai eterogenă şi, invers, cu cât o caracteristică dată are o variaţie maimică, cu atât respectiva populaţie va fi mai omogenă, din perspectiva respectiveicaracteristici. În exemplul de mai sus, valorile posibile ale variabilei "culoarea părului" arfi "brunet", "blond", "roşcat" etc.. Fiecare individ (statistic) poate lua o singură valoarepentru o variabilă..

Variabilele pot fi clasificate în funcţie de multe criterii. Una din distincţiileimportante este aceea dintre variabile discrete şi variabile continue. Atât variabilelediscrete cât şi variabilele continue pot lua o infinitate de valori. Diferenţa dintre ele

Page 3: Introducere in Statistica

Tabelul I.1 - Niveluri de masurare a variabilelor

a) ordonare b) unitate de masură c) zero absolutNominal nu nu nuOrdinal da nu nuDe interval da da nuDe raport da da da

constă în faptul că în timp ce în cazul variabilelor continue între două valori succesive alevariabilei pot exista o infinitate de valori, în cazul variabilelor discrete acest lucru nu seîntâmplă. Un exemplu de variabilă continuă este înălţimea clădirilor unui oraş masuratăîn metri, iar un exemplu de variabilă discretă îl reprezintă veniturile indivizilor dintr-opopulaţie, măsurate în lei. În cazul primei variabile, între doua valori succesive aleacesteia (de exemplu 5 şi 6 m) există o infinitate de alte valori deoarece metrii sesubdivid în centimetri, apoi în milimetri etc., în cazul veniturilor acest lucru nu mai esteposibil, între 5 lei şi 6 lei nemaiexistând subdiviziuni.

Nivelul de măsurare al variabilelor este un alt criteriu de clasificare a acestora,de o mare importanţă pentru studiul statisticii. Putem distinge între patru niveluri demăsurare (nominal, ordinal, de interval şi de raport), în funcţie de trei criterii:a) posibilitatea de a ordona valorile variabilei,b) egalitatea intervalelor dintre valorile variabilei (sau altfel spus existenţa unei unităţi

de măsură),c) existenţa unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut".

1. Nivelul de măsurare nominal presupune clasificarea unor atribute, caracteristici,fenomene etc. în categorii care trebuie să fie distincte, mutual exclusive şi exhaustive.Acest tip de variabile (respectiv scalele folosite în măsurare) indică numai faptul căexista o diferenţă calitativă între categoriile studiate, nu şi magnitudinea acesteidiferenţe. La limită, putem privi aceste variabile ca pe nişte tipologii. Câteva exemplede variabile măsurate la nivel nominal sunt: statutul ocupaţional al indivizilor(agricultor, salariat, mic întreprinzator, şomer etc.), religia (ortodox, romano-catolic,greco-catolic etc.) apartenenţa etnică (român, maghiar, rrom etc.), mediul de rezidenţă(rural, urban) ş.a.m.d.. Valorile acestui tip de variabile nu pot fi ordonate, sau cu altecuvinte nu există o ierarhie (decât eventual conform unor criterii extrinseci) şi înconsecinţă problema "distanţei" sau a intervalelor dintre valori nici nu poate fi pusă.Cu atât mai puţin putem discuta despre existenţa unui "zero absolut" (exemplu:fiecare individ are un statut ocupaţional sau aparţine unei etnii, sau altfel spus absenţacaracteristicilor "statut ocupaţional" sau "apartenenţă etnică" este imposibilă).

2. Nivelul de masurare ordinal implică nu numai clasificarea elementelor în categorii cişi posibilitatea ordonării acestora de la minim la maxim (existenţa tranzitivităţii: dacăa>b şi b>c, atunci a>c). Totuşi, la acest nivel de măsurare nu este oferită nici oinformaţie cu privire la "distanţa" dintre valorile scalei de măsură. Cu alte cuvinte,diferenţa dintre prima valoare şi cea de-a doua poate fi diferită de diferenţa dintre apatra şi a cincea. Exemple de variabile măsurate la nivel ordinal sunt calificativeleşcolare (cu valorile "insuficient", "suficient", "bine" şi "foarte bine"), satisfacţia faţăde anumite aspecte (cu valorile "foarte nesatisfăcut", "nesatisfăcut", "satisfăcut","foarte satisfăcut") etc..

3. Măsurarea la nivel de interval, oferă în plus faţa de nivel anterior (cel ordinal) şiinformaţie referitoare la distanţa dintre valorile scalei şi este caracterizată de existenţaunor intervale egale. Totuşi, la acest nivel de măsurare nu există un zero absolut, cimai degrabă unul convenţional. Exemple de astfel de scale de măsurare sunttemperatura masurată în grade Celsius (intervalele dintre valori sunt egale, darpunctul 0 este convenţional ales ca fiind temperatura la care apa ingheaţă),coeficientul de inteligenţă - IQ - (daca două persoane au scoruri de 100 şi respectiv150, putem spune ca diferenţa dintre cei doi este de 50 de puncte, dar nu putem spunecă cel de-al doilea este cu 1/2 mai inteligent decât primul sau că scorul 0 semnificăabsenţa inteligenţei).

4. Măsurarea la nivel de raport include toate caracteristicile nivelurilor anterioare(ordonare şi intervale egale), plus existenţa unei "origini" sau zero absolut. Acestlucru permite formularea unor afirmaţii în termeni de proporţii (raporturi) între valori.De exemplu, vitezele de raspuns a doi subiecţi la un acelaşi stimul pot fi comparate întermeni de "timpul de răspuns a fost de două ori mai mare" etc.. Exemple de variabilemasurate la acest nivel sunt vârsta, greutatea, înălţimea, distanţa, numărul de copii dingospodărie etc.

Corecta identificare a nivelului de măsurare utilizat este foarte importantă în alegereaprocedurilor satistice de analiză. După cum se poate observa din descrierea de mai sus,pentru fiecare nivel exista operaţii matematice permise şi operaţii interzise. Astfel, laprimul nivel, cel nominal nu sunt permise nici ordonarea, nici adunarea/scăderea şi niciînmulţirea/împărţirea. La nivelul ordinal este permisă numai ordonarea, la cel de intervalsunt permise în plus şi operaţiile de adunare/scădere, iar la ultimul nivel, cel de raportsunt permise toate operaţiile.

În funcţie de nivelul de măsurare, vom vorbi despre variabile măsurate la nivelnominal, variabile măsurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale,ordinale, de interval şi de raport. Reducând cele patru clase la două, putem vorbi devariabile calitative (nivelurile nominal şi ordinal) şi variabile cantitative (interval şiraport). Datorita caracterului "ierarhic" şi cumulativ al nivelurilor de măsurare (de lamulte restricţii către nici o restricţie în ceea ce priveşte operaţiile permise, sau de la"calitativ" la "cantitativ"), vom putea întotdeauna trata o variabilă aflată la un nivel"superior" de măsurare ca şi cum ar fi fost măsurată la un nivel "inferior". De exemplu,vârsta masurata în ani de viaţă va putea oricând fi tratată ca o variabilă ordinală, dacă îigrupăm valorile (sub 20, 21-30, 31-50, peste 50). Niciodată însă nu vom putea trata ovariabilă aflată la un nivel "inferior" ca pe una aflată "mai sus" în ierarhie. (Câteodată,cercetătorii fac excepţie de la această regulă, tratând variabilele ordinale ca şi cum ar fimăsurate la nivel de interval. Totuşi, o dată cu dezvoltarea unor noi tehnici de analiză,dedicate special nivelelor de măsurare "calitativă", aceste practici devin din ce în ce mairare.)

Înainte de a încheia această scurtă introducere, ar mai fi necesare câteva cuvintedespre utilizarea calculatoarelor în analiza statistică. Aplicaţiile sau programele pentrucomputer care pot fi utilizate sunt foarte numeroase, ele variind în funcţie decomplexitatea analizelor pe care le pot efectua şi în funcţie de uşurinţa în utilizare (saualtfel spus în funcţie de cât sunt de "prietenoase" cu utilizatorul). Pentru utilizatorii de

Page 4: Introducere in Statistica

Microsoft Office©, unul dintre cele mai la îndemână instrumente este MS Excel©, carepoate efectua o serie de analize statistice - mai ales descriptive, fiind însă mai puţin"dotat" la capitolul statistică inferenţială (totuşi există module care îi pot îmbunătăţiperformanţa în această privinţă). Dintre programele "dedicate" analizelor statistice, celmai răspândit la noi în ţară pare a fi SPSS, datorită interfeţei foarte prietenoase şi deciuşurinţei în utilizare. O altă variantă, mai puţin răspândită dar care are avantajul de a ficomplet gratuită şi prietenoasă este VISTA ( http://www.visualstats.org ). Dezavantajulacesteia constă în viteza relativ redusă de lucru cu baze de date voluminoase (mai mult deo mie de cazuri).

Bibliografie recomandată:

• Clocotici V., Stan, A., Statistică aplicată în psihologie, Polirom, 2000- capitolele 1-8

• Rotariu Traian (coordonator), Metode statistice aplicate în ştiinţele sociale, Polirom,1999-capitolele 1-8

• Sandu, Dumitru, Statistică în ştiinţele sociale , Universitatea Bucureşti, 1992- capitolele 1, 2, 3, 6, 7

Capitolul 1

Descrierea variabilelor

De obicei, după colectarea datelor printr-o cercetare (fie ea de tip recensământ -adică prin investigarea întregii populaţii, fie de tip sondaj - adică prin investigarea unuieşantion), informaţia este organizată într-o bază de date care de cele mai multe ori areforma unui tabel în care pe rânduri sunt aşezate observaţiile (unităţile de analiză sauindivizii statistici), iar pe coloane variabilele (de obicei prima variabilă fiind un"identificator" al subiecţilor):

2.1 Tabele de frecvenţe şi graficePrezentarea informaţiei conţinute într-o bază de date se face de obicei sintetic,

deoarece simpla listare a datelor "brute", primare - observaţie cu observaţie - nu poateoferi de cele mai multe ori o imagine de ansamblu a situaţiei analizate. Cel mai simplumod de prezentare/descriere îl reprezintă tabelele de frecvenţe, sau mai bine zisdistribuţia frecvenţelor. Distribuţia de frecvenţe este o listă a valorilor (categoriilor)posibile ale unei variabile, însoţite de numărul de observaţii care iau respectivele valori(care se află în fiecare din respectivele categorii). În cazul variabilelor continue sau alcelor discrete cu un număr mare de valori, se recurge mai întâi la o "grupare" a datelor înmai puţine categorii (exemplu: comune sub 1000 de locuitori, între 1001 şi 2000locuitori, între 2001 şi 3000, 3001-4000 etc.). Tabelul 1.2 prezintă o distribuţie defrecvenţe a numarului de locuitori în comună, pentru comunele din România. Cu ajutorul

Tabelul 1.1: Baza de date conţinând indicatori demografici în mediul rural, la nivel de comune, 1998

codullocalităţii

denumirea localităţii populaţia (numărde locuitori)

numărnaşteri

numărdecese

numarsosiţi

numărplecaţi

���

1071 CIUGUD 2463 26 34 65 22 ���2130 ALBAC 2259 31 30 4 45 ���2309 ALMASU MARE 1873 21 35 13 20 ���2381 ARIESENI 1940 24 24 3 20 ���2577 AVRAM IANCU 2083 19 35 18 28 ���2988 BERGHIN 2048 23 45 44 24 ���3039 BISTRA 5385 57 74 33 84 ���3397 BLANDIANA 1160 6 24 22 10 ���3459 BUCIUM 2009 13 31 23 22 ���3761 CENADE 1048 11 11 4 14 ���3805 CERGAU 1756 26 34 22 25 ���3958 CETATEA DE BALTA 3468 57 48 4 63 ���4008 CIURULEASA 1463 18 18 10 29 ���4106 CALNIC 3078 52 54 75 28 ���...

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

���������

Page 5: Introducere in Statistica

acestui tabel vom introduce două noţiuni noi, şi anume acelea de frecvenţe relativerespectiv frecvenţe cumulate (respectiv distribuţie cumulativă). Prima coloană atabelului conţine valorile variabilei "număr de locuitori", grupate în categorii. Cea de-adoua coloană conţine frecvenţele de apariţie ale acestor valori, sau cu alte cuvintenumărul de observaţii (în cazul nostru comunele) aflate în fiecare categorie. Putem deciobserva ca în 1998 în România existau 54 de comune cu 1000 sau mai puţini locuitori,379 de comune cu 1001-2000 locuitori ş.a.m.d.. Ce-a de-a treia coloană a tabeluluiconţine frecvenţele relative, adică ponderea sau proporţia observaţiilor din fiecarecategorie în totalul observaţiilor. Putem afirma pe baza acestei informaţii ca în Româniacomunele cu mai puţin de o mie de locuitori reprezintă 2,01% din totalul comunelor, întimp ce ponderea comunelor cu 1001-2000 locuitori este de 14,11% ş.a.m.d..

Formula de calcul a frecvenţelor relative este

Nnfr i

i = , sau 100×=Nn

fr ii , dacă dorim să o exprimăm în procente

unde:- fri este frecvenţa relativă a categoriei (valorii variabilei) i- ni este frecvenţa absolută a categoriei i (numarul de cazuri sau observaţii care

aparţin respectivei categorii)- N este numărul total de observaţii

Cea de-a patra coloană a tabelului conţine distribuţia cumulativă a frecvenţelorrelative, şi reprezintă suma dintre frecvenţa relativă a respectivei categorii şi frecvenţelerelative ale categoriilor inferioare. Informaţia oferită de frecvenţele cumulate este foarteimportantă, deoarece ea permite enunţarea unor afirmaţii cum ar fi: "în 1998, comunelecu o populaţie sub 3001 locuitori reprezentau 40,36% din totalul comunelor dinRomânia". Este de la sine înţeles că a calcula frecvenţe cumulate pentru variabilenominale nu are nici un sens, din moment ce valorile acestui tip de variabile nu pot fiordonate.

Reprezentarea grafică a unui tabel de frecvenţe se face de obicei cu ajutorul uneihistograme (Graficul 1.1) sau a unei diagrame-bară (Graficul 1.2). În cazul ambelor tipuride grafice, pe axa verticală sunt reprezentate frecvenţele (absolute sau relative) iar pe axa

Tabelul 1.2 Distribuţia de frecvenţe a numărului de locuitori în comună, pentru comunele României

Numarul delocuitori în comună

frecvenţa (absolută) frecvenţa relativă(%)

frecvenţa relativăcumulată (%)

1000 sau mai puţini 54 2,01 2,011001-2000 379 14,11 16,122001-3000 651 24,24 40,363001-4000 602 22,41 62,774001-5000 391 14,56 77,335001-6000 267 9,94 87,276001-7000 145 5,40 92,677001-8000 87 3,24 95,90peste 8000 110 4,10 100

Total 2686 100

Graficul 1.1 Histograma distanţelor de la centrul comunei până lacel mai apropiat oraş cu peste 30 de mii de locuitori

Distanta (km) pina la cel mai apropiat oras cu peste 30000 de locuitori

140135

130125

120115

110105

10095

9085

8075

7065

6055

5045

4035

3025

2015

105

0

Frec

vent

e ab

solu

te

400

300

200

100

0

Graficul 1.2 Diagrama bară - distribuţia stării civile a capului degospodărie într-un eşantion de 32200 de gospodării

Starea civila a capului gospodariei

necasatorit(a)vaduv(a)

divortat(a)uniune consensuala

casatorit(a)Fr

ecve

nte

rela

tive

100

80

60

40

20

0

orizontală sunt reprezentate valorile variabilei analizate. Totuşi, cele două tipuri degrafice sunt utilizate diferenţiat: histograma este recomandată numai în cazul variabilelormăsurate la nivel de interval sau de raport, în timp ce diagrama-bară se foloseşte depreferinţă pentru variabile nominale şi ordinale. Această diferenţă provine din modul lorde construcţie:- în cazul histogramei, fiecare bară nu reprezintă o singură valoare a variabilei ci un

interval de valori. Înconsecinţă, lăţimea bareivariază odată cu mărimeaintervalului, aceasta din urmăfiind stabilită de cătrecercetător. Valorile de pe axaorizontală a graficuluireprezintă centrele acestorintervale. Histograma esterecomandată în cazulvariabilelor "cantitative"tocmai pentru faptul că acesttip de variabile fie suntcontinue, fie au un numărfoarte mare de valori chiar dacăsunt discrete. Stabilireamărimii intervalelor nu este osarcină uşoară: intervale preamari (adică bare puţine) pot

duce la pierderea de informaţie, în timp ce intervale prea mici (adică un număr prea marede bare) poate ascunde regularităţile distribuţiei.- în cazul diagramei-bară, fiecare bară corespunde unei singure valori (categorii) a

variabilei. În plus, pentru aevidenţia faptul că datele nusunt continue, barele nu suntlipite între ele, ca în cazulhistogramei.

Page 6: Introducere in Statistica

Graficul 1.3 Distribuţie bimodală - histograma variabilei"nivel de educaţie", pentru angajaţii unei bănci

Numar de ani de scoala

222018161412108

frecv

ente

abs

olut

e

200

100

0

2.2 Tendinţa centrală, variaţia şi forma distribuţieiÎn general, o descriere completă a unei variabile se face urmărind trei

caracteristici ale acesteia:a) tendinţa centrală (sau centrul distribuţei) - adică valoarea "tipică" a acelei variabileb) variaţia variabilei - ca indicator al gradului de "împraştiere" a datelorc) forma distribuţiei

2.2.1 Indicatori (măsuri) ai tendinţei centrale

Pentru a descrie centrul unei distribuţii, sau tendinţa centrala a unei variabile,există mai multe măsuri. În aceasta secţiune vor fi discutate cele mai des utilizate: modul,mediana şi media.

• Modul este definit ca fiind valoarea cu frecvenţa cea mai mare a unei distribuţii.Altfel spus, modul este acea valoare a variabilei care apare cel mai des într-uneşantion sau într-o populaţie.

Termenul derivă din francezul "mode", adică modă. În cazul distribuţiei variabilei "stareacivilă a capului gospodăriei" reprezentată în Graficul 1.2, modul este valoarea"căsatorit(ă)" (cu frecvenţa relativă 80%). De cele mai multe ori, pentru a simplificalucrul cu datele, valorilor variabilelor nominale li se acordă convenţional codurinumerice. De exemplu, pentru datele din Graficul 1.2, putem acorda codul 1 pentruvaloarea "căsatorit(ă)", codul 2 pentru valoarea "uniune consensuală", codul 3 pentruvaloarea "divorţat(ă)" etc.. Chiar dacă aceste coduri sunt numerice, ele trebuie privite canişte simple simboluri convenţionale. Utilizarea lor nu înseamnă că valorile pot fiordonate sau că intervalele dintre valori sunt egale. În cazul în care valorile variabilei"stare civilă" ar fi fost codificate ca mai sus, modul ar fi fost valoarea (codul) 1.

Pentru datele din Tabelul 1.2, care prezintă date grupate în intervale, vom vorbidespre un interval modal - şi anume categoria "2001-3000 locuitori", deoarece aceastaeste "valoarea" (de fapt intervalul de valori) cu frecvenţa cea mai mare (651).

Grafic, modul este valoarea variabilei căreia îi corespunde "vârful" distribuţiei.Deşi simplu de obţinut, modul

nu este întotdeauna cea mai bunămăsură a tendinţei centrale, deoarecede multe ori depinde de grupareaarbitrară a datelor (de exemplu, pentrudatele din Tabelul 1.2 am fi obţinut unalt mod dacă datele ar fi fost altfelgrupate). De asemenea, nu rareori seîntâlnesc distribuţii bimodale, în careexistă două valori diferite ale variabileicare apar cu o aceeaşi "cea mai mare"frecvenţă. Grafic, o distribuţie

Tabelul 1.3 Distribuţia notelor pentru 80 de studenţi

Nota Frecvenţeabsolute

Frecvenţerelative (%)

Frecvenţe relativecumulate (%)

3 2 2,5 2,54 4 5 7,55 7 8,75 16,256 10 12,5 28,757 14 17,5 46,258 23 28,75 759 14 17,5 92,510 6 7,5 100

Total 80 100

bimodală este o distribuţie cu două "vârfuri" (Graficul 1.3).

• Mediana este acea valoare a unei variabile care împarte seria ordonată de date îndouă părţi egale, astfel încât 50% din observaţii se vor situa deasupra valoriimediane iar 50% dedesubtul ei.

Să luăm de exemplu notele pe care 7 studenţi le primesc la examenul de statistică (dupăce le-am ordonat în prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, 10. Mediana acesteiserii de date este 8, deoarece ea divide seria de date în două parţi egale: 3 dintre studenţi(observaţii) au note mai mici decât 8 şi trei dintre ei au note mai mari. Nota 8 este exactla "mijlocul" seriei de date (după ordonare). Este important de reţinut că ceea ce conteazapentru stabilirea medianei este numărul de observaţii pe care se face analiza, şi nunumărul de valori ale variabilei.

Calculul medianei este relativ simplu atunci când avem de-a face cu un numărmic şi impar de observaţii. Lucrurile se complică puţin atunci când numărul de observaţiieste par, sau dacă numărul de observaţii e foarte mare şi e nevoie să apelăm la tabele defrecvenţe. Lucrurile se complică şi mai mult dacă datele de care dispunem sunt dategrupate în intervale, ca în Tabelul 1.2.

În cazul în care avem de-a face cu un număr par de observaţii nu va mai exista osingură valoare la mijlocul seriei de date, ci vom avea două valori. În această situaţie,mediana se află la mijlocul "distanţei" dintre aceste valori, sau cu alte cuvinte, este medialor. Să presupunem că am dori sa calculăm mediana pentru o serie de 8 studenţi, deci unnumăr par de observaţii. După ordonare, datele arată astfel: 5, 5, 6, 7, 8, 9, 9, 10. Lamijlocul seriei se află valorile 7 şi 8. Mediana va fi deci 7,5.

Pentru situaţiile în care suntem nevoiţi să calculăm mediana pe baza dateloroferite de un tabel de frecvenţe,vom utiliza frecvenţelecumulate, şi vom căuta aceavaloare a variabilei sub care seaflă 50% din cazuri. Pentrudatele din Tabelul 1.3, 28,75%din observaţii iau valoarea 6sau o valoare mai mică,46,25% iau valoarea 7 sau maipuţin, iar 75% iau valoarea 8sau o valoare mai mică.Rezultă de aici că notamediană nu poate fi 7 sau altănotă mai mică (deoarece numai 46,25% dintre studenţi iau nota 7 sau mai puţin).Mediana va fi în consecinţă 8, deoarece, chiar dacă avem un număr par de observaţii,ambele valori care se găsesc la mijlocul seriei de date sunt egale cu 8.

În cazul în care avem de-a face cu un tabel de frecvenţe care conţine date grupateîn intervale de valori (aşa cum este Tabelul 1.2), valoarea medianei poate fi calculată cuajutorul formulei:

Page 7: Introducere in Statistica

Ln

ncN

lMe ×−

+= 2

unde:- Me este mediana,- l este limita inferioară a intervalului care conţine mediana- N este numărul total de observaţii- nc este frecvenţa absolută cumulată a tuturor categoriilor care preced intervalul

care conţine mediana (adică numărul de observaţii care iau valori mai mici decâtl)

- n este frecvenţa intervalului care conţine mediana- L este lărgimea sau mărimea intervalului care conţine mediana

Exemplu de calcul al medianei pe baza datelor din Tabelul 1.2:Din tabel reiese ca mediana este conţinută în intervalul 3001-4000 locuitori, deoarecefrecvenţele relative cumulate ale categoriilor precedente sunt mai mici de 50%, iarfrecvenţa cumulată a intervalului 3001-4000 este aproximativ 63%. Limita inferioară aacestui interval este deci l = 3001. Observaţia căreia îi corespunde mediana (numită şiindivid median) este observaţia care se află exact la mijlocul seriei ordonate de date, cualte cuvinte este observaţia N/2, în cazul nostru observaţia cu numărul 1343. Dacăscădem din acest număr numărul total de observaţii care au valori mai mici decât 3001,obţinem 1343 - 1084 = 259, unde 1084 = 54 + 379 + 651 este valoarea lui nc din formulamedianei (obţinut prin cumularea frecvenţelor categoriilor precedente intervalului careconţine mediana). Cu alte cuvinte, observaţia căreia îi corespunde mediana este cea de-a259-a observaţie din categoria "3001-4000 locuitori", categorie care apare cu frecvenţa n= 602. Am putea acum să ne întrebăm: dacă la 602 comune corespunde o creştere anumărului de locuitori cu L=1000 (de la 3001 la 4000), atunci la 259 de comune cât vacorespunde? Răspunsul e dat de regula de trei simplă, conţinută oarecum şi în formula

medianei: 2,4301000602259 =× . Cu alte cuvinte, mediana este egala cu 3001 + 430 = 3431

locuitori.

Mediana este un caz special de măsură a localizării. Măsurile localizării sunt de obiceicunoscute sub numele de percentile sau quantile. Pentru cazul general, numim percentilap acea valoare sub care se află p% din cazuri şi deasupra căreia se află (100-p)% dincazuri. De exemplu, mediana este percentila 50. Cele mai cunoscute măsuri ale localizăriisunt quartilele, quintilele şi decilele. Quartilele sunt acele valori ale seriei de date care oîmpart în patru părţi egale, quintilele sunt valorile care o împart în cinci părţi egale, iardecilele în 10. Sub quartila 1 se află 25% din cazuri, iar deasupra ei 75%. Sub quartila 2se afla 50% din cazuri, de unde reiese ca această quartilă este chiar mediana. În sfârşit,sub quartila 3 se află 75% din cazuri, iar deasupra ei se află 25% din cazuri (observaţii).Din această scurtă prezentare reiese că există numai 3 quartile (Q1, Q2 şi Q3), deoarecepentru a împărţi o serie de date în m părţi egale sunt suficiente m-1 valori. În statisticăquartilele, decilele etc. se referă la valori ale variabilei. Totuşi, în ştiinţele sociale suntfolosite destul de des expresii cum ar fi "decila 10 de venituri", "cea mai săracă quintilă",

X

"persoanele aparţinând primei decile" etc. Aceste expresii se referă însă la observaţiilecare iau valori cuprinse între anumite percentile (quantile) şi nu la valorile variabilei.

• Media este probabil cea mai importantă şi totodată cea mai populară măsură atendinţei centrale a unei distribuţii. Ea se calculează ca sumă a tuturor valorilorobservate ale seriei de date împărţită la numărul de observaţii:

N

x

Nxxxx

X

N

ii

N∑

==++++

= 1321 .......

unde:este media

xi reprezintă valoarea variabilei pe care o ia observaţia iN este numărul total de observaţiiΣ (sigma) este simbolul folosit pentru a indica o sumă

De exemplu, pentru cei 7 studenţi de mai sus, cu notele 5, 5, 6, 8, 9, 9, 10, suma noteloreste 52, numărul total de observaţii este 7, iar media va fi 52 împărţit la 7, adică 7,43.

În cazul în care media trebuie calculată pe baza unui tabel de frecvenţe, formula devine:

N

xfX

k

jjj∑

== 1

unde:k este numărul de categorii (valori) ale variabileifj reprezintă frecvenţa de apariţie a categoriei jxj este valoarea categoriei jN este numărul total de observaţii

De exemplu, pentru datele din Tabelul 1.3, media este:

31,780

106914823714610574432 =×+×+×+×+×+×+×+×=X

Pentru cazurile în care media trebuie calculată pentru date grupate în intervale, ca înTabelul 1.2, se aplică formula de mai sus, considerându-se ca "valori ale variabilei"centrele de interval. Exemplu: pentru categoria "1001-2000 locuitori", centrul de intervaleste (1001 + 2000) / 2 = 1500,5. Bineînţeles că, pentru un astfel de exemplu, la finalulcalculelor media se va rotunji, deoarece atunci când vorbim despre populaţia uneicomune nu o putem exprima decât în numere întregi. Atunci când avem de-a face cu date

Page 8: Introducere in Statistica

Graficul 1.4 Distributia consumului per capita al gospodăriilor

consumul per capita al gospodariilor (lei), in 1995

49475000

458333

441667

425000

408333

391667

375000

358333

341667

325000

308333

291667

275000

258333

241667

225000

208333

191667

175000

158333

141667

125000

108333

91667

75000

58333

41667

25000

8333

frecv

ente

abs

olut

e

1400000

1200000

1000000

800000

600000

400000

200000

0

grupate în intervale, probleme pot apărea la calculul centrului de interval pentru prima şirespectiv ultima categorie: în Tabelul 1.2, categoriile "1000 sau mai puţini locuitori",respectiv "peste 8000 de locuitori". Dacă se întîmplă ca valoarea minimă şi respectiv ceamaximă a seriei de date să fie cunoscute, atunci nu există practic nici o problemă. Dacăaceste valori nu sunt cunoscute, rămâne la latitudinea cercetătorului să decidă ce valoriurmează să atribuie respectivelor centre de interval.

Când folosim una sau alta dintre măsurile tendinţei centrale?Decizia de a utiliza una sau alta dintre măsurile tendinţei centrale este strâns

legată în primul rând de nivelul de măsurare a variabilelor. Aşa cum ne putem da seama,modul poate fi utilizat pentru toate cele patru niveluri de măsurare. Mediana însă nupoate fi utilizată decât pentru nivelele care permit o ordonare prealabilă a datelor, adicănumai pentru variabilele ordinale, de interval şi de raport. În ceea ce priveşte media,aceasta poate fi calculată numai pentru variabilele masurate la ultimele două nivele,adică cel de interval şi respectiv cel de raport, deoarece în cazul celorlalte niveleoperaţiile de adunare/scădere a valorilor variabilelor nu sunt permise.

Un alt element important pentru a decide ce măsură a tendinţei centrale merităfolosită este existenţa observaţiilor care au valori extreme. De fapt acest aspect este înstrânsă legatură cu forma distribuţiei.

Să considerăm de exemplu distribuţia consumului per capita al gospodăriilor, aşacum este ea reprezentată în Graficul 1.4. Media acestei distribuţii este 103087 lei iarmediana este 87354 lei lei (valorile sunt exprimate în preţuri 1995). În ceea ce priveştemodul, valoarea exactă a acestuia nu are sens să fie calculată deoarece există relativpuţine situaţii în care mai multe gospodării au exact aceeaşi valoare a consumului percapita. Putem însă vorbi despre un interval modal, care se află undeva în jur de 72000 lei.

Dacă dorim să aflăm valoarea"tipică" a consumului per capitaîntr-o gospodărie pentru odistribuţie ca cea din Graficul1.4, este mai indicat să utilizămmediana, deoarece modul decalcul al acesteia este maiapropiat în acest caz de ceea ceînţelegem noi în mod obişnuitprin "centrul distribuţiei": 50%dintre cazuri dedesubt şi 50%deasupra. Mediana are avantajulde a nu fi influenţată de valorile"extreme" ale seriei de date.Media seriei de date reprezentateîn Graficul 1.4 este mai maredecât mediana tocmai datorităexistenţei unui număr relativ mic

Graficul 1.5 Alungirea (oblicitatea)distribuţiilor

(a) modul, mediana şi media coincid (sesuprapun)

(b) mediana se află la dreapta modului iarmedia se află la dreapta medianei

(c) mediana se află la stânga modului iarmedia se află la stânga medianei

de gospodării cu valori foarte mari ale consumului per capita, valori care "trag" mediaspre dreapta (sau cu alte cuvinte conduc către o valoare mai ridicată a acesteia în raportcu mediana).

În concluzie, putem afirma că modul nu eo măsură foarte adecvată a centrului uneidistribuţii. El este util mai ales atunci când avemde-a face cu variabile măsurate la nivel nominal,dar şi în cazurile în care distribuţiile studiate suntbi- sau multi-modale. Mediana este indicată maiales în cazurile în care dorim identificarea"valorilor tipice" ale unor distribuţii asimetrice(vezi Graficul 1.5, b şi c), care au valori extreme.Media, pe de altă parte, prezintă marele avantajde a lua în calcul toate valorile unei serii de date.Aceasta este unul din motivele pentru care eacontinuă să fie cea mai utilizată măsură atendinţei centrale. În plus ea mai are şi alteproprietăţi utile, care vor fi discutate în capitoleleurmătoare.

Poziţiile relative ale modului, medianei şi medieiGraficul 1.5(a) prezintă o distribuţie

simetrică, în care modul, mediana şi mediacoincid, adică au practic aceeaşi valoare. Ce seîntâmplă în cazul distribuţiilor asimetrice? Deexemplu, Graficul 1.5 (b) prezintă o distribuţie acărei parte din dreapta este alungită. Pentru agăsi mediana, va trebui să ne deplasăm la dreapta"vârfului" distribuţiei, adică a modului, cu câtevaobservaţii. Mediana se va afla deci la dreaptamodului. Mai mult decât atât, datorită influenţeiexercitate de cazurile aflate la extrema dreaptă adistribuţiei, valoarea medie va fi şi mai maredecât valoarea mediană, aşa cum am văzut dealtfel şi în exemplul distribuţiei consumuluigospodăriilor. Putem deci trage concluzia că faţăde mod, mediana se va găsi în direcţia alungiriidistribuţiei, iar media se va găsi în aceeaşidirecţie, chiar mai departe decât mediana.

Page 9: Introducere in Statistica

2.2.2 Măsuri ale variaţiei

Măsurile tendinţei centrale sunt esenţiale pentru descrierea unei caracteristici aunui eşantion sau a unei populaţii, însă ele nu sunt suficiente. Pentru descrierea completăa unei variabile este foarte important să ştim deasemenea şi cât de "împrăştiate" suntvalorile acesteia în jurul tendinţei centrale sau, cu alte cuvinte, cât de omogenă respectiveterogenă este populaţia (eşantionul) studiată în raport cu o anumită caracteristică. Săluăm ca exemplu performanţa la o anumită materie a unei grupe de 80 studenţi, măsuratăcu note de la 1 la 10 (datele sunt prezentate în Tabelul 1.3). Nota medie a respectiveigrupe este 7,31. Această informaţie însă pare a fi insuficientă pentru a ne putea pronunţaasupra performanţei respectivei grupe. Întrebarea pe care ne-o punem în mod natural este:cât de omogenă este respectiva grupă în ceea ce priveşte performanţa şcolară?

• Un prim răspuns la această întrebare îl putem da prin simpla examinare a intervaluluiîn care sunt cuprinse notele respectivilor studenţi, sau mai bine zis prin calculareaamplitudinii variabilei. Amplitudinea unei variabile este diferenţa dintre valoareamaximă şi valoarea minimă a acelei variabile. Pentru exemplul nostru, amplitudineaeste 10 - 3 = 7 puncte. Deci, cei 80 de studenţi sunt distribuiţi de-a lungul unuiinterval de şapte puncte.

• O măsură a variaţiei mai rafinată decât amplitudinea o reprezintă abatereainterquartilă, care se calculează ca diferenţă între quartila 3 şi quartila 1. Abatereainterquartilă măsoară împrăştierea celor 50% din observaţii aflate la mijloculdistribuţiei. Ea are practic aceleaşi avantaje pe care le are şi mediana ca măsură atendinţei centrale, şi anume nu este influenţată de existenţa cazurilor extreme.

• De cele mai multe ori suntem însă interesaţi să folosim o măsură a variaţiei uneivariabile care să includă toate observaţiile, nu numai două dintre ele ca în cazulamplitudinii şi abaterii interquartile. În plus, suntem interesaţi să examinăm variaţiaîn raport cu o măsură a tendinţei centrale. De obicei, măsurile care satisfac acestedouă cerinţe sunt bazate pe abaterile observaţiilor de la medie. Abaterea de la mediea unei observaţii este diferenţa dintre valoarea pe care o ia respectiva observaţie şimedia variabilei ( Xxi − ).Una din proprietăţile mediei este însă aceea că suma

tuturor abaterilor individuale de la medie este egală cu 0: ∑=

=−n

ii Xx

1

0)( (sau cu alte

cuvinte, abaterile pozitive se vor anula cu cele negative). În consecinţă, pentru aobţine o măsură a variaţiei la nivelul întregului eşantion sau a întregii populaţiitrebuie utilizată fie suma valorilor absolute ale abaterilor individuale de la medie, fiesuma pătratelor acestor abateri.

• Abaterea medie absolută este definită ca medie aritmetică a abaterilor individualeabsolute (ignorând semnul acestora) de la media variabilei:

∑ −= XxN

AMA i1

• O altă măsură, mult mai răspândită, este varianţa variabilei. Varianţa (sau dispersia)se defineşte ca fiind media aritmetică a pătratelor abaterilor individuale de la medie:

∑ −= 2)(1 XxN

Varianta i

Din motive teoretice care nu vor fi expuse în acest manual, pentru calcularea varianţeila nivel de eşantion se foloseşte formula:

∑ −−

= 22 )(1

1 XxN

s i ,

iar pentru date grupate în tabele de frecvenţe (ca în Tabelul 1.3):

∑ −−

= jj fXxN

s 22 )(1

1

unde:xj este valoarea variabilei pe care o ia grupa jfj este frecvenţa absolută de apariţie a lui xj

• Deoarece varianţa, datorită ridicării la pătrat, este destul de dificil de interpretat, ceamai utilizată măsură a variaţiei unei variabile, pentru scopuri descriptive, esteabaterea standard, definită ca radical de ordinul doi (rădăcină pătrată) din varianţă:

2ss =

Din formula abaterii standard reiese clar că abaterea standard va fi cu atât maimare cu cât valorile pe care le iau observaţiile se abat mai mult de la medie. Săconsiderăm de exemplu notele la o materie a două grupe mici de elevi, ambele serii dedate având media 6 şi amplitudinea 8:

Grupa 1: 2, 4, 6, 6, 8, 10Grupa 2: 2, 2, 5, 7, 10, 10

Întrebarea pe care ne-o putem pune este: cât de omogene sunt cele două grupe?Calculul abaterilor standard arată că în prima grupă s1 = 2,8, iar în a doua s2 = 3,6. Esteclar deci că prima grupă e mai omogenă decât a doua, în care variabilitatea performanţeie mai mare.

În exemplul de mai sus am comparat două grupe de subiecţi din punct de vedereal omogenităţii pentru o aceeaşi caracteristică. Însă atunci când trebuie analizămomogenitatea unei singure populaţii sau a unui eşantion apar întrebari al căror răspuns emai dificil de dat: "cum interpretăm magnitudinea abaterii standard?", "când putem spunecă avem o abatere standard mică sau una mare?", "cum putem compara omogenitateaunei populaţii pentru două variabile diferite?". Practic, răspunsul la prima întrebaredepinde în mare măsură şi de alte caracteristici ale distribuţiei. Pentru un anumit tip dedistribuţii interpretarea magnitudinii abaterii standard este mai uşoară, şi acest lucru va fitratat în Capitolul 2 al acestui manual. În cazul celorlalte două întrebări un răspunssatisfăcător poate fi dat cu ajutorul unei alte măsuri, numite coeficient de variaţie,calculat ca raport între abaterea standard şi media unei varibile:

Page 10: Introducere in Statistica

XsCV =

Prin modul de calcul, coeficientul de variaţie are avantajul de a fi o măsurăadimensională (fără unitate de măsură), deoarece unitatea de măsură a abaterii standardeste aceeaşi cu cea a mediei. În consecinţă, el este foarte util în compararea variaţiei adouă variabile măsurate pe aceaşi populaţie/eşantion. Putem astfel trage concluzii detipul: "populaţia A este mai eterogenă în privinţa caracteristicii X decât în privinţacaracteristicii Y", concluzii imposibil de formulat numai cu ajutorul abaterii standarddeoarece abaterea standard este o măsură dimensională şi deci nu putem compara "merecu pere" (de exemplu abaterea standard a performanţei şcolare cu abaterea standard aveniturilor familiei). Prin modul său de calcul coeficientul de variaţie indică practic cât lasută din medie corespunde unei abateri standard, ceea ce face mai uşor de evaluat gradulde omogenitate a populaţiei studiate. O populaţie cu o abatere standard egală sau maimare decât media poate fi considerată în cele mai multe cazuri o populaţie eterogenă, întimp ce o populaţie a cărei abatere standard reprezintă 0,3 (30%) din medie poate ficonsiderată o populaţie relativ omogenă. Este important însă de reţinut faptul că acestcoeficient nu poate fi calculat decât în cazul variabilelor măsurate la nivel de raport,deoarece în cazul variabilelor nominale şi ordinale abaterea standard nu poate ficalculată, iar în cazul variabilelor măsurate la nivel de interval media este unaconvenţională, ceea ce face posibilă transformarea variabilei prin adunarea unei constantela valorile acesteia, fără ca semnificaţia valorilor variabilei să se modifice O astfel detransformare ar lăsa nemodificată abaterea standard (lucru care poate fi demonstratmatematic) însă ar modifica media variabilei. Ori aceasta înseamnă că pentru aceeaşicaracteristică am putea calcula coeficienţi de variaţie diferiţi ca valoare.

2.3 Transformarea unei variabile cu ajutorul scorului z

În practica analizei de date se întâmplă de multe ori să dorim să comparăm douăobservaţii între ele, pentru o aceeaşi variabilă, din punct de vedere al distanţei lor faţă demedie. Dar acest tip de informaţie asupra poziţiei relative a unor observaţii nu oferăîntotdeauna o informaţie mulţumitoare. Cercetătorul poate fi interesat să evaluezemagnitudinea distanţei dintre valoarea pe care o ia o observaţie şi medie în raport cudistanţa medie în eşantion. Cu alte cuvinte, el se poate întreba: cât de mare este abatereade la medie a unei (unor) observaţii în raport cu abaterea medie observată în populaţie?De asemenea, se poate întâmpla să dorim să comparăm poziţia relativă a aceleiaşiobservaţii faţă de mediile a două variabile. În acest caz însă, unităţile de măsură şimagnitudinea valorilor variabilelor ne pot împiedica să facem o comparaţie cu sens. O

soluţie a acestor probleme estetransformarea sau standardizareavariabilelor cu ajutorul scorului z.

Să presupunem că neinteresează să aflăm ce s-aîntâmplat cu rata şomajului înjudeţul Brăila în perioada 1995 -1997. În Tabelul 1.4 sunt prezentate

Tabelul 1.4Total judeţeJudeţul

Brăila Medie Abaterestandard

Rata în şomajului 1995 10.8 9.705 3.384Rata şomajului în 1997 13.5 9.088 2.960

valorile ratei şomajului în judeţul Brăila pentru anii 1995 şi 1997, precum şi mediile şiabaterile standard ale ratelor şomajului pe judeţe în anii menţionaţi. Dacă ne vom uita laevoluţia şomajului numai pentru judeţul analizat, vom sesiza o creştere considerabilă aratei şomajului, fără să putem spune nimic însă despre evoluţia acesteia în raport cuevoluţia celorlate judeţe. Standardizarea celor doua variabile (rata şomajului în 1995,respectiv rata şomajului în 1997) ar putea să ne ofere informaţii în plus. Standardizareavalorilor unei variabile X se face după formula:

sXx

z ii

−=

unde:zi este valoarea pe care o ia observaţia i după transformarea variabileixi este valoarea pe care o ia observaţia i pentru variabila XX este media variabilei Xs este abaterea standard a variabilei X

Rezultatul acestei transformări va fi o nouă variabilă Z care va avea întotdeauna mediaegala cu 0 şi abaterea standard egală cu 1, datorita formulei de calcul. Practic, putemspune că unitatea de măsură a noii variabile Z este chiar abaterea standard a variabilei X.Scorurile z ne vor informa asupra distanţei la care se gaseşte o observaţie faţă de mediaseriei de date, distanţă măsurată în abateri standard ale variabilei originale X. Esteimportant de reţinut faptul că această transformare nu modifică în nici un caz formadistribuţiei variabilei. Dacă aplicăm formula de mai sus pe datele din exemplul nostruvom obţine valorile standardizate ale ratelor şomajului în 1995 şi 1997 din judeţul Brăila:

zs95B = 0,32 şi respectiv zs97B = 1,49

De aici rezultă că în 1995 judeţul Brăla se găsea la numai 0,32 abateri standard faţă demedia şomajului pe judeţe, iar în 1997 şomajul în respectivul judeţ era cu 1,49 abateristandard mai mare decât media, ceea ce poate fi interpretat ca o înrăutaţire semnificativăa poziţiei relative a acestui judeţ în privinţa ocupării forţei de muncă.

2.4 Variabile dihotomice

În ultima secţiune a acestui capitol ne vom ocupa de un tip mai special devariabile, şi anume variabilele dihotomice sau binare, adică variabile care au două valoriposibile. Exemple de astfel de variabile sunt intenţia de a fi prezent la vot (da/nu),succesul sau eşecul unui program de dezvoltare etc. Acest tip de variabile sunt deosebitde utile în practica analizelor statistice deoarece, la limită, ele pot fi considerate ca fiindmăsurate la nivel de raport. Dacă vom codifica valorile unei astfel de variabile cu 0respectiv 1 vom obţine o variabilă care practic măsoară prezenţa sau absenţacaracteristicii studiate (intenţia de a se prezenta la vot, succesul programului dedezvoltare etc.). Ele vor avea deci un 0 absolut (absenţa caracteristicii) şi o unitate demăsură (prezenţa caracteristicii). În aceste condiţii ne putem întreba cum se calculeazămedia şi respectiv abaterea standard ale acestor variabile.

Page 11: Introducere in Statistica

Dacă luăm ca punct de plecare formula de calcul a mediei pentru date grupateprezentată în secţiunea 2.2, atunci vom avea:

pNf

Nff

N

xfX

k

jjj

==×+×

==∑

= 1101 10,

unde f0 este frecvenţa absolută de apariţie a lui 0, iar f1 este frecvenţa absolută de apariţiea lui 1. Cu alte cuvinte, media unei variabile dihotomice este chiar frecvenţa relativă deapariţie a valorii 1 (numărul de observaţii care iau valoarea 1 împărţit la numărul total deobservaţii ale seriei de date), adică frecvenţa relativă (notată aici cu p) a cazurilor în carecaracteristica studiată este prezentă. Dacă analiza este efectuată pe o populaţie şi nu pe uneşantion, atunci vom spune că media unei variabile dihotomice este chiar probabilitateade apariţie a caracteristicii studiate (aceasta însă numai în cazul în care respectivavariabilă este codificată 0/1).

Similar cu demonstraţia în cazul mediei, se poate arăta ca formula abateriistandard pentru o variabilă dihotomică este:

)1( pps −= ,

unde p este frecvenţa relativă a prezenţei caracteristicii studiate.

Exerciţii şi probleme

1. Veniturile gospodăriilor locuitorilor ţării Alfa, care cuprinde 87 de milioane degospodării, sunt distribuite în jurul unei valori medii de 27000 Alfa-lei şi o mediană de22000 Alfa-lei.

a. Ce se poate spune despre simetria distribuţiei veniturilor?b. Care este venitul întregii ţări (toate cele 87 de milioane de gospodării)?

Pentru următoarele întrebări, să se încercuiască varianta corectă /variantele corecte:

2. Decila 5 este o masura a: 1. tendintei centrale2. variatiei3. formei distributiei4. nici una dintre acestea

3. Valoarea sub care se afla 50% dintre cazurile serieide date ordonate de la minim la maxim este:

1. media2. quartila 23. modul4. abaterea standard5. nici una dintre acestea

4. Valorile variabilei ocupatie, intr-un grup de 5persoane, sunt: 1, 3, 3, 4, 5. Tendinta centrala inacest grup, pentru variabila ocupatie, poate fidescrisa prin:

1. media egala cu 3,22. mod egal cu 33. mod egal cu 24. mediana egala cu 35. nici una dintre acestea

Page 12: Introducere in Statistica

Capitolul 2

Distribuţii de probabilitate

2.1 Probabilitate: noţiuni introductive

Cel mai simplu şi mai des întâlnit exemplu pentru o definire intuitivă a noţiunii deprobabilitate este aruncarea zarului, care stă de altfel la baza teoriei probabilităţilor, celpuţin din punct de vedere istoric. Ce s-ar întâmpla dacă am arunca un zar (ne-trucat) de50 de ori? Dar daca l-am arunca de numai 10 ori? Dar dacă l-am arunca de câtevamilioane de ori? Cum ar arăta distribuţia frecvenţelor relative pentru fiecare din cele treicazuri de mai sus? Deoarece zarul nu este trucat, ne aşteptăm ca fiecare din cele 6 feţe alesale să aibă aceeaşi "probabilitate" de a cădea în sus la fiecare aruncare. Cu alte cuvinte,"întâmplarea" va hotărî care faţă va ieşi "câştigătoare". În acest caz, am putea simulaaruncarea zarului cu ajutorul unui tabel cu numere aleatoare, luând în considerare numainumerele de la 1 la 6. Să vedem cum arată frecvenţele relative (de data aceasta nu le vommai exprima în procente, ci le vom calcula simplu ca f/n, adica frecvenţa absolută (deapariţie a unei feţe a zarului) împarţită la numărul total de aruncări. În acest caz putemprivi fiecare aruncare ca pe o observaţie, iar numărul total de aruncări ca pe mărimeaeşantionului.

În tabelul de mai sus observăm un un fenomen la care de altfel ne aşteptam: cu câtcreşte numărul de aruncări, cu atât frecvenţele relative se apropie de egalitate - şi aceastadeoarece, aşa cum am mai spus, dacă un zar e "cinstit" atunci fiecare faţă a sa are aceeaşi"şansă" de apariţie. Dacă numărul de aruncări este mic, frecvenţele relative fluctueazăputernic. Pe măsură însă ce numărul de aruncări (sau altfel spus mărimea eşantionului)creşte ele vor tinde către o valoare pe care o numim probabilitate. Desigur, dacă zarul arfi fost trucat, nu am mai fi putut "ghici" că probabilitatea de apariţie a unei feţe este 1/6,ci ar fi trebuit să estimăm probabilitatea printr-un număr de aruncări care să tindă catreinfinit.

Putem considera aruncarea cu zarul din exemplul de mai sus ca pe un experimentcu 6 rezultate (cele 6 feţe ale zarului). De obicei însă, un "experiment" are un set de

Tabelul 2.1 Distribuţia frecvenţelor relative ale valorilor unui zar, pentru eşantioane de mărime diferită(număr de aruncări)

Frecvenţe relative f/n, unde n este numărul de aruncări cu zarulNumăr de puncte n = 10 n = 50 n = ∞1 0,10 0,22 1/6 = 0,1672 0 0,12 1/6 = 0,1673 0,10 0,14 1/6 = 0,1674 0,20 0,14 1/6 = 0,1675 0,30 0,14 1/6 = 0,1676 0,30 0,24 1/6 = 0,167

1,00 1,00 1,00

rezultate mult mai complex. Să considerăm de exemplu un experiment care constă dinaruncarea repetată de trei ori a unei fise colorate cu albastru pe o parte şi cu galben pecealaltă. Un rezultat posibil al acestui experiment ar fi AGA, adica albastru, galben,albastru (culoarea feţei cu care fisa cade în sus). Care este probabilitatea acestui rezultat?Teoretic, ar trebui să repetăm acest experiment de milioane şi milioane de ori şi săcalculăm frecvenţa relativă de apariţie a respectivului rezultat. Mai simplu ar fi însă sărecurgem la un experiment mental. Care sunt rezultatele posibile ale acestui experiment?Iată o listare a lor: AAA, AAG, AGA, AGG, GAA, GAG, GGA şi GGG, adică 8rezultate. Să presupunem că fiecare faţă a fisei are aceeaşi probabilitate de apariţie;aceasta înseamnă că fiecare din rezultatele menţionate va avea aceeaşi probabilitate, adică1/8. Deci, probabilitatea rezultatului AGA este 1/8. Putem fi însă interesaţi de un subsetal setului complet de rezultate, sau cu alte cuvinte de un anumit eveniment, cum ar fi "celpuţin de doua ori galben". Acest eveniment este format din subsetul de 4 rezultate {AGG,GAG, GGA, GGG}. Care este probabilitatea acestui eveniment? Răspunsul intuitiv şicorect este 4/8. Cu alte cuvinte, probabilitatea unui eveniment este suma probabilităţilorrezultatelor incluse în acel eveniment.

• Evenimente combinateSă presupunem acum că ne interesează probabilitatea de apariţie a următoarei

combinaţii: "mai puţin de două ori galben sau toate de aceeaşi culoare". Să notăm cu Jevenimentul "mai puţin de două ori galben" şi cu H evenimentul "toate de aceeaşiculoare". Evenimentul J include rezultatele {AAA, AAG, AGA, GAA}, iar evenimentulH include rezultatele {GGG, AAA}. Evenimentul "J sau H", care ne intereseaza pe noi vainclude deci rezultatele {AAA, AAG, AGA, GAA, GGG} şi va avea probabilitatea 5/8,deoarece avem 5 rezultate din 8, iar rezultatele în exemplul nostru au probabilităţi egale(1/8). Putem deci defini evenimentul "J sau H" ca fiind acel subset de rezultate care suntincluse fie în J, fie în H, fie în amândouă. Similar, vom defini evenimentul "J şi H" cafiind acel subset de rezultate care se găsesc atât în J cât şi în H (în cazul nostru e vorbade {AAA}, deci probabilitatea lui "J şi H" este 1/8). Conform exemplului de mai sus, amputea scrie:

Pr(J sau H) = Pr(J) + Pr(H) - Pr(J şi H),

deoarece în exemplul de mai sus nu am numărat de două ori rezultatul {AAA}, ci numaio dată. Cu alte cuvinte, scăderea probabilităţii lui "J şi H" a fost facută tocmai pentru aelimina dubla numărare a unor rezultate. În cazul în care avem de-a face cu douăevenimente, să zicem I şi K, mutual exclusive, adică Pr(I şi K) = 0, atunci

Pr(I sau K) = Pr(I) + Pr(K)

• Probabilităţi condiţionateSă presupunem acum că în timpul celor 3 aruncări (deci pe parcursul

experimentului) se ştie că a apărut evenimentul J (mai puţin de două apariţii ale feţeigalbene pe parcursul celor trei aruncări ale fisei). Care este probabilitatea ca H să seîntâmple? - adică la toate aruncările să apară aceeaşi culoare. Cu alte cuvinte, dacă ar fi săne imaginăm foarte multe repetiţii ale experimentului şi să luam în considerare numai

Page 13: Introducere in Statistica

acele cazuri în care apare J, cât de des va apărea H? În termeni de probabilităţi, aceastaînseamnă că dorim să aflăm probabilitatea lui H condiţionată de J, notată cu Pr(H|J).

Să presupunem că repetăm experimentul de 100 de milioane de ori. Cumprobabilitatea de apariţie a lui J este de 4/8, aceasta înseamnă ca J apare de 50 demilioane de ori. Pe de altă parte, din cele patru rezultate incluse în J, numai unul esteinclus şi în H, şi anume {AAA}, care are probabilitatea 1/8, deci apare de 12,5 milioanede ori. Deducem de aici că H apare de 12,5 milioane de ori din 50 de milioane, sau altfelspus Pr(H|J) = 12,5/50 = 1/4 = 0,25. Să încercăm acum să scriem forma generală a uneiprobabilităţi condiţionate:

)Pr()Pr()Pr(

JHsiJJH =

De aici putem deduce că:

Pr(J şi H) = Pr(J)Pr(H|J)

• Independenţă

În statistică independenţa este un concept foarte precis, care se defineşte cuajutorul probabilităţilor. Vom ilustra aceasta cu ajutorul unui exemplu. Într-un oraşsituaţia ocupării populaţiei de vârstă activă (200.000 de persoane) arată ca în tabeleleprezentate în Exemplul 2.1. Primul tabel (a)reprezintă numărul de indivizi şomeri,respectiv ocupaţi, în funcţie de sex. Cel de-aldoilea tabel (b) reprezintă probabilităţile deapariţie pentru fiecare din cele 4 situaţiiposibile: a fi femeie şi a fi şomer - Pr (F şi S),a fi bărbat şi a fi şomer - Pr(B şi S) etc. Sumaprobabilităţilor din cele 4 celule ale tabeluluieste egală cu 1 (orice probabilitate variazăîntre 0 şi 1). Probabilităţile din fiecare celulăau fost calculate dupa formula fi/n, unde fi estefrecvenţa absolută a unei celule (de exemplunumărul de femei şomere) iar n este totalulpopulaţiei de vârstă activă (în exemplul nostru 200.000). Să încercăm acum să răspundemla întrebarile:

a) Care este probabilitatea ca o persoană extrasă la întâmplare din populaţia devârstă activă să fie şomer - Pr(S)?

b) Care este probabilitatea ca o persoană să fie şomer, atunci când este femeie -Pr(S|F)?

Iată şi soluţiile:

Exemplul 2.1 Este şomajul dependent desexul indivizilor?

(a) Frecvenţe absoluteşomeri ocupaţi

femei 15600 88400bărbaţi 14400 81600

(b) Probabilităţişomeri ocupaţi

femei 0.078 0.442bărbaţi 0.072 0.408

a) Pr (S) = 0,078 + 0,072 = 0,15, sau cu alte cuvinte, rata şomajului în respectivul oraşeste de 15%. La acelaşi rezultat am fi ajuns şi dacă am fi calculat probabilitatea de a fişomer împărţind numărul total de şomeri (15600 + 14400) la totalul populaţiei devârstă activă (200000).

b) 15,052,0078,0

)Pr()Pr()Pr( ===

FFsiSFS

Deoarece probabilitatea calculată la punctul a) este egală cu probabilitatea calculată lapunctul b), putem spune ca probabilitatea de a fi şomer (S) nu este afectată de faptul că opersoană este femeie (F). Acest tip de independenţă, definită în termeni de probabilităţi,se numeşte independenţă statistică. Putem acum să dăm definiţia exactă a independenţei:

L se numeşte independent statistic de M dacă Pr(L|M) = Pr(L).

Consecinţa acestei definiţii este foarte importantă: de aici rezultă că dacă avem douaevenimente independente J şi H, atunci:

Pr(J şi H) = Pr(J)Pr(H|J) = Pr(J)Pr(H).

Mai mult decât atât, dacă H este independent de J, atunci şi J trebuie să fieindependent de H.

2.2 Variabile aleatoare

• Cazul variabilelor discreteSă ne imaginăm acum că dorim să analizăm populaţia familiilor cu trei copii, şi

suntem interesaţi de numărul de fete pe care o astfel de familie l-ar putea avea. Putem săconsiderăm o familie cu trei copii ca pe un experiment oarecum similar cu cel dinsecţiunea precedentă: într-o familie care îşi planifică să aibă trei copii, rezultatele posibilesunt: băiat, băiat, băiat (BBB), băiat, băiat, fată (BBF) etc. Într-o astfel de familienumărul de fete poate fi 0, 1, 2 sau 3. Dacăprobabilitatea de a se naşte o fată este egală cuprobabilitatea de a se naşte un băiat, atuncifiecare din rezultatele posibile are aceeaşiprobabilitate 1/8. Să complicăm puţin lucrurile şisă presupunem că probabilitatea de a se naşte ofată este de 0,45, iar probabilitatea de a se naşteun băiat este 0,55. Aceasta înseamnă caprobabilitatea ca primul copil să fie o fată este de0,45, iar probabilitatea ca al doilea copil să fie ofată este 0,45. De unde deducem ca probabilitateaca primii doi copii să fie fete este egală cu 0,45din 0,45, adică 0,45 x 0,45 = 0,202. Tot astfel putem calcula şi probabilitatea ca toţi treicopiii să fie fete, adică Pr(FFF) = 0,45 x 0,45 x 0,45 = 0,091. În Tabelul 2.2 suntprezentate probabilităţile de apariţie ale rezultatelor acestui experiment. Revenind la

Tabelul 2.2r Pr(r)

BBB 0,166BBF 0,136BFB 0,136BFF 0,111FBB 0,136FBF 0,111FFB 0,111FFF 0,091

Notă: totalul nu este exact egal cu 1 datoritărotunjirilor

Page 14: Introducere in Statistica

problema de la începutul secţiunii - numărul de fete pe care o familie cu trei copii îl poateavea - trebuie să obţinem distribuţia deprobabilităţi a variabilei aleatoare "număr defete" (notată cu X). Tabelul 2.3 prezintă aceastădistribuţie. Probabilitatea ca o familie să nu aibănici o fată este Pr(BBB) = 0,166; probabilitateaca o familie să aibă o singură fată este Pr(BBF) +Pr(BFB) + Pr(FBB) = 0,136*3 = 0,408 ş.a.m.d.O variabilă discretă aleatoare este deci aceavariabilă X care ia diferite valori x cuprobabilităţi specificate de distribuţia sa deprobabilitate p(x).

• Cazul variabilelor continuePentru o variabilă continuă există un continuumde valori posibile. În capitolul 1, Graficul 1.1,am reprezentat histograma distanţelor de lacentrul comunei până la cel mai apropiat oraşcu peste 30de mii de locuitori, folosindu-ne deintervale de valori. Să ne imaginăm acum căluăm o variabilă continuă aleatoare şi oreprezentăm ca în Figura 3.1(a), astfel încâtsuma ariilor tuturor barelor histogramei să fieegală cu 1 (100%). Un astfel de grafic senumeşte densitate a frecvenţelor relative. Dacănumărul de observţii este foarte mare,frecvenţele relative vor tinde către probabilitateşi, în acelaşi timp, vom putea utiliza intervaledin ce în ce mai mici, adică bare din ce în cemai înguste. În Figura 3.1(c) se poate vedeacum densitatea frecvenţelor relativeaproximează o curbă, cea a lui p(x), pe care ovom numi de acum înainte distribuţie deprobabilitate. Ariile de sub curbă reprezintăprobabilităţi, iar aria totală este egală cu 1(deoarece probabilitatea variază între 0 şi 1, iarsuma tuturor probabilităţilor este egală cu 1).

Distribuţia în populaţie a unei variabile nu estenimic altceva decât distribuţia de probabilitatea valorilor pe care o observaţe extrasă laîntâmplare din acea populaţie le poate luapentru respectiva variabilă. De exemplu, dacăîntr-o populaţie frecvenţa relativă a persoanelorcu o înalţime de 1,7 metri este 20%, atunciprobabilitatea ca un individ extras la întâmplare

Tabelul 2.3 Distribuţia variabileialeatoare X = număr de fete

x p(x)0 0,1661 0,4082 0,3343 0,091

Notă: totalul nu este exact egal cu 1 datoritărotunjirilor

Figura 3.1 De la frecvenţe relative ladensitatea de probabilitate

(a)

(b)

(c)

din respectiva populaţie să aibă 1,7 m este de 0,2.Începând cu această secţiune vom face o distincţie clară între statisticile calculate lanivel de eşantion şi parametrii, adică valorile din populaţie. Astfel, vom vorbi depreprobabilitate (notată cu π) numai atunci când ne referim la populaţii, şi despre frecvenţerelative (notate cu p sau fr) atunci când ne refeim la eşantioane.

Este important de reţinut faptul că întotdeauna notăm statisticile la nivel de eşantioncu litere latine ( x , s, p etc.) iar parametrii (valorile în populaţie)cu litere greceşti (µ, σ,π etc.)

Orice distribuţie de probabilitate (sau distribuţie în populaţie) poate fi caracterizată cuajutorul cîtorva parametrii cum ar fi cei care descriu media acelei distribuţii - notată cu µşi abaterea ei standard - notată cu σ. În studiul statisticii pot fi întâlnite multe tipuri saufamilii de distribuţii de probabilitate ale căror formule matematice sunt folosite pentru acalcula probabilităţi. Multe dintre aceste familii de distribuţii sunt deosebit de utiledeoarece ele oferă aproximări bune ale unor distribuţii des întâlnite în lumea reală. Altelesunt deosebit de utile pentru statistica inferenţială. În secţiunea următoare ne vom ocupade un astfel de tip de distribuţie.

• Distribuţia normalăÎn cazul multor variabile aleatorii distribuţia de probabilitate are o formă specifică,

simetrică, în formă de clopot, şi cu anumite proprietăţi particulare, care vor fi prezentatemai jos. Acest tip de distribuţie se numeşte distribuţie normală şi este reprezentată înFigura 3.2 (împreună cu formula matematică, care este însă fără importanţă pentruobiectivele acestui curs). De fapt este vorba despre o familie de distribuţii, caracterizatăde parametrii µ şi σ (medie şi abatere standard). Principala proprietate a acestei familii dedistribuţii este aceea că pentru orice număr constant z, probabilitatea concentrată la

dreapta lui µ + zσ este aceeaşipentru toate distribuţiilenormale. Datorită faptului cadistribuţia este simetrică,probabilitatea concentrată ladreapta lui µ + zσ este egală cuprobabilitatea concentrată lastânga lui µ - zσ. Cu alte cuvintearia de sub curbă aflată ladreapta lui µ + zσ este egală cuaria aflată la stânga lui µ - zσ.Când z = 1,96 (adicăaproximativ 2), aria cuprinsă

între µ - zσ şi µ + zσ este egală cu 0,95. Când z = 1 (ca în Figura 3.2) aria cuprinsă între µ- zσ şi µ + zσ este egală cu aproximativ 0,68. Mai mult, în cazul distribuţiei normaleaproape toată aria de sub curbă este cuprinsă între între µ - 3σ şi µ + 3σ (z=3). Acest gende informaţie este foarte util: să presupunem că scorurile unor elevi ai unei clase, notaţipe o scală de la 0 la 100, sunt normal distribuite în jurul mediei 60, cu o abatere standard

Figura 3.2 Distribuţia normală a unei variabile

Page 15: Introducere in Statistica

de 5 puncte. Aceasta înseamnă că 68% dintre elevi au note între 55 şi 65, iar 95% dintreei au note între aproximativ 50 şi aproximativ 70. Sau, mai corect spus, probabilitatea caun elev extras la întâmplare din respectiva grupă să aibă un scor între 50 şi 70 este de0,95. Dacă notele elevilor nu a fi avut o distribuţie normală, ci ar fi avut, să zicem, odistribuţie alungită spe stânga, probabilitatea ca un elev să aibă un scor cuprins întreanumite limite ar fi fost extrem de dificil de calculat (practic ar fi trebuit calculată aria desub curbă dacă respectiva distribuţie nu ar fi putut fi aproximată de nici o formăfuncţională cunoscută).

Aşa cum am mai arătat, în realitate există o familie de distribuţii normale, fiecarecaracterizată de o medie µ şi o abatere standard σ. De exemplu, greutăţile locuitorilorunui oraş ipotetic se distribuie normal cu media 56 kg şi abaterea standard 18 kg;înălţimile copiilor dintr-o şcoală se distribuie normal cu media 1,5 m şi abaterea standard10 cm etc.. Proprietăţile distribuţiei normale ne permit ca pentru fiecare din acestevariabile să găsim exact probabilitatea ca un anumit individ să aibă o greutate mai marede, să zicem, 64 de kg sau o înălţime cuprinsă între 1,45 m şi 1,57 m. Acest lucru se poateface cu ajutorul unor tabele care conţin ariile dintre µ şi µ + zσ pentru diferite valori alelui z1. Deoarece proprietăţile distribuţiei normale sunt aceleaşi indiferent de valoareamediei şi abaterii standard, se apelează la un caz special al distribuţiei normale, şi anumela distribuţia normală normată sau standard. Aceasta este o distribuţie normală cu media0 şi abaterea standard 1. În Anexa 1 a acestui manual este prezentat un tabel cu ajutorulcăruia pot fi calculate ariile dintre µ şi µ + zσ pentrudiferite valori ale lui z, în cazul distribuţiei normalenormate. Deoarece în acest caz µ = 0 iar σ = 1, tabelulconţine practic aria cuprinsă între 0 şi z (vezi Figura 3.3).Această arie este practic aceeaşi cu aria cuprinsă între µ şiµ + zσ în cazul oricărei distribuţii normale (cazul general).În continuare este ilustrată modalitatea de folosire atabelului (Anexa 1), pe care îl vom numi de acum încolopentru convenienţă "tabel z":

Să ne întoarcem la exemplul de mai sus şi să calculăm probabilitatea ca un elev săobţină un scor mai mare decât 70. Pentru aceasta este nevoie să calculăm aria aflată ladreapta valorii 70. Tabelul nostru oferă însă valoarea ariei aflate între valorile µ şi µ + zσ.Cum distribuţia normală este simetrică, aceasta înseamnă ca aria aflată la dreapta medieieste egală cu jumătate din aria totala aflată sub curbă, adică cu 0,5 (deoarece aria totală aunei distribuţii de probabilitate este întotdeauna 1). Pentru a afla aria aflată la dreapta lui70, va trebui să căutam în tabel aria cuprinsă între medie (60) şi 70, şi apoi să scădemaceastă arie din 0,5 (adică din toată aria aflată la dreapta mediei). Pentru a afla ariacuprinsă între 60 (adică µ) şi 70 (µ + zσ) adică , va trebui să aflăm valoarea lui z:

µ + zσ = 70, de unde 25

607070 =−=−=σ

µz

Dacă ne uităm atent la expresia utilizată mai sus pentru calcularea lui z vom vedea căeste practic aceeaşi cu formula scorului z prezentată în Capitolul 1 (ceea ce diferă sunt 1 Unele manuale prezintă tabele aria din dreapta lui µ + zσ, însă algoritmul de calcul al probabilităţilor esteeste acelaşi.

Figura 3.3 Aria dintre 0 şi z

doar notaţiile folosite pentru medie şi abatere standard). Deci, ceea ce am făcut nu estepractic nimic altceva decât standardizarea cu scorul z a valorii 70. Nu ne mai rămâneacum decât să cautăm în tabel aria cuprinsă între 0 şi z. Tabelul este organizat în felulurmător: la capetele de rând (în stânga) se găsesc valorile care corespund unităţilor şiprimei zecimale ale lui z; la capetele de coloană (sus) se găsesc valorile care corespundcelei de-a doua zecimale ale lui z. De exemplu, dacă vom căuta valoarea 1,96, va trebuisă căutăm rândul cu valoarea 1,9 şi coloana cu valoarea 0,06 (adunate, aceste două valoridau exact 1,96). La intersecţia rândului "1,9" cu coloana "0,06" vom găsi valoarea0,4750, care este exact aria cuprinsă între 0 şi z = 1,96, sau altfel spus probabilitatea ca oobservaţie să ia o valoare cuprinsă între µ şi µ + 1,96σ (adică între medie şi 1,96 abateristandard).

Să ne întoarcem acum la exemplul nostru şi să calculăm aria cuprinsă între 0 şi z = 2.În tabel, la intersecţia rândului 2,0 şi a coloanei 0,00 se gaseşte valoarea 0,4772. Aceastaeste probabilitatea ca un elev ales la întîmplare să obţină un scor între 60 şi 70. Pe noi

însă ne interesează care este probabilitatea caun elev să obţină un scor mai mare de 70,adică aria din dreapta lui z = 2. Pentru a oobţine va trebui să efectuăm scăderea 0,5 -0,4772, ceea ce are ca rezultat 0,0228. Dacăam fi interesaţi să aflăm şi probabilitatea ca unelev să obţină un scor mai mic decât 50 (adică60 - 10) nu am avea nevoie de nici un calculsuplimentar, deoarece datorită simetrieidistribuţiei aria aflată la stânga lui z = -2 esteegală cu aria aflată la dreapta lui z = 2.

Să încercăm acum să recapitulăm cuajutorul unui alt exemplu algoritmul de calculal unei probabilităţi cu ajutorul tabelului z.

Exemplul 2.1Să presupunem că înălţimile copiilor dintr-

o şcoală se distribuie normal cu media 1,5 mşi abaterea standard 10 cm. Care esteprobabilitatea ca copil extras la întâmplare săaibă o înăţime cuprinsă între 1,3 m şi 1,4 m?

Pentru a răspunde, să convertim mai întâi cele două valori (1,3 m şi respectiv1,4 m) înscoruri z, pentru a măsura distanţa lor faţă de medie în abateri standard. Practic, aceastăconvertire înseamnă o transformare a distribuţiei normale iniţiale (cu media µ = 150 cm şiabaterea standard σ = 10 cm) într-o distribuţie normală normată (cu media 0 şi abatereastandard 1).

z130 = ( 130 - 150)/10 = -2z140 = (140 - 150)/10 = -1(calculele de mai sus au fost făcute in cm)Trebuie deci să găsim aria de sub curba distribuţiei normale normate cuprinsă între -2

şi -1. Aria cuprinsă între -2 şi 0 este egală cu aria cuprinsă între 0 şi 2, şi conformtabelului z are valoarea 0,4772. În acelaşi mod găsim şi aria dintre -1 şi 0, care este egalăcu 0,3413. Cum pe noi ne interesează aria dintre -2 şi -1, vom efectua scăderea 0,4772 -

Figura 3.4 Probabilitatea ca un elev ales laîntâmplare să obţină un scor mai mare de 70

(a) distribuţia normală, cazul general

(b) distribuţia normală normată

Page 16: Introducere in Statistica

0,3413= 0,1359. Deci, probabilitatea ca un elev selectat la întâmplare să aibă între 1,3 şi1,4 metri înălţime este de aproximativ 0,14.

Dacă notăm înalţimea cu X, atunci afirmaţia de mai sus se scrie:Pr(1,3<X<1,4) = 0,1359

Înainte de a încheia acest capitol este necesar să atragem atenţia asupra faptului că,deoarece probabilităţile pe care le putem calcula cu ajutorul distribuţiei normalereprezintă de fapt arii, este practic lipsit de sens să încercăm să calculăm Pr(X), pur şisimplu - de exemplu Pr(1,3) - deoarece aceasta ar însemna să încercăm să calculăm ariaunei drepte.

Exerciţii şi probleme

1. Să presupunem că A şi B sunt două evenimente independente, cu Pr(A) = 0,6 şi Pr(B)= 0,2. Care este:a. Pr (A|B)?b. Pr ( A şi B)?c. Pr (A sau B)?

2. O anchetă naţională asupra cuplurilor arată că 30% din neveste urmăreau un anumitprogram de televiziune şi la fel 50% dintre bărbaţi. Mai mult, dacă nevestele se uitau latelevizor probabilitatea ca şi bărbaţii să urmărească programul creştea cu 60%. Pentru uncuplu aleator ales care este probabilitatea ca:

a. Ambii să se uite la televizor?b. Cel puţin unul să se uite la televizor?c. Nici unul să nu se uite la televizor?d. Dacă soţul se uită la televizor, să se uite şi soţia?

3. Dacă X are valori normal distribuite în jurul unei medii de 16 şi cu o abatere standardde 5 să se calculeze:a. Pr (X>20)b. Pr (20<X<25)c. Pr (X<10)d. Pr (12<X<24)

4. Timpul necesar completării unui test şcolar s-a dovedit a fi distribuit normal, în jurulunei medii de 110 minute şi având o abatere standard de 20 de minute.a. Care este proporţia studenţilor care termină testul în două ore (120 de minute)?b. Când ar trebui terminat testul pentru a permite exact unui procent de 90% dintre

studenţi să termine testul?

Capitolul 3

Eşantionarea. Distribuţia de eşantionare. Intervale de încredere

3.1 Cercetări selective: de la populaţie la eşantion

Cine va câştiga alegerile prezidenţiale sau parlamentare? Sunt femeile ominoritate defavorizată în societăţile moderne? O politică publică sau o decizieadministrativă produce modificări ale comportamentelor indivizilor vizaţi de acea politicăpublică sau de acea decizie? Cine este pentru şi cine este împotriva introducerii unor noimăsuri fiscale? Cât de populară este măsura luată de autorităţile dintr-o anumită unitateadministrativă de a construi o nouă zonă industrială? Toate aceste întrebări au în comun ocaracteristică importantă şi anume: se referă la populaţii atât de largi încât este practicimposibil de obţinut informaţii cu privire la toate elementele care le compun. Cu situaţiiasemanătoare - imposibilitatea cuprinderii tuturor elementelor care compun un întreg - seconfruntă şi medicul care face analize de sânge şi care nu poate extrage tot sângele aflatîn organismul unui pacient pentru a îl supune unei investigaţii în laborator, cei care facanalize ale unor elemente din mediul natural pentru a stabili nivelul de poluare, saucercetătorul din ştiintele naturale care taie un exemplar dintr-o specie de plante în scopulefectuării unor analize în laborator.

Atât în aceste situaţii, cât şi în multe altele de acest fel, problema care se pune esteaceea de a culege informaţiile necesare pentru a analiza temele avute în vedere doar de lao parte din indivizii care compun o populaţie şi nu de la întreaga populaţie. Din punct devedere tehnic, grupul sau mulţimea de indivizi care constituie obiectul de studiu sau deinteres al cercetătorului la un moment dat este denumit populaţie, iar grupul mai mic deindivizi de la care sunt culese informaţiile necesare cercetării este denumit eşantion.�Setul de operaţii cu ajutorul cărora, din ansamblul populaţiei vizate de cercetare, seextrage o parte, numită eşantion, parte ce va fi supusă nemijlocit investigaţiei�2 estedesemnat ca fiind operaţia de eşantionare.

Decizia de a culege datele necesare unei cercetări de la un eşantion sau de la opopulaţie depinde de o serie de aspecte practice. Astfel, în unele situaţii, dacă timpul,resursele financiare şi umane nu constituie o problemă sau dacă populaţia ţintă nu estefoarte numeroasă, atunci este multe mai avantajoasă culegerea datelor de la toţi indiviziicare compun o populaţie vizată; în felul acesta se obţine o imagine exactă a problematiciiinvestigate. În alte situaţii există o serie de constrângeri care îl impiedică pe cercetător săajungă la toţi indivizii care compun o populaţie, aceste constrângeri se referă în primulrând la timp, resursele financiare şi umane aflate la dispoziţie, dispersarea georgrafică apopulaţiei care urmează a fi cercetată, iar soluţia cea mai la îndemână pentru a culegeinformaţiile necesare constă selectarea unui eşantion şi investigarea indivizilor care îlcompun. Din acest punct de vedere am putea spune ca eşantionarea este un compromisdatorat insuficienţei resurselor. Nu întotdeauna este însă vorba numai de imposibilitateafizică de a culege informaţii de la toţi membrii unei populaţii � neajuns care în unelesituaţii poate fi depăşit � ci şi de o lipsă de eficienţă practică � spre exemplu, în cazulcercetătorului din ştiinţele naturale, care, dacă ar tăia toate exemplarele unei specii de 2 Traian Rotariu, Petre Iluţ, Ancheta sociologică şi sondajul de opinie, Ed. Polirom, Iaşi, 1997, p.122.

Page 17: Introducere in Statistica

plante pentru a le analiza în laborator ar determina dispariţia speciei respective. Pe de altăparte, concentrând resursele existente doar pentru analiza unei părţi dintr-un întreg se potobţine rezultate mai bune decât analizând întregul, mai ales atunci când acest întreg esteformat din mulţi indivizi a căror investigare implică utilizarea unui personal auxiliarnumeros care datorită lipsei de specializare poate genera erori mai grave decât dacă ar fianalizată o parte din acel întreg utilizând un personal specializat.

3.2 Valori măsurate pe populaţie şi pe eşantion. Distribuţia de eşantionare

Vom începe discuţia despre eşantioane cu cel mai simplu tip de eşantionare, şianume cu eşantionarea simplă aleatoare. Metoda sau metodele de a realiza practic unastfel de eşantion vor fi discutate pe larg într-o secţiune ulterioară a acestui capitol. Ceeace ne interesează în acest moment este numai principiul de selecţie a indivizilor, specificacestui tip de eşantionare. Să ne imaginăm că fiecarui individ care aparţine populaţiei deinteres (fie ea o populaţie de persoane, organizaţii etc.) îi atribuim convenţional unidentificator, adică un cod unic. Să presupunem acum că notăm fiecare identificator pe obilă şi introducem într-o urnă uriaşă toate bilele corespunzătoare indivizilor carealcătuiesc repectiva populaţie. Bilele au toate aceleaşi dimensiuni. Pentru a extrage uneşantion de indivizi nu avem nimic altceva de făcut decât să extragem un număr de bile laîntâmplare, egal cu mărimea dorită a eşantionului. Probabililitatea de a extrage un individeste egală cu 1/N, unde N este numărul total de bile din urnă. Ceea ce este important esteca după fiecare extragere să introducem bila înapoi în urnă, astfel încât probabilitatea deextragere a fiecărui individ să fie aceeaşi. De exemplu, dacă nu vom introduce prima bilăextrasă înapoi în urnă, probabilitatea celei de-a doua bile de a fi extrasă nu va fi 1/N ci1/(N-1). Cu alte cuvinte, extragerile nu vor fi independente (vezi Capitolul 2). Uneşantion simplu aleator este deci un eşantion ale cărui n observaţii sunt independente.

Să presupunem că am extras un eşantion simplu aleator de mărime n dintr-opopulaţie de mărime N. Întrebarea care se ridică în mod firesc este: câtă încredere putemavea în rezultatele obţinute dat fiind că eşantionul extras la un moment dat este doar unuldin multele eşantioane care pot fi extrase dintr-o populaţie? Spre exemplu, săpresupunem că extragem aleator un eşantion format din 25 de elevi dintr-o şcoală cărorale aplicăm un test de inteligenţă. Să mai presupunem că media coeficientului deinteligenţă al tuturor elevilor din şcoală este µ = 132 şi abaterea standard σ = 12. Careeste probabilitatea ca eşantionul extras de noi să nu aproximeze bine situaţia reală?Eşantionul de 25 de elevi este evident doar unul din eşantioanele care ar fi putut fi extraseşi prin urmare şi media obţinută la nivel de eşantion este doar una din mediile posibile.Ne putem gândi la mediile tuturor eşantioanelor posibile ca la o variabilă. Mai clar spus,media eşantionului nostru este doar una dintre valorile posibile ale distribuţiei de mediicare ar putea fi obţinută extrăgând multe eşantioane formate din câte 25 de elevi ai şcoliirespective. Problema este: cât de mare e probabilitatea ca media calculată în eşantionulextras de noi să nu aproximeze bine media din populaţie?

Pentru a răspunde la această întrebare trebuie să facem mai întâi o distincţie clarăîntre trei tipuri de distribuţii: distribuţia unei variabile într-un eşantion de mărime n,distribuţia aceleiaşi variabile în populaţie şi distribuţia mediilor tuturor eşantioanelorposibile de mărime n, numită şi distribuţia de eşantionare a mediei.

Pentru a exemplifica, să luam cazul unei unei caracteristici X ale unei populaţii demărime N = 100.000. În populaţie, caracteristica X va avea media µ, abaterea standard σ,şi o anumită formă a distribuţiei. Să presupunem acum că extragem un eşantion demarime n = 10 din respectiva populaţie. În acest eşantion, caracteristica va avea media

1X , abaterea standard s1 şi, de asemenea, o anumită formă a distribuţiei, foarte probabildiferită de cea din populaţie. Dacă vom mai extrage un eşantion de mărime n = 10, vomobţine o altă medie, 2X , o altă abatere standard, s2, şi probabil şi o altă formă adistribuţiei. Dacă vom extrage toate eşantioanele posibile de marime n = 10 din populaţiade mărime N = 100.000, vom obţine tot atâtea medii de eşantion câte eşantioane amextras. Distribuţia acestor medii se numeşte distribuţiede eşantionare a mediei şi dacă mărimea eşantionuluieste suficient de mare, atunci distribuţia deeşantionare este întotdeauna normală, chiar dacăvalorile caracteristicii iniţiale sunt sau nu normaldistribuite în populatia vizată. Mai trebuie precizat căun eşantion de marime n = 20 este de obicei suficientde mare pentru ca cele afirmate mai sus să fieadevărate. În Figura 3.1 sunt reprezentate distribuţiilede frecvenţe ale mediilor unor eşantioane aleatorii demărime n = 30, extrase din aceeaşi populaţie, pentru ocaracteristică oarecare. În situaţia (a), avem mediileprimelor trei eşantioane extrase, câte o medie pentrufiecare eşantion (observăm 3 bare de aceeaşi înălţime,ceea ce înseamnă că cele trei eşantioane au mediidiferite). În situaţia (b) observăm că distribuţiafrecvenţelor relative ale celor 120 de medii deeşantion începe să se apropie uşor de o distribuţienormală, iar în situaţia (c), în care am extras 1100 deeşantioane, histograma frecvenţelor relative alemediilor aproximează foarte bine o distribuţienormală. Dacă am fi continuat experimentul şi am fiextras toate eşantioanele posibile de mărime n = 30din respectiva populaţie am fi obţinut o distribuţie deprobabilitate - şi anume distribuţia de eşantionare amediei, cu toate proprietăţile unei distribuţii normale.

Să ne întoarcem însă la problema noastră cumedia coeficientului de inteligenţă al elevilor: care eprobabilitatea ca eşantionul extras de noi să aibă omedie mult diferită de media în populaţie? Şi ca să luăm un exemplu concret, ne putemîntreba: care e probabilitatea ca eşantionul nostru să aibă o medie egală cu 127 sau chirmai mică decât atât?

Pentru a rezolva această problemă trebuie să apelăm la o teoremă, numităTeorema limită centrală, care afirmă că distribuţia de eşantionare a mediei, în cazuleşantioanelor simple aleatorii, este o distribuţie normală a cărei medie este chiar media

Figura 3.1 Distribuţii ale mediilor unoreşantioane aleatorii de mărime n = 30

(a) 3 eşantioane

(b) 120 de eşantioane

(c ) 1100 de eşantioane

Page 18: Introducere in Statistica

din populaţie, µ, şi a cărei abatere standard, numită eroare standard, este egală cu

nσ (unde σ este abaterea standard din populaţie iar n este mărimea eşantionului).

Să încercăm acum o mică sinteză a celor prezentate mai sus: mediile uneicaracteristici măsurate pe multe eşantioane pot fi privite ca formând o nouă variabilă

pentru care vom putea calcula evident o medieşi o abatere standard. În cazul în careeşantioanele extrase sunt simple aleatorii, cureintroducerea elementului extras în populaţie(acordând deci o şansă egală fiecărui elementde a fi extras), această nouă variabilă estenormal distribuită. Mai mult, valoarea medie anoii variabile (media mediilor măsurate peeşantioanele extrase din populaţia vizată) esteegală cu media din populaţie a caracteristiciivizate, iar abaterea standard a acestei noivariabile este egală cu valoarea din populatie aabaterii standard a variabilei urmărite,împărţită la rădăcina pătrată din mărimea

eşantionului. Abaterea standard a noii variabile este denumită eroare standard (e):

Dacă aşa stau lucrurile, înseamnă că datele problemei noastre arată acum astfel:avem o distribuţie de eşantionare a mediei, care este normală, cu media µ = 132 şiabaterea standard (numită eroare standard)

nσ =12/5 = 2,4. Deci răspunsul la

problema noastră se reduce la a calcula aria care se află la stânga lui 127 de sub o curbănormală caracterizată de µ şi e, calcule cu care suntem deja familiarizaţi din Capitolul 2:

Calculăm mai întâi scorul z pentru 127. Să vedem însă mai întâi cum aratăformula pentru zi în condiţiile în care acum observaţiile sunt medii de eşantion, mediadistribuţiei este media caracteristicii în populaţie, iar abaterea standard a distribuţiei esteeroarea standard:

nX

eX

z iii σ

µµ −=

−=

În cazul nostru deci, z127 = (127 - 132)/2,4 = -5/2,4 = -2,08.Să calculăm acum probabilitatea de apariţie a unei valori egale sau mai mici decât

-2,08, cu ajutorului tabelului z. Aceasta se reduce la a calcula probabilitatea de apariţie aunei valori mai mari decât 2,08, de unde Pr( X <120) = Pr(z<-2,08) = 0,019. Deci, şansa

ne σ=

Figura 3.2 Distribuţia de eşantionare a mediei

1X µ 2X

să obţinem un eşantion cu o medie de 127, dintr-o populaţie cu media 132 şi abatereastandard 12 este de aproximativ 2%.

• Cazul proporţiilor

Aşa cum am amintit deja în Capitolul 1 când am discutat cazul variabilelordihotomice, proporţiile (sau frecvenţele relative) calculate pentru o variabilă binară nusunt nimic altceva decât media acelei variabile. Proporţia calculată într-un eşantion (pecare o vom nota cu P) nu este nimic altceva decât o estimare a proporţiei din populaţie(notată cu π). Ca şi în cazul mediei ( X ), şi P fluctuează de la eşantion la eşantion, iardistribuţia proporţiilor calculate pentru toate eşantioanele posibile de mărime n este deasemenea una normală. Prin analogie cu distribuţia de eşantionare a mediei, vom spunecă proporţiile calculate în eşantion fluctuează în jurul proporţiei din populaţie π, cu oeroare standard e = n/)1( ππ − (deoarece abaterea standard pentru proporţii este

egală cu )1( ππ − ).Pentru a ilustra cazul proporţiilor, să presupunem că în România 60% din

electorat votează cu partide de stânga şi 40% votează cu partide de dreapta. Care eprobabilitatea ca un eşantion simplu aleator de mărime n = 100 să conţină o minoritate devotanţi cu stânga? Cu alte cuvinte, care e probabilitatea să obţinem un eşantion de o sutăde persoane care ne-ar conduce către o concluzie greşită în ce priveşte orientarea politicăa electoratului?

Să trecem la rezolvarea problemei: Mai întâi, vom asuma că o minoritate devotanţi cu stânga înseamnă că mai puţin de 50% din persoanele cuprinse în eşantionvotează cu stânga. Apoi, trebuie să calculăm eroarea standard, e.

e = 05,0100/4,06,0/)1( ≈×=− nππ

Având în vedere faptul că suntem interesaţi de votanţii cu stânga, π = 0,6

z50% = z0,50 = (P - π)/e = (0,5 - 0,6)/0,05 = -2,00

Deci, Pr(P<0,50) = Pr(z<-2,00) = 0,023

Cu ale cuvinte, probabilitatea de a trage concluzii greşite pe baza eşantionului estede aproximativ 2%.

3.3 Intervale de încredere

În secţiunea anterioară am răspuns la întrebarea: care e probabilitatea ca uneşantion simplu aleator să ofere rezultate depărtate de valorile observate în populaţie. Înpractică însă, de cele mai multe ori, situaţiile cu care avem de-a face şi întrebările la caretrebuie să raspundem sunt de altă natură: de obicei, cercetătorul sau analistul nu cunoaştevaloarea reală, din populaţie, a parametrului, ci încearcă să o estimeze. Pentru a ilustra oastfel de situaţie să luăm un exemplu similar cu cel din secţiunea precedentă Să

Page 19: Introducere in Statistica

presupunem că un cercetător doreşte să estimeze nivelul de inteligenţă al elevilor uneişcoli. Pentru aceasta el extrage aleator un eşantion format din 25 de elevi cărora le aplicăun test de inteligenţă şi obţine o valoare medie a coeficientului de inteligenţă de 131.Bazându-se pe acest rezultat, ce poate el spune despre nivelul de inteligenţă al elevilorşcolii respective? Eşantionul de 25 de elevi este evident doar unul din eşantioanele care arfi putut fi extrase, şi prin urmare şi media de 131 obţinută la nivel de eşantion este doaruna din mediile posibile. Mai clar spus, 131 este doar una dintre mediile din distribuţia demedii care ar putea fi obţinută extrăgând multe eşantioane formate din 25 de elevi aişcolii respective. Se pune deci următoarea problemă: care este valoarea medie acoeficientului de inteligenţă pentru întreaga populaţie de elevi vizată? - valoare evidentnecunoscută pentru cercetător, altfel ce rost ar mai fi avut să facă cercetarea!

Este destul de evident că dacădorim să facem o inferenţă despre µ pebaza lui X , şi dacă vrem să putem aveaîncredere că această inferenţă este corectă,nu putem pretinde că µ = X . Pare multmai rezonabil să acceptăm că există ooarecare eroare de eşantionare cu ajutorulcăreia sa construim o estimare de interval,sau, mai bine zis, un interval de încredere:

µ = ±X o eroare de eşantionare

Cât de mare ar trebui să fie însă aceastăeroare? Răspunsul depinde bineînţeles dedistribuţia de eşantionare a lui X , sau maibine zis de măsura în care acesta fluctuează în jurul mediei din populaţie (Figura 3.3).

Să ne aducem puţin aminte de prezentarea distribuţiei normale făcută în Capitolul2: acolo am afirmat că pentru orice distribuţie normală aria de sub curbă aflată între µ -1,96σ şi µ + 1,96σ este întotdeauna 0,95 (vezi şi tabelul z). În cazul distribuţiei deeşantionare, care este de asemenea o distribuţie normală, vom spune deci că aria de subcurbă cuprinsă între µ - 1,96e şi µ + 1,96e (unde e este eroarea standard) este egală deasemenea cu 0,95, de vreme ce eroarea standard este abaterea standard a distribuţiei deeşantionare. Altfel spus, expresia

Pr(µ - 1,96e < X < µ + 1,96e) = 0,95

este adevărată pentru orice distribuţie de eşantionare. În cuvinte, probabilitatea ca mediaunui eşantion simplu aleator de mărime n să se găsească între valorile µ - 1,96e şi µ +1,96e, este egală cu 0,95 (Figura 3.3). Inegalităţile din paranteza expresiei de mai sus potfi rezolvate pentru µ, obţinându-se astfel expresia echivalentă:

Pr( X - 1,96e < µ < X + 1,96e) = 0,95

Figura 3.3 Aria de sub curba distribuţiei de eşantionare

Aceasta nu înseamnă că µ nu mai e o constantă - parametrul căutat de noi înpopulaţie. Expresia de mai sus nu este nimic altceva decât o "propoziţie" probabilistădespre variabila aleatoare X . Media în populaţie nu variază. Întorcându-ne la exemplulnostru pivitor la estimarea coeficientului de inteligenţă, să presupunem că în paralel cucercetarea prin eşantion a fost efectuată şi o testare pe toată populaţia de elevi din şcoalarespectivă. Rezultatul a fost o medie a coeficientului de inteligenţă de 132, şi o abaterestandard de 12. Cercetătorului nostru nu i s-a comunicat însă decât abaterea standard, aşacă el a fost în continuare nevoit să estimeze media în populaţie pe baza valorii obţinute îneşantion. În consecinţă, el va lua expresia de mai sus, şi, după calcularea erorii standard(e=2,4) va scrie:

Pr(131- 1,96 x 2,4 < µ < 131 + 1,96 x 2,4) = 0,95, adicăPr(126,3 < µ < 135,7) = 0,95

În final deci, cercetătorul va afirma "cu un nivel de încredere" de 95% că media înpopulaţie, µ, se găseşte în intervalul 126 - 136. Acest interval se numeşte interval deîncredere.

Să presupunem acum că, aşa cum e şi firesc de altfel, cercetătorul nu e foartemulţumit de precizia estimării sale. El ar dori să facă o afirmaţie mai "exactă" în sensulunui interval mai restrâns. Cum poate el să facă acest lucru? Să ne mai uităm o dată lapropoziţia probabilistă prezentată anterior, însă de data aceasta o vom scrie în forma sagenerală:

Pr( X - zp/2e < µ < X + zp/2e) = n.i.

unde n.i. este nivelul de încredere iar zp/2 este valoarea din tabelul z corespunzătoarerespectivului nivel de încredere.

În condiţiile în care cercetătorul doreşte să obţină un interval de încredere mai mic(mai restrâns), el nu poate face acest lucru decât printr-un compromis, şi anume reducândvaloarea absolută a lui z, sau altfel spus, reducând nivelul de încredere. Deoarececercetătorul nu poate modifica nici X nici eroarea standard decât prin efectuarea uneialte cercetări, lui nu îi rămâne decât să îşi aleagă un nivel de încredere mai mic decât95%, ceea ce va duce la o micşorare a intervalului. De exemplu, dacă cercetătorul semulţumeşte cu un nivel de încredere de 68% - căruia îi corespunde z0,34 = 1 (vezi tabelul zdin Anexa 1), atunci el va putea spune că, pentru un nivel de încredere de 68%, µ va ficuprins între 131 - 2,4 şi 131 + 2,4, adică între 128,6 şi 133,4.

Concluzia acestui scurt exerciţiu este că estimarea constituie întotdeauna uncompromis între "exactitatea" şi "siguranţa" afirmaţiei pe care dorim să o facem despreparametrul în cauză. Mai riguros spus, dacă vom încerca să creştem nivelul de încredereal estimării, mărind astfel "siguranţa", va trebui să creştem şi intervalul de încredere,pierzând astfel din "exactitate". Şi invers, dacă dorim să micşorăm intervalul deîncredere, vom fi nevoiţi să reducem şi nivelul de încredere al estimării.

Este totuşi legitim să ne întrebăm cum putem obţine estimări cât mai "sigure" şicât mai "exacte"? Răspunsul nu este foarte greu de dat: prin mărirea volumuluieşantionului. Acest răspuns decurge firesc din formula erorii standard:

Page 20: Introducere in Statistica

de unde reiese clar că cu cât vom avea un eşantion mai mare cu atât vom avea o eroarestandard mai mică, şi deci intervale de încredere mai mici, pentru acelaşi nivel deîncredere.

3.4 Cazul eşantioanelor mici. De la z la t

În ultimul exemplu din secţiunea anterioară am presupus, destul de nerealist, căcercetătorul nostru, care nu avea cum să măsoare abaterea standard în populaţie, σ,reuşeşte să obţină valoarea acesteia datorită unei coincidenţe fericite. În lumea reală astfelde coincidenţe sunt practic absente, iar cercetătorul, dacă doreşte într-adevăr să obţină oestimare a lui µ, va trebui să calculeze eroarea standard şi deci va fi obligat să înlocuiascăσ cu o estimare a ei. După cum e şi foarte intuitiv, cea mai bună estimare pentru σ este s,adică abaterea standard în eşantion. Dar utilizarea lui s introduce o sursă adiţională deposibile distorsiuni sau erori, mai ales dacă eşantionul este mic (sub 120 de cazuri).Pentru a nu risca distorsiuni în ceea ce priveşte nivelul de încredere, va trebui sărecurgem la o lărgire a intervalului. Aceasta se face prin înlocuirea valorii z utilizate însecţiunea anterioară cu o valoare mai mare, t, care provine dintr-o distribuţie similară cuz, numită distribuţia t a lui Student, sau Student (t). Practic, marea diferenţă dintredistribuţia z şi distribuţia t este faptul că aceasta din urmă ia în calcul şi ceea ce secheamă "grade de libertate". Acestea, foarte intuitiv spus, reprezintă numărul de elementede informaţie independente, necesare pentru definirea unui sistem. In cazul discutat denoi acum, aceste elemente sunt indivizii din care se compune eşantionul. Deoarece întreobservaţiile din eşantion există o relaţie de dependenţă, care este media, numărul degrade de libertate va fi n-1. Să revenim la diferenţele dintre z şi t: acestea sunt practicsesizabile numai în cazul eşantioanelor mici (mai mici de 120), adică pentru un numărmic de grade de libertate. Pentru peste 120 de grade de libertate, distribuţia t este foartesimilară cu z. Pentru sub 120 de grade de libertate (notate de acum înainte g.l.), valorile tsunt mai mari decât valorile z, pentru a compensa, aşa cum arătam mai sus, înlocuirea luiσ cu s în formula erorii standard. Tabelul t este prezentat în Anexa 2. Deoarece citirea seface în funcţie de numărul de grade de libertate, care se găsesc la capetele rândurilor (înstânga), organizarea şi modul de citire ale unui tabel t sunt complet diferite faţă de celeale tabelului z. În tabelul t din Anexa 2 coloanele sunt definite de ariile de sub curbăaflate la dreapta valorii t, iar în celule, la intersecţia dintre gradele de libertate şi nivelelede probabilitate (arii) se găsesc valorile lui t. Astfel, pentru un eşantion de 10 persoane şiun nivel de încredere de 95% va trebui să căutam valoarea lui t la intersecţia dintre rândulcu 9 grade de libertate şi aria egala cu 0,025, deoarece 0,95 = 1 - 2 x 0,025 (sau, încuvinte, pentru a obţine nivelul de 0,95 trebuie să eliminăm 0,05 din ambele cozi aledistribuţiei, adică câte 0,025 din fiecare coadă - şi din stânga şi din dreapta). Pe ultimalinie a tabelului se poate observa că atunci când numărul de grade de libertate tinde cătreinfinit, valorile t sunt egale cu valorile z pentru acelaşi număr de g.l.

ne σ=

Să actualizăm acum formulele şi expresiile utilizate în estimare, înlocuind pe σ cu s şirespectiv pe z cu t:

; unde e' este eroarea standard estimată.

Pr( X - t(1-p)/2e' < µ < X + t(1-p)/2e' = n.i.

ceea ce este totuna cu a spune că µ = X ± t(1-p)/2e'), pentru un anumit n.i.

3.5 Reprezentativitatea eşantioanelor: a alege câţiva pentru a îi reprezenta pe toţi.

Un eşantion bun este într-o oarecare măsură o versiune în miniatură a uneipopulaţii, un model al unei populaţii. Caracteristica cea mai importantă a unui eşantionbun este dat de reprezentativitatea acestuia. Un eşantion este considerat reprezentativpentru populaţia din care este extras dacă �caracteristici importante sunt distribuitesimilar în amândouă grupurile�3 sau mai clar spus, un eşantion trebuie să reproducăcaracteristici importante ale populaţiei din care este extras. Aceste caracteristiciimportante pot fi: vârsta, nivelul de educaţie, mediul de reşedinţă, sexul, venitul, etc. Aşacum am vazut în secţiunile anterioare, un eşantion nu va reproduce niciodată cu exactitatetoate caracteristicile unei populaţii, iar această lipsă de exactitate implică:

• existenţa unei erori de eşantionare numită şi eroare limită de sondaj şi careeste exact produsul dintre valoarea lui t şi eroarea standard (∆ = te)

• existenţa unui nivel de încredere, notat mai sus cu n.i., care este dependent devaloarea lui t.

Reprezentativitatea unui eşantion este exprimată cantitativ de cele două valori ∆ şin.i, valori care sunt determinate una de cealaltă. Un eşantion este cu atât maireprezentativ cu cât eroarea pe care o facem este mai mică iar nivelul de încredere estemai mare.

Orice eşantion aleator reproduce mai mult sau mai puţin caracteristici alepopulaţiei din care este extras, motiv pentru care nu există eşantioane nereprezentative, cidoar eşantioane mai mult sau mai puţin reprezentative pentru o populaţie în funcţie demăsura în care caracteristici ale populaţiei respective sunt regăsite şi în aceste eşantioane.Mai mult, unele caracteristici pot fi mai bine reproduse de un eşantion iar altele mai puţinbine, ceea ce înseamnă ca reprezentativitatea unui eşantion este diferită în funcţie decaracteristica care este avută în vedere. Cu alte cuvinte, un eşantion nu este reprezentativîn general, ci are o anumită reprezentativitate în raport cu o anumită caracteristică şi oaltă reprezentativitate în raport cu o altă caracteristică.

Gradul de reprezentativitate a unui eşantion depinde de trei factori importanti -eterogenitatea sau omogenitatea caracteristicilor populaţiei din care este extras, demărimea eşantionului şi de procedura de eşantionare. 3 Arlene Fink, How to Sample in Surveys, Sage Publications, Thousands Oaks, London, New York, 1995, p.1.

nse ='

Page 21: Introducere in Statistica

Cum am spus deja, reprezentativitatea unui eşantion este dată de capacitateaacestuia de a reproduce o serie de caracterisitici existente în populaţie. Dacă ocaracteristică este mai omogen distribuită într-o populaţie un acelaşi eşantion va fi maireprezentativ pentru acea caracteristică decât pentru o altă caracteristică care estedistribuită mai eterogen în aceeaşi populaţie. Sau altfel spus, pentru a obţine o aceeaşireprezentativitate, pentru o caracteristică în raport cu care populaţia este mai omogenăeste nevoie de un eşantion de mărime mai mică decât pentru o caracteristică în raport cucare populaţia este mai eterogenă.

Mărimea eşantionului se referă la numărul de elemente care îl compun şi caretrebuie investigate pentru a obţine rezultate cât mai precise. Intuitiv, un eşantion este cuatât mai reprezentativ cu cât cuprinde mai multe elemente din populaţia vizată, în felulacesta obţinându-se o reproducere mai bună a acesteia. Dar creşterea nivelul dereprezentativitate nu este direct proporţională cu creşterea numărului de elemente dinpopulaţia vizată care sunt incluse în eşantion, adică nu avem o relaţie lineară între celedouă componente; dimpotrivă această relaţie poate fi reprezentată sub forma unei curbeasemănătoare celei din figura de mai jos (Figura 3.4). Astfel, dacă modificăm mărimeaeşantionului cu o cantitate K de elemente, iar eşantionul cuprinde iniţial un număr mic deelemente, modificarea gradului de reprezentativitate este mai mare decât dacă modificămmărimea eşantionului cu aceeaşi cantitate K de elemente dar eşantionul este compusiniţial dintr-un număr mare de elemente.

Mărimea eşantionului este indepedentă de mărimea populaţiei din care esteextras. Un eşantion de o anumită mărime şi constituit după aceleaşi proceduri are aceelaşigrad de reprezentativitate şi atunci când este extras din populaţia unei ţări şi atunci cândeste extras din populaţia unui oraş. Consecinţa faptului că reprezentativitatea unuieşantion nu depinde de mărimea populaţiei din care este extras este aceea că acesta are unanumit grad de reprezentativitate pentru întreaga populaţie, dar subeşantioanele în care seîmparte şi care respectă proporţia diferitelor segmente ale populaţiei nu mai au acelaşigrad de reprezentativitate pentru aceste segmente ca şi eşantionul iniţial (pe totalpopulaţie).

Figura 3.4 Relaţia dintre reprezentativitate şi mărimea eşantionului.

În ceea ce priveşte procedura de eşantionare, aceasta influenţează atât gradul dereprezentativitate al unui eşantion cât şi posibilitatea exprimării numerice a acesteia. Dinpunct de vedere tehnic � matematic, calcularea reprezentativităţii unui eşantion esteposibilă numai în cazul eşantioanelor probabiliste sau aleatoare. Un eşantion probabilisteste acel eşantion pentru care fiecare element din populaţia vizată are o şansă calculabilăşi non-nulă de a fi selectat în eşantion. Posibilitatea calcularii probabilităţii ca un elementdin populaţie să fie selectat în eşantion permite calcularea unei marje de eroare (∆) şi aunui nivel de încredere (n.i.) prin care să fie exprimată cantitativ reprezentativitateaeşantionului. În cazul eşantioanelor neprobabiliste, cele pentru care şansa unui element alpopulaţiei de a face parte din eşantion nu este cunoscută, nu poate fi calculat gradul dereprezentativitate şi prin urmare nici nu se poate vorbi de reprezentativitatea lor.

• O ultimă provocare: cât de mare trebuie să fie un eşantion?

În practică, aceasta este una din primele întrebări pe care şi le pune orice cercetătorsau analist înainte de a se lansa într-un sondaj. Aşa cum am mai menţionat, mărimeaeşantionului nu este dependentă de mărimea populaţiei. Stabilirea mărimii unui eşantionse face de obicei în funcţie de resursele avute la dispoziţie (timp, bani, resurse umaneetc.) şi de nivelul de reprezentativitate pe care cercetătorul doreşte să îl atingă. Deducemde aici că mărimea eşantionului se va stabili în funcţie de nivelul de încredere pe carecare dorim să îl atingem şi de marja de eroare sau nivelul erorii limită de sondaj pe caresuntem dispuşi să le acceptăm. De obicei, aceste decizii se iau plecând de la ipoteza uneipopulaţii cu grad maxim de eterogenitate pe câteva caracteristici. Ipoteza eterogenităţiimaxime este o precauţie pe care cercetătorul trebuie să şi-o ia; este un fel de a se aştepta"la ce e mai rău". În cazurile în care abaterile standard în populaţie ale caracteristicilor deinteres sunt cunoscute, se poate pleca de la acestea. În această secţiune, vom exemplificacu ajutorul unei caracteristici dihotomice, pentru simplitatea calculelor:

Eterogenitatea maximă pentru o caracteristică dihotomică este atinsă atunci cânddistribuţia respectivei caracteristici în populaţie este omogenă, adică 50% - 50%.Mărimea eşantionului poate fi extrasă din formula erorii standard:

sau, în cazul variabilelor dihotomice,

e = n/)1( ππ −

de unde,

n = 2/)1( eππ −

dar ∆ = te, de unde rezultă că e = ∆/t

deci n = 22 /)1( ∆×− tππ

ne σ=

Page 22: Introducere in Statistica

Să presupunem acum că dorim să facem acest calcul pentru o variabilă deeterogenitate maximă şi că în final dorim să obţinem o marjă de eroare ∆ = 2% (adică de0,02), pentru un nivel de încredere de 95% (adică 0,95). Cu alte cuvinte, dorim să neasigurăm acel volum al eşantionului care să ne permită să spunem, pentru variabilanoastră (să zicem starea de sărăcie), că:

P - 2% < π < P + 2% (sau π = P ± 2%), pentru un nivel de încredere de 95%unde P este proporţia (de săraci) măsurată în eşantion.

Dacă nivelul de încredere ales este de 95%, va trebui să ne uităm în tabel la valoarea lui tcorespunzătoare acestui nivel. De fapt ne vom uita în tabelul z, deoarece am presupus călucrăm cu abaterea standard în populaţie, şi oricum ar fi absurd să vorbim în această fazădespre numărul de grade de libertate, care e dependent de n (g.l. = n-1). Deci, vom folosivaloarea t = 1,96.

Din cele de mai sus rezultă că:

n = 0,5 x 0,5 x 1,96 x 1,96 / (0,02 x 0,02) = 2401 subiecţi.

Exerciţii şi probleme

1. O populaţie de studenţi într-un campus studenţesc mare are o greutate medie de µ = 69kilograme şi o abatere standard σ = 3,22 kilograme. Dacă se alege un eşantion aleator den = 10 studenţi, care este şansa ca media eşantionului X să se plaseze în intervalul de+/- 2 kilograme faţă de medie µ a populaţiei?

2. Un teleferic este astfel proiectat încât să poată suporta o greutate maximă de 10000 dekilograme. În teleferic sunt încărcate la un transport 50 de butoaie. Să presupunem căgreutăţile tuturor butoaielor care trebuie transportate cu telefericul au o medie de 190kilograme şi o abatere standard de 25 de kilograme. Care este probabilitatea ca uneşantion aleator de 50 de butoaie să aibă o greutate mai mare decât greutatea maximăsuportată de teleferic?

3. În 1998 aproximativ 50% dintre români considerau că inflaţia este cea mai importantăproblemă a ţării. Dacă se aleg în mod aleator 1500 de români din totalul populaţiei careeste şansa ca proporţia acestui eşantion să reflecte în mod adecvat proporţia populaţiei,considerând un interval de +/- 3 procente în jurul valorii din populaţie?

Pentru următoarele întrebări, să se încercuiască varianta corectă /variantele corecte:4. Eroarea limita de sondaj este

cu atit mai mare cu cit:1. populatia este mai eterogena2. esantionul este mai mic3. abaterea standard a caracteristicii în eşantion

este mai mica4. media în eşantion este mai mare5. volumul esantionului este mai mare6. nici una dintre acestea

5. Volumul eşantionului trebuiesă fie direct proporţional cu

1. mărimea populaţiei din care se extrage2. variaţia caracteristicii de eşantionare3. eroarea limită de reprezentativitate admisănivelul de încredere pentru care se garanteazărezultatele

Page 23: Introducere in Statistica

Capitolul 4

Proceduri de eşantionare

Unul dintre primele aspecte care trebuie luate în considerare atunci când se puneproblema realizării unor cercetări practice este aceea a delimitării populaţiei care urmazăa fi studiată. În acest context, prin �populaţie� sunt desemnate toate elementele care potsau trebuie să fie studiate. Elementele pot fi indivizi umani, dar în acelaşi timp pot figospodării, şcoli, spitale, intreprinderi economice, oraşe, organizaţii sociale sauprofesionale, ziare, articole de presă, discursuri ale unor oameni politici, etc. Indiferentînsă de cine sau ce constituie elementele populaţiei vizate, aceasta trebuie să fie atentdelimitată în funcţie de obiectivele cercetării, întrucât rezultatele finale vor depinde deacest punct de referinţă stabilit iniţial. Spre exemplu, să ne imaginăm că într-un oraş sepune problema adoptării unui nou sistem de transport în comun, iar ceea ce ne intereseazăeste acordul sau dezacordul cetăţenilor cu privire la modul practic de realizare a acestuia.În acest caz, populaţia vizată este compusă doar din cei care locuiesc în oraşul respectiv?sau trebuie avută în vedere şi populaţia care nu locuieşte în oraş, dar care într-o măsurăsau alta beneficiază de transportul în comun din acel oraş? care este vârsta minimă şimaximă a celor care vor fi chestionaţi?, etc. Intrebări asemănătoare acestora se ivesc defiecare dată când se pune problema definirii unei populaţii care urmează a fi cercetate, iarde răspunsurile date vor depinde în mod evident rezultatele finale. Un prim pas îndefinirea unei populaţii vizate este acela de a stabili o populaţie ideală, adică toţi cei careipotetic ar trebui să fie luaţi în considerare atunci când se cercetează o problematicăanume. După care în funcţie de constrângerile practice identificate � spre exemplu, încazul în care elementele populaţiei sunt indivizi umani, astfel de constrângeri ar putea fidate de imposibilitatea de a îi investiga pe cei aflaţi în închisori, unităţi militare, spitale,hoteluri, în străinătate, etc � populaţia ideală poate fi restrânsă la o populaţie vizată carepoate fi abordată în cadrul cercetării. Avantajele luării în considerare în faza iniţială aunei populaţii ideale este acela că excluderea unor segmente din aceasta este explicită, iarneajunsurile rezultate de aici pot fi luate în considerare.

O dată stabilită populaţia vizată, poate fi pusă şi problema alegerii unui eşantion.Pentru aceasta, elementele populaţiei vizate sunt traspuse într-o listă numită cadru deeşantionare, listă din care vor fi extrase ulterior potrivit unor proceduri clar definite aceleelemente care vor compune eşantionul. Spre exemplu, dacă se realizează o anchetătelefonică al cărui scop este investigarea modului în care dotarea cu utilităţi publice aunei localităţi acoperă necesităţile existente, populaţia ideală este constituită din toategospodăriile care au acces la utilităţi publice, iar cadrul de eşantionare este format dintoate gospodăriile care au acces la utilităţi publice şi au telefon. Constrângerea în acestcaz este dată de existenţa unui post telefonic în gospodărie. Gospodăriile care au acces lautilităţi dar care nu au telefon neputând fi investigate, populaţia vizată este formată doardin acele gospodării care au acces la utilităţi publice şi au telefon (Figura 1.). În exemplulde faţă, astfel de liste care să se constituie în cadru de eşantionare pot fi evidenţe alecompaniilor funizoare de utilităţi publice şi liste ale abonaţilor la servicii telefonice dinlocalitatea avută în vedere.

De la caz la caz, în funcţie de problema investigată, pot constitui cadru deeşantionare: lista celor care sunt înscrişi la un medic de familie sau la medicii de familiecare operează într-o anumită arie care urmează a fi acoperită de cercetare, lista celorabonaţi la o firmă furnizioare de servicii de televiziune prin cablu, lista celor abonaţi la oanumită publicaţie, lista celor care figurează în registrul auto, lista celor care figurează înregistrul de carte funciară, etc. Ideal toate aceste liste ar trebui să includă fiecare elemental populaţiei vizate doar o singură dată. În realitate însă există o serie de neajunsuriprintre care cele mai importante sunt:

• lipsa unor elemente: fie lista este inadecvată în sensul în care iniţial nu a fostconcepută pentru a include toate elementele care pot face la un moment dat obiectulde interes al cercetătorului, fie este incompletă, adică nu include din diferite motivetoate elementele care se presupune care că ar trebui să le includă;

• referinţe la grupuri de elemente şi nu la elemente individuale; spre exemplu, liste carenu se referă la numărul de persoane ci la numărul de familii care locuiesc într-ogospodărie, dar cercetarea vizează persoane şi nu familii;

• existenţa unor elemente straine, adică existenţa în listă a unor elemente care dindiferite motive nu fac obiectul de studiu la un moment dat;

• exitenţa unor duplicate: când unele elemente ale populaţiei apar de mai multe ori pe olistă.

Remedierea tuturor acestor neajunsuri va duce în mod evident la obţinerea unuieşantion mai bun. De la caz la caz prin remediere se înţelege: identificarea elementelorlipsă şi introducerea lor în lista care constituie cadrul de eşantionare, identificarea tuturorelementelor care fac parte dintr-un grup, eliminarea unor elemente străine care nu aulegătură cu tematica cercetării, eliminarea duplicatelor şi păstrarea pe o listă a unuielement doar o singura dată.

O modalitate de a depăşi aceste neajunsuri constă în redefinirea problematiciicercetate în aşa fel încât elementele populaţiei care nu pot fi identificate să nu facăobiectul unei anumite cercetări. Acest lucru evident nu este posibil în toate situaţiile şi nueste posibil mai ales în acele situaţii în care elementele care nu pot fi identificateconstituie majoritatea elementelor unei populaţii.

Atunci când nu există liste care să cuprindă elementele unei populaţii vizate princadru de eşantionare poate fi desemnată orice altă procedură care să permită identificareaelementelor unei populaţii. Spre exemplu, o arie geografică poate juca rolul de cadru deeşantionare, situaţie în care elementele populaţiei vizate sunt asociate cu un anumit spaţiunatural. Astfel, aria geografică ocupată de o populaţie vizată poate fi împărţită în zonemai mici din care sunt alese aleator câteva, care la rândul lor sunt divizate în arii mai micidintre care vor fi selectate aleator câteva şi aşa mai departe până la utimul stadiu când dinanumite zone astfel selectate sunt investigate toate elementele.

Page 24: Introducere in Statistica

4.1 Tipuri de eşantioane

Distincţia clasică în ceea ce priveşte tipurile de eşantioane este aceea întreeşatioanele probabiliste sau aleatoare şi cele neprobabiliste.

În primul caz în procesul de selectare a unui element din populaţie pentru a faceparte din eşantion se presupune că se face �la întâmplare� fără să intervină în vreun un felsubiectivismul celui care aplică procedura de eşantionare şi nici vreun alt fenomen caresă afecteze şansa unuia sau unor indivizi de a fi selectaţi. Dată fiind această constrângere,situaţii cum ar fi alegerea la întâmplare a unui număr de oameni care intră într-o instituţiede la orele 8.00 până la orele 10.00 ale unei zile, constituirea unui eşantion de gospodăriialese la întâmplare atunci când ne plimbăm pe câteva străzi dintr-o localitate, sauconstituirea unui eşantion format din localităţi rurale ale unui judeţ, selectând totîntâmplător localităţi rurale care se află pe şoseau care leagă două oraşe ale judeţuluirespectiv, etc, nu vor duce la constituirea unor eşantioane probabiliste. Motivul pentrucare nu vom obţine în aceste cazuri eşantioane aleatoare este acela că în alegerea pe careo facem �la întâmplare� excludem fie intenţionat, fie neintenţionat o parte din elementelepopulaţiei vizate. Astfel în primul caz, dacă vrem să alegem un eşantion reprezentativpentru cei care frecventează o anumită instituţie şi vom selecta �la întâmplare� doar pecei care intră în acea instituţie în intervalul orar amintit îi vom exclude pe toţi cei care lamomentul respectiv nu au şansa de a intra în acea instituţie, similar vom exlude fără săvrem gospodăriile care nu au şansa de a se găsi pe străzile pe care ne plimbăm saulocalităţile rurale care nu au şansa de a se afla pe şoseaua care leagă cele două oraşe întrecare ne deplasăm. Mai mult, nu putem calcula şansa pe care o are fiecare element din celetrei cazuri prezentate mai sus � persoane, gospodării, localităţi rurale �de fi selectat îneşantion. În toate aceste cazuri este clar că întâmplarea favorizează anumite elemente şi

Figura 4.1. Cadrul de eşantionare pentru selectarea unui eşantion în vederea investigăriiprintr-o anchetă telefonică a gradului de satisfacere de către utilităţile publice a nevoilor populaţieiunei localităţi (exemplu ipotetic).

anulează şansele altor elemente care sunt exluse a priori întrucât nu au şansa de a se aflala locul sau pe traseul pe care se deplasează cel care face selecţia.

Pentru a evita aceste situaţii ar trebui să avem o situaţie clară a tuturor elementelorcare compun o populaţie şi să le putem identifica fără echivoc.

Aşa cum am arătat deja în paragraful anterior, în cazul procedurilor de eşantionareprobabiliste fiecare element care compune o populaţie trebuie să aibă o şansă diferită dezero şi calculabilă de a face parte din eşantion. Acesta este criteriul de bază în stabilireadihotomiei: eşantioane probabiliste - eşantioane neprobabiliste

De-a lungul timpului au fost dezvoltate o larg varietate de tehnici de eşantionare,dintre acestea cele mai frecvent întâlnite sunt: eşantionarea simplă aleatoare, eşantionareaaleatoare prin stratificare, eşantionarea cluster, eşantionarea multistadială, eşantionareape cote, eşantionarea tip �bulgăre de zăpadă�. În cele ce urmează vom prezenta o serie deaspecte legate de modul de aplicare a fiecăreia dintre aceste proceduri de eşantionare.

4.1.1 Eşantioane probabiliste

• Eşantionarea simplă aleatoareEşantionarea simplă aleatoare este probabil procedura cea mai importantă şi cea

mai des utilizată în domeniul cercetărilor practice şi este considerată procedura dereferinţă, �ideală�, atunci când se pune problema stabilirii unor tehnici de eşantionare.Asumpţiile de bază ale acestei tehnici sunt acelea că: fiecare element al populaţie vizateare exact aceeaşi şansă ca şi oricare alt element al aceleiaşi populaţii de a fi selectat îneşantion, iar selectarea unui element în eşantion nu a influenţat în nici un fel şansele altuielement de a fi selectat. Tehnica tipică sau modelul de realizare al acestui tip deeşantionare este reprezentat de metoda urnei, situaţie în care fiecarui element dintr-opopulaţie vizată îi corespunde o bilă; toate bilele corespunzătoare unor membrii aipopulaţiei vizate sunt introduse într-o urnă după care sunt amestecate şi se extrage perând câte una până se ajunge la un număr de bile egal cu numărul de elemente care vorcompune eşantionul. Pentru a asigura probabilităţi de extragere egale pentru toatebilele, după fiecare extragere bila este introdusă înapoi în urnă. Totuşi, dacă populaţiaeste foarte mare (număr foarte mare de bile) reintroducerea bilei în urnă nu mai estenecesară deoarece probabilitatea de extragere a bilelor rămase nu este practic influenţatădecât într-o masură extrem de mică, aproape insesizabilă. Simplu de pus în practică dinpunct de vedere teoretic, procedura astfel definită întâmpină o serie de dificultăţi mai alesatunci când se lucrează cu populaţii mari, situaţie în care este practic imposibil deconceput o urnă în care să poate fi introdus un număr de bile egal cu numărul de indivizicare compun populaţia unei ţări spre exemplu.

O a doua metodă de realizare a unei eşantionări simple aleatoare sunt tabelele cunumere aleatoare. Procedura constă în generarea unor şiruri de numere aleatoare şiintroducerea lor într-un tabel. Fiecărui element din populaţia vizată, care trebuieidentificat univoc, i se atribuie un număr de la 1 la N. Cel care realizează selecţia, alege laîntâmplare un număr din şirul de numere aleatoare şi caută apoi în populaţia vizatăelemetul cu numărul de ordine reprezentat de numărul aleator respectiv, element care vaface parte din eşantion. După care din tabelul de numere aleatoare este ales numărulurmător şi se identifică din nou în populaţia vizată elementul cu numărul de ordineidentic cu numărul aleator, element care este şi el introdus în eşantion. Procedura

Page 25: Introducere in Statistica

continuă în acest fel până la completarea numărului de elemente necesare constituiriieşantionului. În cazul în care unui număr aleator nu îi corespunde un număr atribuit unuielement din populaţia vizată, acesta nu este utilizat şi se trece la următorul.

O altă procedură de punere în practică a unei eşantionări simple aletoare estecunoscută sub denumirea de metoda pasului. În această situaţie este necesară o listă caresă cuprindă toate elementele populaţiei vizate, fiecărui element fiindu-i atribuit un numărde la 1 la N. După care se stabileşte un pas de eşantionare, de obicei egal cu raportuldintre mărimea populaţiei (N) şi mărime eşantionului (n): N/n. Se alege la întâmplare unnumăr din lista care cuprinde toate elementele populaţiei vizate, elementul corespunzătoracelui număr fiind primul element al eşantionului, după care, începând de la acel element,este selectat în eşantion tot al N/n �lea element din populaţie. Pasul de N/n se aplică decâte ori este nevoie pentru a selecta numărul de elemente care trebuie să fac parte dineşantion. Procedura pasului mai este cunoscută şi sub denumirea de eşantionare simplăsistematică sau cvasi-aleatoare.

Spre exemplificare, să presupunem că populaţia vizată este formată din 5000 degospodării, şi dorim să constituim un eşantion format din 250 de gospodării. Pasul deeşantionare în acest caz va fi 5000/250 = 20. Gospodăriile sunt ordonate pe o listă,fiecăreia atribuindu-i-se un număr de la 1 la 5000. Se alege la întâmplare o un număr depe listă, să spunem că acest număr este 7; gospodăria căreia i-a fost atribuit acest număreste primul element al eşantionului nostru. Următoarele gospodării care vor face parte dineşantion sunt cele cărora le corespund numerele: 27, 47, 67, 87, 107, 127, 147 şi aşa maideparte până la selectarea a 250 de gospodării.

• Eşantionarea prin stratificareEşantionarea prin stratificare are la bază tot o procedură de alegere aleatoare.

Această metodă este utilizată atunci când cel care face eşantionarea are motive să creadăcă populaţia vizată este compusă din mai multe subpopulaţii sau subgrupuri distincte,denumite tehnic straturi. Realizarea din punct de vedere practic a unui eşantion prinstratificare presupune următorii paşi: populaţia vizată este împarţită în subpopulaţii înfuncţie de un anumit criteriu care este deja cunoscut, după care este constituit un eşantioncare la rândul lui va fi compus din atâtea subeşantioane câte subpopulaţii există înpopulaţia vizată. În interiorul fiecărei subpopulaţii elementele care vor fi introduse îneşantion sunt selectate aleator.

Spre exemplu, să presupunem că 30% din populaţia unei regiuni locuieşte înlocalităţi rurale, 20% locuieşte în oraşe cu până la 50.000 de locuitori, 15% locuieşte înoraşe care au de la 50.001 la 100.000 de locuitori, iar restul de 35% locuieşte în oreşe depeste 100.000 de locuitori. Un eşantion stratificat format din 1000 de persoane vacuprinde 300 de persoane din mediul rural, 200 de persoane care locuiesc în oraşe cupânâ la 50.000 de locuitori, 150 de persoane care locuiesc în oraşe care au între 51.001 şi100.000 de locuitori şi 350 de persoane care locuiesc în oraşe de peste 100.000 delocuitori.

Principiul de bază al acestui tip de eşantionare este acela că, cu cât o populaţieeste mai omogenă cu atât este mai uşor să se extragă din aceasta un eşantionreprezentativ. De asemenea, cu cât o populaţie este mai omogenă în raport cu ocaracteristică, cu atât mărimea eşantionului necesar pentru a reproduce cu o anumită

acurateţe acea caracteristică este mai mică în comparaţie cu mărimea unui eşantion extrasdintr-o populaţie care este mai eterogenă în raport cu aceeaşi caracteristică.

Mărimea subeşantioanelor poate să păstreze proporţia subpopulaţiilor, situaţie încare vom vorbi de eşantionare prin stratificare proporţională. În felul acesta se asigurăpentru toate elementele populaţiei vizate o şansă egală de a fi selectate în eşantion.

Există însă şi situaţii în care este recomandat ca subeşantioanele să nu păstrezeproporţiile subpopulaţiilor. Acest lucru se întâmplă mai ales atunci când unelesubpopulaţii sunt reduse din punct de vedere numeric şi în consecinţă, dacă ar fi păstrateproporţiile, şi subeşantioanele ar fi formate dintr-un număr mic de elemente care nu aravea un nivel de reprezentativitate rezonabil. În această situaţie se recurge la o stratificarediproporţionată a eşantionului sau o stratificare ponderată, prin suprareprezentarea îneşantion a subpopulaţiilor mai puţin numeroase, urmând ca la prelucrarea datelor aceste�abateri� să fie corectate prin metode statistice. În această situaţie şansele elementeloraparţinând diferitelor subpopulaţii de a intra în eşantion sunt diferite: elementele careprovin din subpopulaţiile mai puţin numeroase având şanse mai mari de fi selectaţi îneşantion decât elementele care provin din subpopulaţiile mai numeroase.

Indiferent de modalitatea în care sunt constituite subeşantioanele, păstrând sau nuproporţiile, eşantionarea prin stratificare presupune existenţa în momentul iniţial alpunerii în practică a procedurii de eşantionare a unei informaţii suplimentare desprepopulaţia vizată în comparaţie cu situaţia în care este utilizată eşantionarea simplăaleatoare. Această informaţie poate fi obţinută cu ajutorul altor studii sau din alte surse deinformare cu privire la populaţia vizată.

În ceea ce priveşte gradul de reprezentativitate al eşantioanelor realizate prinstratificare în comparaţie cu gradul de reprezentativitte al eşantioanelor simple aleatoare,se admite în general că este mai bun. Mai clar spus, dintre două eşantioane de aceeaşimărime unul obţinut prin eşantionare prin stratificare iar altul prin eşantionare simplăaleatoare, se consideră că primul are o reprezentativitate mai bună, în situaţia în carecriteriile pe baza cărora se face eşantionarea au o legătură de tip statistic cucaracteristicile care fac obiectul cercetării.

• Eşantionarea cluster şi eşantionarea multistadialăPână acum am prezentat situaţii în care există un anumit cadru de eşantionare -

liste care să cuprindă elementele unei populaţii - şi situaţii în care pe lângă faptul căexistă un anumit cadru de eşantionare cercetătorul mai are la îndemână şi o serie decriterii pe baza cărora o populaţie poate fi împărţită în subpopulaţii sau grupuri. Înaceastă din urmă situaţie din fiecare grup este extras un subeşantion care va face parte dineşantionul final.

Există însă şi situaţii în care nu există un cadru de eşantionare şi nici nu estenecesară creerea unuia întrucât nu toate elementele acelei populaţii vor fi incluse îneşantion. Dacă populaţia poate fi considerată ca fiind formată din grupuri, iar între acestegrupuri există o anumită asemănare, atunci are sens să nu fie selectaţi în eşantion indivizidin toate grupurile ci numai indivizi din anumite grupuri. În această situaţie populaţiavizată este împarţită în grupuri în funcţie de un anumit criteriu, aceste grupuri la rândullor pot fi considerate ca fiind formate din alte grupuri şi aşa mai departe. Date fiind aceste

Page 26: Introducere in Statistica

condiţii, selectarea elementelor care vor compune eşantionul poate începe prin selectareagrupurilor din care fac parte aceste elemente. Astfel, într-o primă fază sunt selectatealeator o parte din grupurile populaţiei vizate, după care din fiecare grup selectat în primafază vor fi selectate tot aleator alte grupuri mai mici şi aşa mai departe până când seajunge la nivelul elementului de bază din care este compusă populaţia vizată. Spreexemplu, dacă dorim să alegem un eşantion din populaţia unui oraş, într-o primă fazăputem selecta cartiere din acel oraş, apoi străzi, blocuri, apartamente şi în cele din urmăpersoanele care ne interesează. Dacă toate elementele care fac parte dintr-un grup la unmoment dat sunt incluse în eşantion, procedura de eşantionare astfel definită estedenumită eşantionare cluster. Dacă doar o parte din elementele unui grup sunt incluse îneşantion, procedura de eşantionare este definită ca multistadială.

Avantajul unei astfel de proceduri de eşantionare îl constituie costurile reduse înraport cu celelalte proceduri prezentate până acum, în sensul în care efortul şi timpulnecesar identificării unui element care va fi inclus în eşantion este mult mai redus.

În ceea ce priveşte reprezentativitatea unui astfel de eşantion, se consideră îngeneral că, la volum egal, este mai puţin repezentativ în comparaţie cu un eşantionobţinut prin stratificare sau în comparaţie cu un eşantion obţinut prin procedee simplealeatoare. Reprezentativitatea mai scăzută este rezultatul eliminării la diferite nivele aunor grupuri de elemente din populaţia vizată. Cu cât aceste grupuri care sunt eliminatesunt mai mari şi cu cât sunt mai diferite în comparaţie cu grupurile care nu au fosteliminate cu atât este mai mare riscul de a greşi.

Multe cercetări utilizează o combinaţie între eşantionarea multistadială (care estemai uşor de efectuat şi ale cărei costuri sunt mai reduse) şi eşantionarea stratificată (acărei acurateţe este mai mare). Astfel, selecţia în cadrul fiecărui stadiu nu este o selecţiesimplă aleatoare ci mai degrabă o selecţie aleatoare constrânsă de un criteriu destratificare. De exemplu, pentru un eşantion naţional nu vom selecta în primul stadiulocalităţile prin metoda simplă aleatoare, ci vom folosi şi un criteriu de stratificare - săzicem împărţirea în rural şi urban.

4.1.2 Eşantioane neprobabiliste

Alături de aceste proceduri de eşantionare probabiliste în practica de cercetaresunt utilizate şi o serie de tehnici mai puţin riguroase în ceea ce priveşte selectarea celorcare vor compune un eşantion. Lipsa de rigurozitate se referă mai ales la neacordareaunei atenţii speciale calculării sau egalizării şanselor fiecărui individ din populaţia vizatăde a face parte din eşantion. Eşantioanele obţinute în acest fel sunt denumite eşantioaneneprobabiliste. Astfel de eşantioane se constituie în următoarele situaţii :• persoane care se oferă voluntar pentru a fi investigaţe;• persoane care îşi desfăşoara activitatea într-o instituţie anume care prezintă interes

pentru cel care efectuează cercetarea;• persoane care răspund la chestionare publicate în ziare;• persoane care apelează telefonic un post de radio sau de televiziune pentru a răspunde

la întrebările care sunt formulate de moderatorii unor emisiuni sau de alţi participanţila emisiunile respective;

• persoane intervievate pe stradă sau în anumite spaţii publice;

În cadrul acestor tehnici de eşantionare neprobabilistă cele mai des utilizate sunteşantionarea �pe cote� şi eşantionarea tip �bulgăre de zăpadă�.

• Eşantionarea pe coteEşantionarea pe cote este probabil cea mai des utilizată procedură de eşantionare

neprobabilistă utilizată atunci când se lucrează cu populaţii numeroase. Din punct devedere al realizării practice această procedură este similară eşantionării prin stratificareprin aceea că populaţia vizată este stratificată după o serie de criterii însă în interiorulstraturilor indivizii nu sunt selectaţi aleator, ci selecţia acestora este lăsată la latitudineaoperatorilor de anchetă. Acestora le sunt indicate numai anumite �cote� care indicăfrecvenţa cu care să fie selectaţi subiecţii care au anumite caracteristici. Spre exempludacă în populaţia vizată avem 49% bărbaţi şi 51% femei şi 20% au studii superioare iarrestul de 80% nu au astfel de studii, iar eşantionul este format 1000 de persoane, atunci încadrul acetuia vor fi cuprinşi 490 de barbaţi şi 510 femei, 200 de persoane cu studiisuperioare şi 800 de persoane care nu au absolvit învăţământul superior. În aceastăsituaţie dacă sunt utilizaţi 10 operatori de interviu fiecăria i se cere să chestioneze 49 debărbaţi şi 51 de femei, 20 de absolvenţi de învăţământ superior şi 80 de persoane care auabsolvit o formă de învăţământ alta decât facultatea. Pentru a se limita subiectivitateaoperatorilor în selecatarea celor care vor fi incluşi în eşantion se recomandă stabilirea acât mai multor criterii de stratificare a populaţiei vizate.

Avantajul unui astfel de procedeu de selecţie este acela că nu necesită existenţaunui cadru de eşantionare, lucru care în unele situaţii este greu de realizat, iar muncaoperatorilor este mult uşurată prin aceea ce nu trebuie să caute o persoană anume ci aulibertatea de a alege pe cine vor cu condiţia deţinerii anumitor caracteristici vizate decercetare.

• Eşantionarea tip �bulgăre de zăpadă�Este o procedură de eşantionare utilizată în situaţia în care nu există informaţii

suficiente pentru a identifica toţi indivizii care compun o anumită populaţie, ci esteposibilă doar identificare doar a câtorva astfel de indivizi. Date fiind aceste circumstanţe,analiza unui populaţii vizate începe cu investigarea indivizilor cunoscuţi după careacestora li se cere să precizeze, dacă este posibil, şi alte persoane despre care sepresupune că întrunesc caracteristici vizate de cercetare. Procedeul se desfăşoară în acestfel până când sunt identificaţi atâţia indivizi câţi sunt necesari constituirii unui eşantion.Se utilizează acest procedeu în cazul în care populaţia vizată este formată spre exempludin oameni care au aumite hobby-uri sau pasiuni, preocupări şi despre care de obicei nuse cunosc în faza iniţială multe informaţii şi nu se ştie nici câte astfel de persoane compunpopulaţia vizată.

4.2 Concluzie

Eşantionarea este un procedeu des utilizat în practica de cercetare în diferitedomenii ale activităţii umane. De la medicul care face analize de laborator prelevând oprobă de sânge de la un pacient şi până la cei care sunt interesaţi de aspecte ale opinei

Page 27: Introducere in Statistica

publice în diferite domenii precum: preferinţele electorale, acordul sau dezacordul cuanumite politici publice sau decizii administrative, etc. În funcţie de tematica avută învedere şi de informaţiile disponibile cu privire la populaţia vizată procedurile deeşantionare respectă mai mult sau mai puţin anumite rigori în ceea ce priveşte selectareaelementelor din populaţie care vor constitui eşantionul.

Indiferent de procedura de eşantionare utilizată, cercetătorul trebuie să ţină contde limitele existente în fiecare situaţie particulară şi să facă explicite neajunsurileexistente. Una dintre cele mai frecvente erori întâlnite în practica de cercetare este aceeade pune problema reprezentativităţii statistice pentru eşantioanelor neprobabiliste, încazul cărora, aşa cum arătat, această reprezentativitate nu se poate calcula

În practică procedurile de eşantionare prezentate pe parcursul acestui capitolsuferă o serie de abateri şi de adaptări sau ajustări. De cele mai multe ori acestea constăîn combinarea mai multor tehnici de eşantionare în felul acesta sperându-se obţinereaunor informaţii cât mai corecte şi mai precise despre populaţia avută în vedere.

Întrebări:

1. Cât de multe elemente trebuie să cuprindă un eşantion extras dintr-o populaţie perfectomogenă?

2. Între un eşantion simplu aleator şi unul prin stratificare este mai reprezentativ: a) celsimplu aleator, b) cel prin stratificare c) amândouă eşantioanele au acelaşi nivel dereprezentativitate.

3. Să presupunem că se realizează un eşantion utilizând �metoda pasului�. Mărimeaeşantionului este de 200 de elemente iar cea a populaţiei vizate este de 2800 deelemente. Care este mărimea pasului utilizat? De la al câtelea element al populaţieipoate începe punerea în practică a pasului de eşantionare?

Capitolul 5

Testarea ipotezelor statistice. Teste de semnificaţie

O ipoteză statistică este pur şi simplu o afirmaţie despre o populaţie care poate fitestată cu ajutorul unui eşantion aleator. Să ne amintim exemplul din secţiunea 3.3(Capitolul 3) în care un cercetător dorea să estimeze coeficientul mediu de inteligenţăpentru elevii unei şcoli, pe baza unui eşantion. Să presupunem că respectivul cercetătorşi-a demarat studiul cu ipoteza că în respectiva şcoală media coeficientului de inteligenţăeste de 125. După efectuarea studiului, respectivul cercetător a trecut la estimarea medieiîn populaţia de elevi şi a ajuns la concluzia că, pentru un nivel de încredere de 95%,media coeficientului de inteligenţă în şcoală este cuprinsă între 126 şi 136. Deci, ipotezainiţială, a unei medii în populaţie de 125 nu este susţinută de aceste rezultate, iarcercatătorul o va respinge. În general, orice ipoteză care se află în afara unui interval deîncredere poate fi judecată ca fiind implauzibilă şi poate fi deci respinsă. Reiese de aici căun interval de încredere poate fi privit ca un set de ipoteze acceptabile. Să ne întoarcemacum la cercetătorul nostru şi la modul în care a construit intervalul de încredere. Aşacum am reamintit deja, intervalul de încredere a fost construit pentru un nivel deîncredere de 95%. De aici putem deduce că există o probabilitate de 5% ca cercetătorul săfi greşit atunci când a respins ipoteza iniţială, a mediei egale cu 125, sau, cu alte cuvinte,că ipoteza a fost respinsă cu o probabilitate de eroare de 5% (0,05).

• Nivel de semnificaţie. Valoarea p

În paragraful anterior am văzut cum se poate testa o ipoteză statistică cu ajutorulintervalelor de confidenţă. În rândurile care urmează vom ptivi lucrurile dintr-o altăperspectivă, aceea a ipotezei de nul, H0.

Să luăm un exemplu: Într-o comuitate rurală este implementat un program dedezvoltare care printre alte obiective urmăreşte îmbunătăţirea infrastructurii structuriifizice, mai precis a drumurilor. Unul din rezultatele aşteptate este o creştere abunăstării gospodăriilor, datorită accesului mai uşor către ăieţele marilor oraşe.Înainte de implementarea programului, venitul mediu per capita al gospodăriilor dincomunitate era de 1200 mii lei, iar abaterea standard era de 300 mii lei. După trei anide la implementarea programului, o cercetare făcută pe un eşantion de 100 degospodării, arată că media venitului per capita în gospodăriile din eşantion este de1265 mii lei. Întrebarea care se pune este: a crescut nivelul bunăstării în gospodăriiledin comunitate? Pentru a afla acest lucru vom lansa o ipoteză, pe care o vom numiipoteza de nul, şi anume aceea că nivelul bunăstării nu s-a modificat. Formal, aceastase scrie:

H0: µ = 1200 sau, mai pe scurt, µ0 = 1200

Afirmaţia alternativă, susţinută de finanţatorii programului, şi anume aceea căbunăstarea a crescut, va fi considerată ipoteza alternativă, Ha.Formal aceasta se scrie Ha: µ > 1200, sau µa = 1200

Page 28: Introducere in Statistica

Întrebarea pe care o pune statisticianul este: cât de consistentă este media de eşantionX =1265 cu ipoteza de nul? Sau cu alte cuvinte: dacă ipoteza de nul ar fi adevărată,care e probabilitatea să obţinem o medie de eşantion egală cu 1265?

Vom reolva această problemă în acelaşi mod în care am rezolvat problemesimilare în Capitolul 3. Vom standardiza valoarea 1265 cu scorul z, vom calculaeroarea standard, şi apoi ne vom pune întrebarea: care e probabilitatea ca o medie deeşantion egală sau mai mare decât 1265 să apară într-o populaţie cu o medie de1200? Rezultatul obţinut este:

z = 2,17,Pr( X ≥ 1265) = Pr(z ≥ 2,17)=0,015

Cu alte cuvinte, dacă programul nu ar fi adus nici o îmbunătaţire în nivelul debunăstare, ar fi existat o probabilitate de numai 1,5% să observăm o medie deeşantion la fel de mare sau mai mare decât 1265. 1,5% este de aceea numit valoarea ppentru H0, sau mai bine zis, nivelul de semnificaţie al lui H0. Deoarece ipotezanoastră a fost una în termeni de "mai mare" şi deoarece pentru a găsi probabilitateane-am uitat numai în partea dreaptă a distribuţiei, ipoteza noastră alternativă a fostuna unilaterală. Dacă am fi vrut să testăm de exemplu nu o creştere a bunăstării cipur şi simplu o modificare a ei (pozitivă sau negativă) la trei ani de la program,ipoteza de alternativă ar fi fost scrisă:Ha: µ ≠ 1200

Pentru a rezuma, vom spune că valoarea p este probabilitatea ca valoarea de eşantionsă aibă mărimea calculată, dacă ipoteza de nul ar fi adevărată.

Regula pe care o putem generaliza dupa acest exemplu este :

H0 se respinge dacă valoarea p este mai mică decât un anumit nivel acceptat α, carede obicei este ales 0,05 . Alegerea acestui nivel (numit şi nivel de semnificaţieteoretic sau critic) este în mare măsură arbitrară. El este practic complementulnivelului de încredere. Dacă ne întoarcem puţin la exemplul de la începutul acestuicapitol, cel cu media coeficientului de inteligenţă, ne vom da seama că o a douainterpretare a lui α este "probabilitatea de a greşi respingând ipoteza de nul". Dinacest motiv p se mai numeşte pe scurt şi probabilitate de eroare. Valoarea de 0,05 esteo valoare foarte des folosită pentru testarea ipotezelor de nul în general.

5.1 Teste de semnificaţie. Inferenţa statistică

Testele de semnificatie constituie elemente esentiale ale statisticii inferentiale. Incontinuare sunt prezentate cateva exemple relevante de intrebari al caror raspuns este datcu ajutorul testelor de semnificatie.

Spre exemplu, 17% dintre cei chestionaţi în cadrul unei anchete sociale sunt deacord cu o anumită decizie a administraţie publice locale la un anumit moment dat de

timp, dar numai 11% au aceeaşi opinie la un alt moment de timp. Problema care se puneîn această situaţie este: cât de reală sau de semnificativă este diferenţa între cele douăgrupuri � cei chestionaţi la un moment de timp şi cei chestionaţi la un moment de timpulterior? Este această diferenţă autentică sau sau este rezultatul fluctuaţiilor fireşti aleeşantionării?Adeseori observăm diferenţe între rezultatele obţinute atunci când se fac măsurători pedouă eşantioane diferite extrase din aceeaşi populaţie. Intrebarea care se pune de aceastadata este: exista distorsiuni in vreunul dintre esantioane? Cata incredere putem avea inrezultatele unuia sau altuia dintre esantioane?

Toate aceste întrebări sunt justificate întrucât, aşa cum am arătat în capitoluldedicat eşantionării, eşantioanele nu reproduc exact caracteristicile unei populaţii, ciexistă o anumită diferenţă între valoarea unei caracteristici măsurată pe un eşantion şivaloarea aceleiaşi caracteristici măsurată pe populaţia din este extras eşantionul. Cu toateacestea de multe ori suntem puşi în situaţia de a trage concluzii cu privire la starea uneipopulaţii pornind de la măsurători efectuate la nivelul unui eşantion, cu alte cuvinte sepune problema de a face inferenţe de la eşantion la populaţie.

• Testul Z

Este un test de semnificaţie utilizat în cazul în care se compară valorile unorcaracteristici măsurate pe eşantioane mari (de ordinul a sute sau mii de indivizi). Celedouă valori comparate pot fi măsurate fie una pe o populaţie şi una pe un eşantion, fieamândouă valorile sunt măsurate pe eşantioane diferite.

În prima situaţie, fie a şi b cele două valori ale aceleiaşi caracteristici, dintre carevaloarea a este măsurată pe o populaţie iar valoarea b este măsurată pe un eşantion şi fiee eroarea standard a caracteristicii luate în considerare. Testul Z este definit dupăformula:

şi exprimă de fapt diferenţa dintre valorile a şi b în erori standard (să ne aducem amintecă în exemplul cu impactul programului de dezvoltare nu am făcut nimic altceva decât să"comparăm" valoarea obţinută în eşantion - notată aici cu a, cu o medie în populaţie -notată aici cu b). Dacă valoarea testului Z este mai mare de 1.96 atunci diferenţa dintrecele două valori este semnificativă din punct de vedere statistic la un nivel de încrederede 0,95 (95%). Sau altfel spus, în termenii ipotezei de nul - vom respinge ipoteza de nulcu o probabilitate de eroare de 5%.

Pentru a ilustra modul de aplicare a testului Z vom utiliza un exemplu. Săpresupunem că în cadrul unui referendum 42% dintre cetăţenii unei localităţi sunt deacord cu introducerea unui nou sistem de impozite. Cu toate acestea într-un sondaj deopinie realizat anterior referendumului pe un eşantion de 900 de persoane indica că doar37% dintre cetăţeni vor fi de acord cu noua grilă de impozitare. Este diferenţa între celedouă valori autentică sau nu? Provine procentul de 37% dintr-o populaţie cu un procentde 42%? Sau altfel spus, este diferenţa dintre valoarea în eşantion şi valoarea în populaţie

eba

Z−

=

Page 29: Introducere in Statistica

016,090048,0 ==e

semnificativă statistic?, ceea ce este totuna cu a ne întreba: este eşantionul reprezentativpentru caracteristica dată?

Pentru a pune în evidenţă acest lucru calculăm:

σ2 = 0,37(1 � 0,37) = 0,2331 şi σ = 0,48

şi sau

înlocuind în formula lui Z obţinem: (42 - 37)/1,6 = 3,12

Cautând în tabel pragurile de probabilitate ale lui Z în dreptul lui 3,1 şi pe coloana0,02 găsim 0,4991 şi reprezintă jumătate din nivelul de încredere cautat. Deoareceipoteza alternativei este cea a diferenţei, fiind deci bilaterală, vom calcula probabilitateapentru ambele cozi ale distribuţiei, adică pentru regiunile de respingere a ipotezei de nul,care sunt complementare nivelului de încredere. Vom găsi deci p=0,0018, ceea ceconduce către respingerea ipotezei de nul şi a acceptării unei diferenţe semnificativestatistic între valorile comparate. În cazul în care cele două valori ale unei caracteristicisunt măsurate pe două eşantioane distincte formula testului Z este aceeaşi cu precizareacă eroarea standard se calculează după formula

unde n1 şi n2 sunt mărimile celor două eşantioane, iar σσσσ1 şi σσσσ2 suntabaterile standard ale valorilor caracteristicii pentru fiecare dintrecele două eşantioane (sau sub-eşantioane - de exemplu diferenţa devârstă între votanţii cu dreapta şi votanţii cu stânga dintr-un eşantion).

• Testul Student ( t )

Atunci când se pune problema de a compara valori ale unor caracterisitici dintrecare cel puţin una este obţinută prin măsurători efectuate pe eşantioane de mărimi mici(pâna la 30 de indivizi) corespondetul testului Z este testul Student (t). Formula de calcula testului Student este identică cu aceea a testului Z:

sau t = e

Hestimat 0−

Deosebirea faţă de testul Z constă în modul de calcul al erorii standard (e) care seface, datorită estimării lui σ cu ajutorul lui s, după formula:

dacă una dintre valori este măsurată pe un eşantion de mărime n şi unape o populaţie (de exemplu, când vrem să testăm dacă un eşantion estereprezentativ pe o caracteristică cantitativă, a cărei valoare din populaţieeste cunoscută),

%6,1=e

2

22

1

21

nne σσ

+=

eba

t−

=

( )n

nxx

e 1

2

−−∑

=

şi după formula:

dacă cele două valori sunt măsurate pe douăeşantioane independente ale căror mărimi suntn1 respectiv n2 (când vrem să testăm deexemplu dacă există diferenţe semnificative

între mediile a dou grupe: diferenţa de salarii între bărbaţii şi femeile care lucrează într-ofirmă).

La fel ca şi în cazul testului Z şi pentru testul Student sunt calculate diferite nivelede probabilitate care reclamă însă şi specificarea numărului de grade de libertate, care secalculează după formulele:

respectiv

• Testul χ2 (chi pătrat) de concordanţă

Testele Z si Student sunt utilizate pentru a testa ipoteze care se referă la valori sauparametrii (medii sau proporţii), motiv pentru care sunt adeseori cunoscute şi subdenumirea mai largă de teste parametrice. Există însă multe situaţii în care ipotezele nupot fi testate utilizând doar medii sau proporţii. Acest lucru se întâmpla spre exempluatunci când datele cu care se lucrează nu sunt de tip cantitativ. Există apoi şi alte condiţiicare trebuiesc îndeplinite în cazul testelor parametrice - utilizarea unor eşantioane marisau a unor eşantioane extrase din populaţii normal distribuite astfel încât şi formadistribuţiei de eşantionare să fie cunoscută - condiţii care nu întotdeauna pot fiîndeplinite.

Pentru a depăşi acest tip de neajunsuri au fost construite şi o serie de teste a cărormod de operare nu presupune existenţă unor asumpţii cu privire la populaţia vizată sau cuprivire la datele pe care le avem la dispoziţie despre aceasta. Acest tip de teste suntdenumite teste non-parametrice. Unul dintre cele mai des utilizate teste de acest fel estetestul χχχχ2 (chi pătrat).

Scopul principal al acestui test este oarecum similar testelor Z şi Student şi anumeîncearcă să ofere un răspuns întrebării: dată fiind o mulţime de valori observate ale uneicaracteristici, modul de distribuire a acestor valori poate fi atribuit în întregimefluctuaţiilor fireşti ale eşantionării sau există o serie de alţi factori care influenţeazăaceastă distribuire? În acest caz, pentru a răspunde la o astfel de întrebare, punctul deplecare este o ipoteză nulă care afirmă că nu există alţi factori care să influenţezedistribuţia valorilor observate ale unei variabile.

Pentru a ilustra modul de operare al testului χ2 (chi pătrat) de concordanţă vomutiliza exemplu următor. Fie următoarea situaţie ipotetică: 100 de funcţionari ai uneiinstituţii publice sunt întrebaţi cu privire la ceea ce îi nemulţumeşte cel mai mult la loculde muncă, răspunsurile oferite având următoarele frecvenţe:

( ) ( )221

2

2

2

1

−+−+−

= ∑∑nn

xxxxe ii

1−= nυ 221 −+= nnυ

Page 30: Introducere in Statistica

frecvenţamodul de organizare al activităţilor 24modul în care sunt trataţi de şef 10existenţa unui program fix de lucru 27lipsa unui spirit de echipă 11lipsa unor rezultate vizibile 28

Întrebarea care se pune în această situaţie este: există un motiv de nemulţumirecare este mai acut decât altele?

Ipoteza nulă în această situaţie ar fi aceea că fiecare dintre motivele enumeratemai sus nemultumeşte în egală măsură pe functionarii acelei instituţii, fiecare dintre celecinci răspunsuri având aceeaşi probabilitate de a fi indicat de către respondeţi. Din punctde vedere statistic aceasta ar însemna că frecvenţele observate ale răspunsurilor primitepot fi considerate egale cu frecvenţele aşteptate. Dacă ipoteza nulă este susţinută atuncirăspunsurile ar trebui să fie distribuite aleator pe cele cinci categorii de răspunsuri luate înconsiderare.

Pentru a testa această ipoteză să utilizăm testul χ2 (chi pătrat) care este definitdupă formula:

unde Oi reprezintă frecvenţele observate, iar Ai reprezintă frecvenţele aşteptate (adicădistribuţia aleatoare a răspunsurilor pe cele cinci categorii ale caracteristicii analizate �motiv de nemulţumire). Ridicarea la patrat din formula lui chi patrat este necesaradeoarece, prin definitie,

În cazul nostru cele două frecvenţe sunt:

Oi Ai Oi - Aimodul de organizare al activităţilor 24 20 4modul în care sunt trataţi de şef 10 20 -10existenţa unui program fix de lucru 27 20 7lipsa unui spirit de echipă 11 20 -9lipsa unor rezultate vizibile 28 20 8

înlocuind în formula lui χ2 (chi pătrat) obţinem:

∑ −=

n

i i

ii

AAO 2

2 )(χ

20)2028(

20)2011(

20)2027(

20)2010(

20)2024( 22222

2 −+−+−+−+−=χ

∑ =−n

iii AO 0)(

Valoarea obţinută pentru χ2 (15.50) se compară cu valorile critice ale distibuţieichi pătrat (Anexa 3) pentru diferite nivele de probabilitate, dintre care cel mai des utilizateste şi de această dată pragul de 0,05. Ca şi în cazul testului Student compararea valorilorcritice ale unei distribuţii observate cu ditribuţia chi pătrat reclamă specificareanumărului de grade de libertate, număr care se calculează după formula df = k �1, unde kreprezintă numărul de categorii ale caracteristicii analizate. În exemplul de mai sus k = 5-1 = 4 şi căutând în tabelul cu valori critice ale lui chi pătrat găsim că pentru nivelul desemnificaţie de 0,05 şi 4 grade de libertate valoarea critică este 9,488. Cum 15.50 estemai mare decât această valoare critică, vom spune că ipoteza nulă se respinge cu oprobabilitate de eroare de 5% sau, cu alte cuvinte, răspunsurile date de funcţionari nu sedistribuie omogen ci există un anumit motiv de nemulţunire care este mai acut decâtcelelalte, iar acest rezultat nu este generat de fluctuaţiile de eşantionare.

Testul chi pătrat se foloseşte şi în cazurile în care dorim să verificăm dacă uneşantion este reprezentativ pentru o caracteristică calitativă, cum ar fi ocupaţiilesubiecţilor, sau de exemplu reprezentativitatea unui eşantion pe regiuni istorice. În acestcaz valorile aşteptate vor fi valorile din populaţie, care sunt cunoscute din surse de dateoficiale (distribuţia pe ocupaţii sau pe regiuni din date de recensăminte de exemplu)

5.2 Teste parametrice sau non-parametrice?

Când utilizăm teste parametrice şi când utilizăm teste non-parametrice pentru aanaliza un set de date? Răspunsul la această întrebare nu este întotdeună foarte tranşant.

Astfel, nu vom putea utiliza teste parametrice dacă datele pe care le avem ladispoziţie sunt de tip calitativ, motivul este acelă că testele parametrice operează de celemai multe ori cu valori medii, valori care evident nu pot fi calculate pentru date de tipcalitativ. În această situaţie un test non-parametric este singura alternativă posibilă. Pe dealtă parte testele parametrice sunt considerate a avea o putere statistică mai mare decâttestele non-parametrice şi aceasta pentru că modul lor de operare ia în considerare maimultă informaţie despre caracteristica avută în vedere. Dar acest lucru se face cu anumiteasumpţii, dintre care cea mai importantă este distribuţia normală în populaţie a valorilorcaracteristicii analizate.

Cât de puternice sunt testele paramentrice în raport cu cele non-parametrice?Raspunsul trebuie şi de această dată nuanţat. Puterea statistică a unui test este de faptprobabilitatea de a respinge ipoteza nulă atunci cănd aceasta nu este adevărată. Dar şi înacest caz situaţiile depind de modul de formulare a ipotezei nule şi de mărimeaeşntionului extras. Dacă una dintre aceste două variabile suferă modificări şi putereastatistică a unui test este afectată.

Practica a demonstrat că amândouă tipurile de teste pot fi utilizate cu acelaşisucces cu condiţia luării în calcul a avantajelor şi dezavantajelor fiecăruia.

208

209

207

2010

204 22222

2 ++++=χ

50.152 =χ

Page 31: Introducere in Statistica

Exerciţii şi probleme

1. Tabelul de mai jos clasifică accidentele de muncă într-o întreprindere pentru lunaprecedentă în patru perioade egale ale zilei. Considerându-l ca un eşantion aleator

a. identificaţi valoarea p pentru H0 (conform căreia probabilitatea de producere aaccidentelor este egală în orice moment al zilei)?

b. Poate fi respinsă ipoteza H0 la un nivel eroare de 5%?

Perioada din zi Numărul de accidente8-10 a.m. 3110-12 a.m. 301-3 p.m. 413- 5 p.m. 58

2. Într-o universitate mare profesorii bărbaţi şi femei au fost eşantionaţi independent, şi s-au obţinut următoarele observaţii cu privire la salariile lor lunare:

(în sute de mii)Bărbaţi Femei16 919 1212 811 1022 16

a. Calculaţi un interval de încredere de 95% pentru media diferenţe de salarii întrebărbaţi şi femei

b. Cât de bine ilustrează aceste date discriminarea practicată de universitate faţă defemei?

Capitolul 6

Asocierea variabilelor calitative

Cum putem testa daca intre doua variabile calitative exista o relatie? Sa neimaginam de exemplu ca suntem interesati sa vedem daca impactul saraciei este acelasi

pentru diferite grupuridin populatie, definitefie pe criterii spatiale(regiuni), fie pe criteriide apartenenta etnica,religioasa etc., fie pebaza statutului lorocupational etc.. Primullucru pe care il trebuiesa il facem in momentulin care ne punem oastfel de intrebare esteconstruirea unui tabelcu dubla intrare, numitsi tabel de contingenta,in care valorile uneiadintre variabile apar pecoloane si valorile celeide-a doua variabile aparpe randuri. In celuleleunui astfel de tabelputem avea patru tipuride informatii:

a) freceventeleabsolute (numarul deindivizi din fiecarecelula precum sinumarul total deindivizi care apartindiverselor categorii alevariabilelor)b) frecventele relativepe randuri (care neindica ce procent dincategoria care definesteun rand apartine sicategoriei care definestecoloana) - de exemplu

Figura 6.1 Relatia dintre saracie si statut ocupationalstarea de saracie a gospodarieine-saraca saraca total

Salariat 8341 2536 10877patron 172 17 189pe cont propriu 466 367 833agricultor 1553 1294 2847somer 709 795 1504pensionar 12959 2456 15415alta 226 163 389

statutulocupationalal capului degospodarie

Total 24426 7628 32054a) frecvente absolute

starea de saracie a gospodarieine-saraca saraca total

Salariat 77 23 100patron 91 9 100pe cont propriu 56 44 100agricultor 55 45 100somer 47 53 100pensionar 84 16 100alta 58 42 100

statutulocupationalal capului degospodarie(%)

Total 76 24 100b) frecvente relative (procente) pe randuri

starea de saracie a gospodariei (%)ne-saraca saraca total

Salariat 34 33 34patron 1 0 1pe cont propriu 2 5 3agricultor 6 17 9somer 3 10 5pensionar 53 32 48alta 1 2 1

statutulocupationalal capului degospodarie

Total 100 100 100c) frecvente relative (procente) pe coloane

% starea de saracie a gospodarieine-saraca saraca total

Salariat 26 8 34patron 1 0 1pe cont propriu 1 1 3agricultor 5 4 9somer 2 2 5pensionar 40 8 48alta 1 1 1

statutulocupationalal capului degospodarie

Total 76 24 100d) frecvente relative (procente) din total

Page 32: Introducere in Statistica

53% din gospodariile de someri sunt saracec) frecventele relative pe coloane (care ne indica ce procent din categoria care defineste

o coloana apartine si categoriei care defineste randul) - de exemplu 10% dingospodariile sarace sunt gospodarii de someri

d) frecvente relative din total (care ne indica ce procent din totalul indivizilor analizatiapartin simultan si categoriei de pe rind si categoriei de pe coloana) - de exemplu2% din totalul gospodariilor studiate sunt sarace si sunt gospodarii de someri (saualtfel spus sunt gospodarii sarace de someri).

Un astfel de tabel ofera informatii despre doua tipuri de distributii: distributii marginalesi distributii conditionate. Distributiile marginale sunt practic distributiile de frecventeale variabilelor. Astfel, in Figura 6.1(a) si (d) la "marginile" tabelelor, pe coloanele de"Total", se afla distributiile marginale ale frecventelor absolute, respectiv relative (%) alestarii de saracie si respectiv statutului ocupational al capului de gospodarie. In Figura6.1(b), care contine frecvente relative pe randuri, ultimul rand ("Total") nu este nimicaltceva decat distributia starii de saracie in totalul gospodariilor analizate. In acelasi tabel,avem pentru fiecare categorie de ocupatie distributia de frecvente relative a saraciei,adica distributia starii de saracie conditionata de statutul ocupational al capului degospodarie. Astfel, pe rindul "salariat" avem distributia starii de saracie conditionata destatutul de salariat al capului de gospodarie. Similar, in Figura 6.1(d) pe coloane avemdistributiile statutului ocuational al capului de gospodarie conditionate de starea desaracie (pe ultima coloana, cea de "Total" avem bineinteles distributia statutuluiocupational pentru toate gospodariile analizate, adica distributia marginala a statutuluiocupational). Prin compararea distributiilor conditionate cu distributia marginala neputem face o prima impresie despre relatia dintre cele doua variabile. Cand distributiileconditionate difera mult de distributiile marginale, ne putem astepta ca intre cele douavariabile sa existe o relatie de asociere. In sectiunea urmatoare vom vedea cum putemtesta existenta unei astfel de relatii.

6.1 Testarea independentei dintre doua variabile: Testul χχχχ2 de independenta

Chi pătrat este utilizat şi pentru a testa dacă două variabile sunt sau nu asociate. Fie, spreexemplu, următoarea situaţie ipotetică: 600 de locuitori ai unei localităţi care suntîntrebaţi dacă vor sprijini sau nu o schimbare a modului de alocare a veniturilor bugetareale localităţii lor au răspuns după cum urmează:

În această situaţie se poate pune întrebarea: există sau nu o preferinţă a uneianumite categorii de vârstă pentru schimbarea modului de alocare a veniturilor? Cu altecuvinte există o relaţie între vârstă şi acordul cu această schimbare? Pentru a răspunde la

Tabelul 6.1 Relaţia dintre două variabile categorialeFrecvenţe observate

Da Nu Nu ştiu Totalcei cu vârsta sub 25 110 40 30 180cei cu vârstă între 26 şi 45 de ani 40 100 60 200cei cu varsta peste 45 de ani 50 80 90 220Total 200 220 180 600

această întrebare trebuie să vedem cum ar trebui să arate distribuţia în situaţia în care nuexistă asociere, adica in situatia de independenta. Sa ne aducem aminte de notiunile deprobabilitati invatate in Capitolul 2. Am aratat acolo ca independenta se poate scrie inurmatorul fel:

Pr(A si B) = Pr(A)Pr(B)

Sa vedem acum cum am putea aplica aceste cunostinte in cazul independentei intre douavariabile. Sa consideram, in exemplul nostru, categoria celor de 25 de ani ca fiindevenimentul T, iar categoria celor care sunt in favoarea unei schimbari a modului dealocare a bugetului ca fiind evenimentul D. Care este probabilitatea ca evenimentele T siD sa se intimple simultan? Daca cele doua evenimente ar fi independente, atunciPr(T si D) = Pr(T)Pr(D)Dar cat sunt Pr(T) respectiv Pr(D)? Din datele noastre, din frecventele marginale, rezultacaPr(T) = 180/600, iar Pr(D) = 200/600

Deci, daca cele doua evenimente ar fi independente, atunciPr(T si D) = (180 x 200) / (600 x 600) = 1/10 = 10%

Cu alte cuvinte, numai 10% din cele 600 de persoane chestionate ar trebui sa se afle incelula din stinga sus a tabelului (persoane care au sub 25 de ani si care sunt in favoareaschimbarii). Sau mai exact spus, daca cele doua evenimente ar fi independente, frecventaabsoluta a acelei celule ar trebui sa fie de numai 60. Daca vom calcula in acest modfrecventele pe care fiecare celula ar trebui sa le aiba in ipoteza independentei, am obtinedatele din tabelul de mai jos:

Frecvenţe aşteptate in ipoteza independenteiDa Nu Nu ştiu Total

cei cu vârsta sub 25 60 66 54 180cei cu vârstă între 26 şi 45 de ani 66,67 73,33 60 200cei cu varsta peste 45 de ani 73,33 80,67 66 220Total 200 220 180 600

Calculându-l pe chi pătrat dupa formula prezentata in Capitolul 5, obţinem:

(unde n este numarul total de celule ale tabelului)

66)6690(...

33,73)33,73100(

7,66)7,6640(...

66)6640(

60)60110( 22222

2 −++−+−++−+−=χ

11,992 =χ

∑ −=

n

i i

ii

AAO 2

2 )(χ

Page 33: Introducere in Statistica

Numărul gradelor de libertate în acest caz se calculează după formula:

unde j reprezintă numărul de rânduri ale tabelului în care sunt dispuse frecvenţele şi kreprezintă numărul de coloane. In acest caz df = 4. În tabelul cu valori critice pentru χχχχ2

(Anexa 3) observăm că unui nivel de probabilitate de 5% şi 4 grade de libertate îicorespunde valoarea 9,488, valoare mai mică decât valoarea calculată a lui χχχχ2 . În aceastăsituaţie vom spune că ipoteza de nul a independentei dintre vârstă şi preferinţa pentruschimbarea modului de alocare a veniturilor se respinge, cu o probabilitate de eroare de0,05 (sau pentru un nivel de semnificatie de 5%).

6.2 Intensitatea relaţiilor dintre variabilele calitative

În secţiunea anterioară am văzut cum putem testa ipoteza existenţei unei relaţii(de asociere) între două variabile calitative. Testul χχχχ2 ne oferă însă informaţii numaidespre existenţa/inexistenţa unei relaţii de asociere între două variabile, dar nu şi despreintensitatea respectivei relaţii, atunci când ea există. Pentru a răspunde la întrebarea "Câtde puternică e relaţia de asociere dintre două variabile?" avem nevoie de măsurispecifice. Două dintre acestea vor fi prezentate în secţiunea care urmează.

• Cazul variabilelor nominale - coeficientul λ (lambda)Să ne întoarcem la datele din Tabelul 6.1 şi să presupunem de această dată că nu

cunoaştem decât distribuţia marginală a atitudinii faţă de schimbarea modului de alocarea bugetului (cu alte cuvinte nu ştim decât că 200 de indivizi sunt pentru, 220 suntîmpotrivă, iar 180 sunt nehotărâţi). Dacă vom încerca să prezicem atitudinea unui individoarecare, vom spune fireşte că repsectivul individ va fi împotriva schimbării modului dealocare a bugetului, deoarece cu o astfel de predicţie avem cele mai reduse şanse de agreşi. Cu alte cuvinte, ne-am bazat predicţia pe frecvenţa modală (cea mai marefrecvenţă). În cazul în care am face o astfel de afirmaţie pentru fiecare din cei 600 deindivizi, predicţia noastră ar fi corectă pentru 220 dintre ei (37%), şi falsă pentru ceilalţi380. Să presupunem acum că la un moment dat primim o informaţie în plus, şi anumedistribuţia atitudinilor faţă de schimbarea modului de alocare a bugetului în funcţie degrupele de vârstă de care aparţin indivizii (adică exact informaţia prezentată în Tabelul6.1). Să zicem că vom considera ca plauzibilă ipoteza în care atitudinile faţă demodificarea modului de alocare a bugetului sunt dependente de grupa de vârstă aindividului. În acest caz, variabila vârstă se va numi variabilă independentă, iar atitudineafaţă de schimbarea modului de alocare a bugetului se va numi variabilă dependentă. Săzicem acum că vom repeta raţionamentul de mai sus (predicţia atitudinii unui individ pebaza frecvenţei modale) pentru fiecare grupă de vârstă în parte. Vom avea deci, din nou,un număr de predicţii corecte şi un număr de predicţii eronate. Coeficientul λ reprezintătocmai proporţia cu care se reduce numărul de erori prin introducerea variabileiindependente. Să calculăm acum λ pentru datele din Tabelul 6.1:

)1)(1( −−= kjdf

Aşa cum am arătat, în absenţa variabilei independente, numarul de erori e1 a fost 380.Să vedem acum câte erori am facut prezicând variabila dependentă pe baza valorilorvariabilei independente (pentru a uşura urmarirea calculelor, am copiat încă o dată maijos datele Tabelului 6.1):

- pentru grupa de vârstă sub 25 de ani, vom prezice corect pe baza frecvenţeimodale în 110 cazuri, şi vom face erori în 70 de cazuri.

- pentru grupa de vârstă 26 - 45 de ani, vom prezice corect pe baza frecvenţeimodale în 100 cazuri, şi vom face erori în alte 100 de cazuri.

- pentru grupa de vârstă peste 45 de ani, vom prezice corect pe baza frecvenţeimodale în 90 cazuri, şi vom face erori în 130 de cazuri.

Deci totalul erorilor făcute este e2 = 70 + 100 + 130 =200.Să îl calculăm acum pe lambda, după o formulă utilizată şi pentru calculul altor măsuriale asocierii şi cunoscută sub numele de "reducere proporţională a erorii":

47,0380

2003801

21 =−=−=e

eeλ

Coeficientul λ poate lua, prin modul de construcţie numai valori între 0 şi 1, 0însemnând absenţa oricărei relaţii între variabile, adică independenţă, iar 1 însemnândintensitate maximă a asocierii (asociere puternică). El este o măsură asimetrică (avem ovariabilă independentă pe baza căreia se fac predicţii şi o variabilă dependentă, ale căreivalori sunt prezise), însă există formule de calcul şi pentru varianta simetrică a acestuicoeficient. Avantajul lui constă în modul relativ uşor şi intuitiv de calcul. Principaluldezavantaj al acestei măsuri este faptul că în condiţiile în care o categorie a unei variabileconţine un număr foarte mare de indivizi, λ poate fi egal cu 0 chiar dacă cele douăvariabile nu sunt independente.

• Cazul variabilelor ordinale

În cazul variabilelor ordinale, aşa cum am văzut în introducerea acestui manual,există posibilitatea de ordonare a valorilor variabilelor, şi în consecinţă existăposibilitatea de a da ranguri indivizilor în funcţie de valorile pe care aceştia le au pentruo variabilă. Măsurile Ca urmare, în analiza acestui tip de variabile vom putea vorbi de unsemn al asocierii (sau sensul asocierii). Măsurile de asociere a variabilelor ordinale potlua valori cuprinse între -1 şi 1. La modul general vorbind, o măsură a asocierii dintredouă variabile ordinale va fi pozitivă dacă un individ cu un rang mare pentru variabila X

Tabelul 6.1 Relaţia dintre două variabile categorialeFrecvenţe observate

Da Nu Nu ştiu Totalcei cu vârsta sub 25 110 40 30 180cei cu vârstă între 26 şi 45 de ani 40 100 60 200cei cu varsta peste 45 de ani 50 80 90 220Total 200 220 180 600

Page 34: Introducere in Statistica

tinde să aibă un rang mare şi pentru variabila Y, iar indivizii cu ranguri mici pe variabilaX au de asemenea ranguri mici şi pentru Y. asocierea negativă apare atunci când indiviziicu rang mare pentru variabila X tind să aibă ranguri mici pentru Y şi invers. Dacă omăsură a asocierii dintre două variabile ordinale ia valoarea 0, atunci vom spune că celedouă variabile sunt independente. Cu cât o relaţie de asociere între două variabileordinale va fi mai puternică, cu atât măsura asocierii va fi mai mare în valoare absolută(mai aproape de 1). În cele ce urmează ne vom rezuma la a prezenta câteva noţiuni debază care se referă la măsurile de asociere între variabile ordinale şi la a arăta modul decalcul pentru o astfel de măsură.

O pereche de observaţii se numeşte concordantă dacă individul care are un rang maiînalt pe o variabilă are un rang mai înalt şi pe a doua variabilă.

O pereche de observaţii se numeşte discordantă dacă individul care are un rang maiînalt pe o variabilă are un rang mai coborât pe cealaltă variabilă.

Să presupunem că avem 4 elevi, ierarhizaţi după calificativele la două materii:

Elevii Materia X Materia YA Foarte bine BineB Bine Foarte bineC Satisfăcător SatisfăcătorD Suficient Suficient

Să încercăm acum să numărăm perechile concordante şi perechile discordante, şipentru aceasta să începm cu toate perechile de observaţii pe care le putem forma cuelevul A: Acestea sunt: perechea AB (discordantă, deoarece A are un rang mai înaltdecât B pe variabila X, dar un rang mai coborât decât B pe variabila Y), perechea AC(concordantă) şi perechea AD (concordantă). Să trecem acum la perechile lui B:Acestea sunt BC (concordantă) şi BD (concordantă). În fine, trecem acum la perechilelui C, adică la CD (concordantă). În total am avut 6 perechi, din care una discordantăiar 5 concordante. Să calculăm acum o măsură simplă de asociere între cele douăvariabile (calificativele la materiile X şi Y), numită coeficientul τa al lui Kendall:

ntndnc

a−=τ

undent este numărul total de perechinc este numărul de perechi concordantend este numărul de perechi discordante

În concluzie, pentru exemplul nostru (care este unul pur didactic), τa = 4/6 = 0,66.Aceasta a fost practic cea mai simplă ilustrare de măsură de asociere a două

variabile ordinale. În practică însă, lucrurile stau puţin mai complicat, pentru cădeseori apar ceea ce se numesc ranguri "legate" sau egale. Acest lucru complicădestul de mult calculele şi formulele, însă principiul rămâne acelaşi, al comparăriinumărului de perechi concordante cu numărul de perechi discordante.

Exerciţii şi probleme

1. Într-un studiu asupra modului în care ocupaţia se asociază cu educaţia, s-a realizaturmătorul eşantion aleator de 500 de bărbaţi anagajaţi.

OcupaţiaEducaţia Funcţionari Muncitori în

fabricăAngajaţi înservicii

Agricultori

4 sau mai mulţi ani de liceu(incluzând şi formarea vocaţională)

194 146 27 10

Mai puţin de patru ani de liceu 18 79 18 8

a. Explicitaţi în cuvinte ipoteza de nul H0b. Calculaţi χ2 şi valoarea p pentru H0

2. Se da tabelul:somajda nu total

sex femei 30% 70% 100%barbati 30% 70% 100%total 30% 70% 100%

Care din propozitiile urmatoare sunt adevarate?1. 30% dintre femei sunt somere2. 30% dintre someri sunt barbati3. 70% din totalul populatiei se afla in somaj4. probabilitatea ca o persoana din populatie sa fie in somaj este de 0.3nici una dintre acestea

3. Dacă variabilele nominale x şi y nu sunt independente statistic atunci este de aşteptatca:1. Distribuţiile condiţionate ale lui y funcţie de x să fie diferite de distribuţia marginală a

lui y2. Distribuţiile condiţionate ale lui y , funcţie de x să fie egale între ele3. Corelaţia Bravais-Pearson dintre x şi y să fie semnificativ diferită de 04. Statistica test chi-patrat să difere semnficativ de 05. Răspunsurile 1,2,3,4 să fie incorecte

Page 35: Introducere in Statistica

Capitolul 7

Studiul relaţiilor între variabile cantitative

Pentru a oferi explicaţii sau pentru a realiza predicţii este nevoie, cel mai adesea, să fie analizaterelaţii între două sau mai multe variabile: între cea a cărei variaţie încercăm să o explicăm, numită şivariabila dependentă, şi una sau mai multe variabile independente.

Să luăm ca exemplu cazul unui program de reducere a şomajului care urmează a fi analizat la finalulaplicării sale în mai multe localităţi. Într-un astfel de studiu, pot fi considerate drept unităţi de analizălocalităţile în care a fost aplicat programul, variabila dependentă este diferenţa dintre rata somajului înaintede aplicarea programului şi rata şomajului după terminarea programului (DIF), iar suma alocată în programunei localităţi împărţită la numărul de locuitori (SUM) este una dintre variabilele independente posibile, cuajutorul căreia puteam încerca să explicăm de ce şomajul a scăzut mai mult în unele localităţi decât înaltele.

Cunoscând valorile luate de cele două variabile, notate DIF şi SUM, putem încerca să aflăm maimulte lucruri despre relaţia care le caracterizează:1. Dacă există o legătură între valorile variabilelor; altfel spus, dacă reuşim să anticipăm rezultatulprogramului într-o localitate, cunoscând care a fost suma alocată din program, mai bine decât în absenţaacestei informaţii.2. Care este forma relaţiei, în cazul în care aceasta există. Sunt mai multe moduri de a descrie formarelaţiilor dintre variabile: acestea pot să fie liniare, atunci când valorile unei variabile tind să se modifice cuo constantă în condiţiile în care valorile celeilalte variabile se modifică cu o constantă; Relaţiile liniare potsă difere prin înclinaţia dreptei prin care sunt reprezentate. Relaţiile neliniare pot fi şi ele monotone, adicăpozitive sau negative. În exemplul considerat, este de aşteptat ca relaţia să fie pozitivă, adică unei sume maimari să îi corespundă o reducere mai accentuată a şomajului. Însă în plus faţă de semnul relaţiei--pozitivăori negativă--, este important de ştiut cât de rapidă este variaţia variabilei DIF atunci când variabila SUMîşi schimbă valorile. Un program este cu atât mai eficient cu cât, în medie, unei aceleiaşi creşteri avariabilei SUM îi corespunde o creştere mai mare a variabilei DIF.3. Care este intensitatea relaţiei. Cât de bine putem prezice valorile variabilei dependente atunci când lecunoaştem pe cele ale variabilei independente?4. Dacă este posibilă generalizarea rezultatelor. Când datele disponibile provin de pe un eşantion delocalităţi, poate fi extins rezultatul obţinut pe aceste date la întreaga mulţime de localităţi cuprinsă înstudiu?5. Cât de mult temei avem să afirmăm că relaţia este de tip cauzal. Ar fi posibil ca existenţa unei relaţiiîntre SUM şi DIF să se datoreze unei a treia variabile, care nu este cuprinsă în analiză, şi care le determinăpe amândouă. Cum putem stabili dacă scăderea ratei şomajului s-a datorat programului analizat, sau dacăscăderea se datorează exclusiv altor factori?

Tehnicile statistice prezentate în capitolele anterioare ne permit adesea să răspundem unora dintreîntrebările formulate mai sus. În exemplul considerat însă, cele două variabile au, foarte probabil, un numărridicat de valori fiecare, fapt care face dificil studiul relaţiei dintre ele cu ajutorul unui tabel de asociere. Osoluţie este aceea a reducerii numărului de valori prin recodificare. Astfel, am putea să includem într-oaceeaşi categorie, notată cu "1", toate localităţile în care suma cheltuită ca parte a programului, împărţită lanumărul de locuitori, este între 0 şi 1000 lei; într-o categorie notată cu "2" ar fi incluse toate localităţilepentru care valorarea variabilei SUM este între 1001 şi 2000 de lei, etc.; în mod similar se procedează şipentru variabila DIF.

Având prin recodificare un număr suficient de mic de categorii, relaţia dintre cele două variabilepoate fi analizată printr-un tabel de asociere. Se pot obţine în acest mod, aşa cum s-a văzut şi în Capitolul 6,informaţii despre existenţa unei relaţii între variabile, despre forma relaţiei, precum şi despre posibilitateageneralizării de la eşantion la întreaga mulţime de localităţi.

Acest procedu are însă un inconvenient major: o parte a informaţiei iniţiale este ignorată, iar rezultatulanalizei este influenţat de modul în care este făcută recodificarea. Întrebarea care se pune în mod justificat,şi care nu are un răspuns satisfăcător, este "cum trebuie definite categoriile reduse ale variabilei iniţiale?",

pentru că evident avem mai multe opţiuni posibile: am putea, de exemplu, include în prima categorie toatelocalităţile pentru care SUM ia valori între 0 şi 1500, ori cele între 0 şi 1600.

Cazul următor ilustrează faptul că recodificarea unor variabile cantitative cu multe categorii poate săschimbe rezultatele analizei statistice.

Fie X şi Y două variabile de raport, având câte 10 valori. Fiecare dintre cele două variabile estetransformată prin recodificări diferite în trei variabile: X1, X2, X3, respectiv Y1, Y2, Y3. Noilevariabile au câte 3 valori, iar relaţiile dintre variabilele care provin din X cu fiecare dintre variabilelecare provin din Y sunt analizate cu ajutorul unui indicator care corespunde tabelelor de asociere,Lambda. Valorile acestor indicatori sunt reprezentate în următorul tabel:

Lambda Lambda Lambday1 y2 y3

x1 0.00 0.18 0.45x2 0.27 0.23 0.31x3 0,10 0.61 0.67

Se observă în tabel cum recodificările diferite ale variabilelor X şi Y conduc la variaţii importante deintensitate a relaţiei dintre noile variabile, obţinute prin transformarea lui X şi Y. Astfel, Lambda arevaloarea 0,00 pentru relaţia dintre X1 şi Y1, şi valoarea 0,67 pentru relaţia dintre X3 şi Y3.Concluzia care rezultă de aici este că analiza relaţiilor dintre variabile cantitative nu îsi găseşte o rezolvaresatisfăcătoare prin aplicarea unor procedee specifice variabilelor calitative. Este nevoie să fie aplicatetehnici statistice adaptate pentru variabilele cantitative, şi care folosindu-se de informaţia descrisă de acestevariabile, mai bogată decât în cazul celor calitative, pot oferi un răspuns mai complet întrebărilor formulatemai sus: există relaţii, ce formă au, ce intensitate, pot fi generalizate, sunt cauzale?

Procedeul cel mai des folosit în cazul în care variabilele sunt cantitative este cel al analizei deregresie. În cazul bivariat, când este studiată relaţia dintre o variabilă dependentă şi o singură variabilăindependentă, regresia se numeşte regresie simplă. O altă denumire, echivalentă, este cea de regresiebivariată. Atunci când este studiat efectul simultan al mai multor variabile independente asupra variabileidependente, regresia se numeşte regresie multiplă. Denumirile echivalente sunt de regresie multivariată,sau regresie multiliniară.

În secţiunea care urmează voi arăta cum sunt definite modelele de regresie lineară simplă, în ce felsunt interpetaţi coeficienţii care descriu aceste modele, şi în ce mod poate fi evaluată eficienţa lor deansamblu în descrierea relaţiilor dintre perechi de variabile.Ultima secţiune a acestui capitol va prezenta, într-o structură similară, modelele de regresie multiplă.

7.1 Regresia lineară simplă

Fiind cunoscute valorile a două variabile cantitative pentru o mulţime de unităţi de analiză, esteposibil să reprezentăm complet această informaţie printr-un grafic. Variabilei dependente îi corespunde axaverticală, iar celei independente îi corespunde axa orizontală. Fiecare unitate de analiză este reprezentatăprintr-un punct care se află la o distanţă de axa verticală proporţională cu valoarea variabilei independenteluată de acea unitate, şi la o distanţă de axa orizontală proporţională cu valoarea variabilei dependente.Astfel, în exemplul precizat anterior, dacă variabila DIF are valorile exprimate în valori procentuale, iarvariabila SUM este exprimată în mii de lei, o localitate în care s-au cheltuit 5000 de lei pe cap de locuitor,şi în care şomajul a scăzut cu două procente, se află cu două unităţi deasupra axei orizontale şi la cinciunităţi în dreapta axei verticale.

Foarte adesea, informaţia cuprinsă într-un grafic de acest tip este prea bogată pentru a putea fianalizată direct. La fel cum în cazul unei singure variabile este util să reducem informaţia reprezentată dedistribuţia sa la o singură valoare, cea a tendinţei centrale, exprimată prin medie, mediană sau un altindicator, şi în cazul considerării simultane a două variabile ar fi de folos să putem descrie într-un mod câtmai succint relaţia dintre acestea.

O soluţie simplă este aceea de a înlocui norul de puncte de pe grafic printr-o singură dreaptă care să îiaproximeze forma cât mai bine. În secţiunea care urmează, 7.1.1., vom arăta cum poate fi construită o astfel

Page 36: Introducere in Statistica

de dreaptă, numită dreaptă de regresie. Vom prezenta apoi interpretarea coeficienţilor prin care estedescrisă dreapta de regresie. În secţiunea 7.1.2. vor fi definiţi indicatori prin care poate fi apreciat gradul deacurateţe prin care o dreaptă de regresie descrie relaţia dintre două variabile. În ultima secţiune a acesteipărţi, 7.1.3., va fi discutate una dintre condiţiile mai importante care trebuie îndeplinită pentru ca modelelede regresie să poată fi aplicate.

7.1.1 Construcţia dreptei de regresie

Fie un grafic pe care sunt reprezentaţi mai mulţi indivizi statistici, în funcţie de valorile a două variabilecantitative, X şi Y, şi fie o dreaptă dusă la întâmplare pe acest grafic. Poziţia fiecărui individ i este fixată devalorile pe care iau cele două variabile, notate cu xi şi yi.Poziţia dreptei în raport cu cele două axe ale graficului este complet precizată de următoarea relaţie:

Y' = a + bX.(1)

Relaţia exprimă faptul că orice punct k de pe dreaptă, are coordonatele xk şi y'k astfel încât y'k = a + bxk.Mai mult, orice punct de pe grafic pentru care are loc relaţia anterioară între coordonatele sale, se află pedreaptă.

De aici rezultă faptul că orice dreaptă este identificată complet prin doar două valori, cea a constantei a, şicea a constantei b. Dacă ar fi posibilă înlocuirea unui nor de n puncte, care oferă o reprezentare precisă a nperechi de valori, printr-o dreaptă care să indice forma de ansamblu a mulţimii de puncte, atunci ar fiobţinută o simplificare remarcabilă a modului în care este descrisă relaţia.

În Figura 7.1 sunt reprezentate localităţile din exemplul discutat anterior, caracterizate de valorile variabileidependente DIF, respectiv a variabilei independente SUM. Pe grafic este trasată şi o dreaptă (d) precum şi omulţime de segmente verticale, fiecare fiind construit astfel încât să unească punctul care corespunde uneilocalităţi cu dreapta (d).

Figura 7.1. Reprezentarea grafică a variabilelor DIF şi SUM, care iau valori pentru 25 de localităţi.

Dacă pentru două variabile cantitative am putea construi o dreaptă astfel încât toate punctele carecorespund unităţilor de analiză să se afle pe dreaptă, atunci dreapta ar oferi o descriere completă a formeinorului de puncte. Într-un astfel de caz, fiecare dintre segmentele verticale dintre puncte şi dreaptă ar avealungimea zero.Este clar că în exemplul considerat aici nu există o astfel de dreaptă, care să descrie perfect relaţia dintrecele două variabile. Ar fi de dorit atunci, să fie determinată acea dreaptă pentru care lungimile segmentelorverticale dintre puncte şi dreaptă să fie cât mai apropiate de zero.

Prin definiţie, dreapta cu proprietatea că pătratele lungimilor segmentelor dintre puncte şi dreaptă ausuma minimă este numită dreaptă de regresie.

Datorită modului în care este definită, se spune despre dreapta de regresie că satisface criteriul celor maimici pătrate.Se poate demonstra matematic faptul că pentru două variabile date există o dreaptă unică de regresie, iaraceasta poate fi determinată. Cu alte cuvinte, oricare ar fi două variabile X şi Y, care iau valori pentru nunităţi de analiză, pot fi deteminate în mod unic constantele a şi b astfel încât dreapta

Y' = a + bX, (2)

să ofere o cea mai bună aproximare a relaţiei dintre X şi Y--din perspectiva criteriului celor mai micipătrate--, dintre toate dreptele posibile.

Y' este o variabilă care se obţine din intersecţia segmentelor verticale care trec prin punctele (xi, yi) depe grafic şi dreapta de regresie, iar punctele de intersecţie sunt de forma (xi, y'i). Datorită modului în careeste construită variabila Y', valorile sale sunt identice cu ale lui Y atunci când punctele sunt pe o dreaptă, şisunt cu atât mai diferite de cele ale lui Y cu cât punctele sunt mai dispersate în jurul dreptei de regresie.

Un alt mod de a scrie expresia (2) este următorul:

Y = a + bX + U,unde U = Y - Y'.U este o variabilă care pentru fiecare unitate de analiză ia o valoare egală cu lungimea segmentului verticaldintre punctul care îi corespunde pe grafic şi dreapta de regresie.

În exemplul anterior, a = -5,86, b = 0,67. Ecuaţia dreptei de regresie este

DIF = - 5,86 + 0,67SUM.

7.1.2 Interpretarea coeficienţilor dreptei de regresie

Coeficientul b este numit panta asociată variabilei X şi, aşa cum se poate vedea din expresia drepteide regresie, reprezintă numărul de unităţi cu care variază Y' atunci când X creşte cu o unitate:

dacă avem două puncte (x1, y'1) şi (x2, y'2), x2 = x1 + 1, şi ambele puncte sunt pe dreapta

Y' = a + bX,

atunci, înlocuind în formula dreptei se obţine

y'2 = a + bx2 = a + b(x1 + 1) = a + bx1 + b = y'1 + b.

În exemplul discutat anterior, valoarea lui b indică faptul că o creştere a sumei cheltuite pe cap delocuitor cu o mie de lei conduce în medie la o creştere a diferenţei cu 0,67, adică la o scădere a rateişomajului cu 0,67 de puncte procentuale.

Page 37: Introducere in Statistica

Semnul plus al lui b indică faptul că între X şi Y are loc o relaţie pozitivă--adică valorilor mici ale luiX tind să le corespundă valori mici ale lui Y, iar valorilor mari ale lui X tind să le corespundă valori mariale lui Y--, în timp semnul minus semnalează prezenţa unei relaţii negative.

bi = 0 se obţine atunci când forma norului de puncte nu poate fi aproximată printr-o dreaptă. Osituaţie de acest gen apare atunci când cele două variabile estimează fenomene independente, fără legătură,dar şi în cazul în care variabilele sunt într-o relaţie a cărei formă nu este liniară (de exemplu, atunci cândpunctele sunt pe o curbă în formă de parabolă). Cele două cazuri sunt ilustrate în Figura 7.2., respectiv înFigura 7.3.

Figura 7.2. Exemplul a două variabile cantitative între care nu are loc o relaţie.

Figura 7.3. Exemplul a două variabile între care există o relaţie (de forma Y' = X2) care nu poate fiaproximată printr-o dreaptă de regresie.

Coeficientul b are următoarea proprietate importantă: valoarea sa depinde de unităţile de măsurăale celor două variabile.

Astfel, dacă SUM din exemplul anterior ar fi exprimat în unităţi monetare / numărul de locuitori, adicăîntr-o unitate de măsură de o mie de ori mai mică decât cea din exemplu, b1 ar fi de 1000 de ori mai mic. Îngeneral, se poate arăta că,

dacă în loc de X avem cX + d, atunci în loc de b avem b / c.

Din această proprietate rezultă faptul că panta de regresie nu poate fi folosită drept un indicator alintensităţii relaţiei dintre variabila dependentă şi variabila independentă.

Constanta a din ecuaţia dreptei de regresie indică valoarea y' pe care o ia un punct pentru care x = 0 şicare este aflat pe dreaptă.

7.1.3 Indicatori ai intensităţii relaţiei dintre două variabile cantitative: coeficientul de determinaţie şicoeficientul de corelaţie Pearson

Dreapta de regresie asociată relaţiei dintre două variabile cantitative oferă o imagine sintetică despreforma acestei relaţii, însă nu oferă informaţii despre cât de asemănătoare este această imaginea simplificatăcu cea reală. Am întâlnit o situaţie similară în cazul mediei: acest indicator descrie succint tendinţa centralăa distribuţiei unei variabile cantitative, însă nu cuprinde informaţii despre cât de completă este aceastăreprezentare. În acest caz, există un indicator care arată cât de dispersate sunt valorile luate de variabilă înjurul mediei: abaterea standard. Cu cât valorile sale sunt mai mici cu atât media descrie mai precisdistribuţia variabilei.

În Figura 7.4. şi în Figura 7.5. sunt reprezentate relaţiile dintre câte două perechi de variabilecantitative. În ambele cazuri ecuaţia dreptei de regresie este aceeaşi:

Y = 2 - 2,5 X.

Se observă însă că unităţile de analiză din Figura 7.5. sunt mai dispersate în raport cu dreapta deregresie decât cele din Figura 7.4. Acest fapt arată că dintre cele două drepte, cea din Figura 7.4. oferăreprezentarea cea mai precisă a relaţiei dintre perechea de variabile cărora le corespunde.

Figura 7.4. Distribuţia a două variabile cantitative şi dreapta lor de regresie (A).

X1

3210-1-2-3

Y1

20

10

0

-10

-20

Figura 7.5. Distribuţia a două variabile cantitative şi dreapta lor de regresie (B).

Page 38: Introducere in Statistica

X2

3210-1-2-3

Y2

20

10

0

-10

-20

Puterea explicativă a unui model de regresie simplă poate fi evaluată cu ajutorul mai multorindicatori. Coeficientul R2, numit coeficient de determinaţie, este definit de următoarea formulă:

∑∑

−−

= 2

22

)()'(

YYYY

R

Numărătorul expresiei reprezintă variaţia lui Y care este "explicată" de ecuaţia de regresie, în timp cevaloarea de la numitor este egală cu variaţia totală a lui Y. Deci, R2 indică proporţia din variaţia lui Y careeste "explicată" de variabila independentă.

Din modul în care este definit rezultă că R2 poate să ia valori între 0 şi 1. R2 este egal cu 1 atunci cânddistribuţia punctelor se face după o dreaptă. Valoarea sa este zero în situaţii cum sunt cele ilustrate înFigura 7.2. şi în Figura 7.3., adică atunci când distribuţia punctelor nu poate fi aproximată printr-o dreaptă.În general, cu cât valorile lui R2 sunt mai apropiate de 1, cu atât relaţia dintre cele două variabile este maiintensă iar reprezentarea sa grafică este mai apropiată de o dreaptă.

În exemplul din secţiunea anterioară R2 = 0,53.R2 care corespunde relaţiei reprezentate în Figura 7.4. are valoarea 0,95, în timp ce R2 din Figura 7.5. arevaloarea 0,58.

Un alt indicator al intensităţii relaţiei dintre două variabile cantitative este coeficientul de corelaţiePearson, notat cu r şi definit prin următoarea formulă:

r = b σσσσX / σσσσY.

σσσσX şi σσσσY reprezintă abaterea standard a variabilei X, respectiv abaterea standard a variabilei Y.Coeficientul de corelaţie are două proprietăţi din care poate fi dedus şi modul său de interpretare:

1. r2 = R2 --coeficientul de corelaţie Pearson ridicat la pătrat este egal cu coeficientul de determinaţie.2. r are acelaşi semn cu b, deoarece cele două abateri standard din definiţia sa au întotdeauna semn pozitiv.

Astfel, din proprietatea (1) rezultă că r ia valori în intervalul [-1, 1], iar valorile extreme sunt luate înacelaşi situaţii în care R2 ia valoarea 1: atunci când relaţia dintre cele două variabile cantitative este deintensitate maximă şi punctele care reprezintă grafic unităţile de analiză sunt distribuite pe o dreaptă. Înmod similar, r ia valoarea 0 atunci când R2 este nul, adică în situaţiile în care distribuţia unităţilor deanaliză nu poate fi aproximată printr-o dreaptă (Figurile 2. şi 3. ilustrează situaţii în care r este 0).

Din proprietatea (2) rezultă că r ia valori pozitive atunci când dreapta de regresie are o înclinaţieascendentă de la stânga spre dreapta, şi valori negative atunci când inclinaţia este descendentă.

7.1.4 Problema distribuţiilor non-normale

Pentru a putea studia relaţia dintre două variabile cu ajutorul analizei de regresie este necesar caacestea să fie de tip cantitativ, adică de interval sau de raport. În plus, există o altă cerinţă care trebuierespectată pentru ca rezultatele aplicării regresiei să poată fi interpretate în mod corect: distribuţia fiecăreiadintre cele două variabile trebuie să fie de tip normal (gaussian), sau, cel puţin, să nu se abată în modsubstanţial de la această formă.

Voi ilustra printr-un exemplu care sunt problemele care apar atunci când această cerinţă nu esterespectată:

Presupunem că avem date despre proporţia cetăţenilor care au o părere foarte bună despre calitateadrumurilor din localitatea în care locuiesc şi despre numărul de locuitori din acea localitate. Datele (fictive)sunt reprezentate în Figura 7.6. Se observă că ambele variabile au distribuţii asimitetrice iar unităţile deanaliză sunt concentrate mai mult la exteme decât în jurul unor valori centrale. Acest fapt este cel mai clarîn ceea ce priveşte numărul de locuitori, unde există o localitate cu o valoare mult diferită de a celorlalte.Reprezentarea grafică a dreptei de regresie, precum şi valorile lui r şi ale lui R2 indică existenţa unei relaţiide semn pozitiv între cele două variabile: r = 0,48, iar R2 = 0,23.

Figura 7.6. Relaţia dintre mărimea localităţii şi proporţia locuitorilor care au o părere foarte bună desprestarea drumurilor din localitate.

numarul de locuitori

4000003000002000001000000

prop

ortia

cel

or m

ultu

miti

.5

.4

.3

.2

.1

0.0

Privind însă graficul, se observă că dreapta de regresie nu aproximează corect distribuţia localităţilorpe grafic, întrucât nu există o tendinţă generală ca localităţile mai mari să aibă proporţii mai mari decetăţeni mulţumiţi de starea drumurilor decât localităţile mai mici. Panta ascendentă a dreptei de regresie,precum şi valoarea pozitivă a lui r, sunt urmarea includerii în analiză a localităţii care are o populaţie mult

Page 39: Introducere in Statistica

mai mare decât a celorlalte (310000 locuitori, în timp ce următoarea localitatea ca mărime are 47000). Dacăaceastă localitate este exclusă, se obţin valori pentru b şi R2 foarte aproape de zero: b = -0,051, R2 = 0,003.

7.2 Regresia lineară multiplă

Modelul de regresie simplă este folosit pentru a descrie relaţia dintre două variabile cantitative. Încazul în care sunt disponibile date despre mai mulţi factori cu potenţial explicativ, iar aceştia sunt estimaţiprin variabile cantitative, este de dorit ca analiza să cuprindă simultan toate variabilele şi nu doar douădintre acestea. Utilizarea regresiei simple într-un astfel de caz, prin ignorarea unora dintre variabileleindependente, ori prin aplicarea succesivă pentru fiecare dintre variabilele independente, poate să conducăla rezultate eronate.

Exemplul următor ilustrează o situaţie de acest tip.

Să presupunem că în evaluarea unui program prin care s-a urmărit reducerea şomajului se cunoaştevariaţia ratei şomajului (DIF), suma cheltuită raportată la numărul de locuitori (SUM), şi, în plus, faţă deexemplu similar descris în secţiunea precedentă, fiecare localitate este descrisă de un indicator global alcalităţii administrării programelor locale, altele decât cel evaluat aici. Acest din urmă indicator, notatCALIT, este de tip cantitativ, si are trei valori: 1 desemnează un nivel scăzut, 2 un nivel mediu, iar 3 unnivel ridicat al calităţii administrării programelor.

În Figura 7.7 sunt reprezentate localităţile cuprinse în studiu, în funcţie de cele trei variabile. La fel caşi în Figura 7.8 valorile lui DIF sunt pe axa verticală, iar cele ale lui SUM pe axa orizontală. Marcarealocalităţilor pe grafic se face prin simboluri grafice diferite în funcţie de valorile celei de a treia variabile.

Analiza legăturii dintre DIF şi SUM printr-o regresie simplă conduce la concluzia că relaţia dintrecele două variabile este directă, şi destul de intensă (R2 = 0,53).

Dacă, însă, relaţia dintre cele două variabile este studiată separat pe grupele de localităţi desemnateprin valorile celei de-a treia variabile, concluzia este diferită. În locul unui singur model, vom urmăriparametrii a trei modele de regresie simplă, câte unul pentru fiecare dintre valorile variablei CALIT.Valorile lui R2 care se obţin sunt 0,006 pentru CALIT = 1, 0,005 pentru CALIT = 2, şi 0,004 pentru CALIT= 3. Cele trei valori indică faptul că intensitatea relaţiilor dintre DIF şi SUM pentru fiecare dintre cele treicategorii de localităţi este foarte aproape de zero. Altfel spus, când sunt comparate localităţi care suntasemănătoare din punctul de vedere al performanţei administrării de programe, cheltuirea unei sume maripe cap de locuitor nu este asociată, în medie, unei scăderi mai accentuate a ratei şomajului decât înlocalităţile în care suma a fost mai mică. Acest rezultat indică, contrar celui obţinut din analiza doar aprimelor două variabile, că programul de reducere a şomajului nu a fost eficient.

Figura 7.7. Relaţia dintre variabilele DIF, SUM, şi CALIT pentru 25 de localităţi.

suma cheltuita / nr. de locuitori

10.09.59.08.58.07.57.06.56.0

rata

som

ajul

ui (2

) - ra

ta s

omaj

ului

(1)

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

-2.0

-2.5

Calit. adm.

3.00

2.00

1.00

Toate localit.

Problema generală pe care încercăm să o rezolvăm prin modelare statistică poate fi redusă adesea laurmătoarea exprimare:B este un fenomen care trebuie explicat iar A1, A2, ... sunt factori explicativi potenţiali; Care este efectulindependent al fiecărui Ai asupra lui B? Care este ierarhia importanţei factorilor A1, A2, ... în explicarealui B?

Exemplul de mai sus arată faptul că numai prin modele care cuprind simultan toate variabilelerelevante pentru fenomenul studiat poate fi evaluat efectul independent al fiecăreia. Modelele multivariatecele mai simple şi de aceea cel mai usor de interpretat sunt cele de regresie multiplă. Vom arăta modul încare acestea sunt definite (7.2.1), felul în care pot fi interpretate relaţiile dintre variabilele cuprinse în model(7.2.2.) şi cum poate fi evaluată eficienţa de ansamblu a modelelor (7.2.3). În secţiunea (7.2.4.) vor fidiscutate modalitaţile de generalizare a rezultatelor obţinute pe un eşantion iar în sectiunea (7.2.5) va fidescrisă problema multicoliniarităţii. În secţiunea (7.2.6) va fi prezentată o extindere a modelelor deregresie pentru variabile nominale şi ordinale.

7.2.1 Definirea modelelor de regresie multiplă

Fie Y, X1, X2, ..., Xm, variabile cantitative. Y este variabila a cărei variaţie incercăm să o explicăm iar X1,X2,..., Xm, sunt variabilele independente. Putem scrie următoarea relaţie între variabile:

Y = a + b1X1 + b2X2 + ... + bmXm + U (3)

unde a, b1, b2, ..., bm sunt numere iar U este o variabilă.Se observă că pentru orice combinaţie de numere a, b1, b2, ..., bm, relaţia (3) este asevărată, pentru că

acestea împreună cu valorile lui Y, X1, X2, ..., Xm determină U.

Page 40: Introducere in Statistica

Figura 7.8. Reprezentarea grafică în trei dimensiuni a unor cazuri caracterizate de trei variabile.

(X11,X21,Y1)

(X13,X23,Y3)

Y

(X14,X24,Y4)

X1

(X15,X25,Y5)

(X12,X22,Y2)

X2

X15 X25

Y5

Dacă m=2 relaţia (3) poate fi descrisă grafic printr-un desen tridimensional. Fiecărui individ statisticîi corespunde un punct de coordonate (X1,X2,Y) (Figura 7.8.), iar a, b1 şi b2 definesc un plan descris deecuaţia

Y' = a + b1X1 + b2X2.

Variabila U este determinată de acest plan şi de punctele de forma (X1,X2,Y) într-un mod analogcazului cu două dimensiuni:valoarea Ui care îi corespunde unui individ statistic care a luat valorile X1i, X2i,Yi, este egală cu lungimeasegmentului paralel cu axa OY care are la extremităţi punctul care îi corespunde în spaţiu (X1i,X2i,Yi),respectiv punctul de intersecţie cu planul (si care are coordonatele (X1i,X2i,Y'i)).

Expresia (3) indică faptul că Y poate fi exprimată ca o combinaţie liniară de X1, X2, ..., Xm, şi ovariabilă U numita variabilă reziduală. Dacă fixăm a, b1, b2,..., bm atunci U poate fi exprimat în funcţie deaceste numere şi Y, X1, X2,...Xm:

U = Y - (a + b1X1 + b2X2 + ... + bmXm) (4)

Dacă notăm expresia din paranteza cu Y' atunciU = Y - Y'.

Vom alege din mulţimea (infinită) a expresiilor de forma (3) acea combinaţie liniară pentru care U(determinat din (4)) are valori minime. Pentru că U este o variabilă, atunci când expresia (3) se aplică unuinumăr de n indivizi statistici, U este un şir de n numere. Avem nevoie să definim un criteriu după carevariabilele U să poată fi comparate astfel încât să putem alege un U având valorile cele mai mici. Principiulfolosit pentru modelele de regresie liniară multiplă este, la fel ca şi în cazul bivariat, cel al celor mai micipătrate:

Unei variabile U îi corespunde un număr u obţinut din aplicarea formuleiu = u12 + u2

2 + ... + un2, unde ui este valoarea luată de U pentru cazul statistic i;

este ales U pentru care u este cel mai mic. Din (3) rezultă că problema este echivalentă cu determinareavalorilor a, b1, b2, ..., bm astfel încât u să fie minim. Este important de reţinut că pentru orice număr devariabile independente m, a, b1, b2, ..., bm sunt determinaţi în mod unic de condiţia de a avea u minim.

EcuaţiaY' = a + b1X1 + b2X2 + ... + bmXm, (5)

în care a, b1, b2, ..., bm sunt determinate în urma aplicării principiului celor mai mici pătrate este unmodel de regresie multiplă.

Dacă avem o singura variabilă independentă (m=1) ecuaţia (5) descrie un model de regresie simplă.

În exemplul de mai sus, planul care aproximeaza cel mai bine - după criteriul celor mai mici pătrate -,distribuţia punctelor din spaţiu asociate celor 25 de unităţi de analiză (localităţi cuprinse în studiu) areecuaţia

DIF = -2,61 + 0,05 SUM + 1,00 CALIT.

7.2.2 Interpretarea modelelor de regresie multiplă

Coeficientul bi, numit panta asociată variabilei Xi, reprezintă numărul de unităţi cu care variază Y'atunci când Xi creşte cu o unitate iar celelalte variabile independente sunt menţinute constante. Altfel spus,bi arată cum se modifică valoarea aşteptată a variabilei dependente atunci când Xi variază iar Xj suntconstante, j≠i.Deasemenea, în măsura în care datele satisfac anumite proprietăţi (dintre care un principiu important estecel al distribuţiilor apropiate de cele normale, iar un alt principiu, al multicoliniarităţii, va fi discutat însecţiunea 7.2.5.) este corect să afirmăm că bi indică variaţia în mediile valorilor lui Y care corespundpunctelor de forma (X1,...,Xi,...,Xm) respectiv (X1,...,Xi + 1,...,Xm). La fel, a arată care este media lui Yatunci când X1 = X2 = ... = Xm = 0.

Semnul plus al lui bi indică faptul că între Xi şi Y are loc o relaţie pozitivă în condiţii de control alefectului celorlalte variabile, în timp ce semnul minus indică prezenţa unei relaţii negative.

In exemplul anterior, b1 = 0,05 arată că dacă vom compara două localităţi unde diferenţa dintresumele cheltuite în program / numărul de locuitori este 1000 lei, şi care sunt identice din perspectivavariabilei CALIT, ne aşteptăm ca, în medie, rata şomajului să fi scăzut cu 0,05 puncte procentuale înlocalitatea în care s-a suma / locuitor a fost mai mare. b2 = 1,00 arată că pentru aceeaşi valoare a lui SUM,localităţile cu o evaluare a calităţii administrării programelor mai bună cu o unitate au, în medie, o scăderemai mare cu o unitate procentuală. Această interpretare este consistentă cu rezultatul obţinut după aplicareade regresii simple pentru fiecare din subeşantioanele definite de CALIT, dar aduce un plus de precizie înexprimarea relaţiilor dintre variabila dependentă şi cele două variabile independente.

Din interpretarea coeficienţilor bi se vede cum regresia multiplă permite compararea de perechi degrupe de indivizi statistici care sunt identici din perspectiva tuturor variabilelor independente cu excepţiaunei singure variabile. Diferenţa observată în valorile variabilei dependente este atribuită variaţiei învariabila independentă care ia valori diferite pentru grupe diferite.

Asemeni pantei pentru cazul bivariat, coeficienţii modelului de regresie multiplă depind de unităţilede măsură ale variabilelor şi este adevărată proprietatea

dacă în loc de Xi avem cXi + d, atunci în loc de bi avem bi / c. (6)

Această proprietate arată faptul că panta de regresie nu poate fi folosită drept un indicator alintensităţii relaţiei dintre variabila dependentă şi variabila independentă corespunzătoare, şi nici nu permiteierarhizarea variabilelor independente în funcţie de contribuţia fiecăreia la explicaţia variaţiei variabileidependente.

Pentru a descrie nu doar forma ci şi intensitatea relaţiilor liniare între variabilele independente şivariabila dependentă sunt folosiţi coeficienţii de regresie standardizaţi. Modul în care sunt definiţi esteintuitiv: variabilele Y, X1, X2, ..., Xm sunt standardizate folosind formula scorului z prezentată în Capitolul1.

Page 41: Introducere in Statistica

Noile variabile, obţinute în urma aplicării formulei, au media egală cu zero iar abaterea standard egalăcu unitatea. Coeficienţii de regresie din modelul determinat de variabilele standardizate, se notează în modobisnuit cu ββββ1, ββββ2, ..., ββββm. Aplicând proprietatea (6) avem următoarea formulă pentru coeficienţiistandardizaţi:

βσσi i

X

Yb i=

În cazul bivariat (m = 1), ββββ1 coincide cu coeficientul de corelaţie Pearson. În cazul general, ββββi arată cucâte abateri standard variază Y atunci când Xi creşte cu o abatere standard. Din formulă reiese şi faptul căββββi are acelaşi semn cu bi, iar ββββi = 0 este echivalent cu bi = 0.

Atunci când m > 1 coeficienţii de regresie standardizaţi au câteva proprietăţi diferite faţă de cazulbivariat:

1. ββββi poate să ia valori şi în afara intervalului [-1, 1]. ββββi în valoare absolută este supraunitar atunci cândrelaţia dintre Xi şi Y este foarte intensă şi în plus, există o relaţie liniară strânsă între Xi şi cel puţin unadintre celelalte variabile independente.2. în timp ce în cazul bivariat U = 0 implică faptul că β1 = +1, atunci când m > 1, condiţiaU = 0 nu restrânge valorile posibile pentru ββββi.

Coeficienţii de regresie standardizaţi permit ierarhizarea variabilelor independente în funcţie deimportanţa pe care o are fiecare în explicarea variaţiei variabilei dependente printr-o relaţie directă. Suntnecesare două precizări privind limitele în utilizarea acestor coeficienţi:1. Dacă într-un model teoretic în care X1, X2, ..., Xm sunt variabile independente pentru Y, Xi este ovariabilă explicativă şi pentru unul sau mai multi Xj, j≠i, atunci modelul de regresie în care Y este variabiladependentă ne permite numai estimarea efectului direct pe care îl are Xi asupra lui Y, nu şi a celui mediatde alte variabile din model. De exemplu, variabila care exprimă proporţia celor care au absolvit liceul dinpopulaţia unei localităţi poate avea un efect direct nul asupra numărului de infracţiuni pe cap de locuitor(bliceu =0), însă un efect indirect substanţial, mediat de o altă variabilă independentă cuprinsă în modelul deregresie multiplă (de exemplu, venitul pe cap de locuitor).2. Atunci când avem două modele cu aceleaşi variabile, dar care descriu date diferite, coeficienţiistandardizaţi nu sunt comparabili între modele decât dacă variabilele care le corespund au dispersiiasemănătoare. De aceea, este de preferat ca în comparaţiile dintre populaţii diferite să fie folosiţicoeficienţii nestandardizaţi, după ce în prealabil datele au fost transformate astfel încât variabilele Xi săaibă aceeaşi unitate de măsură în ambele modele.

7.2.3 Eficienţa unui model de regresie multiplă

La fel ca şi în cazul bivariat, puterea explicativă a unui model multivariat poate fi evaluată cu ajutorulunor indicatori. Coeficientul R2, numit coeficient de determinaţie multiplă, este definit la fel ca şi atuncicând avem o singură variabilă independentă şi are o interpretare similară:

RY YY Y

22

2=−

−∑∑

( * )( )

Numărătorul expresiei reprezintă variaţia lui Y care este "explicată" de ecuaţia de regresie, în timp cevaloarea de la numitor este egală cu variaţia totală a lui Y. Deci, R2 indică proporţia din variaţia lui Y careeste "explicată" de toate variabilele independente din model. Din definiţie rezultă că R2 poate să ia valoriîntre 0 şi 1.În exemplul din această secţiune avem R2 = 0,69.

Desigur, valorile ridicate ale lui R2 sunt de dorit în locul celor scăzute pentru că implică faptul căexplicaţia este în mai mare măsură completă. Totuşi, această afirmaţie necesită câteva precizări:

R2 are proprietatea de a creşte cu fiecare variabilă care este introdusă în model şi de aceea valorile luiR2 trebuie judecate şi în raport cu numărul de variabile independente. La limită, este posibil să avem R2 = 1dacă avem un număr de variabile independente suficient de mare, chiar dacă acestea sunt generate aleator.

Concluzia care se desprinde este că alegerea variabilelor care urmează să fie incluse în model nupoate fi decisă folosind exclusiv informaţia de natură statistică (chiar dacă există procedee complexe princare putem îmbogăţi această informaţie). Numai prin luarea în considerare şi a unor aspecte de naturăteoretică poate fi decisă includerea sau eliminarea unor variabile în analiză.

Să vedem ce semnificaţie au valorile extreme pe care le poate lua R2, 0 şi 1, pentru că interpretareavalorilor intermediare este posibilă prin raportarea la situaţiile maximale.

R2 este egal cu 1 atunci când valorile lui Y sunt complet determinate de combinaţiile liniare alevalorilor variabilelor independente. În cazul bivariat, distribuţia punctelor se face după o dreaptă, iar atuncicând sunt două variabile independente, după un plan.

La fel ca şi în cazul bivariat, R2 = 0 nu indică în mod necesar absenţa unor relaţii între variabileleindependente şi variabila dependentă:1. Y poate să fie determinată complet de variabilele independente prin relaţii neliniare iar R2 să fie egal cuzero. De exemplu, dacă

Y = 10 - X - X )21

22 ,

se obţine distribuţia din Figura 7.9. în care toate punctele sunt pe o suprafata curbă (cele mai multe sunt peo semisferă), iar R2 = 0.2. Mai mult, este posibil să avem R2 = 0 chiar şi atunci când între una dintre variabilele independente şi Yexista o relaţie liniară, în condiţii de control, însă forma (panta) acestei relaţii nu este constantă pecategoriile celorlalte variabile.

Figura 7.9. Exemplul unei distribuţii în spaţiu pentru care variabila dependentă este reprezentată pe axaverticală şi R2 = 0.

Y

34

1,0

1,5

3 2

2,0

2,5

2 1

3,0

3,5

1 0X2X1

0 -1-1 -2-2 -3-3

Figura 7.10. Exemplul unei distribuţii în spaţiu pentru care variabila dependentă este reprezentată pe axaverticală, au loc relaţii bivariate cu variabila dependentă de intensitate maximă şi R2 = 0 pentru modelulmultivariat.

Page 42: Introducere in Statistica

1210

1,28

0

1,0

Y1

2

X2

4

6,8

6

,6

X1

8

4

10

,4

12

,2 20,0

7.2.4 Generalizarea rezultatelor obţinute pe eşantion (inferenţa)

Atunci când avem la dispozitie date dintr-un eşantion probabilistic şi construim pe acestea un modelde regresie multiplă ne punem problema de a generaliza rezultatele obţinute pentru populaţia din careprovine eşantionul. Să presupunem că am obţinut bi > 0 şi dorim să ştim dacă panta corespunzătoarevariabilei Xi este pozitivă şi la nivelul întregii populaţii. Pentru a afla acest lucru vom construi un intervalde încredere în jurul valorii lui bi. Determinarea intervalului de încredere presupune îndeplinirea de cătredatele analizate a unor proprietăţi, aceleaşi cu condiţiile specifice cazului bivariat, la care se adaugăcondiţia de absenţă a multicoliniarităţii (pe care o vom defini şi analiza în sectiunea 6). În continuare,presupunem îndeplinite toate aceste proprietăţi. Pentru un nivel de incredere de 0,95 avem intervalul

(bi - tn - m - 1, 0,975σσσσbi, bi + tn - m - 1, 0,975σσσσbi),

unde n este numărul de cazuri în eşantion, m este numărul de variabile independente, numărul tn - m, 0,975poate fi găsit în tabelele pentru distributia t (pentru n - m - 1 = 60 ia valoarea 2,0, iar pentru un număr caretinde la infinit ia valoarea 1,96) iar σσσσbi este eroarea standard a lui bi.

Dacă intervalul de încredere nu îl conţine pe zero atunci ipoteza de nul, adică afirmaţia conformcăreia între Xi şi Y nu avem o relaţie liniară directă, poate fi respinsă (un mod mai riguros de a exprimaipoteza de nul în cazul regresiei este acela de a spune că parametrul - coeficientul de regresie din populaţie- este egal cu 0).

O altă modalitate prin care poate fi realizată generalizarea valorilor bi constă în determinarea valoriimaxime a nivelului de semnificatie statistică pentru care 0 aparţine intervalului de încredere. Dacă nivelulde semnificaţie observat este mai mic decât 0,05 atunci vom respinge ipoteza de nul, conform regulilor detestare a ipotezelor statistice.Deasemenea, putem calcula valoarea t asociată lui bi

t = bi / σσσσbi.

Putem găsi în tabelele statistice care este nivelul de încredere ce corespunde valorii determinate înacest fel.

Pentru exemplul din această secţiune, tabelul următor conţine coeficienţii de regresie, coeficienţiistandardizaţi, erorile standard, valorile t şi nivelele de semnificatie statistică.

0,048 0,212 0,052 0,229 0,8200,994 0,291 0,786 3,412 0,002

SUMCALIT

BEroare

standard

Coeficientine-standardizati

Beta

Coeficientistandardizati

t

Nivel desemnif.

stat.

Pentru a doua variabilă independentă din exemplu, CALIT, putem respinge ipoteza de nul (p =0,002<0,05).

Un model de regresie multiplă poate fi folosit atit în explicaţie cit şi în predicţie. Astfel, din modelulanterior rezultă că, în medie, localităţile în care ar fi aplicat un program similar cu cel studiat iar sumacheltuită ar fi de 8000 de lei / locuitor, şi care ar fi evaluate prin scorul 3 pentru calitatea administrăriiprogramelor, vor avea în medie o scădere a ratei şomajului cu o valoare dată de următoarea formulă

DIF0 = -2,61 + 0,05 * 8 + 1,00 * 3 = 0.79.

Mai mult, putem determina cu o probabilitate p intervalul căruia îi apartine valoarea variabilei DIF pentrucare cunoaştem valorile variabilelor SUM şi CALIT. Acesta este

(DIF0 - tn - m - 1, 0,975σσσσDIF, DIF0 + tn - m - 1, 0,975σσσσDIF),

unde DIF0 este valoarea medie "prezisă" de model, σσσσDIF este eroarea standard a valorii estimate DIF0.În exemplul anterior, DIF este cu o probabilitate de 0,95 în intervalul de incredere

(0,79 - 2*0,59, 0,79 + 2*0,59) = (-1,57, 3,15).

7.2.5 Problema multicoliniarităţii

Situaţia în care o variabilă independentă poate fi exprimată ca o combinaţie liniară perfectă a celorlaltevariabile independente, este numită multicoliniaritate perfectă:De exemplu, dacă variabilele independente sunt X1, X2, şi X3, iarX2 = 3X1 + 2X3, se spune că X2 este exprimat printr-o combinaţie liniară a variabilelor X1 şi X3, iarvariabilele X1, X2 şi X3 sunt într-o relaţie de multicoliniaritate perfectă.

Atunci când variabilele independente sunt într-o situaţie de multicoliniaritate perfectă coeficienţii deregresie nu pot fi determinaţi, şi analiza de regresie nu poate fi aplicată.

În practică, o situaţie de acest tip este rar întâlnită şi este uşor de detectat. În schimb, sunt mai frecventecazurile de multicoliniaritate ridicată, în care o variabila independentă poate fi exprimată aproape perfectprintr-o combinatie liniară a celorlalte variabile independente. Când se intimplă acest lucru, coeficienţii potfi determinaţi în mod unic însă sunt instabili: valoarea pantei unui anumit coeficient diferă foarte mult de laun eşantion la altul pentru o anumită populaţie. Din acest motiv, atât comparaţiile între valorilecoeficienţilor dintr-un model cât şi comparaţiile pentru aceeaşi coeficienţi ai unor modele pe eşantioanediferite sunt nesigure.Care este pragul peste care multicoliniaritatea este considerată a fi ridicată şi poate să ridice probleme îninterpretarea modelului? O metodă frecvent folosită constă în realizarea de regresii în care, pe rând, fiecaredintre Xi este variabilă dependentă iar ceilalţi Xj sunt variabile independente. Valoarea cea mai ridicatăpentru un R2 obţinut în acest fel este o măsură a nivelui de multicoliniaritate din model, iar limitaconvenţională sub care se consideră că multicoliniaritatea nu afectează interpretabilitatea modelului este0,8.

Page 43: Introducere in Statistica

Atunci când este întâlnită o situaţie de multicoliniaritate ridicată sunt mai multe moduri prin care pot fiatenuate efectele ei:1. Este mărit volumul eşantionului astfel încât ipoteza de nul să poată fi respinsă pentru o parte dintrecoeficienţi.2. Variabilele care sunt puternic corelate sunt combinate în indicatori unici. De exemplu, într-o analiză încare secţiile de vot sunt unităţi statistice, rata de participare în primul tur de scrutin al alegerilor din 1996este o variabilă independentă şi rata de participare în al doilea tur de scrutin al alegerilor din 1996 este oaltă variabilă independentă, coeficientul de corelaţie între cele două variabile este r = 0,91. Un modelrealizat pe un eşantion ales dintre secţiile de vot şi în care cele două variabile sunt independente va fiafectat de o problemă de multicoliniaritate ridicată. O soluţie ar fi includerea în analiză a mediei în loculcelor două variabile.3. Sunt realizate mai multe modele fiecare având doar o parte dintre variabilele care producmulticoliniaritate. Pentru exemplul anterior, ar însemna considerarea a două modele, unul cu rata departicipare pentru primul tur, al doilea cu rata de participare pentru al doilea tur.

7.2.6 Variabile "dummy"

Regula generală conform căreia analiza de regresie poate fi aplicată numai variabilelor de interval sau derapoarte are o excepţie importantă: toate proprietăţile pe care le au valorile estimate ale unui model deregresie se păstrează şi în cazul în care una sau mai multe dintre variabilele independente sunt dihotomice(adică variabile care iau două valori).Consecinţele acestei proprietăţi sunt importante deoarece permit nu doar estimarea efectelor unorvariabilele care în mod obisnuit sunt dihotomice (exemplu sexul, mediul de rezidentă -- urban / rural, etc.)asupra variabilei dependente ci şi includerea într-o analiză de regresie a unor variabile nominale sauordinale cu mai mult de două categorii. Acest lucru este posibil în urma transformării unei variabile cu ncategorii în n - 1 variabile dihotomice.Ca o ilustrare, să presupunem că datele despre programul de reducere a şomajului din exemplul discutat înaceastă secţiune cuprind informaţii despre încă o variabilă independentă: judeţul în care se află localitatea(JUDET). Mai presupunem că localităţile din studiu provin din trei judeţe, notate cu A, B, C. VariabilaJUDET este transformată în două variabile dihotomice: JUDET1 şi JUDET2.JUDET1 este definită astfel: localităţile care sunt în judeţul A au valoarea 1, iar toate celelalte au valoarea0.JUDET2 este definită asemănător: localităţile care sunt în judeţul B au valoarea 1, iar toate celelalte auvaloarea 0.Cunoscând valorile celor două variabile pentru o localitate, ştim sigur în ce judeţ se află aceasta, deciinformaţia oferită de JUDET1 şi JUDET2 este egală cu cea oferită de variabila iniţială, JUDET.Prin introducerea celor două variabile dihotomice în analiză putem verifica dacă scăderea şomajului a fostinfluenţată şi de factori care s-au manifestat la nivel de judeţ, independenţi de condiţiile de nivel local.Dacă coeficientul b, respectiv beta, care corespunde uneia dintre aceste variabile este diferit de 0, atuncirezultă că variaţia variabilei DIF poate fi explicată mai bine în urma includerii ei.

Exerciţii şi probleme

1. Presupunem cunoscute pentru mai multe localităţi următoarele două variabile: diferenţa între venitul pecap de locuitor în ultimul an şi cel din anul anterior (VENIT)--măsurat în mii lei--, şi proporţia celor dinlocalitate care au absolvit cel mult 10 clase (SCOALA)--estimată în procente.O analiză de regresie prin care se încearcă explicarea efectului variabilei SCOALA asupra variabileiVENIT conduce la următoarele rezultate:

r = -0,55, R2 = 0,30, iar ecuaţia de regresie esteVENIT = -7,5 - 12 SCOALA.

Care dintre următoarele afirmaţii este adevărată?a. Localităţile în care SCOALA are valori mici au, în medie, valori mai mici ale variabilei VENIT.

b. Localităţile în care sunt 20% locuitori care nu au absolvit 10 clase au, în medie, diferenţa între veniturileanuale pe cap de locuitor (VENIT) cu 12 mii de lei mai mare decât localităţile în care sunt 30% locuitoricare nu au absolvit 10 clase.

2. Presupunem că, în plus, avem şi date despre proporţia locuitorilor care au mai puţin de 18 ani(MINORI)-- estimată în procente. Ecuaţia de regresie multiplă care include variabilele SCOALA şiMINORI ca variabile independente este următoarea:

VENIT = 12 - 4 SCOALA - 0,2 MINORI.ββββSCOALA = -0,08, iar ββββMINORI = -0,25.

Care dintre următoarele afirmaţii este adevărată?a. Variabila MINORI explică mai puţin din variaţia variabilei dependente decât variabila SCOALA.b. Conform modelului de regresie, localităţile în care SCOALA = 5, iar MINORI = 20, au avut în medie oscădere a venitului pe cap de locuitor cu 12 mii de lei.

Pentru următoarea întrebare, să se încercuiască varianta corectă /variantele corecte:

3. Se da ecuatia de regresie cu coeficienti nestandardizati (în paranteză sunt prezentate erorile standard alecoeficienţilor de regresie:Y� = -40 + 0.72x1 + 1.29x2 � 0.15x3ES (0.13) (0.37) (0.16)R=0.9

Care din coeficientii ecuatiei de regresie difera semnificativ de zero pentru un nivel de semnificatiep=0.05?1. cel al lui x12. cel al lui x23. cel al lui x34. niciunul

Page 44: Introducere in Statistica

Anexa 1. Distribuţia normală normată (standard)

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,090,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,03590,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,07530,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,11410,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,15170,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,18790,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,22240,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2518 0,25490,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,28520,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,31330,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,36211,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,38301,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,40151,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,41771,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,43191,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,44411,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,45451,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,46331,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,47061,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,48172,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,48572,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,48902,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,49162,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,49362,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,49522,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,49642,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,49742,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,49812,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986

3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49897 0,499003,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,499293,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,499503,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 40,9964 0,49965

Aria dintre 0 şi z

0 z

3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,499763,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,499833,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,499893,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,499923,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,499953,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997

Page 45: Introducere in Statistica

Anexa 2. Valorile critice ale lui t pentru aria de sub curbă aflată la dreaptavalorii.

g.l.\p 0.4 0.25 0.1 0.05 0.025 0.01 0.005 0.00051 0.32492 1 3.077684 6.313752 12.7062 31.82052 63.65674 636.61922 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.59913 0.276671 0.764892 1.637744 2.353363 3.18245 4.5407 5.84091 12.9244 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.61035 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688 6 0.264835 0.717558 1.439756 1.94318 2.44691 3.14267 3.70743 5.95887 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.40798 0.261921 0.706387 1.396815 1.859548 2.306 2.89646 3.35539 5.04139 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.780910 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869 11 0.259556 0.697445 1.36343 1.795885 2.20099 2.71808 3.10581 4.43712 0.259033 0.695483 1.356217 1.782288 2.17881 2.681 3.05454 4.317813 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.220814 0.258213 0.692417 1.34503 1.76131 2.14479 2.62449 2.97684 4.140515 0.257885 0.691197 1.340606 1.75305 2.13145 2.60248 2.94671 4.0728 16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.01517 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.965118 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.921619 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.883420 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495 21 0.25658 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.819322 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.792123 0.256297 0.685306 1.31946 1.713872 2.06866 2.49987 2.80734 3.767624 0.256173 0.68485 1.317836 1.710882 2.0639 2.49216 2.79694 3.745425 0.25606 0.68443 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251 26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.706627 0.255858 0.683685 1.313703 1.703288 2.05183 2.47266 2.77068 3.689628 0.255768 0.683353 1.312527 1.701131 2.04841 2.46714 2.76326 3.673929 0.255684 0.683044 1.311434 1.699127 2.04523 2.46202 2.75639 3.659430 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75 3.646 infinit 0.253347 0.67449 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905

g.l. - Număr de grade de libertate

Page 46: Introducere in Statistica

Anexa 3. Valorile critice ale lui χχχχ2222

Ariile din dreapta valorilor (αααα.)

g.l./aria

0.995 0.99 0.975 0.95 0.9 0.75 0.5 0.25 0.1 0.05 0.025 0.01 0.005

1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.3233 2.70554 3.84146 5.02389 6.6349 7.879442 0.01003 0.0201 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.596633 0.07172 0.11483 0.2158 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.3484 11.34487 12.838164 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.2767 14.860265 0.41174 0.5543 0.83121 1.14548 1.61031 2.6746 4.35146 6.62568 9.23636 11.0705 12.8325 15.08627 16.7496

6 0.67573 0.87209 1.23734 1.63538 2.20413 3.4546 5.34812 7.8408 10.64464 12.59159 14.44938 16.81189 18.547587 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.277748 1.34441 1.6465 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.954959 1.73493 2.0879 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935

10 2.15586 2.55821 3.24697 3.9403 4.86518 6.7372 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818

11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.341 13.70069 17.27501 19.67514 21.92005 24.72497 26.7568512 3.07382 3.57057 4.40379 5.22603 6.3038 8.43842 11.34032 14.8454 18.54935 21.02607 23.33666 26.21697 28.2995213 3.56503 4.10692 5.00875 5.89186 7.0415 9.29907 12.33976 15.98391 19.81193 22.36203 24.7356 27.68825 29.8194714 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.3193515 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132

16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.3385 19.36886 23.54183 26.29623 28.84535 31.99993 34.2671917 5.69722 6.40776 7.56419 8.67176 10.0851

912.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847

18 6.2648 7.01491 8.23075 9.39046 10.86494

13.67529 17.3379 21.60489 25.98942 28.8693 31.52638 34.80531 37.15645

19 6.84397 7.63273 8.90652 10.11701

11.65091

14.562 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226

20 7.43384 8.2604 9.59078 10.85081

12.44261

15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685

21 8.03365 8.8972 10.2829 11.5913

113.2396 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106

22 8.64272 9.54249 10.98232

12.33801

14.04149

17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565

23 9.26042 10.19572

11.68855

13.09051

14.84796

18.1373 22.33688 27.14134 32.0069 35.17246 38.07563 41.6384 44.18128

24 9.88623 10.85636

12.40115

13.84843

15.65868

19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851

25 10.51965

11.52398

13.11972

14.61141

16.47341

19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.3141 46.92789

26 11.1602

412.1981

513.8439 15.3791

617.2918

820.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988

27 11.8075 12.8785 14.5733 16.1514 18.1139 21.7494 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492

9 828 12.4613

413.5647

115.3078

616.9278

818.9392

422.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338

29 13.12115

14.25645

16.04707

17.70837

19.76774

23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562

30 13.78672

14.95346

16.79077

18.49266

20.59923

24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196