curs statistica

46
Universitatea Bucureşti Facultatea de Filosofie STATISTICĂ asist. drd. Lucian Pop 2001 CUPRINS Introducere şi concepte de bază .................................................................................................................. 3 Capitolul 1................................................................................................................................................... 8 Descrierea variabilelor ................................................................................................................................ 8 Capitolul 2................................................................................................................................................. 23 Distribuţii de probabilitate ........................................................................................................................ 23 Capitolul 3................................................................................................................................................. 32 Eşantionarea. Distribuţia de eşantionare. Intervale de încredere .............................................................. 32 Capitolul 4................................................................................................................................................. 45 Proceduri de eşantionare ........................................................................................................................... 45 Capitolul 5................................................................................................................................................. 54 Testarea ipotezelor statistice. Teste de semnificaţie ................................................................................. 54 Capitolul 6................................................................................................................................................. 62 Asocierea variabilelor calitative................................................................................................................ 62 Capitolul 7................................................................................................................................................. 69 Studiul relaţiilor între variabile cantitative................................................................................................ 69 Anexa 1. Distribuţia normală normată (standard) ..................................................................................... 87 Anexa 2. Valorile critice ale lui t pentru aria de sub curbă aflată la dreapta valorii. ................................ 89 Anexa 3. Valorile critice ale lui χ 2 ........................................................................................................... 91

description

univ bucuresti

Transcript of curs statistica

  • Universitatea BucuretiFacultatea de Filosofie

    STATISTIC

    asist. drd. Lucian Pop

    2001

    CUPRINS

    Introducere i concepte de baz .................................................................................................................. 3Capitolul 1................................................................................................................................................... 8Descrierea variabilelor ................................................................................................................................ 8Capitolul 2................................................................................................................................................. 23Distribuii de probabilitate ........................................................................................................................ 23Capitolul 3................................................................................................................................................. 32Eantionarea. Distribuia de eantionare. Intervale de ncredere .............................................................. 32Capitolul 4................................................................................................................................................. 45Proceduri de eantionare ........................................................................................................................... 45Capitolul 5................................................................................................................................................. 54Testarea ipotezelor statistice. Teste de semnificaie ................................................................................. 54Capitolul 6................................................................................................................................................. 62Asocierea variabilelor calitative................................................................................................................ 62Capitolul 7................................................................................................................................................. 69Studiul relaiilor ntre variabile cantitative................................................................................................ 69Anexa 1. Distribuia normal normat (standard)..................................................................................... 87Anexa 2. Valorile critice ale lui t pentru aria de sub curb aflat la dreapta valorii. ................................ 89Anexa 3. Valorile critice ale lui 2 ........................................................................................................... 91

  • Introducere i concepte de bazDeseori, n viaa de zi cu zi, folosim sau auzim expresii cum ar fi: "statisticile

    arat c ", "o statistic simpl sugereaza c " etc.. De multe ori, oamenii asociazstatistica cu o simpl "colecie" de numere. Totui, statistica reprezint mult mai multdect att, ea dezvoltndu-se ca o metod tiinific de analiz larg utilizat n multedomenii. n tiinele sociale, rolul ei a devenit din ce n ce mai important cu deosebire nultimii 30-40 de ani. i n acest domeniu, ca i n multe altele, colectarea, organizarea ianaliza informaiei sunt "instrumente" deosebit de utile. Tehnicile de culegere ainformaiei sunt variate, de la cercetri pe baz de chestionar sau interviuri telefonice laexperimente. Informaiile astfel culese poart numele generic de "date" i se refer ngeneral la msurarea unor atribute sau caracteristici ale "subiecilor" analizai. Msurareaeste efectuat prin clasificarea "observaiilor" (subiecilor) conform unor reguli specifice(de exemplu, msurarea vrstei const n clasificarea indivizilor n funcie de numrul deani de la natere).

    n general, statistica n tiinele sociale se preocup de trei mari aspecte: a) moduln care datele sunt culese, sau mai exact modul n care se face selecia observaiilor careurmeaz sa fie analizate, b) descrierea acestor date i c) explicarea i/sau predicia unorfenomene studiate. nainte ns de a trece la tratarea pe larg a acestor aspecte este nevoiede introducerea unor concepte de baz, precum i a ctorva distincii. Una dintre acestea,i cea mai important poate, este aceea ntre statistica pur descriptiv i statisticainferenial. Practic, aceasta din urm constituie "nucleul dur" al statisticii. Pentru anelege distincia mai sus amintit, e nevoie ns mai nti de clarificarea conceptelor depopulaie (statistic) i eantion.

    Termenul de populaie are o semnificaie aparte n statistic. Populaia statisticreprezint mulimea tuturor obiectelor sau indivizilor care prezint interes pentru studiu.De exemplu, dac cineva dorete sa studieze problema neparticiprii colare, atuncipopulaia va consta din totalitatea copiilor de vrst colar din Romnia. Dac nsobiectul studiului este gradul de poluare a localitailor urbane, atunci populaia va constadin toate oraele Romniei. n statistic aadar, cnd ne referim la populaie avem nminte mulimea unitailor de analiz, indiferent ce reprezint acestea (coli, orae,ntreprinderi, ri, oameni sau chiar procese, fenomene i aciuni).

    Un eantion nu este nimic altceva dect un subset sau o submulime a populaieianalizate. Extragerea unui eantion din populaie este util i chiar necesar n condiiilen care resursele (financiare, de timp etc.) de care dispun iniiatorii studiului nu suntsuficiente pentru a asigura investigarea ntregii populaii. S ne imaginm c cineva ardori s studieze problema srciei n Romnia. n absena unui eantion, respectivulcercettor ar fi pus n situaia de a investiga peste 7 milioane de gospodrii, ceea ce arduce la costuri financiare imense i la o extindere extraordinar a timpului rezervatculegerii de informaii. n acelai timp, un subset din populaia analizat, extras conformunei scheme de eantionare riguroase, poate furniza toat informaia necesar la un nivelde acuratee foarte ridicat.

    Putem acum clarifica distincia dintre statistica descriptiv i cea inferenial: ntimp ce metodele statistice descriptive const n descrierea sintetic a informaieicuprinse ntr-un set de date, metodele statistice infereniale const n acele tehnici iproceduri folosite pentru a face generalizri despre caracteristicile unei populaii, pebaza informaiilor culese de la un eantion extras din acea populaie. Practic marea

    provocare a statisticii o constituie exact acest proces de inferen (generalizare) de ladatele de eantion la populaie.

    Exemplul I.1 Primarul unui ora dorete nfiinarea unor noi locuri de joac pentru copii.Pentru acest lucru ns, ar mai avea nevoie de fonduri suplimentare, pe care se gndetes le obin prin introducerea unei noi taxe. Totui, pentru c alegerile se apropie,primarul ar dori s tie n ce msur populaia cu drept de vot a oraului consider calegitim introducerea acestei noi taxe. n acest caz, populaia vizat este constituit decidin toate persoanele n vrst de peste 18 ani din respectivul ora. Deoarece este practicimposibil ca primarul s discute cu fiecare alegtor n parte, el va efectua (cu ajutorulunei firme specializate) un sondaj de opinie pe un eantion de - s zicem - 500 depersoane. Rezultatele sondajului arat c 55% din persoanele investigate sunt n favoareaintroducerii acestei taxe. Totui acest rezultat nu reprezint "adevrata" valoare aprocentului din populaia cu drept de vot care este dispus s susin iniiativa primarului.Pentru a afla "adevratul" procent din populaie, primarul (respectiv cei care au efectuatsondajul i analizeaz datele) va trebui sa apeleze la inferena statistic.

    Este momentul acum s introducem dou noi concepte, i anume acelea deparametrii i respectiv statistici la nivel de eantion.

    Caracteristicile populaiei despre care facem ineferene pe baza eantionului senumesc parametrii. Caracteristicile eantionului pe baza crora inferm se numesc puri simplu statistici. n exemplul de mai sus, 55% reprezint o statistic descriptiv,deoarece ea descrie sintetic o caracteristic a eantionului. Cele mai multe studii sunt nsinteresate n aflarea parametrilor, care n general sunt necunoscui (exemple: Ci sraciexista n Romnia? Care este procentul din populaie de susintori ai unui partid? etc.).Eantioanele i statisticile descriptive sunt utile n msura n care ele pot oferi informaiidespre parametrii de interes. Statistica inferenial este aceea care permite obinerea uneimasuri a acurateei statisticilor folosite pentru estimarea valorii parametrilor. nconsecin, atunci cnd ntreaga populaie este cuprins ntr-un studiu, statisticainferenial nu este necesar.

    n final ne vom opri asupra unei ultime noiuni deosebit de importante pentrustudiul statisticii, i anume asupra variabilelor. Vom defini variabila ca fiind oricecaracteristic a membrilor unei populaii sau unui eantion care variaz (n respectivapopulaie/eantion). Astfel, culoarea prului indivizilor dintr-o populaie este o variabiln msura n care indivizii care compun respectiva populaie au pr de culori diferite.Dac toi indivizii ar fi blonzi, s zicem, atunci culoarea prului ar fi constant nrespectiva populaie. Cu ct o caracteristic are o variaie mai mare, cu att respectivapopulaie este mai eterogen i, invers, cu ct o caracteristic dat are o variaie maimic, cu att respectiva populaie va fi mai omogen, din perspectiva respectiveicaracteristici. n exemplul de mai sus, valorile posibile ale variabilei "culoarea prului" arfi "brunet", "blond", "rocat" etc.. Fiecare individ (statistic) poate lua o singur valoarepentru o variabil..

    Variabilele pot fi clasificate n funcie de multe criterii. Una din distinciileimportante este aceea dintre variabile discrete i variabile continue. Att variabilelediscrete ct i variabilele continue pot lua o infinitate de valori. Diferena dintre ele

  • Tabelul I.1 - Niveluri de masurare a variabilelor

    a) ordonare b) unitate de masur c) zero absolutNominal nu nu nuOrdinal da nu nuDe interval da da nuDe raport da da da

    const n faptul c n timp ce n cazul variabilelor continue ntre dou valori succesive alevariabilei pot exista o infinitate de valori, n cazul variabilelor discrete acest lucru nu sentmpl. Un exemplu de variabil continu este nlimea cldirilor unui ora masuratn metri, iar un exemplu de variabil discret l reprezint veniturile indivizilor dintr-opopulaie, msurate n lei. n cazul primei variabile, ntre doua valori succesive aleacesteia (de exemplu 5 i 6 m) exist o infinitate de alte valori deoarece metrii sesubdivid n centimetri, apoi n milimetri etc., n cazul veniturilor acest lucru nu mai esteposibil, ntre 5 lei i 6 lei nemaiexistnd subdiviziuni.

    Nivelul de msurare al variabilelor este un alt criteriu de clasificare a acestora,de o mare importan pentru studiul statisticii. Putem distinge ntre patru niveluri demsurare (nominal, ordinal, de interval i de raport), n funcie de trei criterii:a) posibilitatea de a ordona valorile variabilei,b) egalitatea intervalelor dintre valorile variabilei (sau altfel spus existena unei uniti

    de msur),c) existena unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut".

    1. Nivelul de msurare nominal presupune clasificarea unor atribute, caracteristici,fenomene etc. n categorii care trebuie s fie distincte, mutual exclusive i exhaustive.Acest tip de variabile (respectiv scalele folosite n msurare) indic numai faptul cexista o diferen calitativ ntre categoriile studiate, nu i magnitudinea acesteidiferene. La limit, putem privi aceste variabile ca pe nite tipologii. Cteva exemplede variabile msurate la nivel nominal sunt: statutul ocupaional al indivizilor(agricultor, salariat, mic ntreprinzator, omer etc.), religia (ortodox, romano-catolic,greco-catolic etc.) apartenena etnic (romn, maghiar, rrom etc.), mediul de reziden(rural, urban) .a.m.d.. Valorile acestui tip de variabile nu pot fi ordonate, sau cu altecuvinte nu exist o ierarhie (dect eventual conform unor criterii extrinseci) i nconsecin problema "distanei" sau a intervalelor dintre valori nici nu poate fi pus.Cu att mai puin putem discuta despre existena unui "zero absolut" (exemplu:fiecare individ are un statut ocupaional sau aparine unei etnii, sau altfel spus absenacaracteristicilor "statut ocupaional" sau "apartenen etnic" este imposibil).

    2. Nivelul de masurare ordinal implic nu numai clasificarea elementelor n categorii cii posibilitatea ordonrii acestora de la minim la maxim (existena tranzitivitii: daca>b i b>c, atunci a>c). Totui, la acest nivel de msurare nu este oferit nici oinformaie cu privire la "distana" dintre valorile scalei de msur. Cu alte cuvinte,diferena dintre prima valoare i cea de-a doua poate fi diferit de diferena dintre apatra i a cincea. Exemple de variabile msurate la nivel ordinal sunt calificativelecolare (cu valorile "insuficient", "suficient", "bine" i "foarte bine"), satisfacia fade anumite aspecte (cu valorile "foarte nesatisfcut", "nesatisfcut", "satisfcut","foarte satisfcut") etc..

    3. Msurarea la nivel de interval, ofer n plus faa de nivel anterior (cel ordinal) iinformaie referitoare la distana dintre valorile scalei i este caracterizat de existenaunor intervale egale. Totui, la acest nivel de msurare nu exist un zero absolut, cimai degrab unul convenional. Exemple de astfel de scale de msurare sunttemperatura masurat n grade Celsius (intervalele dintre valori sunt egale, darpunctul 0 este convenional ales ca fiind temperatura la care apa inghea),coeficientul de inteligen - IQ - (daca dou persoane au scoruri de 100 i respectiv150, putem spune ca diferena dintre cei doi este de 50 de puncte, dar nu putem spunec cel de-al doilea este cu 1/2 mai inteligent dect primul sau c scorul 0 semnificabsena inteligenei).

    4. Msurarea la nivel de raport include toate caracteristicile nivelurilor anterioare(ordonare i intervale egale), plus existena unei "origini" sau zero absolut. Acestlucru permite formularea unor afirmaii n termeni de proporii (raporturi) ntre valori.De exemplu, vitezele de raspuns a doi subieci la un acelai stimul pot fi comparate ntermeni de "timpul de rspuns a fost de dou ori mai mare" etc.. Exemple de variabilemasurate la acest nivel sunt vrsta, greutatea, nlimea, distana, numrul de copii dingospodrie etc.

    Corecta identificare a nivelului de msurare utilizat este foarte important n alegereaprocedurilor satistice de analiz. Dup cum se poate observa din descrierea de mai sus,pentru fiecare nivel exista operaii matematice permise i operaii interzise. Astfel, laprimul nivel, cel nominal nu sunt permise nici ordonarea, nici adunarea/scderea i nicinmulirea/mprirea. La nivelul ordinal este permis numai ordonarea, la cel de intervalsunt permise n plus i operaiile de adunare/scdere, iar la ultimul nivel, cel de raportsunt permise toate operaiile.

    n funcie de nivelul de msurare, vom vorbi despre variabile msurate la nivelnominal, variabile msurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale,ordinale, de interval i de raport. Reducnd cele patru clase la dou, putem vorbi devariabile calitative (nivelurile nominal i ordinal) i variabile cantitative (interval iraport). Datorita caracterului "ierarhic" i cumulativ al nivelurilor de msurare (de lamulte restricii ctre nici o restricie n ceea ce privete operaiile permise, sau de la"calitativ" la "cantitativ"), vom putea ntotdeauna trata o variabil aflat la un nivel"superior" de msurare ca i cum ar fi fost msurat la un nivel "inferior". De exemplu,vrsta masurata n ani de via va putea oricnd fi tratat ca o variabil ordinal, dac igrupm valorile (sub 20, 21-30, 31-50, peste 50). Niciodat ns nu vom putea trata ovariabil aflat la un nivel "inferior" ca pe una aflat "mai sus" n ierarhie. (Cteodat,cercettorii fac excepie de la aceast regul, tratnd variabilele ordinale ca i cum ar fimsurate la nivel de interval. Totui, o dat cu dezvoltarea unor noi tehnici de analiz,dedicate special nivelelor de msurare "calitativ", aceste practici devin din ce n ce mairare.)

    nainte de a ncheia aceast scurt introducere, ar mai fi necesare cteva cuvintedespre utilizarea calculatoarelor n analiza statistic. Aplicaiile sau programele pentrucomputer care pot fi utilizate sunt foarte numeroase, ele variind n funcie decomplexitatea analizelor pe care le pot efectua i n funcie de uurina n utilizare (saualtfel spus n funcie de ct sunt de "prietenoase" cu utilizatorul). Pentru utilizatorii de

  • Microsoft Office, unul dintre cele mai la ndemn instrumente este MS Excel, carepoate efectua o serie de analize statistice - mai ales descriptive, fiind ns mai puin"dotat" la capitolul statistic inferenial (totui exist module care i pot mbuntiperformana n aceast privin). Dintre programele "dedicate" analizelor statistice, celmai rspndit la noi n ar pare a fi SPSS, datorit interfeei foarte prietenoase i deciuurinei n utilizare. O alt variant, mai puin rspndit dar care are avantajul de a ficomplet gratuit i prietenoas este VISTA ( http://www.visualstats.org ). Dezavantajulacesteia const n viteza relativ redus de lucru cu baze de date voluminoase (mai mult deo mie de cazuri).

    Bibliografie recomandat:

    Clocotici V., Stan, A., Statistic aplicat n psihologie, Polirom, 2000- capitolele 1-8

    Rotariu Traian (coordonator), Metode statistice aplicate n tiinele sociale, Polirom,1999-capitolele 1-8

    Sandu, Dumitru, Statistic n tiinele sociale , Universitatea Bucureti, 1992- capitolele 1, 2, 3, 6, 7

    Capitolul 1

    Descrierea variabilelor

    De obicei, dup colectarea datelor printr-o cercetare (fie ea de tip recensmnt -adic prin investigarea ntregii populaii, fie de tip sondaj - adic prin investigarea unuieantion), informaia este organizat ntr-o baz de date care de cele mai multe ori areforma unui tabel n care pe rnduri sunt aezate observaiile (unitile de analiz sauindivizii statistici), iar pe coloane variabilele (de obicei prima variabil fiind un"identificator" al subiecilor):

    2.1 Tabele de frecvene i graficePrezentarea informaiei coninute ntr-o baz de date se face de obicei sintetic,

    deoarece simpla listare a datelor "brute", primare - observaie cu observaie - nu poateoferi de cele mai multe ori o imagine de ansamblu a situaiei analizate. Cel mai simplumod de prezentare/descriere l reprezint tabelele de frecvene, sau mai bine zisdistribuia frecvenelor. Distribuia de frecvene este o list a valorilor (categoriilor)posibile ale unei variabile, nsoite de numrul de observaii care iau respectivele valori(care se afl n fiecare din respectivele categorii). n cazul variabilelor continue sau alcelor discrete cu un numr mare de valori, se recurge mai nti la o "grupare" a datelor nmai puine categorii (exemplu: comune sub 1000 de locuitori, ntre 1001 i 2000locuitori, ntre 2001 i 3000, 3001-4000 etc.). Tabelul 1.2 prezint o distribuie defrecvene a numarului de locuitori n comun, pentru comunele din Romnia. Cu ajutorul

    Tabelul 1.1: Baza de date coninnd indicatori demografici n mediul rural, la nivel de comune, 1998

    codullocalitii

    denumirea localitii populaia (numrde locuitori)

    numrnateri

    numrdecese

    numarsosii

    numrplecai

    1071 CIUGUD 2463 26 34 65 22 2130 ALBAC 2259 31 30 4 45 2309 ALMASU MARE 1873 21 35 13 20 2381 ARIESENI 1940 24 24 3 20 2577 AVRAM IANCU 2083 19 35 18 28 2988 BERGHIN 2048 23 45 44 24 3039 BISTRA 5385 57 74 33 84 3397 BLANDIANA 1160 6 24 22 10 3459 BUCIUM 2009 13 31 23 22 3761 CENADE 1048 11 11 4 14 3805 CERGAU 1756 26 34 22 25 3958 CETATEA DE BALTA 3468 57 48 4 63 4008 CIURULEASA 1463 18 18 10 29 4106 CALNIC 3078 52 54 75 28 ...

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

  • acestui tabel vom introduce dou noiuni noi, i anume acelea de frecvene relativerespectiv frecvene cumulate (respectiv distribuie cumulativ). Prima coloan atabelului conine valorile variabilei "numr de locuitori", grupate n categorii. Cea de-adoua coloan conine frecvenele de apariie ale acestor valori, sau cu alte cuvintenumrul de observaii (n cazul nostru comunele) aflate n fiecare categorie. Putem deciobserva ca n 1998 n Romnia existau 54 de comune cu 1000 sau mai puini locuitori,379 de comune cu 1001-2000 locuitori .a.m.d.. Ce-a de-a treia coloan a tabeluluiconine frecvenele relative, adic ponderea sau proporia observaiilor din fiecarecategorie n totalul observaiilor. Putem afirma pe baza acestei informaii ca n Romniacomunele cu mai puin de o mie de locuitori reprezint 2,01% din totalul comunelor, ntimp ce ponderea comunelor cu 1001-2000 locuitori este de 14,11% .a.m.d..

    Formula de calcul a frecvenelor relative este

    Nnfr ii = , sau 100= N

    nfr ii , dac dorim s o exprimm n procente

    unde:- fri este frecvena relativ a categoriei (valorii variabilei) i- ni este frecvena absolut a categoriei i (numarul de cazuri sau observaii care

    aparin respectivei categorii)- N este numrul total de observaii

    Cea de-a patra coloan a tabelului conine distribuia cumulativ a frecvenelorrelative, i reprezint suma dintre frecvena relativ a respectivei categorii i frecvenelerelative ale categoriilor inferioare. Informaia oferit de frecvenele cumulate este foarteimportant, deoarece ea permite enunarea unor afirmaii cum ar fi: "n 1998, comunelecu o populaie sub 3001 locuitori reprezentau 40,36% din totalul comunelor dinRomnia". Este de la sine neles c a calcula frecvene cumulate pentru variabilenominale nu are nici un sens, din moment ce valorile acestui tip de variabile nu pot fiordonate.

    Reprezentarea grafic a unui tabel de frecvene se face de obicei cu ajutorul uneihistograme (Graficul 1.1) sau a unei diagrame-bar (Graficul 1.2). n cazul ambelor tipuride grafice, pe axa vertical sunt reprezentate frecvenele (absolute sau relative) iar pe axa

    Tabelul 1.2 Distribuia de frecvene a numrului de locuitori n comun, pentru comunele Romniei

    Numarul delocuitori n comun

    frecvena (absolut) frecvena relativ(%)

    frecvena relativcumulat (%)

    1000 sau mai puini 54 2,01 2,011001-2000 379 14,11 16,122001-3000 651 24,24 40,363001-4000 602 22,41 62,774001-5000 391 14,56 77,335001-6000 267 9,94 87,276001-7000 145 5,40 92,677001-8000 87 3,24 95,90peste 8000 110 4,10 100

    Total 2686 100

    Graficul 1.1 Histograma distanelor de la centrul comunei pn lacel mai apropiat ora cu peste 30 de mii de locuitori

    Distanta (km) pina la cel mai apropiat oras cu peste 30000 de locuitori

    140135

    130125

    120115

    110105

    10095

    9085

    8075

    7065

    6055

    5045

    4035

    3025

    2015

    105

    0

    Frec

    vent

    e ab

    solu

    te

    400

    300

    200

    100

    0

    Graficul 1.2 Diagrama bar - distribuia strii civile a capului degospodrie ntr-un eantion de 32200 de gospodrii

    Starea civila a capului gospodariei

    necasatorit(a)vaduv(a)

    divortat(a)uniune consensuala

    casatorit(a)Fr

    ecve

    nte

    rela

    tive

    100

    80

    60

    40

    20

    0

    orizontal sunt reprezentate valorile variabilei analizate. Totui, cele dou tipuri degrafice sunt utilizate difereniat: histograma este recomandat numai n cazul variabilelormsurate la nivel de interval sau de raport, n timp ce diagrama-bar se folosete depreferin pentru variabile nominale i ordinale. Aceast diferen provine din modul lorde construcie:- n cazul histogramei, fiecare bar nu reprezint o singur valoare a variabilei ci un

    interval de valori. nconsecin, limea bareivariaz odat cu mrimeaintervalului, aceasta din urmfiind stabilit de ctrecercettor. Valorile de pe axaorizontal a graficuluireprezint centrele acestorintervale. Histograma esterecomandat n cazulvariabilelor "cantitative"tocmai pentru faptul c acesttip de variabile fie suntcontinue, fie au un numrfoarte mare de valori chiar dacsunt discrete. Stabilireamrimii intervalelor nu este osarcin uoar: intervale preamari (adic bare puine) pot

    duce la pierderea de informaie, n timp ce intervale prea mici (adic un numr prea marede bare) poate ascunde regularitile distribuiei.- n cazul diagramei-bar, fiecare bar corespunde unei singure valori (categorii) a

    variabilei. n plus, pentru aevidenia faptul c datele nusunt continue, barele nu suntlipite ntre ele, ca n cazulhistogramei.

  • Graficul 1.3 Distribuie bimodal - histograma variabilei"nivel de educaie", pentru angajaii unei bnci

    Numar de ani de scoala

    222018161412108

    frecv

    ente

    abs

    olut

    e

    200

    100

    0

    2.2 Tendina central, variaia i forma distribuiein general, o descriere complet a unei variabile se face urmrind trei

    caracteristici ale acesteia:a) tendina central (sau centrul distribuei) - adic valoarea "tipic" a acelei variabileb) variaia variabilei - ca indicator al gradului de "mpratiere" a datelorc) forma distribuiei

    2.2.1 Indicatori (msuri) ai tendinei centrale

    Pentru a descrie centrul unei distribuii, sau tendina centrala a unei variabile,exist mai multe msuri. n aceasta seciune vor fi discutate cele mai des utilizate: modul,mediana i media.

    Modul este definit ca fiind valoarea cu frecvena cea mai mare a unei distribuii.Altfel spus, modul este acea valoare a variabilei care apare cel mai des ntr-uneantion sau ntr-o populaie.

    Termenul deriv din francezul "mode", adic mod. n cazul distribuiei variabilei "stareacivil a capului gospodriei" reprezentat n Graficul 1.2, modul este valoarea"csatorit()" (cu frecvena relativ 80%). De cele mai multe ori, pentru a simplificalucrul cu datele, valorilor variabilelor nominale li se acord convenional codurinumerice. De exemplu, pentru datele din Graficul 1.2, putem acorda codul 1 pentruvaloarea "csatorit()", codul 2 pentru valoarea "uniune consensual", codul 3 pentruvaloarea "divorat()" etc.. Chiar dac aceste coduri sunt numerice, ele trebuie privite canite simple simboluri convenionale. Utilizarea lor nu nseamn c valorile pot fiordonate sau c intervalele dintre valori sunt egale. n cazul n care valorile variabilei"stare civil" ar fi fost codificate ca mai sus, modul ar fi fost valoarea (codul) 1.

    Pentru datele din Tabelul 1.2, care prezint date grupate n intervale, vom vorbidespre un interval modal - i anume categoria "2001-3000 locuitori", deoarece aceastaeste "valoarea" (de fapt intervalul de valori) cu frecvena cea mai mare (651).

    Grafic, modul este valoarea variabilei creia i corespunde "vrful" distribuiei.Dei simplu de obinut, modul

    nu este ntotdeauna cea mai bunmsur a tendinei centrale, deoarecede multe ori depinde de grupareaarbitrar a datelor (de exemplu, pentrudatele din Tabelul 1.2 am fi obinut unalt mod dac datele ar fi fost altfelgrupate). De asemenea, nu rareori sentlnesc distribuii bimodale, n careexist dou valori diferite ale variabileicare apar cu o aceeai "cea mai mare"frecven. Grafic, o distribuie

    Tabelul 1.3 Distribuia notelor pentru 80 de studeni

    Nota Frecveneabsolute

    Frecvenerelative (%)

    Frecvene relativecumulate (%)

    3 2 2,5 2,54 4 5 7,55 7 8,75 16,256 10 12,5 28,757 14 17,5 46,258 23 28,75 759 14 17,5 92,510 6 7,5 100

    Total 80 100

    bimodal este o distribuie cu dou "vrfuri" (Graficul 1.3).

    Mediana este acea valoare a unei variabile care mparte seria ordonat de date ndou pri egale, astfel nct 50% din observaii se vor situa deasupra valoriimediane iar 50% dedesubtul ei.

    S lum de exemplu notele pe care 7 studeni le primesc la examenul de statistic (dupce le-am ordonat n prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, 10. Mediana acesteiserii de date este 8, deoarece ea divide seria de date n dou pari egale: 3 dintre studeni(observaii) au note mai mici dect 8 i trei dintre ei au note mai mari. Nota 8 este exactla "mijlocul" seriei de date (dup ordonare). Este important de reinut c ceea ce conteazapentru stabilirea medianei este numrul de observaii pe care se face analiza, i nunumrul de valori ale variabilei.

    Calculul medianei este relativ simplu atunci cnd avem de-a face cu un numrmic i impar de observaii. Lucrurile se complic puin atunci cnd numrul de observaiieste par, sau dac numrul de observaii e foarte mare i e nevoie s apelm la tabele defrecvene. Lucrurile se complic i mai mult dac datele de care dispunem sunt dategrupate n intervale, ca n Tabelul 1.2.

    n cazul n care avem de-a face cu un numr par de observaii nu va mai exista osingur valoare la mijlocul seriei de date, ci vom avea dou valori. n aceast situaie,mediana se afl la mijlocul "distanei" dintre aceste valori, sau cu alte cuvinte, este medialor. S presupunem c am dori sa calculm mediana pentru o serie de 8 studeni, deci unnumr par de observaii. Dup ordonare, datele arat astfel: 5, 5, 6, 7, 8, 9, 9, 10. Lamijlocul seriei se afl valorile 7 i 8. Mediana va fi deci 7,5.

    Pentru situaiile n care suntem nevoii s calculm mediana pe baza dateloroferite de un tabel de frecvene,vom utiliza frecvenelecumulate, i vom cuta aceavaloare a variabilei sub care seafl 50% din cazuri. Pentrudatele din Tabelul 1.3, 28,75%din observaii iau valoarea 6sau o valoare mai mic,46,25% iau valoarea 7 sau maipuin, iar 75% iau valoarea 8sau o valoare mai mic.Rezult de aici c notamedian nu poate fi 7 sau altnot mai mic (deoarece numai 46,25% dintre studeni iau nota 7 sau mai puin).Mediana va fi n consecin 8, deoarece, chiar dac avem un numr par de observaii,ambele valori care se gsesc la mijlocul seriei de date sunt egale cu 8.

    n cazul n care avem de-a face cu un tabel de frecvene care conine date grupaten intervale de valori (aa cum este Tabelul 1.2), valoarea medianei poate fi calculat cuajutorul formulei:

  • Ln

    ncN

    lMe

    += 2

    unde:- Me este mediana,- l este limita inferioar a intervalului care conine mediana- N este numrul total de observaii- nc este frecvena absolut cumulat a tuturor categoriilor care preced intervalul

    care conine mediana (adic numrul de observaii care iau valori mai mici dectl)

    - n este frecvena intervalului care conine mediana- L este lrgimea sau mrimea intervalului care conine mediana

    Exemplu de calcul al medianei pe baza datelor din Tabelul 1.2:Din tabel reiese ca mediana este coninut n intervalul 3001-4000 locuitori, deoarecefrecvenele relative cumulate ale categoriilor precedente sunt mai mici de 50%, iarfrecvena cumulat a intervalului 3001-4000 este aproximativ 63%. Limita inferioar aacestui interval este deci l = 3001. Observaia creia i corespunde mediana (numit iindivid median) este observaia care se afl exact la mijlocul seriei ordonate de date, cualte cuvinte este observaia N/2, n cazul nostru observaia cu numrul 1343. Dacscdem din acest numr numrul total de observaii care au valori mai mici dect 3001,obinem 1343 - 1084 = 259, unde 1084 = 54 + 379 + 651 este valoarea lui nc din formulamedianei (obinut prin cumularea frecvenelor categoriilor precedente intervalului careconine mediana). Cu alte cuvinte, observaia creia i corespunde mediana este cea de-a259-a observaie din categoria "3001-4000 locuitori", categorie care apare cu frecvena n= 602. Am putea acum s ne ntrebm: dac la 602 comune corespunde o cretere anumrului de locuitori cu L=1000 (de la 3001 la 4000), atunci la 259 de comune ct vacorespunde? Rspunsul e dat de regula de trei simpl, coninut oarecum i n formulamedianei: 2,4301000

    602259

    = . Cu alte cuvinte, mediana este egala cu 3001 + 430 = 3431locuitori.

    Mediana este un caz special de msur a localizrii. Msurile localizrii sunt de obiceicunoscute sub numele de percentile sau quantile. Pentru cazul general, numim percentilap acea valoare sub care se afl p% din cazuri i deasupra creia se afl (100-p)% dincazuri. De exemplu, mediana este percentila 50. Cele mai cunoscute msuri ale localizriisunt quartilele, quintilele i decilele. Quartilele sunt acele valori ale seriei de date care ompart n patru pri egale, quintilele sunt valorile care o mpart n cinci pri egale, iardecilele n 10. Sub quartila 1 se afl 25% din cazuri, iar deasupra ei 75%. Sub quartila 2se afla 50% din cazuri, de unde reiese ca aceast quartil este chiar mediana. n sfrit,sub quartila 3 se afl 75% din cazuri, iar deasupra ei se afl 25% din cazuri (observaii).Din aceast scurt prezentare reiese c exist numai 3 quartile (Q1, Q2 i Q3), deoarecepentru a mpri o serie de date n m pri egale sunt suficiente m-1 valori. n statisticquartilele, decilele etc. se refer la valori ale variabilei. Totui, n tiinele sociale suntfolosite destul de des expresii cum ar fi "decila 10 de venituri", "cea mai srac quintil",

    X

    "persoanele aparinnd primei decile" etc. Aceste expresii se refer ns la observaiilecare iau valori cuprinse ntre anumite percentile (quantile) i nu la valorile variabilei.

    Media este probabil cea mai important i totodat cea mai popular msur atendinei centrale a unei distribuii. Ea se calculeaz ca sum a tuturor valorilorobservate ale seriei de date mprit la numrul de observaii:

    N

    x

    Nxxxx

    X

    N

    ii

    N

    =

    =

    ++++=

    1321 .......

    unde:este media

    xi reprezint valoarea variabilei pe care o ia observaia iN este numrul total de observaii (sigma) este simbolul folosit pentru a indica o sum

    De exemplu, pentru cei 7 studeni de mai sus, cu notele 5, 5, 6, 8, 9, 9, 10, suma noteloreste 52, numrul total de observaii este 7, iar media va fi 52 mprit la 7, adic 7,43.

    n cazul n care media trebuie calculat pe baza unui tabel de frecvene, formula devine:

    N

    xfX

    k

    jjj

    =

    =1

    unde:k este numrul de categorii (valori) ale variabileifj reprezint frecvena de apariie a categoriei jxj este valoarea categoriei jN este numrul total de observaii

    De exemplu, pentru datele din Tabelul 1.3, media este:

    31,780

    106914823714610574432=

    +++++++=X

    Pentru cazurile n care media trebuie calculat pentru date grupate n intervale, ca nTabelul 1.2, se aplic formula de mai sus, considerndu-se ca "valori ale variabilei"centrele de interval. Exemplu: pentru categoria "1001-2000 locuitori", centrul de intervaleste (1001 + 2000) / 2 = 1500,5. Bineneles c, pentru un astfel de exemplu, la finalulcalculelor media se va rotunji, deoarece atunci cnd vorbim despre populaia uneicomune nu o putem exprima dect n numere ntregi. Atunci cnd avem de-a face cu date

  • Graficul 1.4 Distributia consumului per capita al gospodriilor

    consumul per capita al gospodariilor (lei), in 1995

    49475000

    458333

    441667

    425000

    408333

    391667

    375000

    358333

    341667

    325000

    308333

    291667

    275000

    258333

    241667

    225000

    208333

    191667

    175000

    158333

    141667

    125000

    108333

    91667

    75000

    58333

    41667

    25000

    8333

    frecv

    ente

    abs

    olut

    e

    1400000

    1200000

    1000000

    800000

    600000

    400000

    200000

    0

    grupate n intervale, probleme pot aprea la calculul centrului de interval pentru prima irespectiv ultima categorie: n Tabelul 1.2, categoriile "1000 sau mai puini locuitori",respectiv "peste 8000 de locuitori". Dac se ntmpl ca valoarea minim i respectiv ceamaxim a seriei de date s fie cunoscute, atunci nu exist practic nici o problem. Dacaceste valori nu sunt cunoscute, rmne la latitudinea cercettorului s decid ce valoriurmeaz s atribuie respectivelor centre de interval.

    Cnd folosim una sau alta dintre msurile tendinei centrale?Decizia de a utiliza una sau alta dintre msurile tendinei centrale este strns

    legat n primul rnd de nivelul de msurare a variabilelor. Aa cum ne putem da seama,modul poate fi utilizat pentru toate cele patru niveluri de msurare. Mediana ns nupoate fi utilizat dect pentru nivelele care permit o ordonare prealabil a datelor, adicnumai pentru variabilele ordinale, de interval i de raport. n ceea ce privete media,aceasta poate fi calculat numai pentru variabilele masurate la ultimele dou nivele,adic cel de interval i respectiv cel de raport, deoarece n cazul celorlalte niveleoperaiile de adunare/scdere a valorilor variabilelor nu sunt permise.

    Un alt element important pentru a decide ce msur a tendinei centrale meritfolosit este existena observaiilor care au valori extreme. De fapt acest aspect este nstrns legatur cu forma distribuiei.

    S considerm de exemplu distribuia consumului per capita al gospodriilor, aacum este ea reprezentat n Graficul 1.4. Media acestei distribuii este 103087 lei iarmediana este 87354 lei lei (valorile sunt exprimate n preuri 1995). n ceea ce privetemodul, valoarea exact a acestuia nu are sens s fie calculat deoarece exist relativpuine situaii n care mai multe gospodrii au exact aceeai valoare a consumului percapita. Putem ns vorbi despre un interval modal, care se afl undeva n jur de 72000 lei.

    Dac dorim s aflm valoarea"tipic" a consumului per capitantr-o gospodrie pentru odistribuie ca cea din Graficul1.4, este mai indicat s utilizmmediana, deoarece modul decalcul al acesteia este maiapropiat n acest caz de ceea cenelegem noi n mod obinuitprin "centrul distribuiei": 50%dintre cazuri dedesubt i 50%deasupra. Mediana are avantajulde a nu fi influenat de valorile"extreme" ale seriei de date.Media seriei de date reprezentaten Graficul 1.4 este mai maredect mediana tocmai datoritexistenei unui numr relativ mic

    Graficul 1.5 Alungirea (oblicitatea)distribuiilor

    (a) modul, mediana i media coincid (sesuprapun)

    (b) mediana se afl la dreapta modului iarmedia se afl la dreapta medianei

    (c) mediana se afl la stnga modului iarmedia se afl la stnga medianei

    de gospodrii cu valori foarte mari ale consumului per capita, valori care "trag" mediaspre dreapta (sau cu alte cuvinte conduc ctre o valoare mai ridicat a acesteia n raportcu mediana).

    n concluzie, putem afirma c modul nu eo msur foarte adecvat a centrului uneidistribuii. El este util mai ales atunci cnd avemde-a face cu variabile msurate la nivel nominal,dar i n cazurile n care distribuiile studiate suntbi- sau multi-modale. Mediana este indicat maiales n cazurile n care dorim identificarea"valorilor tipice" ale unor distribuii asimetrice(vezi Graficul 1.5, b i c), care au valori extreme.Media, pe de alt parte, prezint marele avantajde a lua n calcul toate valorile unei serii de date.Aceasta este unul din motivele pentru care eacontinu s fie cea mai utilizat msur atendinei centrale. n plus ea mai are i alteproprieti utile, care vor fi discutate n capitoleleurmtoare.

    Poziiile relative ale modului, medianei i medieiGraficul 1.5(a) prezint o distribuie

    simetric, n care modul, mediana i mediacoincid, adic au practic aceeai valoare. Ce sentmpl n cazul distribuiilor asimetrice? Deexemplu, Graficul 1.5 (b) prezint o distribuie acrei parte din dreapta este alungit. Pentru agsi mediana, va trebui s ne deplasm la dreapta"vrfului" distribuiei, adic a modului, cu ctevaobservaii. Mediana se va afla deci la dreaptamodului. Mai mult dect att, datorit influeneiexercitate de cazurile aflate la extrema dreapt adistribuiei, valoarea medie va fi i mai maredect valoarea median, aa cum am vzut dealtfel i n exemplul distribuiei consumuluigospodriilor. Putem deci trage concluzia c fade mod, mediana se va gsi n direcia alungiriidistribuiei, iar media se va gsi n aceeaidirecie, chiar mai departe dect mediana.

  • 2.2.2 Msuri ale variaiei

    Msurile tendinei centrale sunt eseniale pentru descrierea unei caracteristici aunui eantion sau a unei populaii, ns ele nu sunt suficiente. Pentru descrierea completa unei variabile este foarte important s tim deasemenea i ct de "mprtiate" suntvalorile acesteia n jurul tendinei centrale sau, cu alte cuvinte, ct de omogen respectiveterogen este populaia (eantionul) studiat n raport cu o anumit caracteristic. Slum ca exemplu performana la o anumit materie a unei grupe de 80 studeni, msuratcu note de la 1 la 10 (datele sunt prezentate n Tabelul 1.3). Nota medie a respectiveigrupe este 7,31. Aceast informaie ns pare a fi insuficient pentru a ne putea pronunaasupra performanei respectivei grupe. ntrebarea pe care ne-o punem n mod natural este:ct de omogen este respectiva grup n ceea ce privete performana colar?

    Un prim rspuns la aceast ntrebare l putem da prin simpla examinare a intervaluluin care sunt cuprinse notele respectivilor studeni, sau mai bine zis prin calculareaamplitudinii variabilei. Amplitudinea unei variabile este diferena dintre valoareamaxim i valoarea minim a acelei variabile. Pentru exemplul nostru, amplitudineaeste 10 - 3 = 7 puncte. Deci, cei 80 de studeni sunt distribuii de-a lungul unuiinterval de apte puncte.

    O msur a variaiei mai rafinat dect amplitudinea o reprezint abatereainterquartil, care se calculeaz ca diferen ntre quartila 3 i quartila 1. Abatereainterquartil msoar mprtierea celor 50% din observaii aflate la mijloculdistribuiei. Ea are practic aceleai avantaje pe care le are i mediana ca msur atendinei centrale, i anume nu este influenat de existena cazurilor extreme.

    De cele mai multe ori suntem ns interesai s folosim o msur a variaiei uneivariabile care s includ toate observaiile, nu numai dou dintre ele ca n cazulamplitudinii i abaterii interquartile. n plus, suntem interesai s examinm variaian raport cu o msur a tendinei centrale. De obicei, msurile care satisfac acestedou cerine sunt bazate pe abaterile observaiilor de la medie. Abaterea de la mediea unei observaii este diferena dintre valoarea pe care o ia respectiva observaie imedia variabilei ( Xxi ).Una din proprietile mediei este ns aceea c sumatuturor abaterilor individuale de la medie este egal cu 0:

    =

    =

    n

    ii Xx

    10)( (sau cu alte

    cuvinte, abaterile pozitive se vor anula cu cele negative). n consecin, pentru aobine o msur a variaiei la nivelul ntregului eantion sau a ntregii populaiitrebuie utilizat fie suma valorilor absolute ale abaterilor individuale de la medie, fiesuma ptratelor acestor abateri.

    Abaterea medie absolut este definit ca medie aritmetic a abaterilor individualeabsolute (ignornd semnul acestora) de la media variabilei:

    = XxNAMA i1

    O alt msur, mult mai rspndit, este variana variabilei. Variana (sau dispersia)se definete ca fiind media aritmetic a ptratelor abaterilor individuale de la medie:

    = 2)(1 XxNVarianta i Din motive teoretice care nu vor fi expuse n acest manual, pentru calcularea varianeila nivel de eantion se folosete formula:

    =22 )(1

    1 XxN

    s i ,

    iar pentru date grupate n tabele de frecvene (ca n Tabelul 1.3):

    = jj fXxNs 22 )(1

    1

    unde:xj este valoarea variabilei pe care o ia grupa jfj este frecvena absolut de apariie a lui xj

    Deoarece variana, datorit ridicrii la ptrat, este destul de dificil de interpretat, ceamai utilizat msur a variaiei unei variabile, pentru scopuri descriptive, esteabaterea standard, definit ca radical de ordinul doi (rdcin ptrat) din varian:

    2ss =

    Din formula abaterii standard reiese clar c abaterea standard va fi cu att maimare cu ct valorile pe care le iau observaiile se abat mai mult de la medie. Sconsiderm de exemplu notele la o materie a dou grupe mici de elevi, ambele serii dedate avnd media 6 i amplitudinea 8:

    Grupa 1: 2, 4, 6, 6, 8, 10Grupa 2: 2, 2, 5, 7, 10, 10

    ntrebarea pe care ne-o putem pune este: ct de omogene sunt cele dou grupe?Calculul abaterilor standard arat c n prima grup s1 = 2,8, iar n a doua s2 = 3,6. Esteclar deci c prima grup e mai omogen dect a doua, n care variabilitatea performaneie mai mare.

    n exemplul de mai sus am comparat dou grupe de subieci din punct de vedereal omogenitii pentru o aceeai caracteristic. ns atunci cnd trebuie analizmomogenitatea unei singure populaii sau a unui eantion apar ntrebari al cror rspuns emai dificil de dat: "cum interpretm magnitudinea abaterii standard?", "cnd putem spunec avem o abatere standard mic sau una mare?", "cum putem compara omogenitateaunei populaii pentru dou variabile diferite?". Practic, rspunsul la prima ntrebaredepinde n mare msur i de alte caracteristici ale distribuiei. Pentru un anumit tip dedistribuii interpretarea magnitudinii abaterii standard este mai uoar, i acest lucru va fitratat n Capitolul 2 al acestui manual. n cazul celorlalte dou ntrebri un rspunssatisfctor poate fi dat cu ajutorul unei alte msuri, numite coeficient de variaie,calculat ca raport ntre abaterea standard i media unei varibile:

  • XsCV =

    Prin modul de calcul, coeficientul de variaie are avantajul de a fi o msuradimensional (fr unitate de msur), deoarece unitatea de msur a abaterii standardeste aceeai cu cea a mediei. n consecin, el este foarte util n compararea variaiei adou variabile msurate pe aceai populaie/eantion. Putem astfel trage concluzii detipul: "populaia A este mai eterogen n privina caracteristicii X dect n privinacaracteristicii Y", concluzii imposibil de formulat numai cu ajutorul abaterii standarddeoarece abaterea standard este o msur dimensional i deci nu putem compara "merecu pere" (de exemplu abaterea standard a performanei colare cu abaterea standard aveniturilor familiei). Prin modul su de calcul coeficientul de variaie indic practic ct lasut din medie corespunde unei abateri standard, ceea ce face mai uor de evaluat gradulde omogenitate a populaiei studiate. O populaie cu o abatere standard egal sau maimare dect media poate fi considerat n cele mai multe cazuri o populaie eterogen, ntimp ce o populaie a crei abatere standard reprezint 0,3 (30%) din medie poate ficonsiderat o populaie relativ omogen. Este important ns de reinut faptul c acestcoeficient nu poate fi calculat dect n cazul variabilelor msurate la nivel de raport,deoarece n cazul variabilelor nominale i ordinale abaterea standard nu poate ficalculat, iar n cazul variabilelor msurate la nivel de interval media este unaconvenional, ceea ce face posibil transformarea variabilei prin adunarea unei constantela valorile acesteia, fr ca semnificaia valorilor variabilei s se modifice O astfel detransformare ar lsa nemodificat abaterea standard (lucru care poate fi demonstratmatematic) ns ar modifica media variabilei. Ori aceasta nseamn c pentru aceeaicaracteristic am putea calcula coeficieni de variaie diferii ca valoare.

    2.3 Transformarea unei variabile cu ajutorul scorului z

    n practica analizei de date se ntmpl de multe ori s dorim s comparm douobservaii ntre ele, pentru o aceeai variabil, din punct de vedere al distanei lor fa demedie. Dar acest tip de informaie asupra poziiei relative a unor observaii nu oferntotdeauna o informaie mulumitoare. Cercettorul poate fi interesat s evaluezemagnitudinea distanei dintre valoarea pe care o ia o observaie i medie n raport cudistana medie n eantion. Cu alte cuvinte, el se poate ntreba: ct de mare este abatereade la medie a unei (unor) observaii n raport cu abaterea medie observat n populaie?De asemenea, se poate ntmpla s dorim s comparm poziia relativ a aceleiaiobservaii fa de mediile a dou variabile. n acest caz ns, unitile de msur imagnitudinea valorilor variabilelor ne pot mpiedica s facem o comparaie cu sens. O

    soluie a acestor probleme estetransformarea sau standardizareavariabilelor cu ajutorul scorului z.

    S presupunem c neintereseaz s aflm ce s-antmplat cu rata omajului njudeul Brila n perioada 1995 -1997. n Tabelul 1.4 sunt prezentate

    Tabelul 1.4Total judeeJudeul

    Brila Medie Abaterestandard

    Rata n omajului 1995 10.8 9.705 3.384Rata omajului n 1997 13.5 9.088 2.960

    valorile ratei omajului n judeul Brila pentru anii 1995 i 1997, precum i mediile iabaterile standard ale ratelor omajului pe judee n anii menionai. Dac ne vom uita laevoluia omajului numai pentru judeul analizat, vom sesiza o cretere considerabil aratei omajului, fr s putem spune nimic ns despre evoluia acesteia n raport cuevoluia celorlate judee. Standardizarea celor doua variabile (rata omajului n 1995,respectiv rata omajului n 1997) ar putea s ne ofere informaii n plus. Standardizareavalorilor unei variabile X se face dup formula:

    sXx

    z ii

    =

    unde:zi este valoarea pe care o ia observaia i dup transformarea variabileixi este valoarea pe care o ia observaia i pentru variabila XX este media variabilei Xs este abaterea standard a variabilei X

    Rezultatul acestei transformri va fi o nou variabil Z care va avea ntotdeauna mediaegala cu 0 i abaterea standard egal cu 1, datorita formulei de calcul. Practic, putemspune c unitatea de msur a noii variabile Z este chiar abaterea standard a variabilei X.Scorurile z ne vor informa asupra distanei la care se gasete o observaie fa de mediaseriei de date, distan msurat n abateri standard ale variabilei originale X. Esteimportant de reinut faptul c aceast transformare nu modific n nici un caz formadistribuiei variabilei. Dac aplicm formula de mai sus pe datele din exemplul nostruvom obine valorile standardizate ale ratelor omajului n 1995 i 1997 din judeul Brila:

    zs95B = 0,32 i respectiv zs97B = 1,49

    De aici rezult c n 1995 judeul Brla se gsea la numai 0,32 abateri standard fa demedia omajului pe judee, iar n 1997 omajul n respectivul jude era cu 1,49 abateristandard mai mare dect media, ceea ce poate fi interpretat ca o nrutaire semnificativa poziiei relative a acestui jude n privina ocuprii forei de munc.

    2.4 Variabile dihotomice

    n ultima seciune a acestui capitol ne vom ocupa de un tip mai special devariabile, i anume variabilele dihotomice sau binare, adic variabile care au dou valoriposibile. Exemple de astfel de variabile sunt intenia de a fi prezent la vot (da/nu),succesul sau eecul unui program de dezvoltare etc. Acest tip de variabile sunt deosebitde utile n practica analizelor statistice deoarece, la limit, ele pot fi considerate ca fiindmsurate la nivel de raport. Dac vom codifica valorile unei astfel de variabile cu 0respectiv 1 vom obine o variabil care practic msoar prezena sau absenacaracteristicii studiate (intenia de a se prezenta la vot, succesul programului dedezvoltare etc.). Ele vor avea deci un 0 absolut (absena caracteristicii) i o unitate demsur (prezena caracteristicii). n aceste condiii ne putem ntreba cum se calculeazmedia i respectiv abaterea standard ale acestor variabile.

  • Dac lum ca punct de plecare formula de calcul a mediei pentru date grupateprezentat n seciunea 2.2, atunci vom avea:

    pNf

    Nff

    N

    xfX

    k

    jjj

    ==

    +==

    = 1101 10 ,

    unde f0 este frecvena absolut de apariie a lui 0, iar f1 este frecvena absolut de apariiea lui 1. Cu alte cuvinte, media unei variabile dihotomice este chiar frecvena relativ deapariie a valorii 1 (numrul de observaii care iau valoarea 1 mprit la numrul total deobservaii ale seriei de date), adic frecvena relativ (notat aici cu p) a cazurilor n carecaracteristica studiat este prezent. Dac analiza este efectuat pe o populaie i nu pe uneantion, atunci vom spune c media unei variabile dihotomice este chiar probabilitateade apariie a caracteristicii studiate (aceasta ns numai n cazul n care respectivavariabil este codificat 0/1).

    Similar cu demonstraia n cazul mediei, se poate arta ca formula abateriistandard pentru o variabil dihotomic este:

    )1( pps = ,

    unde p este frecvena relativ a prezenei caracteristicii studiate.

    Exerciii i probleme

    1. Veniturile gospodriilor locuitorilor rii Alfa, care cuprinde 87 de milioane degospodrii, sunt distribuite n jurul unei valori medii de 27000 Alfa-lei i o median de22000 Alfa-lei.

    a. Ce se poate spune despre simetria distribuiei veniturilor?b. Care este venitul ntregii ri (toate cele 87 de milioane de gospodrii)?

    Pentru urmtoarele ntrebri, s se ncercuiasc varianta corect /variantele corecte:

    2. Decila 5 este o masura a: 1. tendintei centrale2. variatiei3. formei distributiei4. nici una dintre acestea

    3. Valoarea sub care se afla 50% dintre cazurile serieide date ordonate de la minim la maxim este:

    1. media2. quartila 23. modul4. abaterea standard5. nici una dintre acestea

    4. Valorile variabilei ocupatie, intr-un grup de 5persoane, sunt: 1, 3, 3, 4, 5. Tendinta centrala inacest grup, pentru variabila ocupatie, poate fidescrisa prin:

    1. media egala cu 3,22. mod egal cu 33. mod egal cu 24. mediana egala cu 35. nici una dintre acestea

  • Capitolul 2

    Distribuii de probabilitate

    2.1 Probabilitate: noiuni introductive

    Cel mai simplu i mai des ntlnit exemplu pentru o definire intuitiv a noiunii deprobabilitate este aruncarea zarului, care st de altfel la baza teoriei probabilitilor, celpuin din punct de vedere istoric. Ce s-ar ntmpla dac am arunca un zar (ne-trucat) de50 de ori? Dar daca l-am arunca de numai 10 ori? Dar dac l-am arunca de ctevamilioane de ori? Cum ar arta distribuia frecvenelor relative pentru fiecare din cele treicazuri de mai sus? Deoarece zarul nu este trucat, ne ateptm ca fiecare din cele 6 fee alesale s aib aceeai "probabilitate" de a cdea n sus la fiecare aruncare. Cu alte cuvinte,"ntmplarea" va hotr care fa va iei "ctigtoare". n acest caz, am putea simulaaruncarea zarului cu ajutorul unui tabel cu numere aleatoare, lund n considerare numainumerele de la 1 la 6. S vedem cum arat frecvenele relative (de data aceasta nu le vommai exprima n procente, ci le vom calcula simplu ca f/n, adica frecvena absolut (deapariie a unei fee a zarului) mparit la numrul total de aruncri. n acest caz putemprivi fiecare aruncare ca pe o observaie, iar numrul total de aruncri ca pe mrimeaeantionului.

    n tabelul de mai sus observm un un fenomen la care de altfel ne ateptam: cu ctcrete numrul de aruncri, cu att frecvenele relative se apropie de egalitate - i aceastadeoarece, aa cum am mai spus, dac un zar e "cinstit" atunci fiecare fa a sa are aceeai"ans" de apariie. Dac numrul de aruncri este mic, frecvenele relative fluctueazputernic. Pe msur ns ce numrul de aruncri (sau altfel spus mrimea eantionului)crete ele vor tinde ctre o valoare pe care o numim probabilitate. Desigur, dac zarul arfi fost trucat, nu am mai fi putut "ghici" c probabilitatea de apariie a unei fee este 1/6,ci ar fi trebuit s estimm probabilitatea printr-un numr de aruncri care s tind catreinfinit.

    Putem considera aruncarea cu zarul din exemplul de mai sus ca pe un experimentcu 6 rezultate (cele 6 fee ale zarului). De obicei ns, un "experiment" are un set de

    Tabelul 2.1 Distribuia frecvenelor relative ale valorilor unui zar, pentru eantioane de mrime diferit(numr de aruncri)

    Frecvene relative f/n, unde n este numrul de aruncri cu zarulNumr de puncte n = 10 n = 50 n = 1 0,10 0,22 1/6 = 0,1672 0 0,12 1/6 = 0,1673 0,10 0,14 1/6 = 0,1674 0,20 0,14 1/6 = 0,1675 0,30 0,14 1/6 = 0,1676 0,30 0,24 1/6 = 0,167

    1,00 1,00 1,00

    rezultate mult mai complex. S considerm de exemplu un experiment care const dinaruncarea repetat de trei ori a unei fise colorate cu albastru pe o parte i cu galben pecealalt. Un rezultat posibil al acestui experiment ar fi AGA, adica albastru, galben,albastru (culoarea feei cu care fisa cade n sus). Care este probabilitatea acestui rezultat?Teoretic, ar trebui s repetm acest experiment de milioane i milioane de ori i scalculm frecvena relativ de apariie a respectivului rezultat. Mai simplu ar fi ns srecurgem la un experiment mental. Care sunt rezultatele posibile ale acestui experiment?Iat o listare a lor: AAA, AAG, AGA, AGG, GAA, GAG, GGA i GGG, adic 8rezultate. S presupunem c fiecare fa a fisei are aceeai probabilitate de apariie;aceasta nseamn c fiecare din rezultatele menionate va avea aceeai probabilitate, adic1/8. Deci, probabilitatea rezultatului AGA este 1/8. Putem fi ns interesai de un subsetal setului complet de rezultate, sau cu alte cuvinte de un anumit eveniment, cum ar fi "celpuin de doua ori galben". Acest eveniment este format din subsetul de 4 rezultate {AGG,GAG, GGA, GGG}. Care este probabilitatea acestui eveniment? Rspunsul intuitiv icorect este 4/8. Cu alte cuvinte, probabilitatea unui eveniment este suma probabilitilorrezultatelor incluse n acel eveniment.

    Evenimente combinateS presupunem acum c ne intereseaz probabilitatea de apariie a urmtoarei

    combinaii: "mai puin de dou ori galben sau toate de aceeai culoare". S notm cu Jevenimentul "mai puin de dou ori galben" i cu H evenimentul "toate de aceeaiculoare". Evenimentul J include rezultatele {AAA, AAG, AGA, GAA}, iar evenimentulH include rezultatele {GGG, AAA}. Evenimentul "J sau H", care ne intereseaza pe noi vainclude deci rezultatele {AAA, AAG, AGA, GAA, GGG} i va avea probabilitatea 5/8,deoarece avem 5 rezultate din 8, iar rezultatele n exemplul nostru au probabiliti egale(1/8). Putem deci defini evenimentul "J sau H" ca fiind acel subset de rezultate care suntincluse fie n J, fie n H, fie n amndou. Similar, vom defini evenimentul "J i H" cafiind acel subset de rezultate care se gsesc att n J ct i n H (n cazul nostru e vorbade {AAA}, deci probabilitatea lui "J i H" este 1/8). Conform exemplului de mai sus, amputea scrie:

    Pr(J sau H) = Pr(J) + Pr(H) - Pr(J i H),

    deoarece n exemplul de mai sus nu am numrat de dou ori rezultatul {AAA}, ci numaio dat. Cu alte cuvinte, scderea probabilitii lui "J i H" a fost facut tocmai pentru aelimina dubla numrare a unor rezultate. n cazul n care avem de-a face cu douevenimente, s zicem I i K, mutual exclusive, adic Pr(I i K) = 0, atunci

    Pr(I sau K) = Pr(I) + Pr(K)

    Probabiliti condiionateS presupunem acum c n timpul celor 3 aruncri (deci pe parcursul

    experimentului) se tie c a aprut evenimentul J (mai puin de dou apariii ale feeigalbene pe parcursul celor trei aruncri ale fisei). Care este probabilitatea ca H s sentmple? - adic la toate aruncrile s apar aceeai culoare. Cu alte cuvinte, dac ar fi sne imaginm foarte multe repetiii ale experimentului i s luam n considerare numai

  • acele cazuri n care apare J, ct de des va aprea H? n termeni de probabiliti, aceastanseamn c dorim s aflm probabilitatea lui H condiionat de J, notat cu Pr(H|J).

    S presupunem c repetm experimentul de 100 de milioane de ori. Cumprobabilitatea de apariie a lui J este de 4/8, aceasta nseamn ca J apare de 50 demilioane de ori. Pe de alt parte, din cele patru rezultate incluse n J, numai unul esteinclus i n H, i anume {AAA}, care are probabilitatea 1/8, deci apare de 12,5 milioanede ori. Deducem de aici c H apare de 12,5 milioane de ori din 50 de milioane, sau altfelspus Pr(H|J) = 12,5/50 = 1/4 = 0,25. S ncercm acum s scriem forma general a uneiprobabiliti condiionate:

    )Pr()Pr()Pr(

    JHsiJJH =

    De aici putem deduce c:

    Pr(J i H) = Pr(J)Pr(H|J)

    Independen

    n statistic independena este un concept foarte precis, care se definete cuajutorul probabilitilor. Vom ilustra aceasta cu ajutorul unui exemplu. ntr-un orasituaia ocuprii populaiei de vrst activ (200.000 de persoane) arat ca n tabeleleprezentate n Exemplul 2.1. Primul tabel (a)reprezint numrul de indivizi omeri,respectiv ocupai, n funcie de sex. Cel de-aldoilea tabel (b) reprezint probabilitile deapariie pentru fiecare din cele 4 situaiiposibile: a fi femeie i a fi omer - Pr (F i S),a fi brbat i a fi omer - Pr(B i S) etc. Sumaprobabilitilor din cele 4 celule ale tabeluluieste egal cu 1 (orice probabilitate variazntre 0 i 1). Probabilitile din fiecare celulau fost calculate dupa formula fi/n, unde fi estefrecvena absolut a unei celule (de exemplunumrul de femei omere) iar n este totalulpopulaiei de vrst activ (n exemplul nostru 200.000). S ncercm acum s rspundemla ntrebarile:

    a) Care este probabilitatea ca o persoan extras la ntmplare din populaia devrst activ s fie omer - Pr(S)?

    b) Care este probabilitatea ca o persoan s fie omer, atunci cnd este femeie -Pr(S|F)?

    Iat i soluiile:

    Exemplul 2.1 Este omajul dependent desexul indivizilor?

    (a) Frecvene absoluteomeri ocupai

    femei 15600 88400brbai 14400 81600

    (b) Probabilitiomeri ocupai

    femei 0.078 0.442brbai 0.072 0.408

    a) Pr (S) = 0,078 + 0,072 = 0,15, sau cu alte cuvinte, rata omajului n respectivul oraeste de 15%. La acelai rezultat am fi ajuns i dac am fi calculat probabilitatea de a fiomer mprind numrul total de omeri (15600 + 14400) la totalul populaiei devrst activ (200000).

    b) 15,052,0078,0

    )Pr()Pr()Pr( ===

    FFsiSFS

    Deoarece probabilitatea calculat la punctul a) este egal cu probabilitatea calculat lapunctul b), putem spune ca probabilitatea de a fi omer (S) nu este afectat de faptul c opersoan este femeie (F). Acest tip de independen, definit n termeni de probabiliti,se numete independen statistic. Putem acum s dm definiia exact a independenei:

    L se numete independent statistic de M dac Pr(L|M) = Pr(L).

    Consecina acestei definiii este foarte important: de aici rezult c dac avem douaevenimente independente J i H, atunci:

    Pr(J i H) = Pr(J)Pr(H|J) = Pr(J)Pr(H).

    Mai mult dect att, dac H este independent de J, atunci i J trebuie s fieindependent de H.

    2.2 Variabile aleatoare

    Cazul variabilelor discreteS ne imaginm acum c dorim s analizm populaia familiilor cu trei copii, i

    suntem interesai de numrul de fete pe care o astfel de familie l-ar putea avea. Putem sconsiderm o familie cu trei copii ca pe un experiment oarecum similar cu cel dinseciunea precedent: ntr-o familie care i planific s aib trei copii, rezultatele posibilesunt: biat, biat, biat (BBB), biat, biat, fat (BBF) etc. ntr-o astfel de familienumrul de fete poate fi 0, 1, 2 sau 3. Dacprobabilitatea de a se nate o fat este egal cuprobabilitatea de a se nate un biat, atuncifiecare din rezultatele posibile are aceeaiprobabilitate 1/8. S complicm puin lucrurile is presupunem c probabilitatea de a se nate ofat este de 0,45, iar probabilitatea de a se nateun biat este 0,55. Aceasta nseamn caprobabilitatea ca primul copil s fie o fat este de0,45, iar probabilitatea ca al doilea copil s fie ofat este 0,45. De unde deducem ca probabilitateaca primii doi copii s fie fete este egal cu 0,45din 0,45, adic 0,45 x 0,45 = 0,202. Tot astfel putem calcula i probabilitatea ca toi treicopiii s fie fete, adic Pr(FFF) = 0,45 x 0,45 x 0,45 = 0,091. n Tabelul 2.2 suntprezentate probabilitile de apariie ale rezultatelor acestui experiment. Revenind la

    Tabelul 2.2r Pr(r)

    BBB 0,166BBF 0,136BFB 0,136BFF 0,111FBB 0,136FBF 0,111FFB 0,111FFF 0,091

    Not: totalul nu este exact egal cu 1 datoritrotunjirilor

  • problema de la nceputul seciunii - numrul de fete pe care o familie cu trei copii l poateavea - trebuie s obinem distribuia deprobabiliti a variabilei aleatoare "numr defete" (notat cu X). Tabelul 2.3 prezint aceastdistribuie. Probabilitatea ca o familie s nu aibnici o fat este Pr(BBB) = 0,166; probabilitateaca o familie s aib o singur fat este Pr(BBF) +Pr(BFB) + Pr(FBB) = 0,136*3 = 0,408 .a.m.d.O variabil discret aleatoare este deci aceavariabil X care ia diferite valori x cuprobabiliti specificate de distribuia sa deprobabilitate p(x).

    Cazul variabilelor continuePentru o variabil continu exist un continuumde valori posibile. n capitolul 1, Graficul 1.1,am reprezentat histograma distanelor de lacentrul comunei pn la cel mai apropiat oracu peste 30de mii de locuitori, folosindu-ne deintervale de valori. S ne imaginm acum clum o variabil continu aleatoare i oreprezentm ca n Figura 3.1(a), astfel nctsuma ariilor tuturor barelor histogramei s fieegal cu 1 (100%). Un astfel de grafic senumete densitate a frecvenelor relative. Dacnumrul de observii este foarte mare,frecvenele relative vor tinde ctre probabilitatei, n acelai timp, vom putea utiliza intervaledin ce n ce mai mici, adic bare din ce n cemai nguste. n Figura 3.1(c) se poate vedeacum densitatea frecvenelor relativeaproximeaz o curb, cea a lui p(x), pe care ovom numi de acum nainte distribuie deprobabilitate. Ariile de sub curb reprezintprobabiliti, iar aria total este egal cu 1(deoarece probabilitatea variaz ntre 0 i 1, iarsuma tuturor probabilitilor este egal cu 1).

    Distribuia n populaie a unei variabile nu estenimic altceva dect distribuia de probabilitatea valorilor pe care o observae extras lantmplare din acea populaie le poate luapentru respectiva variabil. De exemplu, dacntr-o populaie frecvena relativ a persoanelorcu o nalime de 1,7 metri este 20%, atunciprobabilitatea ca un individ extras la ntmplare

    Tabelul 2.3 Distribuia variabileialeatoare X = numr de fete

    x p(x)0 0,1661 0,4082 0,3343 0,091

    Not: totalul nu este exact egal cu 1 datoritrotunjirilor

    Figura 3.1 De la frecvene relative ladensitatea de probabilitate

    (a)

    (b)

    (c)

    din respectiva populaie s aib 1,7 m este de 0,2.ncepnd cu aceast seciune vom face o distincie clar ntre statisticile calculate lanivel de eantion i parametrii, adic valorile din populaie. Astfel, vom vorbi depreprobabilitate (notat cu ) numai atunci cnd ne referim la populaii, i despre frecvenerelative (notate cu p sau fr) atunci cnd ne refeim la eantioane.

    Este important de reinut faptul c ntotdeauna notm statisticile la nivel de eantioncu litere latine ( x , s, p etc.) iar parametrii (valorile n populaie)cu litere greceti (, , etc.)

    Orice distribuie de probabilitate (sau distribuie n populaie) poate fi caracterizat cuajutorul ctorva parametrii cum ar fi cei care descriu media acelei distribuii - notat cu i abaterea ei standard - notat cu . n studiul statisticii pot fi ntlnite multe tipuri saufamilii de distribuii de probabilitate ale cror formule matematice sunt folosite pentru acalcula probabiliti. Multe dintre aceste familii de distribuii sunt deosebit de utiledeoarece ele ofer aproximri bune ale unor distribuii des ntlnite n lumea real. Altelesunt deosebit de utile pentru statistica inferenial. n seciunea urmtoare ne vom ocupade un astfel de tip de distribuie.

    Distribuia normaln cazul multor variabile aleatorii distribuia de probabilitate are o form specific,

    simetric, n form de clopot, i cu anumite proprieti particulare, care vor fi prezentatemai jos. Acest tip de distribuie se numete distribuie normal i este reprezentat nFigura 3.2 (mpreun cu formula matematic, care este ns fr importan pentruobiectivele acestui curs). De fapt este vorba despre o familie de distribuii, caracterizatde parametrii i (medie i abatere standard). Principala proprietate a acestei familii dedistribuii este aceea c pentru orice numr constant z, probabilitatea concentrat la

    dreapta lui + z este aceeaipentru toate distribuiilenormale. Datorit faptului cadistribuia este simetric,probabilitatea concentrat ladreapta lui + z este egal cuprobabilitatea concentrat lastnga lui - z. Cu alte cuvintearia de sub curb aflat ladreapta lui + z este egal cuaria aflat la stnga lui - z.Cnd z = 1,96 (adicaproximativ 2), aria cuprins

    ntre - z i + z este egal cu 0,95. Cnd z = 1 (ca n Figura 3.2) aria cuprins ntre - z i + z este egal cu aproximativ 0,68. Mai mult, n cazul distribuiei normaleaproape toat aria de sub curb este cuprins ntre ntre - 3 i + 3 (z=3). Acest gende informaie este foarte util: s presupunem c scorurile unor elevi ai unei clase, notaipe o scal de la 0 la 100, sunt normal distribuite n jurul mediei 60, cu o abatere standard

    Figura 3.2 Distribuia normal a unei variabile

  • de 5 puncte. Aceasta nseamn c 68% dintre elevi au note ntre 55 i 65, iar 95% dintreei au note ntre aproximativ 50 i aproximativ 70. Sau, mai corect spus, probabilitatea caun elev extras la ntmplare din respectiva grup s aib un scor ntre 50 i 70 este de0,95. Dac notele elevilor nu a fi avut o distribuie normal, ci ar fi avut, s zicem, odistribuie alungit spe stnga, probabilitatea ca un elev s aib un scor cuprins ntreanumite limite ar fi fost extrem de dificil de calculat (practic ar fi trebuit calculat aria desub curb dac respectiva distribuie nu ar fi putut fi aproximat de nici o formfuncional cunoscut).

    Aa cum am mai artat, n realitate exist o familie de distribuii normale, fiecarecaracterizat de o medie i o abatere standard . De exemplu, greutile locuitorilorunui ora ipotetic se distribuie normal cu media 56 kg i abaterea standard 18 kg;nlimile copiilor dintr-o coal se distribuie normal cu media 1,5 m i abaterea standard10 cm etc.. Proprietile distribuiei normale ne permit ca pentru fiecare din acestevariabile s gsim exact probabilitatea ca un anumit individ s aib o greutate mai marede, s zicem, 64 de kg sau o nlime cuprins ntre 1,45 m i 1,57 m. Acest lucru se poateface cu ajutorul unor tabele care conin ariile dintre i + z pentru diferite valori alelui z1. Deoarece proprietile distribuiei normale sunt aceleai indiferent de valoareamediei i abaterii standard, se apeleaz la un caz special al distribuiei normale, i anumela distribuia normal normat sau standard. Aceasta este o distribuie normal cu media0 i abaterea standard 1. n Anexa 1 a acestui manual este prezentat un tabel cu ajutorulcruia pot fi calculate ariile dintre i + z pentrudiferite valori ale lui z, n cazul distribuiei normalenormate. Deoarece n acest caz = 0 iar = 1, tabelulconine practic aria cuprins ntre 0 i z (vezi Figura 3.3).Aceast arie este practic aceeai cu aria cuprins ntre i + z n cazul oricrei distribuii normale (cazul general).n continuare este ilustrat modalitatea de folosire atabelului (Anexa 1), pe care l vom numi de acum ncolopentru convenien "tabel z":

    S ne ntoarcem la exemplul de mai sus i s calculm probabilitatea ca un elev sobin un scor mai mare dect 70. Pentru aceasta este nevoie s calculm aria aflat ladreapta valorii 70. Tabelul nostru ofer ns valoarea ariei aflate ntre valorile i + z.Cum distribuia normal este simetric, aceasta nseamn ca aria aflat la dreapta medieieste egal cu jumtate din aria totala aflat sub curb, adic cu 0,5 (deoarece aria total aunei distribuii de probabilitate este ntotdeauna 1). Pentru a afla aria aflat la dreapta lui70, va trebui s cutam n tabel aria cuprins ntre medie (60) i 70, i apoi s scdemaceast arie din 0,5 (adic din toat aria aflat la dreapta mediei). Pentru a afla ariacuprins ntre 60 (adic ) i 70 ( + z) adic , va trebui s aflm valoarea lui z:

    + z = 70, de unde 25

    607070=

    =

    =

    z

    Dac ne uitm atent la expresia utilizat mai sus pentru calcularea lui z vom vedea ceste practic aceeai cu formula scorului z prezentat n Capitolul 1 (ceea ce difer sunt 1 Unele manuale prezint tabele aria din dreapta lui + z, ns algoritmul de calcul al probabilitilor esteeste acelai.

    Figura 3.3 Aria dintre 0 i z

    doar notaiile folosite pentru medie i abatere standard). Deci, ceea ce am fcut nu estepractic nimic altceva dect standardizarea cu scorul z a valorii 70. Nu ne mai rmneacum dect s cautm n tabel aria cuprins ntre 0 i z. Tabelul este organizat n felulurmtor: la capetele de rnd (n stnga) se gsesc valorile care corespund unitilor iprimei zecimale ale lui z; la capetele de coloan (sus) se gsesc valorile care corespundcelei de-a doua zecimale ale lui z. De exemplu, dac vom cuta valoarea 1,96, va trebuis cutm rndul cu valoarea 1,9 i coloana cu valoarea 0,06 (adunate, aceste dou valoridau exact 1,96). La intersecia rndului "1,9" cu coloana "0,06" vom gsi valoarea0,4750, care este exact aria cuprins ntre 0 i z = 1,96, sau altfel spus probabilitatea ca oobservaie s ia o valoare cuprins ntre i + 1,96 (adic ntre medie i 1,96 abateristandard).

    S ne ntoarcem acum la exemplul nostru i s calculm aria cuprins ntre 0 i z = 2.n tabel, la intersecia rndului 2,0 i a coloanei 0,00 se gasete valoarea 0,4772. Aceastaeste probabilitatea ca un elev ales la ntmplare s obin un scor ntre 60 i 70. Pe noi

    ns ne intereseaz care este probabilitatea caun elev s obin un scor mai mare de 70,adic aria din dreapta lui z = 2. Pentru a oobine va trebui s efectum scderea 0,5 -0,4772, ceea ce are ca rezultat 0,0228. Dacam fi interesai s aflm i probabilitatea ca unelev s obin un scor mai mic dect 50 (adic60 - 10) nu am avea nevoie de nici un calculsuplimentar, deoarece datorit simetrieidistribuiei aria aflat la stnga lui z = -2 esteegal cu aria aflat la dreapta lui z = 2.

    S ncercm acum s recapitulm cuajutorul unui alt exemplu algoritmul de calculal unei probabiliti cu ajutorul tabelului z.

    Exemplul 2.1S presupunem c nlimile copiilor dintr-

    o coal se distribuie normal cu media 1,5 mi abaterea standard 10 cm. Care esteprobabilitatea ca copil extras la ntmplare saib o nime cuprins ntre 1,3 m i 1,4 m?

    Pentru a rspunde, s convertim mai nti cele dou valori (1,3 m i respectiv1,4 m) nscoruri z, pentru a msura distana lor fa de medie n abateri standard. Practic, aceastconvertire nseamn o transformare a distribuiei normale iniiale (cu media = 150 cm iabaterea standard = 10 cm) ntr-o distribuie normal normat (cu media 0 i abatereastandard 1).

    z130 = ( 130 - 150)/10 = -2z140 = (140 - 150)/10 = -1(calculele de mai sus au fost fcute in cm)Trebuie deci s gsim aria de sub curba distribuiei normale normate cuprins ntre -2

    i -1. Aria cuprins ntre -2 i 0 este egal cu aria cuprins ntre 0 i 2, i conformtabelului z are valoarea 0,4772. n acelai mod gsim i aria dintre -1 i 0, care este egalcu 0,3413. Cum pe noi ne intereseaz aria dintre -2 i -1, vom efectua scderea 0,4772 -

    Figura 3.4 Probabilitatea ca un elev ales lantmplare s obin un scor mai mare de 70

    (a) distribuia normal, cazul general

    (b) distribuia normal normat

  • 0,3413= 0,1359. Deci, probabilitatea ca un elev selectat la ntmplare s aib ntre 1,3 i1,4 metri nlime este de aproximativ 0,14.

    Dac notm nalimea cu X, atunci afirmaia de mai sus se scrie:Pr(1,3

  • plante pentru a le analiza n laborator ar determina dispariia speciei respective. Pe de altparte, concentrnd resursele existente doar pentru analiza unei pri dintr-un ntreg se potobine rezultate mai bune dect analiznd ntregul, mai ales atunci cnd acest ntreg esteformat din muli indivizi a cror investigare implic utilizarea unui personal auxiliarnumeros care datorit lipsei de specializare poate genera erori mai grave dect dac ar fianalizat o parte din acel ntreg utiliznd un personal specializat.

    3.2 Valori msurate pe populaie i pe eantion. Distribuia de eantionare

    Vom ncepe discuia despre eantioane cu cel mai simplu tip de eantionare, ianume cu eantionarea simpl aleatoare. Metoda sau metodele de a realiza practic unastfel de eantion vor fi discutate pe larg ntr-o seciune ulterioar a acestui capitol. Ceeace ne intereseaz n acest moment este numai principiul de selecie a indivizilor, specificacestui tip de eantionare. S ne imaginm c fiecarui individ care aparine populaiei deinteres (fie ea o populaie de persoane, organizaii etc.) i atribuim convenional unidentificator, adic un cod unic. S presupunem acum c notm fiecare identificator pe obil i introducem ntr-o urn uria toate bilele corespunztoare indivizilor carealctuiesc repectiva populaie. Bilele au toate aceleai dimensiuni. Pentru a extrage uneantion de indivizi nu avem nimic altceva de fcut dect s extragem un numr de bile lantmplare, egal cu mrimea dorit a eantionului. Probabililitatea de a extrage un individeste egal cu 1/N, unde N este numrul total de bile din urn. Ceea ce este important esteca dup fiecare extragere s introducem bila napoi n urn, astfel nct probabilitatea deextragere a fiecrui individ s fie aceeai. De exemplu, dac nu vom introduce prima bilextras napoi n urn, probabilitatea celei de-a doua bile de a fi extras nu va fi 1/N ci1/(N-1). Cu alte cuvinte, extragerile nu vor fi independente (vezi Capitolul 2). Uneantion simplu aleator este deci un eantion ale crui n observaii sunt independente.

    S presupunem c am extras un eantion simplu aleator de mrime n dintr-opopulaie de mrime N. ntrebarea care se ridic n mod firesc este: ct ncredere putemavea n rezultatele obinute dat fiind c eantionul extras la un moment dat este doar unuldin multele eantioane care pot fi extrase dintr-o populaie? Spre exemplu, spresupunem c extragem aleator un eantion format din 25 de elevi dintr-o coal crorale aplicm un test de inteligen. S mai presupunem c media coeficientului deinteligen al tuturor elevilor din coal este = 132 i abaterea standard = 12. Careeste probabilitatea ca eantionul extras de noi s nu aproximeze bine situaia real?Eantionul de 25 de elevi este evident doar unul din eantioanele care ar fi putut fi extrasei prin urmare i media obinut la nivel de eantion este doar una din mediile posibile.Ne putem gndi la mediile tuturor eantioanelor posibile ca la o variabil. Mai clar spus,media eantionului nostru este doar una dintre valorile posibile ale distribuiei de mediicare ar putea fi obinut extrgnd multe eantioane formate din cte 25 de elevi ai coliirespective. Problema este: ct de mare e probabilitatea ca media calculat n eantionulextras de noi s nu aproximeze bine media din populaie?

    Pentru a rspunde la aceast ntrebare trebuie s facem mai nti o distincie clarntre trei tipuri de distribuii: distribuia unei variabile ntr-un eantion de mrime n,distribuia aceleiai variabile n populaie i distribuia mediilor tuturor eantioanelorposibile de mrime n, numit i distribuia de eantionare a mediei.

    Pentru a exemplifica, s luam cazul unei unei caracteristici X ale unei populaii demrime N = 100.000. n populaie, caracteristica X va avea media , abaterea standard ,i o anumit form a distribuiei. S presupunem acum c extragem un eantion demarime n = 10 din respectiva populaie. n acest eantion, caracteristica va avea media

    1X , abaterea standard s1 i, de asemenea, o anumit form a distribuiei, foarte probabildiferit de cea din populaie. Dac vom mai extrage un eantion de mrime n = 10, vomobine o alt medie, 2X , o alt abatere standard, s2, i probabil i o alt form adistribuiei. Dac vom extrage toate eantioanele posibile de marime n = 10 din populaiade mrime N = 100.000, vom obine tot attea medii de eantion cte eantioane amextras. Distribuia acestor medii se numete distribuiede eantionare a mediei i dac mrimea eantionuluieste suficient de mare, atunci distribuia deeantionare este ntotdeauna normal, chiar dacvalorile caracteristicii iniiale sunt sau nu normaldistribuite n populatia vizat. Mai trebuie precizat cun eantion de marime n = 20 este de obicei suficientde mare pentru ca cele afirmate mai sus s fieadevrate. n Figura 3.1 sunt reprezentate distribuiilede frecvene ale mediilor unor eantioane aleatorii demrime n = 30, extrase din aceeai populaie, pentru ocaracteristic oarecare. n situaia (a), avem mediileprimelor trei eantioane extrase, cte o medie pentrufiecare eantion (observm 3 bare de aceeai nlime,ceea ce nseamn c cele trei eantioane au mediidiferite). n situaia (b) observm c distribuiafrecvenelor relative ale celor 120 de medii deeantion ncepe s se apropie uor de o distribuienormal, iar n situaia (c), n care am extras 1100 deeantioane, histograma frecvenelor relative alemediilor aproximeaz foarte bine o distribuienormal. Dac am fi continuat experimentul i am fiextras toate eantioanele posibile de mrime n = 30din respectiva populaie am fi obinut o distribuie deprobabilitate - i anume distribuia de eantionare amediei, cu toate proprietile unei distribuii normale.

    S ne ntoarcem ns la problema noastr cumedia coeficientului de inteligen al elevilor: care eprobabilitatea ca eantionul extras de noi s aib omedie mult diferit de media n populaie? i ca s lum un exemplu concret, ne putemntreba: care e probabilitatea ca eantionul nostru s aib o medie egal cu 127 sau chirmai mic dect att?

    Pentru a rezolva aceast problem trebuie s apelm la o teorem, numitTeorema limit central, care afirm c distribuia de eantionare a mediei, n cazuleantioanelor simple aleatorii, este o distribuie normal a crei medie este chiar media

    Figura 3.1 Distribuii ale mediilor unoreantioane aleatorii de mrime n = 30

    (a) 3 eantioane

    (b) 120 de eantioane

    (c ) 1100 de eantioane

  • din populaie, , i a crei abatere standard, numit eroare standard, este egal cu

    n (unde este abaterea standard din populaie iar n este mrimea eantionului).

    S ncercm acum o mic sintez a celor prezentate mai sus: mediile uneicaracteristici msurate pe multe eantioane pot fi privite ca formnd o nou variabil

    pentru care vom putea calcula evident o mediei o abatere standard. n cazul n careeantioanele extrase sunt simple aleatorii, cureintroducerea elementului extras n populaie(acordnd deci o ans egal fiecrui elementde a fi extras), aceast nou variabil estenormal distribuit. Mai mult, valoarea medie anoii variabile (media mediilor msurate peeantioanele extrase din populaia vizat) esteegal cu media din populaie a caracteristiciivizate, iar abaterea standard a acestei noivariabile este egal cu valoarea din populatie aabaterii standard a variabilei urmrite,mprit la rdcina ptrat din mrimea

    eantionului. Abaterea standard a noii variabile este denumit eroare standard (e):

    Dac aa stau lucrurile, nseamn c datele problemei noastre arat acum astfel:avem o distribuie de eantionare a mediei, care este normal, cu media = 132 iabaterea standard (numit eroare standard)

    n =12/5 = 2,4. Deci rspunsul la

    problema noastr se reduce la a calcula aria care se afl la stnga lui 127 de sub o curbnormal caracterizat de i e, calcule cu care suntem deja familiarizai din Capitolul 2:

    Calculm mai nti scorul z pentru 127. S vedem ns mai nti cum aratformula pentru zi n condiiile n care acum observaiile sunt medii de eantion, mediadistribuiei este media caracteristicii n populaie, iar abaterea standard a distribuiei esteeroarea standard:

    nX

    eX

    z iii

    =

    =

    n cazul nostru deci, z127 = (127 - 132)/2,4 = -5/2,4 = -2,08.S calculm acum probabilitatea de apariie a unei valori egale sau mai mici dect

    -2,08, cu ajutorului tabelului z. Aceasta se reduce la a calcula probabilitatea de apariie aunei valori mai mari dect 2,08, de unde Pr( X

  • presupunem c un cercettor dorete s estimeze nivelul de inteligen al elevilor uneicoli. Pentru aceasta el extrage aleator un eantion format din 25 de elevi crora le aplicun test de inteligen i obine o valoare medie a coeficientului de inteligen de 131.Bazndu-se pe acest rezultat, ce poate el spune despre nivelul de inteligen al elevilorcolii respective? Eantionul de 25 de elevi este evident doar unul din eantioanele care arfi putut fi extrase, i prin urmare i media de 131 obinut la nivel de eantion este doaruna din mediile posibile. Mai clar spus, 131 este doar una dintre mediile din distribuia demedii care ar putea fi obinut extrgnd multe eantioane formate din 25 de elevi aicolii respective. Se pune deci urmtoarea problem: care este valoarea medie acoeficientului de inteligen pentru ntreaga populaie de elevi vizat? - valoare evidentnecunoscut pentru cercettor, altfel ce rost ar mai fi avut s fac cercetarea!

    Este destul de evident c dacdorim s facem o inferen despre pebaza lui X , i dac vrem s putem aveancredere c aceast inferen este corect,nu putem pretinde c = X . Pare multmai rezonabil s acceptm c exist ooarecare eroare de eantionare cu ajutorulcreia sa construim o estimare de interval,sau, mai bine zis, un interval de ncredere:

    = X o eroare de eantionare

    Ct de mare ar trebui s fie ns aceasteroare? Rspunsul depinde bineneles dedistribuia de eantionare a lui X , sau maibine zis de msura n care acesta fluctueaz n jurul mediei din populaie (Figura 3.3).

    S ne aducem puin aminte de prezentarea distribuiei normale fcut n Capitolul2: acolo am afirmat c pentru orice distribuie normal aria de sub curb aflat ntre -1,96 i + 1,96 este ntotdeauna 0,95 (vezi i tabelul z). n cazul distribuiei deeantionare, care este de asemenea o distribuie normal, vom spune deci c aria de subcurb cuprins ntre - 1,96e i + 1,96e (unde e este eroarea standard) este egal deasemenea cu 0,95, de vreme ce eroarea standard este abaterea standard a distribuiei deeantionare. Altfel spus, expresia

    Pr( - 1,96e < X < + 1,96e) = 0,95

    este adevrat pentru orice distribuie de eantionare. n cuvinte, probabilitatea ca mediaunui eantion simplu aleator de mrime n s se gseasc ntre valorile - 1,96e i +1,96e, este egal cu 0,95 (Figura 3.3). Inegalitile din paranteza expresiei de mai sus potfi rezolvate pentru , obinndu-se astfel expresia echivalent:

    Pr( X - 1,96e < < X + 1,96e) = 0,95

    Figura 3.3 Aria de sub curba distribuiei de eantionare

    Aceasta nu nseamn c nu mai e o constant - parametrul cutat de noi npopulaie. Expresia de mai sus nu este nimic altceva dect o "propoziie" probabilistdespre variabila aleatoare X . Media n populaie nu variaz. ntorcndu-ne la exemplulnostru pivitor la estimarea coeficientului de inteligen, s presupunem c n paralel cucercetarea prin eantion a fost efectuat i o testare pe toat populaia de elevi din coalarespectiv. Rezultatul a fost o medie a coeficientului de inteligen de 132, i o abaterestandard de 12. Cercettorului nostru nu i s-a comunicat ns dect abaterea standard, aac el a fost n continuare nevoit s estimeze media n populaie pe baza valorii obinute neantion. n consecin, el va lua expresia de mai sus, i, dup calcularea erorii standard(e=2,4) va scrie:

    Pr(131- 1,96 x 2,4 < < 131 + 1,96 x 2,4) = 0,95, adicPr(126,3 < < 135,7) = 0,95

    n final deci, cercettorul va afirma "cu un nivel de ncredere" de 95% c media npopulaie, , se gsete n intervalul 126 - 136. Acest interval se numete interval dencredere.

    S presupunem acum c, aa cum e i firesc de altfel, cercettorul nu e foartemulumit de precizia estimrii sale. El ar dori s fac o afirmaie mai "exact" n sensulunui interval mai restrns. Cum poate el s fac acest lucru? S ne mai uitm o dat lapropoziia probabilist prezentat anterior, ns de data aceasta o vom scrie n forma sageneral:

    Pr( X - zp/2e < < X + zp/2e) = n.i.

    unde n.i. este nivelul de ncredere iar zp/2 este valoarea din tabelul z corespunztoarerespectivului nivel de ncredere.

    n condiiile n care cercettorul dorete s obin un interval de ncredere mai mic(mai restrns), el nu poate face acest lucru dect printr-un compromis, i anume reducndvaloarea absolut a lui z, sau altfel spus, reducnd nivelul de ncredere. Deoarececercettorul nu poate modifica nici X nici eroarea standard dect prin efectuarea uneialte cercetri, lui nu i rmne dect s i aleag un nivel de ncredere mai mic dect95%, ceea ce va duce la o micorare a intervalului. De exemplu, dac cercettorul semulumete cu un nivel de ncredere de 68% - cruia i corespunde z0,34 = 1 (vezi tabelul zdin Anexa 1), atunci el va putea spune c, pentru un nivel de ncredere de 68%, va ficuprins ntre 131 - 2,4 i 131 + 2,4, adic ntre 128,6 i 133,4.

    Concluzia acestui scurt exerciiu este c estimarea constituie ntotdeauna uncompromis ntre "exactitatea" i "sigurana" afirmaiei pe care dorim s o facem despreparametrul n cauz. Mai riguros spus, dac vom ncerca s cretem nivelul de ncredereal estimrii, mrind astfel "sigurana", va trebui s cretem i intervalul de ncredere,pierznd astfel din "exactitate". i invers, dac dorim s micorm intervalul dencredere, vom fi nevoii s reducem i nivelul de ncredere al estimrii.

    Este totui legitim s ne ntrebm cum putem obine estimri ct mai "sigure" ict mai "exacte"? Rspunsul nu este foarte greu de dat: prin mrirea volumuluieantionului. Acest rspuns decurge firesc din formula erorii standard:

  • de unde reiese clar c cu ct vom avea un eantion mai mare cu att vom avea o eroarestandard mai mic, i deci intervale de ncredere mai mici, pentru acelai nivel dencredere.

    3.4 Cazul eantioanelor mici. De la z la t

    n ultimul exemplu din seciunea anterioar am presupus, destul de nerealist, ccercettorul nostru, care nu avea cum s msoare abaterea standard n populaie, ,reuete s obin valoarea acesteia datorit unei coincidene fericite. n lumea real astfelde coincidene sunt practic absente, iar cercettorul, dac dorete ntr-adevr s obin oestimare a lui , va trebui s calculeze eroarea standard i deci va fi obligat s nlocuiasc cu o estimare a ei. Dup cum e i foarte intuitiv, cea mai bun estimare pentru este s,adic abaterea standard n eantion. Dar utilizarea lui s introduce o surs adiional deposibile distorsiuni sau erori, mai ales dac eantionul este mic (sub 120 de cazuri).Pentru a nu risca distorsiuni n ceea ce privete nivelul de ncredere, va trebui srecurgem la o lrgire a intervalului. Aceasta se face prin nlocuirea valorii z utilizate nseciunea anterioar cu o valoare mai mare, t, care provine dintr-o distribuie similar cuz, numit distribuia t a lui Student, sau Student (t). Practic, marea diferen dintredistribuia z i distribuia t este faptul c aceasta din urm ia n calcul i ceea ce secheam "grade de libertate". Acestea, foarte intuitiv spus, reprezint numrul de elementede informaie independente, necesare pentru definirea unui sistem. In cazul discutat denoi acum, aceste elemente sunt indivizii din care se compune eantionul. Deoarece ntreobservaiile din eantion exist o relaie de dependen, care este media, numrul degrade de libertate va fi n-1. S revenim la diferenele dintre z i t: acestea sunt practicsesizabile numai n cazul eantioanelor mici (mai mici de 120), adic pentru un numrmic de grade de libertate. Pentru peste 120 de grade de libertate, distribuia t este foartesimilar cu z. Pentru sub 120 de grade de libertate (notate de acum nainte g.l.), valorile tsunt mai mari dect valorile z, pentru a compensa, aa cum artam mai sus, nlocuirea lui cu s n formula erorii stan