Statistica_II.pdf

download Statistica_II.pdf

of 12

Transcript of Statistica_II.pdf

  • 7/25/2019 Statistica_II.pdf

    1/12

    Statistic aplicat n tiinele socio-umane

    58

    IIII..OORRGGAANNIIZZAARREEAADDAATTEELLOORR

    nacest capitol se va discuta despre: Colecii de date brute;

    Amplitudinea de variaie;

    Diagrame de date;

    Clase i intervale de grupare;

    Efective, frecvene absolute i relative;

    Reprezentri grafice.

    Dupparcurgerea capitolului, cursaniivor fi capabili s:

    neleag elementele de baz ale unei distribuii

    statistice;

    Calculeze numrul de clase i intervalele de gru-pare;

    Grupeze elementele n clase;

    Construiasc o distribuie statistic;

    Reprezinte grafic o distribuie statistic.

    Orice experiment, evaluare psihologic, observaie sau convorbire

    pornete de la o ntrebare care-i propune s rezolve o anumit problem.Decele mai multe ori, problema n tiinele socio-umane nu transpare imediat

    ntr-o form cuantificabil. Avem nevoie de o serie de etape intermediare

    pentru a stabili ce dimensiuni msurabile sunt n relaie cu problema sau tema

    studiat. Procesul prin care transformm o dimensiune general, necuantifi-

    cabil, n indicatori msurabili i apoi construim itemi pentru acei indicatori

    poart numele de operaionalizare a conceptelor. Dac, de exemplu, dorim

    s studiem nivelul de trai al populaiei dintr-un ora, o asemenea abordareeste mult prea general. Ce nseamn, n definitiv, nivel de trai? Dimensiunea

    nu poate fi cunoscut direct, astfel nct apelm la anumii indicatori care au

    legtur cu nivelul de trai (bugetul alocat pentru achiziionarea de produse

    electronice, bugetul pentru concediu etc.) Urmeaz apoi s construim itemi,

    ntrebri referitoare la indicatorii stabilii (Unde v petrecei concediile?,

    Ce produse electronice ai cumprat n ultimele trei luni? i aa mai depar-

  • 7/25/2019 Statistica_II.pdf

    2/12

    Cristian Opariuc-Dan

    59

    te). Studiind rspunsurile la aceste ntrebri, putem avea o imagine general

    asupra nivelului de trai. Aceti indicatori nu reprezint altceva dect variabile

    rezultate n urma operaionalizrii conceptului general de nivel de trai i carepot fi populate cu datele rezultate din rspunsurile subiecilor la ntrebrile

    stabilite.

    n urma procesului de operaionalizare a conceptelor,rezult una sau

    mai multe variabile, reprezentative pentru studiul propus, variabile ce vor

    trebui populate cu date n vederea verificrii ipotezelor i a gsirii rspun-

    sului la ntrebarea formulat iniial. Datele cu care urmeaz a fi populat

    respectiva variabil pot proveni din(Radu, i alii, 1993): Lectura unor aparate;

    Msurtori antropometrice i/sau bio-fiziologice;

    Notele brute (rspunsurile subiecilor) la anumite teste psiho-

    logice sau chestionare;

    Protocolul de observaie sau interviu;

    Analiza de coninut sau analiza produselor activitiietc.

    n practic,putem fi interesai de modul n care segrupeaz datele n

    jurul unor valori, de variabilitatea acestora sau de stabilirea poziiei relative a

    unui individ sau a unui rezultat n cadrul unui grup mai mare de indivizi sau

    rezultate.

    Fie c desfurm o evaluare psihologic, un studiu sau o cercetareexperimental, fie c iniiem un proces de colectare a datelor prin observaie,

    rezultatul const ntr-o colecie (set) de date brute. La acest nivel, nu avem

    nicio modalitate prin care putem trage concluzii asupra semnificaiei datelor

    pe care le avem la dispoziie. Putem doar constata c unele valori se repet i

    cam att. De aceea, prima etap n iniierea unei proceduri statistice de

    analiz a datelor const n clasificarea, ordonarea, condensarea acestora n

  • 7/25/2019 Statistica_II.pdf

    3/12

    Statistic aplicat n tiinele socio-umane

    60

    vederea conturrii unei imagini ct mai precise. Valorile msurate trebuie

    aezate ntr-o anumit ordine (cresctoare sau descresctoare), care s permi-

    t i o eventual reprezentare grafic a acestora.Exemplu:Presupunem c msurm nlimea unor subieci n centi-

    metri i obinem urmtoarele rezultate: 182, 175, 174, 189, 177, 177, 180,

    173, 188, 171, 184, 192, 180, 172, 177, 193, 184, 192, 172, 177, 174, 171,

    172, 179, 185, 179, 183, 172, 179, 188.

    ntrebare:Ce tip de variabil este variabila menionat mai sus i la

    ce nivel de msurare se afl?Dac privim irul de date de mai sus, observm c nu putem extrage

    nici o informaie util. Unele valori se repet, e adevrat, ns nu putem spu-

    ne, n lipsa unei organizri, nici care este cel mai nalt subiect, nici care este

    cel mai scund, nici ce nlime au cei mai muli subieci. Acest lucru va deve-

    ni posibil abia n urma unui proces de organizare a acestor date.

    La volume mici de date, acest proces nu pune probleme deosebite.

    Operaiunea devine ns greoaie i mare consumatoare detimp pentru volume

    mari de date i, de aceea, se recomand utilizarea unui program computer

    care poate efectua aproape instantaneu aceste operaii.

    II.1 Sis tematizarea datelor

    Primul pas n sistematizarea datelor l reprezint stabilirea valorilor

    extreme. Prin inspecie vizual, verificm cea mai mic valoare din irul de

    date (Xmin) i cea mai mare valoare din irul de date (Xmax), pentru a putea

    calcula poate cel mai simplu indicator statistic, i anume amplitudinea de

    variaie. Numim amplitudine de variaie(Range)diferena dintre valoarea

    maxim i valoarea minim a distribuiei de date. (A = XmaxXmin). n exem-

    plul nostru, subiectul cel mai scund (cu nlimea cea mai mic) are 171 cen-

    timetri, iar subiectul cel mai nalt are 193 centimetri. Prin urmare,Xmin= 171

  • 7/25/2019 Statistica_II.pdf

    4/12

    Cristian Opariuc-Dan

    61

    centimetri, Xmax= 193 centimetri,iar amplitudinea de variaie devineA = 193

    171 = 22 centimetri.

    Dac amplitudinea de variaie este micn comparaie cu numrul de valori din irul de

    date, atunci irul de date poate fi uor reprezen-

    tat fr necesitatea gruprii valorilor. n cazul

    nostru, putem sistematiza datele scriind ntr-o

    coloan valorile n ordine cresctoare i notnd

    n dreptul fiecreia, prin linii verticale, de cte

    ori se repet n irul iniial. Dac reconsidermexemplul anterior, obinem datele grupate n

    tabelul alturat:

    De data aceasta, obinem un protocol

    sistematizat numit diagrama n linii. Putem

    acum observa c toi cei 30 de subieci (n=30)

    au fost repartizai cresctor, n funcie de nl-imea lor, iputem afirma c cei mai scunzi

    subieci au 171 cm, iar cel mai nalt 193 cm. De

    asemenea, cei mai muli subieci au 172 cm i

    177 cm. Iat, aadar, c aceast diagram ne

    aduce un plus de informaie n raport cu irul

    nesistematizat prezentat anterior.

    Aceast sistematizare a unui protocolreprezint o procedur statistic liminar,

    deoarece se afl la limita analizei statistice, pregtind aplicarea tehnicilor

    ulterioare de prelucrare a datelor.

    Diagrama n linii reprezint o metod intuitiv de reprezentare grafic

    a datelor. Urmtorul pas este acela prin care vom numra liniile trasate n

    vederea stabilirii efectivului (frecvena absolut)fiecrei valori din ansam-

    Tabel 2.1Diagrama n liniii efectivul

    ValoareDiagrama

    n liniiEfectiv

    171 || 2

    172 |||| 4

    173 | 1

    174 || 2

    175 | 1

    176 0

    177 |||| 4

    178 0

    179 ||| 3

    180 || 2

    181 0

    182 | 1

    183 | 1

    184 || 2185 | 1

    186 0

    187 0

    188 || 2

    189 | 1

    190 0

    191 0

    192 || 2193 | 1

  • 7/25/2019 Statistica_II.pdf

    5/12

    Statistic aplicat n tiinele socio-umane

    62

    blul rezultatelor. Observm c efectivul valorii 171 cm este de 2 subieci,

    adic doi subieci au nlimea de 171 cm, efectivul valorii 172 cm este de 4

    subieci, patru subieci au nlimea 172 cm i aa mai departe. Stabilireaefectivelor prin acest procedeu este posibil n momentul n care amplitudi-

    nea de variaieeste relativ mic (de exemplu pentru notele colare, de la 1 la

    10). La o amplitudine mai mare, acest procedeu este extrem de laborios i

    inutil deoarece variabilitatea distribuiei devine prea mare i se pierde viziu-

    nea de ansamblu. Deja, n exemplul nostru, constatm o serie de tendine , dar

    care sunt ns abia conturate. n plus, gsim multe valori pentru care efectivul

    este zero. Prin urmare, ar fi util s facem distribuia mai compact prin gru-parea valorilor n clase,astfel nct s putem releva regularitatea ansamblu-

    lui de date. Vom alege, spre exemplu, gruparea datelor din patru n patru ,

    astfel:

    171, 172, 173, 174 sau 171174

    175, 176, 177, 178 sau 175178

    179, 180, 181, 182 sau 179182

    183, 184, 185, 186 sau 183186

    187, 188, 189, 190 sau 187190

    191, 192, 193 sau 191193

    A rezultat un numr de ase clase care cuprind, fiecare, patru valori,

    ultima clas fiind format din trei valori. Distribuia de mai sus va deveni:

    Iat c acum lucrurile sunt ceva mai clare. Observm c cei mai muli

    subieci au nlimea cuprins ntre 171 cm i 174 cm , n timp ce destul de

    puini subieci pot fi considerai ca fiind nali. Este mai uor de sesizat acum

    imaginea de ansamblu, modalitatea n care se organizeaz datele. Un aseme-

    nea procedeu pune n eviden, compact, regularitatea de ansamblu a datelor.

  • 7/25/2019 Statistica_II.pdf

    6/12

    Cristian Opariuc-Dan

    63

    La acest nivel va trebui s facem o

    serie de precizri, deoarece au aprut do-

    u concepte noi: conceptul de clas iconceptul de interval de grupare. n cazul

    nostru, numrul de clase a fost stabilit la

    ase. Intervalul de grupare (i)se refer

    la numrul de valori pe care le poate con-

    ine o clas, cu alte cuvinte lrgimea unei

    clase. Practic, intervalul de grupare se exprim ca raport dintre amplitudinea

    de variaie inumrul claselor. Dac notm intervalul de grupare cu iinumrul de clase cu k, avem formula:

    (formula 2.1)

    n cazul nostruformula devenind

    n exemplul anterior am rotunjit intervalul de grupare ila valoarea

    4. Datorit faptului c nlimea este o variabil continu, ar fi corect s re-prezentm clasele i astfel:

    171,00174,67 (171,00 + 3,67 = 174,67)

    174,68178,35 (174,68 + 3,67 = 178,35)

    178,36182,03 (178,36 + 3,67 = 182,03)

    182,04185,71 (182,04 + 3,67 = 185,71)

    185,72189,39 (185,72 + 3,67 = 189,39)

    189,40193,07 (189,40 + 3,67 = 193,07)

    Totui, de ce ne-am rezumat la ase clase i de ce nu am folosit opt

    clase sau 3 clase? Care a fost argumentul pe baza cruia am decis utilizarea

    unui numr de 6 clase? Exist vreo metod prin care putem stabili numrul

    de clase necesare sau le alegem noi arbitrar?

    Tabel 2.2Diagrama n linii i efectivulpentru date grupate n clase

    ClasaDiagrama

    n linii

    Efectiv

    171174 ||||||||| 9175178 ||||| 5179182 |||||| 6183186 |||| 4187190 ||| 3191 -193 ||| 3

  • 7/25/2019 Statistica_II.pdf

    7/12

    Statistic aplicat n tiinele socio-umane

    64

    Atunci cnd numrul de msurtori (n) nu este prea mare, numrul

    claselor (k) poate fi calculat pe baza formulei H ahn-Shapir o (Vasilescu,

    1992):

    () (formula 2.2)

    unde INT nseamn partea ntreag.

    n cazul nostru, numrul subiecilor (n)este 30. Dac mprim 30 la

    5, obinem valoarea 6. Evident c partea ntreag a lui 6 este tot 6, pe baza

    acestei formule stabilindu-se numrul optim de clase n care pot fi grupate

    valorile. Cunoscnd numrul claselor, am stabilit, dup cum s-a precizat mai

    sus, intervalul de grupare.

    Dac volumul msurtorilor este mare, se utilizeaz specificaiile lui

    Kolkerreferitoare la numrul de clase:

    Tabelul 2.3Specificaiile lui Kolker referitoare la alegerea numrului de clasen 25-40 41-60 61-99 100 101-160 161-250 251-400 401-630 631-1000 > 1000

    k 6 7 8 10 11 12 13 14 15 16-20

    dup (Vasilescu, 1992)

    Din considerente practice, numrul claselor nu va depi valoarea 20.

    O altmetod prin care putem stabili intervalul de distribuie, dar i

    numrul claselor, cunoscnd amplitudinea de variaie i numrul de msur-

    tori, o reprezint utilizarea formulei lui Sturges (Vasilescu, 1992):

    (formula 2.3)

    n situaia noastr, logaritmul zecimal din 30 este 1,47. n mod curent,

    putem gsi logaritmul zecimal n tabelele de logaritmi sau utiliznd un calcu-

    lator tiinific. Cunoscnd aceast valoare, intervalul de distribuie devine:

  • 7/25/2019 Statistica_II.pdf

    8/12

    Cristian Opariuc-Dan

    65

    Observm c valoarea obinut aici se apropie foarte mult devaloarea

    stabilit prin formula anterioar. Aceast formul poate fi folosit pentru va-

    lori destul de mari ale lui n,respectnd ns limita de 20 de clase.Referitor la numrul claselor i la intervalele de grupare, se impun

    urmtoarele observaii:

    1. Dac alegem intervale de grupare prea mici, gruparea date-

    lor scoate n eviden lucruri de amnunt care estompeaz

    tendina de ansamblu a datelor i deci a procesului pe care l

    studiem;

    2. Intervalele de grupare prea mari pot estompa iregularitile

    distribuiei i atenueaz specificul fenomenului studiat,

    pierzndu-se precizia cu care identificm o valoare indivi-

    dual;

    3. n mod obinuit, vom utiliza, dac msurtoarea s-a fcut

    folosind numere ntregi, limite de interval exprimate tot n

    numere ntregi. Limita inferioar a intervalului superior vatrebui s fie mai mare cu o unitate dect limita superioar a

    intervalului inferior. De exemplu:

    171174 i nu 171174

    175178 174178

    deoarece nu vom ti unde s ncadrm valoarea 174.La fel, 171,00174,67 i nu 171,00174,67

    174,68178,35 174,67178,35

    Dup cum putem ns observa, msurtorile iniiale s-au efectuat n

    numere ntregi. Un exces de precizie la acest nivel este exagerat i poate pro-

    duce confuzii. Un subiect cu nlimea de 174centimetri unde va fi inclus? n

  • 7/25/2019 Statistica_II.pdf

    9/12

    Statistic aplicat n tiinele socio-umane

    66

    primul caz, evident, n prima clas. n al doilea caz ns, poate fi inclus i n

    prima i n a doua clas. De aceea, niciodat precizia claselor nu va depi

    precizia msurtorilor efectuate.

    Gruparea n

    clase fiind ncheiat,

    obinem aa-numita

    distribuie statistic

    ce formeaz baza

    prelucrrilor de date

    ulterioare. n exem-plul nostru vom avea

    urmtoarea distribuie statistic:

    nsumnd efectivele (frecvenele) tuturor intervalelor, va rezulta, evi-

    dent, numrul total de msurtori (n).Este, de asemenea,posibil s calculm

    frecvenele cumulate, fie ascendent, fie descendent, ca expresie a adunrii

    frecvenei intervalului curent la frecvena cumulat a intervalului anterior.Astfel, pentru primul interval, att frecvena, ct i frecvena cumulatascen-

    dent au valoarea 9. Pentru al doilea interval, frecvenaabsolut este 5, iar

    frecvena cumulatascendentdevine 9+5=14. Al treilea interval are frecven-

    aabsolut6, iar frecvena cumulatascendent14+6=20 i aa mai departe.

    Procedura de calcul este analoag i n cazul frecvenelor cumulate descen-

    dent, cu singura deosebire c adunarea se face ncepnd de la ultimul interval.

    Rolul frecvenelor cumulate este acela de a ordona cresctor saudescresctor datele grupate n intervale i de a indicanumrul decazuri, ci

    subieci se afl pn la o anumit valoare (frecvenele cumulate ascendente)

    sau ci subieci au depit o anumit valoare (frecvenele cumulate descen-

    dente). Dac discutm de ordonare, este evident c variabila trebuie s se afle

    cel puin la un nivel ordinal de msur, calculul frecvenelor cumulate n ca-

    zul variabilelor nominale fiind un nonsens.

    Tabelul 2.4Distribuia statistic pe clase

    ClasaDistribu-

    ia n liniifa fc fc %

    171174 ||||||||| 9 9 30 30,00 300,00175178 ||||| 5 14 21 16,66 166,66179182 |||||| 6 20 16 20,00 200,00183186 |||| 4 24 10 13,33 133,33187190 ||| 3 27 6 10,00 100,00

    191 -193 ||| 3 30 3 10,00 100,0030

  • 7/25/2019 Statistica_II.pdf

    10/12

    Cristian Opariuc-Dan

    67

    Putem exprima, de asemenea, frecvenele relative, ca proporie a sco-

    rurilor dintr-o clas. Cele mai utilizate frecvene relative sunt procentele (%)

    i promilele (). Ca modalitate de calcul al procentelor sau al promilelorvom folosi regula de trei simpl, astfel:

    Pentru prima clas vom aveaurmtoarea valoare:

    dac 30 reprezint 100%

    atunci 9 reprezint x

    II.2 Reprezentarea grafic a datelor

    Sintagma o imagine face mai mult dect o mie de cuvinte este val a-

    bil i n statistic.Uneori, este mai convenabil s reprezentm grafic datele

    pentru a ne forma intuitiv o reprezentare a acestora. Nu trebuie s uitm ns

    faptul c, n statistic, afirmaiile pe care le facem trebuie demonstrate, iar

    demonstraia se poate face doar cifric.

    Exist multe moduri prin care putem reprezenta grafic datele pe care

    le vom discuta n momentul n care tematica le va impune. Pentru moment,

    ne vom rezuma la graficele cu bare, histograma, poligonul frecvenelor, poli-

    gonul frecvenelor cumulate i plcinta.

    Reprezentarea prin graficele

    cu bare const n ridicarea unei per-pendiculare de lungime egal cu frec-

    vena pentru fiecare valoare sau clas

    aezat pe axa Ox. Cu ajutorul barelor,

    putem reprezenta att datele negrupate,

    ct i datele grupate. Astfel, pentru

    exemplul nostru, prezentm reprezenta-Figura 2.1Graficul cu bare al nlimii

    subiecilor

  • 7/25/2019 Statistica_II.pdf

    11/12

    Statistic aplicat n tiinele socio-umane

    68

    rea prin grafice cu bare a nlimii subiecilor sub form de valori. Un tip par-

    ticular de reprezentare a graficelor cu bare este histograma. O histogram se

    deosebete de un grafic cu bare prin aceea c, n locul liniilor, sunt ridicatedreptunghiuri cu baza egal cu intervalul

    folosit. Pentru a putea folosi histogramele,

    datele trebuie s fie grupate, aadar, pe

    intervale egale.

    Dac unim prin linii vrfurile gra-

    ficelor cu bare sau mijlocul bazei de sus a

    histogramelor obinem un alt tip de grafic,i anume poligonul frecvenelor absolute

    sau relative. Poligonul frecvenelor

    absolute se refer la exprimarea cifri-

    c direct a efectivelor, n timp ce

    poligonul frecvenelor relative coni-ne exprimarea procentual a acestora.

    De asemenea, este posibil

    construirea poligonului frecvenelor

    cumulate ca reprezentare grafic a

    funciei de repartiie cumulativ. La fel

    ca n cazul graficului cu bare, n dreptulfiecrei valori se nal o perpendicular

    de mrime egal cu frecvena cumulat.

    Unind vrfurile acestor perpendiculare se

    obine poligonul frecvenelor cumulate,

    care poate fi exprimat absolut sau relativ.

    Figura 2.2Histograma pentru nli-mea subiecilor

    Figura 2.3Poligonul frecvenelorabsolute

    Figura 2.4Poligonul frecvenelor

    cumulate

  • 7/25/2019 Statistica_II.pdf

    12/12

    Cristian Opariuc-Dan

    69

    Uneori este mai convenabil s reprezentm, mai ales atunci cnd lu-

    crm cu procente, compoziia msurtorilor printr-o structur radial. Un

    asemenea grafic se numete plcint (pie) i este util atunci cnd ne intere-seaz s urmrim proporia cu care fieca-

    re clas particip la construcia ntregu-

    lui.

    Pentru o variabil continu, deoa-

    rece avem o densitate de probabilitate pe

    intervalul de valori, reprezentarea grafic

    se face sub forma unei curbe numit cur-b de distribuie, ns acest aspect va

    face obiectul unui capitol viitor.

    n concluzie:

    O colecie de date are o valoare informativ extrem de redus. n vedereaextragerii unor informaii preliminare, este necesar ordonarea i grupa-rea datelor;

    La o amplitudine de variaie mic, pot fi ordonate valorile i numrate

    efectivele fiecrei valori, realizndu-se astfel un protocol sistematizat; La o amplitudine de variaie mare i la msurtori numeroase, se va reali-

    za gruparea datelor n clase, pe baza unui interval de grupare. Att num-rul claselor, ct i intervalul de grupare pot fi calculate n baza unor for-mule sau a unor tabele de referin;

    O distribuie statistic reprezint un protocol de date sistematizat i orga-

    nizat care conine clasele, diagramele n linii (puncte, stelue etc.) i frec-venele absolute. Alte informaii care mai pot fi incluse sunt frecvenele re-lative (procentuale), frecvenele cumulate absolute i relative;

    Distribuiile statistice pot fi reprezentate i grafic, folosindu-se graficele cubare, histogramele, poligoanele de frecvene sau graficele plcint.

    Figura 2.5Reprezentarea prin diagramde structur (plcint)