Statistica - Cursul 2

14
Statistica ecologica – Note de curs Page1 Organizarea datelor statistice De date ecologice sunt extrem de complexe, cuprinzand o gama larga de variabile care interacţionează si care, de multe ori sunt dificil de identificat. Deoarece natura în sine este un sistem foarte complex, cele mai multe variabile măsurate de ecologişti nu funcţionează în mod independent, astfel încât interacţiunile şi corelaţiile dintre variabilele trebuie să fie contabilizate. În plus, numărul de variabile care influenţează un fenomen ecologic poate fi foarte mare, motiv pentru care cunoasterea tuturor aspectelor sub care variabilele pot fi clasificate si sistematizate este obligatorie in analiza statistica. Scopul oricărei măsurări este, mai direct sau mai puţin direct, acela de a trage concluzii şi de a susţine raţionamente. De aceea, conştientizarea procesului de măsurare este importantă din următoarele motive: ٢ Cunoaşterea tipurilor de transformări la care putem supune în mod legitim valorile rezultate prin măsurare. ٢ Evitarea concluziilor lipsite de sens. De exemplu, dacă azi sunt afară 20 de grade C şi ieri au fost doar 10, nu putem spune că azi este de două ori mai cald, ci că este cu 10 grade mai cald decât ieri. ٢ Alegerea procedurilor statistice adecvate datelor numerice şi scopurilor pe care ni le propunem. De exemplu, nu vom putea alege proceduri de tip „metric” (cantitativ) atunci când variabila dependentă este de tip „non-metric” (calitativ). 1. Niveluri (scale) de măsurare Statistica operează cu valori, numerice sau de altă natură, care rezultă dintr-un proces de măsurare. Dar numerele, deşi au aceeaşi formă, nu sunt asemănătoare unele cu altele. Ele pot avea diferite semnificaţii sau proprietăţi în funcţie de tipul de măsurare din care rezultă. În funcţie de cantitatea de informaţie pe care o reprezintă valorile, ca rezultat al procesului de măsurare, putem distinge mai multe niveluri: nominal, ordinal, de interval şi de raport. Ordinea în care le-am enuntat este una ierarhică, de la nivelul de măsurare cel mai

description

Statistica

Transcript of Statistica - Cursul 2

  • StatisticaecologicaNotedecurs

    Page1

    Organizarea datelor statistice

    De date ecologice sunt extrem de complexe, cuprinzand o gama larga de variabile

    care interacioneaz si care, de multe ori sunt dificil de identificat. Deoarece natura n sine

    este un sistem foarte complex, cele mai multe variabile msurate de ecologiti nu

    funcioneaz n mod independent, astfel nct interaciunile i corelaiile dintre variabilele

    trebuie s fie contabilizate. n plus, numrul de variabile care influeneaz un fenomen

    ecologic poate fi foarte mare, motiv pentru care cunoasterea tuturor aspectelor sub care

    variabilele pot fi clasificate si sistematizate este obligatorie in analiza statistica.

    Scopul oricrei msurri este, mai direct sau mai puin direct, acela de a trage

    concluzii i de a susine raionamente. De aceea, contientizarea procesului de msurare

    este important din urmtoarele motive:

    Cunoaterea tipurilor de transformri la care putem supune n mod legitim valorile

    rezultate prin msurare.

    Evitarea concluziilor lipsite de sens. De exemplu, dac azi sunt afar 20 de grade C

    i ieri au fost doar 10, nu putem spune c azi este de dou ori mai cald, ci c este cu

    10 grade mai cald dect ieri.

    Alegerea procedurilor statistice adecvate datelor numerice i scopurilor pe care ni le

    propunem. De exemplu, nu vom putea alege proceduri de tip metric

    (cantitativ) atunci cnd variabila dependent este de tip non-metric (calitativ).

    1. Niveluri (scale) de msurare

    Statistica opereaz cu valori, numerice sau de alt natur, care rezult dintr-un

    proces de msurare. Dar numerele, dei au aceeai form, nu sunt asemntoare unele cu

    altele. Ele pot avea diferite semnificaii sau proprieti n funcie de tipul de msurare din

    care rezult. n funcie de cantitatea de informaie pe care o reprezint valorile, ca rezultat al

    procesului de msurare, putem distinge mai multe niveluri: nominal, ordinal, de interval i de

    raport. Ordinea n care le-am enuntat este una ierarhic, de la nivelul de msurare cel mai

  • StatisticaecologicaNotedecurs

    Page2

    redus (nominal), pn la nivelul de msurare cel mai ridicat (raport). Fiecare nivel are

    anumite proprietti, astfel nct fiecare nivel include criteriile tuturor celor inferioare lui. n

    obisnuit nivelurile sunt cunoscute si sub denumirea de scale de msurare.

    Nivelul nominal O msurare pe scal nominal nseamn, de fapt, a plasa obiectele n diferite clase

    (categorii). n acest caz o valoare nu este cu nimic mai mare sau mic dect alt valoare. Un

    exemplu la ndemn este valoarea atribuit genului. Ea poate fi codificat cu M sau F,

    ori, la fel de bine cu 2 sau 1. n acest caz, respectivele valori nu sunt dect simboluri ale

    unei anumite caliti pe care o ia caracteristic de gen a unei persoane. Cu alte cuvinte,

    ntr-un asemenea caz 2 nu nseamn c este mai mult sau mai bun dect 1 ci doar faptul

    c este diferit de acesta. Vom observa c ambele codificri de mai sus sunt arbitrare, n

    locul lor putnd utiliza orice alte simboluri, pe o baza de convenie. Variabilele msurate pe

    scale de tip nominal pun n eviden diferene calitative ntre valori i nu cantitative. Alte

    exemple de variabile exprimate pe scale nominale: specii, situri, ecosisteme, verigi trofice,

    culori, etc.).

    Valorile de tip nominal pot fi, la rndul lor, de dou feluri:

    De identificare, atunci cnd o valoare are rolul de codificarea identitii,

    referindu-se n mod unic la un anumit individ (de ex., codul de identificare

    individuala n cadrul unui experiment). Aceast form este nerelevant

    din punct de vedere propriu-zis statistic, dar este extrem de util ca variabil

    ajuttoare n manipularea i organizarea datelor pentru prelucrare.

    Categoriale, atunci cnd desemneaz forme pe care le ia o variabil. Aceast

    form este n mod obinuit ntrebuinat n ecologie, ori de cte ori este

    necesar repartizarea subiecilor n diverse clase sau categorii, n funcie de

    prezena sau absena anumitor caracteristici.

    Valorile msurate pe o scal de tip nominal au un caracter calitativ i nu suport

    operaii numerice, altele dect cele descriptive (numrare, procente).

    Nivelul ordinal

    Valorile plasate pe o scal de tip ordinal au o anumit semnificaie cantitativ, dar

    aceasta este limitat la raportul de mrime. O anumit valoare este mai mare sau mai

    bun dect alta, aflat sub ea. Implicit, ea poate fi mai mic sau mai puin bun dect

    alt valoare, aflat deasupra ei. Un exemplu ilustrativ ar putea fi reprezentat de clasele de

    caliate a apelor de suprafata. Pe o scal de tip ordinal putem ti c 2 nseamn o calitate

    mai slaba dect 1. n concluzie, valorile tip ordinal ne spun dac o valoare este mai mare

    sau mai mic dect alta, dac o anumit calitate este prezent ntr-o msur mai mare sau

  • StatisticaecologicaNotedecurs

    Page3

    mai mic, fr a putea preciza care este diferena de cantitate a caracteristicii msurate.

    Ca urmare, valorile de tip ordinal au, ca i cele de tip nominal, o semnificaie calitativ i nu

    una cantitativ. Codurile valorilor ordinale pot fi date si arbitrar, dar ele trebuie s

    exprime ideea de ordine.

    Nivelul de interval

    O variabil msurat pe o scal de interval ne ofer informaii nu doar despre

    ordinea de mrime, ci i despre dimensiunea exact a caracteristicii msurate. Valorile de

    acest tip au un caracter cantitativ, exprimat numeric, iar intervalele dintre ele sunt egale.

    Exemplu: temperatura, msurat pe o scal Celsius. Dac ntr-o zi se msoar 5

    grade iar n ziua urmtoare 10 grade, se poate spune cu precizie c a doua zi a fost cu 5

    grade mai cald;

    Ceea ce este caracteristic valorilor msurate pe scal de interval este absena unei

    valori 0 absolute. Cu alte cuvinte, valorile de acest tip nu ne permit evaluri de genul: O

    temperatur de 10 grade este de dou ori mai mare dect una de 5 grade deoarece

    temperatura msurata pe scala Celsius nu are o valoare 0 absolut (unde 0 inseamna

    absenta).

    Nivelul de raport Valorile exprimate pe o scal de raport dein cel mai nalt grad de msurare. Pe

    lng egalitatea intervalelor, specific scalei de interval, acest tip de valori se raporteaz i

    la o valoare 0 absolut (nu este posibil nici o valoare mai mic de 0). Din acest motiv, este

    permis aprecierea raportului dintre dou valori.

    Exemple: dac ne referim la temperaturi, atunci scala Kelvin, este un bun exemplu

    (0 grade Kelvin este temperatura minim absolut); timpul; numrul de specii dintr-un

    ecosistem, numarul de indivizi, numarul de solzi, concentratii, etc.

    La fel ca i valorile msurate pe scale de interval, valorile msurate pe scal de

    raport suport toate transformrile matematice posibile. Din acest motiv, n practic,

    valorile msurate pe scal de interval sau de raport sunt considerate similare, fiind

    prelucrate prin acelai gen de proceduri statistice. Ca urmare, n acest caz, se spune c o

    variabil este msurat pe o scal de interval/raport.

    Dac lum n considerare proprietile numerice i tipul de transformri suportate de

    fiecare scal de msurare, atunci ordinea cresctoare a acestora este nominal-ordinal-

    interval-raport.

  • StatisticaecologicaNotedecurs

    Page4

    Variabile categoriale

    O variabil se numeste categorial atunci cnd valorile acesteia descriu categorii.

    Exemplul cel mai la ndemn l reprezint variabilele nominale categoriale: genul

    (masculin/feminin), clasificarea speciilor dupa diferite crieterii etc. Dar variabilele

    categoriale pot fi si de alt natur dect nominale. De exemplu, categoriile de vrst

    reprezint valori de nivel ordinal, deoarece implic o msurare ordonat n functie de timpul

    scurs de la nastere.

    Categoriile trebuie s se exclud reciproc (s nu existe cazuri care pot face parte din

    mai mult de o singur categorie) i exhaustive (categoriile trebuie s acopere ntreaga plaj

    de posibiliti la nivelul populaiei studiate, pentru a nu rmne cazuri neanalizate).

    Mai mult, chiar, n programele de prelucrri statistice se utilizeaz termenul generic

    de scal, pentru a desemna o variabil msurat pe scal de interval/raport.

    n acest punct al prezentrii distinctia variabilelor categoriale nu pare s aib o

    important practic evident, dar odat cu aprofundarea studiului statisticii vom

    descoperi c exist proceduri statistice special destinate analizei acestora. Din acest motiv

    trebuie este important s recunoastem variabilele categoriale.

    Statistica parametric/statistica neparametric

    Esena procedurilor statistice este verificarea ipotezelor. Aceasta se face prin

    utilizarea unor proceduri de calcul care urmresc punerea n eviden a legturilor dintre

    variabile. Atunci cnd aceste proceduri se aplic unor situaii n care variabilele

    dependente sunt de tip cantitativ (interval/raport), procedura se numete parametric. Prin

    opoziie, procedurile aplicate n cazul n care variabilele dependente sunt de tip calitativ

    (nominale sau ordinale) se numesc neparametrice. Alegerea procedurilor statistice este un

    proces destul de complicat, care va fi discutat pe larg mai departe i care va fi pe deplin

    neles numai dup finalizarea cursului i dobndirea unei anumite practici n utilizarea

    procedurilor statistice. Pentru nceput, considerm suficient ntelegerea distinctiei dintre

    aceste dou categorii de proceduri statistice

  • StatisticaecologicaNotedecurs

    Page5

    2. Indicatorii tendintei centrale si a variatiei

    Repartizarea datelor calitative i a celor numerice dintr-o colectivitate statistic se

    poate efectua dup frecvena de apariie a caracteristicilor lor, obinndu-se structura

    colectivitii.

    Datele (care se refer la diferite domenii ale cunoaterii) odat aranjate ntr-o

    repartiie de frecvene, scot n eviden trsturile commune ale tuturor curbelor de repartiie

    i care se supun unor legi generale. Acest lucru ne permite ca experiena ctigat ntr-un

    anumit domeniu al cunoaterii s poat fi extins i n alt domeniu.

    La toate curbele ns trebuie s observm variabilitatea mrimilor care se obin ca

    rezultat al unor msurtori. Cu toate c exist variabilitate, se observ o tendin a datelor

    de a se grupa n centrul curbei (tendina central). Dac se msoar mrimea abaterii de la

    punctul de concentrare maxim a frecvenelor, se constat c sunt mai frecvente abaterile

    mici dect cele mari, c abaterile n ambele pri fa de punctul de concentrare maxim se

    echilibreaz aproape complet i c abaterile foarte mari sunt foarte rare. Deoarece frecvena

    variaz, vom alege acea mrime care se ntlnete cel mai des. Ea va fi msura tendinei

    centrale a repartiiei. Aceast mrime, ca i altele asemntoare se numesc indicatori (sau

    parametrii) de poziie, deoarece arat poziia elementelor principale ale repartiiei pe axa

    absciselor.

    Caracterul reprezentativ al oricrui indicator de poziie depinde de ct de strns i se

    altur celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor n jurul

    tendinei centrale.

    2.1. Indicatorii tendinei centrale

    Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populaie

    statistic se face prin calcularea unor medii, n felul acesta fcndu-se o compensare a

    valorilor individuale. Acest calcul ne arat o anumit tendin a fenomenului studiat, media

    statistic fiind o valoare ce sintetizeaz ntr-o singur expresie numeric toate valorile din

    seria msurtori sau observaii. Termenii seriei difer de medie deoarece au fost influenai

    de diferii factori.

    Media aritmetic. Media aritmetic simpl exprim un nivel mediu, anihilnd abaterile individuale, netipice. Ea este cuprins ntre valoraea cea mai mare i cea mai mic.

    Definiia 1. Dac n urma unei selecii apar valorile distincte x1, x2,..., xn, atunci media aritmetic este dat de formula:

  • StatisticaecologicaNotedecurs

    Page6

    =

    =+++=n

    ii

    n xnn

    xxxx1

    21 1...

    n cazul datelor centralizate (n care avem repartiia de frecven):

    =

    =+++=n

    iii

    nn vnnn

    vnvnvnx1

    2211 1...

    care se mai numete medie aritmetic ponderat. Numrul care arat de cte ori se

    repet fiecare valoare (nj) este "ponderea" valorii respective.

    Media aritmetic are dezavantajul c este sensibil la valori extreme, iar dac

    termenii sunt prea "mprtiai", tinde s devin o valoare nereprezentativ. Media aritmetic

    este o valoare lipsit de coninut dac elementele sunt deosebite din punct de vedere

    calitativ, caz n care este mai util s se fac medii pariale pentru fiecare tip de colectivitate.

    Dac avem mai multe medii, fiecare referindu-se la o anumit categorie, fiecare

    medie va fi ponderat n funcie de importana categoriei sale.

    Media geometric. Media geometric este mai puin sensibil la valorile extreme dect celelalte medii, deci se ntrebuineaz cnd dorim s atenum divergenele mari dintr-o serie

    de determinri cu frecvene egale, fiind dup o expresie "cea mai exact medie". Se

    utilizeaz cnd valorile au o evoluie (de cretere sau scdere) permanent, nentrerupt,

    sau o raie din ce n ce mai mare, termenii fiind legai ntre ei printr-o relaie de produs. De

    asemenea se mai ntrebuineaz cnd vrem s dm o importan mai mare termenilor mai

    mici, n valoare absolut, sau cnd diferenele ntre termeni sunt foarte mari. Are

    dezavantajul c nu se poate ntrebuina cnd avem valori nule sau negative.

    Dac x1, x2,..., xn sunt n valori, media geometric se definete prin

    n ng xxxM ...21=

    Calculul se face mai uor cu ajutorul logaritmilor:

    =

    =n

    iig xn

    M1

    lg1lg

  • StatisticaecologicaNotedecurs

    Page7

    Datorit faptului c se calculeaz mai uor cu ajutorul logarimilor, se mai numete

    "medie logaritmic". Ea se utilizeaz i la calcularea ritmului (de cretere sau descretere)

    numindu-se astfel i "medie de ritm". n rezumat, se ntrebuineaz cnd:

    - seria are o mare dinamicitate;

    - termenii au variaii mari;

    - distribuia are un caracter pronunat de asimetrie.

    Observaie. Media geometric se folosete atunci cnd prezint importan variaiile relative. De asemenea media geometric poate fi folositoare pentru calculul unor rapoarte.

    Media ptratica se ntrebuineaz cnd valorile prezint creteri din ce n ce mai mari. Ea constituie modelul matematic pentru abaterea medie ptratic. Media este sensibil la valori

    extreme, din care cauz este ntotdeauna mai mare dect celelalte medii. Are avantajul c

    se poate aplica i n cazul valorilor nule sau negative (care prin ridicare la ptrat devin

    pozitive). Se ntrebuinzeaz cnd dm importan valorilor mari.

    Media ptratic este definit prin formula:

    =

    =n

    iispatr xn

    x1

    2,

    1

    sau n cazul datelor centralizate (media ponerat):

    =

    =n

    iiippatr vnn

    x1

    2,

    1

    Media armonic este valoarea invers a mediei aritmetice ale valorilor inverse datelor de

    observaie:

    =

    = ni i

    h

    x

    nM

    1

    1

    Exprim caracterul sintetic al unor valori ce se afl n raport invers. Se utilizeaz

    cnd frecvenele sunt egale. Pentru o repartiie de frecven, media armonic se folosete

    rar. Se utilizeaz cu predilecie n economie.

  • StatisticaecologicaNotedecurs

    Page8

    Media glisant numit i "medie mobil", se utilizeaz n cazul n care irul valorilor prezint fluctuaii mari, brute i e greu de apreciat tendina (trendul). Se presupune c

    media glisant corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5

    valori alturate.

    Media glisant pentru 3, respectiv 5 valori alturate sunt date de formulele

    3

    113,

    + ++= iiiglis xxxx

    52112

    5,++ ++++= iiiiiglis xxxxxx

    Mediana este elementul dintr-un ir de date statistice care ar mpri intervalul n dou grupe egale ca numr, dup ce acestea au fost ordonate dup mrimea lor. Dac seria

    are 2n+1 elemente, atunci mediana este elementul n+1, iar dac are 2n elemente mediana

    este media aritmetic a celor doi termini din mijloc.

    Modul reprezinta valoarea sau clasa de interval cu frecventa cea mai mare. Este expresia cea mai direct a valorii tipice (reprezentative). Se afl prin alctuirea tabelei de

    frecvene (simple sau grupate) si este valoarea (clasa) creia i corespunde frecvena

    absolut cea mai ridicat.

    Distributiile pot fi :

    - unimodale(583254Mo=5)

    - bimodale(5832254Mo=5;=2)

    - multimodale(58832254Mo=5;=2;=8)

    2.2. Indicatorii variatiei

    O medie este reprezentativ numai atunci cnd se calculeaz din valori omogene

    ntre ele. Cu ct fenomenele sunt mai complexe (dependente de mai multi factori), cu att

    variaia este mai mare i utilizarea mrimilor medii devine insuficient. De aceea este

    important de cunoscut ct de departe sunt valorile sumei statistice fa de medie.

    Comparaia se face cu media seriei, considerat ca fiind valoarea cea mai reprezentativ

    pentru populaia statistic.

  • StatisticaecologicaNotedecurs

    Page9

    Analiza statistic a unei repartiii poate fi aprofundat prin calculul indicatorilor de

    variaie. Acesti indicatori trebuie s serveasc la :

    verificarea reprezentativitii mediei ca valoare tipic a unei populaii statisatice;

    verificarea gradului de omogenitate a seriei;

    caracterizarea statistic a formei i gradului de variaie a unui indicator;

    cunoasterea gradului de influen a factorilor dup care s-a facut gruparea unitilor

    observate.

    2.2.1. Indicatorii simpli ai variaiei.

    Indicatorii simpli ai variaiei servesc la caracterizarea gradului de mpratiere a

    mrimilor seriei statistice. Se pot exprima att n mrimi absolute ct i n mrimi relative.

    Din aceasta grupa fac parte :

    - amplitudinea variaiei (absolut i relativ);

    - abaterile individuale (absolute i relative).

    Amplitudinea absolut se calculeaza ca diferena dintre valoarea maxim i valoarea minim al caracteristicii :

    Aa = xmax xmin Amplitudinea relativa se exprima de regul n procente i se calculeaz ca un raport ntre amplitudinea absolut i media aritmetic :

    Ar= 100xAa

    Abaterile individuale absolute (di) se calculeaz ca diferena ntre fiecare valoare i media aritmetic :

    di = xi - x , i = 1,...,n

    Abaterile individuale relative (dr) se calculeaz ca raportul dintre abaterile individuale absolute i media aritmetic (se exprima n procente) :

    dr = 100xdi , i = 1,...,n

    Gradul de variaie al unei caracteristici depinde de toate abaterile variantelor

    nregistrate i de frecventa lor de apariie i prin urmare indicatorii simpli ai variaiei nu pot

    exprima ntreaga variaie a unei populaii statistice. De aceea a fost necesar introducerea indicatorilor sintetici ai variaiei.

  • StatisticaecologicaNotedecurs

    Page10

    2.2.2. Indicatorii sintetici ai variaiei.

    Indicatorii sintetici ai variaiei, la fel ca i indicatorii tendintei centrale trebuie s se

    bazeze pe toate observaiile, sa fie usor de calculat, uor de nteles i s fie ct mai puin

    afectai de fluctuaiile de selecie.

    Indicatorii sintetici ai variaiei sunt :

    - abaterea medie liniar ;

    - abaterea medie patratic;

    - dispersia;

    - coeficientul de variaie.

    Abaterea medie liniar se calculeaz ca o medie aritmetic simpl sau ponderat, luate n valoare absolut :

    Pentru o serie simpl

    n

    xxd

    n

    ii

    =

    = 1||

    Abaterea medie liniar prezint dezavantajul c nu ine seama de faptul c abaterile

    mai mari n valoare absolut influenteaz n mai mare masur gradul de variaie a unei

    caracteristici, n comparaie cu abaterile mici. n plus, nu este indicat s se renune n mod

    arbitrar la semnul valorilor din care se calculeaz o valoare medie. Din aceste considerente

    se folosete ca principal indicator sintetic al variaiei abaterea medie patratic.

    Abaterea medie patratic sau abaterea standard () se calculeaz ca o medie patratic din abaterile tuturor elementelor seriei de la media lor aritmetic:

    = ( )n

    xxi 2 Acest indicator este mai concludent dect abaterea medie liniar. Prin ridicarea la

    ptrat se d o importan mai mare abaterilor mari n valoare absolut, acestea influennd

    ntr-o msura mai mare gradul de variatie al variabilelor analizate.

    n literatura de specialitate se apreciaz ca pentru o serie de distribuie normal

    abaterea medie liniar este egal cu 4/5 din valoarea abaterii medii ptratice.

  • StatisticaecologicaNotedecurs

    Page11

    Abaterea medie ptratic este un indicator de baz, care se folosete la analiza

    variaiei, la estimarea erorilor de selecie n calculul de corelaie.

    La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de

    masur a variabilei a carei variaie o caracterizeaz. Prin urmare cei doi indicatori nu se pot

    folosi pentru compararea gradului de variaie i n aceasta situaie se recurge la un alt

    indicator de variaie : coeficientul de variaie.

    Coeficientul de variatie (v) se calculeaza ca un raport ntre abaterea medie ptratic i media aritmetic. De obicei se exprim sub form de procente :

    v = 100x

    Semnificaie. Cu ct valoarea lui v este mai aproape de zero cu att variaia este mai slab,

    colectivitatea este mai omogen, media avnd un grad ridicat de reprezentativitate. Cu ct

    valoarea lui v este mai mare cu att variaia este mai intens, colectivitatea este mai

    eterogen, iar media are un nivel de semnificaie sczut.

    Se apreciaz c la un coeficient de peste 35-40%, media nu mai este reprezentativ

    i datele trebuie separate n serii de componente, pe grupe, n funcie de variaia unei alte

    caracteristici de grupare.

    Se poate afirma c acest indicator poate fi folosit ca un test n aplicarea metodei

    gruprii. Dac media aritmetic este aproape de zero, coeficientul de variaie nu are

    semnificaie.

    Dispersia ( 2 ) este media ptratelor abaterilor de la media aritmetic : ( )22 1 = xxn i .

    Msura dispersiei se refer la mprtierea valorilor dintr-un set de date. Media nu are

    semnificaie dac se aplic pe un set de date foarte dispersate. De exemplu dac lum

    valoarea medie a oraelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000

    datorit Bucuretiului care are 2.000.000. ns rezultatul nu are nici o semnificaie (nici un

    ora nu area aceast valoare).

    Msurile dispersiei, exprimate sub forma unitilor de msur ale fenomenului

    cercetat, nu sunt ntotdeauna utile atunci cnd se compar dispersiile a dou sau mai multe

    serii. Compararea dispersiilor a dou sau mai multe serii d rezultate n urmtoarele 2

    situaii:

  • StatisticaecologicaNotedecurs

    Page12

    a) irurile care se compar pot fi exprimate n aceleai uniti, iar mediile pot fi

    aceleai sau au dimensiuni aproape egale.

    b) irurile care se compar pot fi exprimate n aceleai uniti, ns mediile difer.

    Dac seriile se exprim n uniti diferite, dispersiile nu pot fi comparate direct. De aceea de

    multe ori se folosete abaterea medie ptratic n loc de dispersie.

    n unele lucrri aceast mrime se numete varian (din l. engl. variance). Variana este o

    msur important n special cnd se studiaz variaia a dou sau mai multe eantioane. O

    tehnic statistic foarte puternic este cunoscut sub numele de analiza de varian i

    utilizeaz dispersia pentru a decide dac un numr de eantioane difer semnificativ unul de

    altul.

    Asimetrie si boltire Skewness - asimetrie Abaterea medie ptratic i dispersia sunt indicatori care dau o msur a mprtierii

    valorilor ntr-o distribuie de frecven. ntr-un anume sens ele ofer o msur a limii

    distribuiei. Aceasta ns nu ofer nici o informaie privind caracteristicile formei distribuiei

    de frecven. Figura de mai jos nfieaz 6 distribuii utiliznd histograma. Aceasta

    reprezint un set de date care au acelai numr de valori. Pe orizontal avem o unitate de

    msur exprimat n abateri medii patratice (), iar pe vertical avem media aritmetic. Dup cum se observ, se poate face o comparaie direct.

    Aparent cele ase distribuii de frecven sunt foarte diferite. Cele din partea dreapt (b,d, i

    f) sunt similare dintr-un singur punct de vedere, anume ele sunt asimetrice, vrful este

    plasat n stnga sau dreapta mediei. Spunem c avem o distribuie distorsionat sau

    asimetric (skewed). Cele din stnga (a,c,e) au un grad mic de distorsiune (asimetrie). n

    toate cazurile vrful este n apropierea mediei. Toate acestea sunt distribuite simetric.

    Pe de alt parte cele dou distribuii de pe fiecare rnd pot fi considerate similare, n sensul

    c au un anumit grad de ascuire sau kurtosis. Cele din primul rnd sunt foarte ascuite;

    ele au aceleai grad de kurtosis. Cele din al doilea rnd au ascuimea mai moderat, iar

    cele din al treilea rnd sunt relative plate.

    Distorsiunea msoar, deci, volumul de valori din distribuia concentrat de o parte i de alta

    a mediei. Dac acest volum de valori este mai mic dect media, spunem c distribuia este

    pozitiv distorsionat (b). Daca exist mai multe valori mai mari dect media, spunem c

    distribuia este negativ distorsionat (d).

  • StatisticaecologicaNotedecurs

    Page13

    O distribuie perfect simetric nu are distorsiune (skewness=0).

    Exist mai multe metode de msurare a distorsiunii. Cea mai uzitat este formula:

    33)(

    nxx

    S =

    unde la numrtor avem deviaia cubic a valorilor fa de medie, iar este abaterea medie ptratic.

    Avem urmtoarele situaii:

    -dac S 0 avem distorsiune pozitiv.

    Kurtosis boltire

  • StatisticaecologicaNotedecurs

    Page14

    Kurtosis d o msura a extinderii nspre valorile care sunt concentrate ntr-o parte a

    distribuiei de frecven. Dac o clas ntr-o distribuie de frecven conine o foarte mare

    parte din valorile din distribuie, atunci distribuia prezint un mare grad de kurtosis, iar forma

    este mai ascuit.

    ntr-o distribuie cu un grad mic de kurtosis (distribuie plat) fiecare clas conine o proporie

    similar din toate valorile.

    Formula folosit pentru k este :

    44)(

    nxx

    K =

    Pentru distribuia normal avem K=0, pentru o distribuie ascuita K>0, iar pentru o distribuie

    plat K