Statistică - Suport de Curs

66
1 PARTEA I STATISTICĂ DESCRIPTIVĂ Curs 1: Scurt istoric Într-o primă concepție, statistica echivala cu descrierea statului, expunerea situației geografice, economice și politice. Acest gen de statistică a fost cultivat mai întâi de italieni. Încă din sec. XIII - XIV în Republica Veneția se elaborau diferite rapoarte care conțineau informații privitoare la partenerii săi comerciali și au fost utilizate în politica comercială oficială. Curentul "descrierea statului" a atins apogeul în sec. XVII- XVII când, în Germania, s-a constituit o adevărată școală cunoscută sub denumirea de școala descriptivă germană. Descrierea statului a devenit disciplină de predare acadamică, încadrată într-un sistem construit după norme teoretice și practice, care s-au elaborat și dezvoltat în universitățile germane. Noua disciplină (Staatskunde), a primit numele de statistică (Statistik). Pe vremea constituirii statisticii ca disciplină descriptivă a statului, se năștea în Anglia, în afara universităților, o statistică cunoscută sub numele de aritmetica politică, a cărui scop era: analiza datelor de observație prin procedee matematice, desprinderea regularităților în fenomenul social și chiar formularea de previziuni. Studiile demografice lăsau să se întrevadă că previziunea fenomenelor colective ar putea avea o însemnătate practică; dealtfel tabelele de mortalitate, întocmite în sec. XVIII au constituit punctul de plecare al înfloritoarei industrii de asigurări. Folosirea metodei statistice, recurgerea la instrumentul matematic și căutarea legităților marcau un substanțial progres, prefigurînd statistica modernă. Este dificil să se dea o definiție satisfăcătoare statisticii. În limbaj uzual termenul este folosit pentru a desemna o colecție de numere referitoare la un anumit domeniu (demografie, precipitații, debite). În sens tehnic (mai precis matematic) statistica este un instrument al matematicii utilizat pentru prelucrarea și interpretarea informațiilor numerice. Scopul statisticii Statistica poate fi clasificată în două mari categorii: - statistica descriptivă - statistica analitică.

description

1

Transcript of Statistică - Suport de Curs

Page 1: Statistică - Suport de Curs

1

PARTEA I

STATISTICĂ DESCRIPTIVĂ

Curs 1: Scurt istoric

Într-o primă concepție, statistica echivala cu descrierea statului, expunerea situației

geografice, economice și politice. Acest gen de statistică a fost cultivat mai întâi de italieni. Încă

din sec. XIII - XIV în Republica Veneția se elaborau diferite rapoarte care conțineau informații

privitoare la partenerii săi comerciali și au fost utilizate în politica comercială oficială.

Curentul "descrierea statului" a atins apogeul în sec. XVII- XVII când, în Germania, s-a

constituit o adevărată școală cunoscută sub denumirea de școala descriptivă germană.

Descrierea statului a devenit disciplină de predare acadamică, încadrată într-un sistem

construit după norme teoretice și practice, care s-au elaborat și dezvoltat în universitățile germane.

Noua disciplină (Staatskunde), a primit numele de statistică (Statistik).

Pe vremea constituirii statisticii ca disciplină descriptivă a statului, se năștea în Anglia, în

afara universităților, o statistică cunoscută sub numele de aritmetica politică, a cărui scop era:

analiza datelor de observație prin procedee matematice, desprinderea regularităților în fenomenul

social și chiar formularea de previziuni. Studiile demografice lăsau să se întrevadă că previziunea

fenomenelor colective ar putea avea o însemnătate practică; dealtfel tabelele de mortalitate,

întocmite în sec. XVIII au constituit punctul de plecare al înfloritoarei industrii de asigurări.

Folosirea metodei statistice, recurgerea la instrumentul matematic și căutarea legităților marcau un

substanțial progres, prefigurînd statistica modernă.

Este dificil să se dea o definiție satisfăcătoare statisticii. În limbaj uzual termenul este

folosit pentru a desemna o colecție de numere referitoare la un anumit domeniu (demografie,

precipitații, debite). În sens tehnic (mai precis matematic) statistica este un instrument al

matematicii utilizat pentru prelucrarea și interpretarea informațiilor numerice.

Scopul statisticii

Statistica poate fi clasificată în două mari categorii:

- statistica descriptivă

- statistica analitică.

Page 2: Statistică - Suport de Curs

2

Statistica descriptivă se ocupă de prezentarea, clasificarea și sintetizarea datelor de

observație. Aceasta concentrează informația existentă în datele respective cu ajutorul anumitor

indicatori statistici care, în fond, sunt niște numere ce exprimă caracteristici sau tendințe ale

fenomenului studiat.

Statistica analitică folosește metode matematice (teoria probabilităților) pentru extragerea

și prelucrea informației statistice; în multe cazuri aceste metode pun în evidență legități statistice.

Depășirea stadiului descriptiv, al simplei metode cantitative, a însemnat, istoric vorbind,

deplasarea gândirii statistice spre interpretarea analitică a fenomenului și obținerea de concluzii

inductive, pe baza observațiilor empirice. Această schimbare de conținut a făcut ca statistica să se

întrepătrundă în mod constant cu matematica, în căutarea de metode corespunzătoare obiectivelor

sale.

Transpusă într-un limbaj matematic statistica s-a construit într-o teorie numită teoria

corelației statistice, ale cărei aplicații au permis identificarea unor noi legi de dependență, specific

statistice și adaptate la formele complexe și variate pe care le oferă natura în diferitele sale

manifestări.

În cercetările moderne se pornește de la ipoteze statistice asupra fenomenului sau procesului

observat, consecințele lor logic deduse se compară apoi cu datele disponibile și dacă sunt în

concordanță, ipotezele sunt justificate, cel puțin până la noi observații mai riguroase.

Unul din obiectivele esențiale ale statisticii se consideră tocmai măsurarea incertitudinii

concluziilor inductive. De la un timp însă, gîndirea statistică tinde să se preocupe mai puțin de

măsurarea incertitudinii și mai mult de determinarea riscului de eroare și a pierderilor implicate de

orice decizie întemeiată pe o informație care, prin natura sa, nu poate fi exhaustivă.

Aplicarea calculelor statistice la datele empirice, oferite de observare a fenomenului,

permite desprinderea de legități statistice.

Fenomenele sunt în interconexiune unele cu altele, în sensul că se generează și se

influențează reciproc. Acest fapt conduce la noțiunea de cauzalitate care exprimă interacțiunea

dintre cauză și efect astfel încât întotdeauna cauza să preceadă efectul. Desfășurarea fenomenelor

constă astfel într-un șir neîntrerupt de momente, într-o succesiune cauză-efect, efectul fiind la

rîndul lui cauză pentru un alt efect ș.a.m.d. Astfel se formează un lanț cauzal. Orice întrerupere a

lanțului cauzal înseamnă de fapt existența unui efect care să nu aibă cauză. Nici un fenomen nu se

abate de la acest principiu care poartă numele de principiul cauzalității. Cunoașterea desfășurării

Page 3: Statistică - Suport de Curs

3

evenimentelor este asigurată de cunoașterea legilor care guvernează fenomenul și a ansamblului de

condiții în care se desfășoară acesta. Deci legea este un element primordial în cunoașterea

fenomenelor deoarece exprimă raporturile esențiale, necesare, generale, relativ stabile și repetabile

ale fenomenelor și ale desfășurării lor. Putem deosebi două mari categorii de legi:

- legi fizice, care se aplică fenomenelor și proceselor individuale luate în parte (ex. legea

atracției universale, legile I, II, III ale dinamicii etc.) și

- legi statistice, care se aplică numai fenomenelor de masă, ansamblurilor de obiecte (ex.

legea gazelor perfecte, legea dezintegrării radioactive, etc.) și care exprimă anumite caracteristici

ale ansamblului considerat.

Legile fizice permit cunoașterea perfectă a desfășurării viitoare a fenomenelor pe baza

cunoașterii la momentul inițial a unor mărimi. Astfel, în mecanică, legea a II-a a lui Newton

permite cunoașterea perfectă a mișcării unui obiect atunci când se cunosc la momentul inițial

poziția (trei coordonate) și viteza sau impulsul (trei proiecții) obiectului.

Legile statistice permit cunoașterea desfășurării viitoare a fenomenelor doar în termeni

probabilistici (probabilități, valori medii, erori statistice etc.). Acest lucru indică de la început că

informația pe care o dă o lege statistică este mai săracă decât cea dată de legea dinamică. Cu toate

acestea, legea statistică permite cunoașterea desfășurării viitoare a fenomenelor și poate fi tot atât

de deterministă ca și cea dinamică.

Particularitatea esențială a legilor statistice izvorâtă din faptul că ele acționează în

fenomenele de masă, unde întregul este determinat de unitatea părților componente, o constituie

exprimarea comportării ansamblului de unități omogene și nu a fiecărei unități în parte. În mod

corespunzător, legea statistică se realizează ca o tendință predominantă, ca o necesitate care își

croiește drum printr-un număr foarte mare de contingențe și care se manifestă în aceste contingențe

ca media unui număr mare de abateri întîmplătoare. De aici și principiul verificat deseori în

practică: legea statistică poate fi evidențiată dacă și numai dacă este considerat și supus observării

un număr mare sau suficient de mare de unități elementare ale ansamblului considerat.

Page 4: Statistică - Suport de Curs

4

Noțiuni elementare

Investigarea statistică presupune, prin definiție, considerarea fenomenelor în multiplicitatea

și variabilitatea lor. Un ansamblu de fenomene formează un fenomen de masă, sau, ceea ce numim

populație statistică, în măsura în care elementele componente (indivizi) sunt de aceași natură, adică

au toate o proprietate comună și se deosebesc unele de altele în raport cu aspectele sau valorile

caracteristice luate în studiu. Populația cu care lucrează statistica trebuie să fie global omogenă - să

includă doar elementele similare, aparținînd de aceeași "categorie" și intern structurată -

elementele ei să poată fi ordonate potrivit unui sistem de clasificare.

Așa cum rezultă din cele de mai sus, o însușire specifică statisticii este aceea că statistica nu

se ocupă cu un element (individ) luat ca atare, ci cu colectivități, cu grupuri de elemente ce posedă

o anumită trăsătură comună. Această trăsătură se numește caracteristică. Denumirea de "populație"

s-a păstrat din timpurile în care statistica se ocupa cu precădere de populații în sensul propriu al

cuvîntului. O populație poate fi împățită în subpopulații sau populații parțiale, care sunt: clase,

grupe și eșantioane.

O clasă este un subansamblu de elemente ale unei populații care conțin o variabliă

determinată de aceeași măsură.

Un grup este un subansamblu de elemente ale unei populații care se distinge printr-o

manieră de tratare comună.

Un eșantion este un subansamblu de elemente ale unei populații ales la întâmplare. Se

apelează la acest gen de populație parțială atunci când populația în studiu este prea mare pentru a fi

tratată în ansamblul ei. Studiul asupra eșantionului va fi atribuit întregii populații.

Indivizii unei populații statistice sunt cercetați pentru una sau mai multe caracteristici.

Caracteristicile întâlnite se clasifică în caracteristici cantitative și calitative. Caracteristicile

cantitative sunt cele care se a căror măsură au o exprimare numerică (înălțime, greutate, lungimea

unui râu etc.) și se mai numesc variabile statistice. Caracteristicile calitative nu se măsoară numeric

(culoare, sexul unei persoane etc.). Ele nu reprezintă o măsură a unei entități. Dacă se convine să se

reprezinte unele din ele prin numere atașate la categoriile ce le determină, nu este vorba decât de o

"codificare", procedeul nejustificând operațiile aritmetice. Aceste caracteristici se mai numesc

atribute.

La rândul lor, caracteristicile cantitative pot fi discrete sau continue. Variabilele discrete

sunt cele care pot lua un număr finit (sau cel mult numărabil) de valori distincte (întregi,

Page 5: Statistică - Suport de Curs

5

fracționare), cum ar fi numărul membrilor unei familii, nr. de stații hidrologice etc. Variabilele

continue sunt cele care pot lua orice valoare dintr-un anumit interval (înălțimea unui individ,

nivelul unui râu etc.). Totuși, în practică nu se întâlnește o informație privind adâncimea unui râu

de forma: 1m, 3 cm, 17 microni. Acest lucru nu se va întîmpla fie că precizia aparatelor cu care

efectuăm măsurătorile este limitată, fie că o precizie exagerată nu este întotdeauna folositoare

pentru ceea ce urmărim în investigație. Astfel, măsurătorile sau datele de observație se grupează în

cadrul unei anumite unități și deci din punct de vedere practic se lucrează cu forma discretă chiar

dacă variabilele sunt de tip continuu. Distincția între caracterul cantitativ și cel calitativ, precum și

între variabilele discrete și variabilele continue este fundamentală deoarece ele recurg la tehnici de

analiză foarte diferite.

Aici trebuie să lămurim un lucru care dă deseori naștere la confuzii: mulți sunt înclinați să

creadă că variabilele discrete trebuie să ia numai valori întregi și că numerele fracționare sunt tipice

pentru variabilele continue; cu alte cuvinte diferența dintre continuu și discret se confundă cu

diferența dintre măsurătorile cu numere întregi și cele fracționare. Să luăm exemplul următor: o

variabilă ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabilă discretă deoarece trecerea de la o

valoare la alta se face fără vreo altă valoare intermediară.

Cercetarea statistică a unei colectivități poate fi:

-exhaustivă (totală), când fiecare individ este analizat, de exemplu în cazul recensămintelor;

-parțială (selectivă), când sunt examinați numai anumiți indivizi, aleși aleator. Ea este cea

mai frecvent folosită, în majoritatea cazurilor fiind și singura posibilă.

Partea examinată din colectivitate se numește selecție sau eșantion. Numărul indivizilor

examinați se numește volumul selecției.

Page 6: Statistică - Suport de Curs

6

Curs 2: Analiza seriilor statistice

Evaluarea anumitor indicatori (parametri) statistici implică stabilirea caracteristicilor

(proprietăților) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea,

independența și concentrarea/împrăștierea (dispersia) către/față de un una sau mai multe valori ale

seriei.

Variabilitatea termenilor unei serii statistice este determinată de faptul că fenomenul pe

care îl reprezintă nu este univoc determinat, ci apare ca un rezultat al acțiunii combinate a mai

multor cauze (permanente sau întâmplătoare). Cu cât acțiunea cauzelor întâmplătoare este mai

mare, cu atât variabilitatea este mai mare și gradul de omogenitate mai mic.

Omogenitatea presupune o variație minimă între termeni. Dacă în urma analizei se constată

că o serie nu prezintă omogenitate, înseamnă că în acest caz colectivitatea este formată din mai

multe tipuri calitative și seria trebuie descompusă în subserii componente.

Independența termenilor unei serii provine din faptul că fiecare valoare individuală

reprezintă un element distinct și obiectiv al unei populații statistice. Termenii ce aparțin aceleiași

colectivități se supun acelorași legi care se manifestă sub formă de tendință.

Concentrarea/împrăștierea (dispersia) către/față de un una sau mai multe valori ale seriei

apare ca rezultat al intensității unui efect produs de cauze esențiale și întâmplătoare. Acest lucru

determină frecvențele diferite de apariție a diferitelor valori din serie. Dacă intensitatea factorilor

este uniformă, frecvențele de apariție sunt apropiate. În caz contrar, frecvențele de apariție se

concentrează fie la un singur capăt al seriei, fie către o valoare centrală.

Repartiții de frecvențe

Există diferențe între analiza seriilor dinamice și problemele legate de gruparea și analizarea

materialelor pentru care factorul timp nu are importanță. La cercetarea seriilor dinamice problema

de bază o reprezintă analiza variabilei timp.

Metodele de analiză folosite în aceste două cazuri se deosebesc sensibil. În cele ce urmează

ne vom ocupa de problemele grupării și analizei prealabile a datelor numerice pentru care ordinea

de așezare în timp nu contează.

Datele statistice în stare brută reprezintă o masă dezordonată de materiale. Prima problemă

este aceea de a face o asemenea grupare a datelor cu ajutorul căreia să se poată aprecia valoarea lor

în legătură cu problema propusă, să se poată înlesni comparația cu alte date de același gen și să se

Page 7: Statistică - Suport de Curs

7

poată obține posibilitatea unei analize ulterioare. Înainte ca materialul statistic să fie supus analizei

ulterioare și generalizărilor care vor permite să se facă anumite deducții, el trebuie să capete o

anumită formă și o structură clară. Cu alte cuvinte în cadrul analizei datelor statistice trebuie să se

ia în considerare atât valorile individuale cât și frecvențele de apariție ale acestora.

În urma observării caracteristicii cantitative X în n probe se obțin următoarele date primare:

x1, x2,..., xn (1)

În cazul în care volumul selecției este mic aceste date sunt ușor de manipulat și nu este nevoie de o

grupare a lor. Dacă însă avem o selecție de volum mare este greu de lucrat cu aceste date. În plus

tabelele de date primare nu sugerează nimic referitor la referitor la repartiția variabilei X. De aceea

este nevoie de o grupare (centralizare) a datelor.

Gruparea datelor se face în funcție de tipul caracteristicii X. Astfel, dacă X este o variabilă

discretă ce poate lua valorile distincte v1, v2 ,..., vn , atunci în locul datelor inițiale se va reține

repartiția empirică:

m

m

nnn

vvv

....

....

21

21 (2)

Unde ni, (i=1, m) reprezintă frecvența apariției (numărul de apariții) valorii vi, iar n reprezintă

numărul valorilor din șirul inițial (1) și se numește frecvență absolută a valorii v. Valoare m

reprezintă numărul de clase.

Raportul fj =nj/n dintre frecvența absolută și numărul total de probe se numește frecvență

relativă. Se observă că

f1 + f2 +…+ fm =1 întrucât n1 +n2 + ... +nm = n.

Frecvențele relative, numite impropriu și probabilități de apariție, stau la baza calculării densității

de repartiție a frecvențelor și a indicatorilor care exprimă gradul de concentrare. De asemenea

permit compararea a două repartiții construite pe aceeași variabilă, care diferă numai prin numărul

unităților pe grupe.

Page 8: Statistică - Suport de Curs

8

Dacă X este o variabilă continuă care poate lua valori într-un interval [a,b] atunci acest

interval este împărțit în m subintervale [aj, aj+1], j=1, m , cu a1 = a și am+1 = b. Pentru fiecare din

aceste subintervale se determină numărul n al valorilor din șirul (1) care se află în acest interval

numit frecvență absolută a subintervalului.

Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremitățile se iau

echidistante, deci subintervalele au lungimi egale. Însă numărul m al subintervalelor nu se alege la

întîmplare. Este important ca prin gruparea datelor să nu se piardă caracterul global al repartiției

(dacă m este prea mic se poate denatura repartiția reală a variabilei X). Astfel, după unii autori

numărul subintervalelor, m, trebuie alese în conformitate cu formula lui Sturges:

m=[1 + 3,322logn]

Mărimea intervalului va fi dată de formula:

m

xxi minmax

Reprezentarea grafică a repartițiilor statistice

Există mai multe tipuri de reprezentări grafice a datelor statistice. Dintre acestea prezentăm

histograma, poligonul frecvențelor și graficul frecvențelor cumulate.

Histograma este o figură într-un sistem de coordonate rectangualre care reprezintă

distribuția empirică prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor,

reprezintă subintervalele folosite în centralizarea datelor. Înălțimea hj a dreptunghiului cu baza (aj,

aj+1) este proporțională cu raportul dintre frecvența relativă a intervalului și lungimea sa:

jj

j

jaa

fCh

1

constanta C fiind un factor de scară. În cazul când subintervalele grupării au lungimi egale,

înălțimea hj va fi proporțională cu frecvența relativă, deci hj =C*fj .

Page 9: Statistică - Suport de Curs

9

Poligonul frecvențelor este o diagramă în care pe axa absciselor se iau mijloacele vj ale

intervalelor (aj, aj+1) folosite în grupare, iar pe axa ordonatelor valorile hj definite în construirea

histogramei. Linia frîntă care unește punctele de coordonate (vj, hj) se numește poligonul

frecvențelor. El se poate obține din histogramă unind mijloacele laturilor superioare ale

drptunghiurilor. În fig 1 poligonul frecvențelor este trasat printr-o linie punctată.

Mărimile c1, c2, ..., cm definite prin:

j

i

ij fc1

se numesc frecvențe cumulate.

Linia frântă obținută prin unirea punctelor de coordonate (aj+1, cj ] se numește graficul frecvențelor

cumulate.

Modalitǎți de clasificare a datelor

Modul de stabilire a claselor – determinarea pragurilor minime și maxime ale fiecǎrei clase

– determinǎ maniera în care sunt atribuite valorile fiecǎrei clase și deci felul în care va arǎta

distribuția. Prin schimbarea claselor se crează diagrame cu aspect diferit. În general se urmărește ca

valori similare să fie în aceeași clasă.

Există doi factori cheie în clasificarea datelor: schema de clasificare utilizatǎ și numǎrul de

clase ce se dorește a fi creat. Dacǎ datele sunt bine cunoscute se poate predetermina manual

numǎrul de clase. În caz contrar se utilizează schemele clasice. Cele mai frecvente scheme de

clasificare sunt: natural breaks, quantile, intervale egale și deviația standard. Acestea sunt descrise

în cele ce urmează.

Page 10: Statistică - Suport de Curs

10

Scheme standard de clasificare

Natural breaks (Jenks)

Datele se clasificǎ pe baza grupǎrii naturale a valorilor. Se identificǎ punctele de rupturǎ

cǎutând acele modele de grupare implicite ale datelor. Valorile sunt împǎrțite în clase acolo unde

granițele sunt marcate prin salturi mari de la o valoare la alta.

Quantile

Fiecare clasǎ conține un numǎr egal de valori. O astfel de clasificare este foarte potrivitǎ în

cazul datelor liniare. Din cauzǎ cǎ datele sunt grupate dupǎ numǎr în fiecare clasǎ, diagrama

rezultatǎ poate fi înșelǎtoare. Datele similare pot fi plasate în clase diferite, sau valori foarte diferite

pot fi grupate împreunǎ. Aceastǎ distorsiune poate fi evitatǎ mǎrind numǎrul de clase.

Page 11: Statistică - Suport de Curs

11

Intervale egale

Aceastǎ schemǎ de clasificare divide șirul de valori atribut în subșiruri egale. Spre exemplu

în cazul unui șir de valori de la 1 la 300 și a trei clase, fiecare clasǎ reprezintǎ un șir de 100 ( 1-100,

101-200, 201-300). Aceastǎ metodǎ accentueazǎ cantitatea de valori atribut relativ la celelalte

valori, spre exemplu pentru arǎta cǎ un magazin este parte a unui lanț de magazine care a realizat o

treime din vânzǎri. Cel mai bine se utilizeazǎ pentru șiruri de date dintr-un anumit domeniu cum ar

fi temperatura și procentele.

Page 12: Statistică - Suport de Curs

12

Deviația standard

Aceastǎ schemǎ de clasificare arată cu cât variază o valoare de la medie. Se calculeazǎ

media și apoi se genereazǎ clasele adǎugând sau scǎzând din ea deviația standard.

Caracterizarea repartițiilor de frecvență

Datele (care se referă la diferite domenii ale cunoașterii) odată aranjate într-o repartiție de

frecvențe, scot în evidență trăsăturile commune ale tuturor curbelor de repartiție și care se supun

unor legi generale. Acest lucru ne permite ca experiența câștigată într-un anumit domeniu al

cunoașterii să poată fi extinsă și în alt domeniu.

La toate curbele însă trebuie să observăm variabilitatea mărimilor care se obțin ca rezultat al

unor măsurători. Cu toate că există variabilitate, se observă o tendință a datelor de a se grupa în

centrul curbei (tendința centrală). Dacă se măsoară mărimea abaterii de la punctul de concentrare

maximă a frecvențelor, se constată că sunt mai frecvente abaterile mici decât cele mari, că abaterile

în ambele părți față de punctul de concentrare maximă se echilibrează aproape complet și că

abaterile foarte mari sunt foarte rare. Deoarece frecvența variază, vom alege acea mărime care se

întâlnește cel mai des. Ea va fi măsura tendinței centrale a repartiției. Această mărime, ca și altele

asemănătoare se numesc indicatori (sau parametrii) de poziție, deoarece arată poziția elementelor

principale ale repartiției pe axa absciselor.

Caracterul reprezentativ al oricărui indicator de poziție depinde de cât de strîns i se alătură

celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor în jurul tendinței centrale.

Page 13: Statistică - Suport de Curs

13

Indicatorii tendinței centrale

Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populație statistică se

face prin calcularea unor medii, în felul acesta făcându-se o compensare a valorilor individuale.

Acest calcul ne arată o anumită tendință a fenomenului studiat, media statistică fiind o valoare ce

sintetizează într-o singură expresie numerică toate valorile din seria măsurători sau observații.

Termenii seriei diferă de medie deoarece au fost influențați de diferiți factori.

Media aritmetică

Media aritmetică simplă exprimă un nivel mediu, anihilând abaterile individuale, netipice.

Ea este cuprinsă între valoraea cea mai mare și cea mai mică.

Definiția 1. Dacă în urma unei selecții apar valorile distincte x1, x2,..., xn, atunci media aritmetică

este dată de formula:

n

i

in x

nn

xxxx

1

21 1...

În cazul datelor centralizate (în care avem repartiția de frecvență (2)):

n

i

iinn vn

nn

vnvnvnx

1

2211 1...

care se mai numește medie aritmetică ponderată. Numărul care arată de câte ori se repetă fiecare

valoare (nj) este "ponderea" valorii respective.

Observația 1. Media aritmetică are dezavantajul că este sensibilă la valori extreme, iar dacă

termenii sunt prea "împrăștiați", tinde să devină o valoare nereprezentativă. Media aritmetică este o

valoare lipsită de conținut dacă elementele sunt deosebite din punct de vedere calitativ, caz în care

este mai util să se facă medii parțiale pentru fiecare tip de colectivitate.

Observația 2. Dacă avem mai multe medii, fiecare referindu-se la o anumită categorie,

fiecare medie va fi ponderată în funcție de importanța categoriei sale.

Page 14: Statistică - Suport de Curs

14

Media geometrică

Media geometrică este mai puțin sensibilă la valorile extreme decât celelalte medii, deci se

întrebuințează când dorim să atenuăm divergențele mari dintr-o serie de determinări cu frecvențe

egale, fiind după o expresie "cea mai exactă medie". Se utilizează când valorile au o evoluție (de

creștere sau scădere) permanentă, neîntreruptă, sau o rație din ce în ce mai mare, termenii fiind

legați între ei printr-o relație de produs. De asemenea se mai întrebuințează când vrem să dăm o

importanță mai mare termenilor mai mici, în valoare absolută, sau când diferențele între termeni

sunt foarte mari. Are dezavantajul că nu se poate întrebuința când avem valori nule sau negative.

Definiția 2. Dacă x1, x2,..., xn sunt n valori, media geometrică se definește prin

nng xxxM ...21

Calculul se face mai ușor cu ajutorul logaritmilor:

n

i

ig xn

M1

lg1

lg

Datorită faptului că se calculează mai ușor cu ajutorul logarimilor, se mai numește "medie

logaritmică". Ea se utilizează și la calcularea ritmului (de creștere sau descreștere) numindu-se

astfel și "medie de ritm". În rezumat, se întrebuințează când:

- seria are o mare dinamicitate;

- termenii au variații mari;

- distribuția are un caracter pronunțat de asimetrie.

Observația 3. Media geometrică se folosește atunci când prezintă importanță variațiile

relative. De asemenea media geometrică poate fi folositoare pentru calculul unor rapoarte.

Media pătratica se întrebuințează când valorile prezintă creșteri din ce în ce mai mari. Ea

constituie modelul matematic pentru abaterea medie pătratică. Media este sensibilă la valori

extreme, din care cauză este întotdeauna mai mare decât celelalte medii. Are avantajul că se poate

Page 15: Statistică - Suport de Curs

15

aplica și în cazul valorilor nule sau negative (care prin ridicare la pătrat devin pozitive). Se

întrebuinzează când dăm importanță valorilor mari.

Definiția 3. Media pătratică este definită prin formula:

n

i

ispatr xn

x1

2

,

1

sau în cazul datelor centralizate (media ponerată):

n

i

iippatr vnn

x1

2

,

1

Media Armonică

Definiția 4. Media armonică este valoarea inversă a mediei aritmetice ale valorilor inverse

datelor de observație:

n

i i

h

x

nM

1

1

Exprimă caracterul sintetic al unor valori ce se află în raport invers. Se utilizează când

frecvențele sunt egale. Pentru o repartiție de frecvență, media armonică se folosește rar. Se

utilizează cu predilecție în economie.

Media glisantă numită și "medie mobilă", se utilizează în cazul în care șirul valorilor

prezintă fluctuații mari, bruște și e greu de apreciat tendința (trendul). Se presupune că media

glisantă corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori

alăturate.

Definiția 5. Media glisantă pentru 3, respectiv 5 valori alăturate sunt date de formulele

3

113,

iii

glis

xxxx

Page 16: Statistică - Suport de Curs

16

5

21125,

iiiii

glis

xxxxxx

Mediana

Definiția 6. Mediana este elementul dintr-un șir de date statistice care ar împărți intervalul în două

grupe egale ca număr, după ce acestea au fost ordonate după mărimea lor. Dacă seria are 2n+1

elemente, atunci mediana este elementul n+1, iar dacă are 2n elemente mediana este media

aritmetică a celor doi termeni din mijloc.

Indicatorii variației

O medie este reprezentativă numai atunci când se calculează din valori omogene între ele.

Cu cât fenomenele sunt mai complexe (dependente de mai multi factori), cu atât variația este mai

mare și utilizarea mărimilor medii devine insuficientă. De aceea este important de cunoscut cât de

‘departe’ sunt valorile sumei statistice față de medie. Comparația se face cu media seriei,

considerată ca fiind valoarea cea mai reprezentativă pentru populația statistică.

Analiza statistică a unei repartiții poate fi aprofundată prin calculul indicatorilor de variație.

Acești indicatori trebuie să servească la:

-verificarea reprezentativității mediei ca valoare tipică a unei populații statistice;

-verificarea gradului de omogenitate a seriei;

-caracterizarea statistică a formei și gradului de variație a unui indicator;

-cunoasterea gradului de influență a factorilor după care s-a facut gruparea unităților observate.

Indicatorii simpli ai variației

Indicatorii simpli ai variației servesc la caracterizarea gradului de împraștiere a mărimilor seriei

statistice. Se pot exprima atât în mărimi absolute cât și în mărimi relative.

Din aceasta grupă fac parte:

-amplitudinea variației (absolută și relativă);

-abaterile individuale (absolute și relative).

Page 17: Statistică - Suport de Curs

17

Amplitudinea absolută se calculeaza ca diferența dintre valoarea maximă și valoarea minimă al

caracteristicii:

Aa = xmax – xmin

Amplitudinea relativă se exprima de regulă în procente și se calculează ca un raport între

amplitudinea absolută și media aritmetică:

Ar= 100x

Aa

Abaterile individuale absolute (di) se calculează ca diferența între fiecare valoare și media

aritmetică:

di = xi - x , i = 1,...,n

Abaterile individuale relative (dr) se calculează ca raportul dintre abaterile individuale absolute și

media aritmetică (se exprima în procente):

dr = 100x

d i , i = 1,...,n

Gradul de variație al unei caracteristici depinde de toate abaterile variantelor înregistrate și

de frecvența lor de apariție și prin urmare indicatorii simpli ai variației nu pot exprima întreaga

variație a unei populații statistice. De aceea a fost necesară introducerea indicatorilor sintetici ai

variației.

Indicatorii sintetici ai variației

Indicatorii sintetici ai variației, la fel ca și indicatorii tendintei centrale trebuie să se bazeze

pe toate observațiile, sa fie ușor de calculat, ușor de înteles și să fie cât mai puțin afectați de

fluctuațiile de selecție.

Indicatorii sintetici ai variației sunt:

-abaterea medie liniară ;

-abaterea medie patratică;

-dispersia;

-coeficientul de variație.

Page 18: Statistică - Suport de Curs

18

Abaterea medie liniară se calculează ca o medie aritmetică simplă sau ponderată, luate în

valoare absolută:

Pentru o serie simplă

n

xx

d

n

i

i

1

||

Abaterea medie liniară prezintă dezavantajul că nu ține seama de faptul că abaterile mai

mari în valoare absolută influentează în mai mare masură gradul de variație a unei caracteristici, în

comparație cu abaterile mici. În plus, nu este indicat să se renunțe în mod arbitrar la semnul

valorilor din care se calculează o valoare medie. Din aceste considerente se folosește ca principal

indicator sintetic al variației abaterea medie patratică.

Abaterea medie patratică sau abaterea standard (σ) se calculează ca o medie patratică din

abaterile tuturor elementelor seriei de la media lor aritmetică:

σ = n

xxn

i

i

1

2)(

Acest indicator este mai concludent decât abaterea medie liniară. Prin ridicarea la pătrat se dă o

importanță mai mare abaterilor mari în valoare absolută, acestea influențând într-o măsura mai

mare gradul de variație al variabilelor analizate.

În literatura de specialitate se apreciază ca pentru o serie de distribuție normală abaterea

medie liniară este egală cu 4/5 din valoarea abaterii medii pătratice.

Abaterea medie pătratică este un indicator de bază, care se folosește la analiza variației, la

estimarea erorilor de selecție în calculul de corelație.

La fel ca abaterea medie liniară, abaterea medie pătratică se exprimă în unitatea de masură a

variabilei a cărei variație o caracterizează. Prin urmare cei doi indicatori nu se pot folosi pentru

compararea gradului de variație și în aceasta situație se recurge la un alt indicator de variație:

coeficientul de variație.

Page 19: Statistică - Suport de Curs

19

Coeficientul de variație (v) se calculeaza ca un raport între abaterea medie pătratică și

media aritmetică. De obicei se exprimă sub formă de procente:

v = 100x

Semnificație. Cu cât valoarea lui v este mai aproape de zero cu atât variația este mai slabă,

colectivitatea este mai omogenă, media având un grad ridicat de reprezentativitate. Cu cât valoarea

lui v este mai mare cu atât variația este mai intensă, colectivitatea este mai eterogenă, iar media are

un nivel de semnificație scăzut.

Se apreciază că la un coeficient de peste 35-40%, media nu mai este reprezentativă și datele

trebuie separate în serii de componente, pe grupe, în funcție de variația unei alte caracteristici de

grupare.

Se poate afirma că acest indicator poate fi folosit ca un test în aplicarea metodei grupării.

Dacă media aritmetică este aproape de zero, coeficientul de variație nu are semnificație.

Dispersia ( 2 ) este media pătratelor abaterilor de la media aritmetică:

22 1 xx

ni .

Măsura dispersiei se referă la «împrăștierea» valorilor dintr-un set de date. Media nu are

semnificație dacă se aplică pe un set de date foarte dispersate. De exemplu dacă luăm valoarea

medie a orașelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorită

Bucureștiului care are 2.000.000. Însă rezultatul nu are nici o semnificație (nici un oraș nu area

această valoare).

Măsurile dispersiei, exprimate sub forma unităților de măsură ale fenomenului cercetat, nu

sunt întotdeauna utile atunci când se compară dispersiile a două sau mai multe serii. Compararea

dispersiilor a două sau mai multe serii dă rezultate în următoarele 2 situații:

a) șirurile care se compară pot fi exprimate în aceleași unități, iar mediile pot fi aceleași sau

au dimensiuni aproape egale.

b) șirurile care se compară pot fi exprimate în aceleași unități, însă mediile diferă.

Dacă seriile se exprimă în unități diferite, dispersiile nu pot fi comparate direct. De aceea de multe

ori se folosește abaterea medie pătratică în loc de dispersie.

Page 20: Statistică - Suport de Curs

20

În unele lucrări această mărime se numește varianță (din l. engl. variance). Varianța este o măsură

importantă în special când se studiază variația a două sau mai multe eșantioane. O tehnică statistică

foarte puternică este cunoscută sub numele de analiza de varianță și utilizează dispersia pentru a

decide dacă un număr de eșantioane diferă semnificativ unul de altul.

Skewness și kurtosis

Skewness

Abaterea medie pătratică și dispersia sunt indicatori care dau o măsură a împrăștierii

valorilor într-o distribuție de frecvență. Într-un anume sens ele oferă o măsură a «lățimii»

distribuției. Aceasta însă nu oferă nici o informație privind caracteristicile formei distribuției de

frecvență. Figura de mai jos înfățișează 6 distribuții utilizând histograma. Aceasta reprezintă un set

de date care au același număr de valori. Pe orizontală avem o unitate de măsură exprimată în abateri

medii patratice (), iar pe verticală avem media aritmetică. După cum se observă, se poate face o

comparație directă.

Aparent cele șase distribuții de frecvență sunt foarte diferite. Cele din partea dreaptă (b, d, și

f) sunt similare dintr-un singur punct de vedere, anume ele sunt asimetrice, “vârful” este plasat în

stânga sau dreapta mediei. Spunem că avem o distribuție distorsionată sau asimetrică (skewed).

Cele din stânga (a, c, e) au un grad mic de distorsiune (asimetrie). În toate cazurile vârful este în

apropierea mediei. Toate acestea sunt distribuite simetric.

Pe de altă parte cele două distribuții de pe fiecare rând pot fi considerate similare, în sensul că au un

anumit grad de “ascuțire” sau kurtosis. Cele din primul rând sunt foarte ascuțite; ele au aceleași

grad de kurtosis. Cele din al doilea rând au “ascuțimea” mai moderată, iar cele din al treilea rând

sunt relative plate.

Distorsiunea măsoară, deci, volumul de valori din distribuția concentrată de o parte și de

alta a mediei. Dacă acest volum de valori este mai mic decât media, spunem că distribuția este

pozitiv distorsionată (b). Dacă există mai multe valori mai mari decât media, spunem că distribuția

este negativ distorsionată (d).

User
Notă autoadezivă
asimetrie
User
Notă autoadezivă
acuitate/aplatizare
Page 21: Statistică - Suport de Curs

21

O distribuție perfect simetrică nu are distorsiune (skewness=0).

Există mai multe metode de măsurare a distorsiunii. Cea mai uzitată este formula:

3

3)(

n

xxS

unde la numărător avem deviația cubică a valorilor față de medie, iar este abaterea medie

pătratică.

În rezumat, avem următoarele situații:

-dacă S <0 avem distorsiune negativă;

-dacă S >0 avem distorsiune pozitivă.

Skewness este un concept cu aplicații importante în geografie deoarece foarte multe

variabile în geografie au o distribuție accentuat distorsionată. Cu alte cuvinte distribuția de

frecvență seamănă foarte mult cu cele înfățișate în b, d sau f.

În al doilea rând alți indicatori cum ar fi media sau dispersia pot conduce la interpretări

greșite dacă se folosesc izolat.

Kurtosis

Kurtosis dă o măsură a extinderii înspre valorile care sunt concentrate într-o parte a

distribuției de frecvență. Dacă o clasă într-o distribuție de frecvență conține o foarte mare parte din

User
Evidenţiere
User
Evidenţiere
Page 22: Statistică - Suport de Curs

22

valorile din distribuție, atunci distribuția prezintă un mare grad de kurtosis, iar forma este mai

ascuțită.

Într-o distribuție cu un grad mic de kurtosis (distribuție plată) fiecare clasă conține o

proporție similară din toate valorile.

Formula folosită pentru Kurtosis (K) este:

4

4)(

n

xxK

Pentru distribuția normală avem K=3, pentru o distribuție ascuțita K>3, iar pentru o

distribuție plată K<3.

Din păcate acest indicator nu este folosit în studii geografice asa cum ar fi de dorit. Ca și

skewness kurtosis oferă informații prețioase asupra distribuției unui set de date suplimentare celor

date de medie și dispersie.

Trebuie remarcat faptul ca multe variabile statistice întâlnite în geografie au o distorsiune

mare dar și un K mare (>3). Când se aplică acestor variabile media aritmetica și dispersia, acestea

pot conduce la informații eronate. Mai mult în aceste condiții datele nu prezintă o distribuție

normală astfel că nu pot fi aplicate testele parametrice.

User
Evidenţiere
User
Evidenţiere
Page 23: Statistică - Suport de Curs

23

Repartiții de frecvență

Asocierea dintre distribuția observată și cea teoretică a fost mult timp neglijată în geografie.

Un studiu statistic nu poate fi făcut (nu are sens) fără această asociere. Forma unei distribuții

permite găsirea parametrilor descriptivi cei mai potriviți pentru fenomenul urmărit. Recunoașterea

formei unei distribuții este un indiciu pentru procedurile de transformare a datelor în mod

corespunzător. Totodată încadrarea într-o lege de distribuție teoretică permite atât operații de

interpolare cât și de extrapolare.

Ajustarea unei distribuții observate la o distribuție teoretică-adică la modele probabiliste

propriu-zise-implică acceptarea a priori că legile se încadrează în repartiția observată/măsurată a

fenomenului în cauză.

O cantitate măsurabila care poate varia de la un element la altul se numește caracteristică

cantitativă. Uneori se mai folosește termenul de variabilă. Ansamblul noțiunilor consacrate acestor

caracteristici poartă numele generic de teoria caracteristicilor cantitative.

Reamintim că, caracteristicile care pot lua orice valoare numerică între anumite limite sunt

numite caracteristici cantitative (variabile) continue. Caracteristicile care pot lua numai anumite

valori se numesc caracteristici cantitative (variabile) discrete (discontinue).

Dacă mai multe sute sau mii de valori ale unei variabile au fost notate într-o ordine cu totul

arbitrară în care au apărut ele în realitate, va fi dificil să tragem vreo concluzie cu privire la

semnificația acestor date. De aceea va trebui să condensăm datele cu ajutorul unor anumite metode

de ordonare sau grupare astfel ca proprietațile datelor să poată fi ușor evidențiate. De regulă

valorile alese pentru a defini grupele succesive vor fi echidistante, astfel ca numerele provenite din

observații și care aparțin la diferite grupe să poată fi comparabile.

Modul în care frecvențele de grupă sunt repartizate în intervale succesive se numește

repartiția de frecvență a variabilei.

Page 24: Statistică - Suport de Curs

24

Reprezentarea grafica: poligonul frecvențelor și histograma.

Deseori este convenabil să reprezentăm o repartiție de frecvență cu ajutorul unei diagrame

care să sugereze configurația observațiilor.

Histograma

-poligonul frecvenței: unirea punctelor marcate pe verticală pe mijlocul intervalului.

De observat că oricare ar fi aceste diagrame (orice formă ar avea), o anumită arie reprezintă un

număr de observații.

Page 25: Statistică - Suport de Curs

25

Numarul de observații care cad în intervalul [x1, x2] este proporțional cu aria delimitată de

curbă și cele două drepte.

Dacă intervalele de grupă sunt micșorate, în același timp numărul de observații crește, astfel

încât frecvențele de grupă să rămână finite, poligonul și histograma se apropie din ce în ce mai mult

de o curbă netedă.

O astfel de linie ideală a poligonului și histogramei se numește curbă de frecvență. Este un

concept esențial în statistică.

Când vom aborda teoria selecției va trebui să privim curba de frecvență ca reprezentând o

populație din care datele reale reprezintă un eșantion. Poligonul frecvențelor și histograma vor fi

aproximate cu o curbă, dar se vor îndepărta de ea în anumite porțiuni, datorită fluctuațiilor selecției.

Atunci când numărul de observații este considerabil, să zicem 1000, poligonul frecvențelor este

suficient de neted pentru a da o bună imagine a formei repartiției ‘ideale.’

Page 26: Statistică - Suport de Curs

26

Câteva tipuri uzuale de repartiții de frecvență.

Formele histogramelor corespunzatoare diferitelor date statistice sunt aproape fără sfârșit în

varietatea lor, dar printre ele putem distinge un număr relativ mic de tipuri fundamentale.

1) Repartiția simetrică. Valoarea medie este valoarea maximă și centrată, iar extremele

descresc și tind spre zero (distribuția normală) – ideal.

2) Repartiția moderat-asimetrică (oblică). Frecvențele de grupă descresc cu mare

rapiditate într-o parte și mai lent în cealaltă parte. Este cazul cel mai frecvent.

Page 27: Statistică - Suport de Curs

27

3) Repartiția în forma de U. Frecvențele maxime sunt la capetele intervalului de variație.

Este rar.

4) Repartiția extrem asimetrică.

Page 28: Statistică - Suport de Curs

28

Repartiții teoretice importante

Repartiția binomială

Legea binomială permite descrierea probabilităților asociate cu privire la două experimente

exclusive.

Pentru evitarea unor exemple particulare (monede, zaruri), vom folosi termenul de ‘succes’

pentru apariția unui eveniment (probabilitatea_1=p) și ‘insucces’ pentru neapariția sa

(probabilitatea_2=q). Evident vom avea p+q=1.

Considerăm că toate evenimentele într-un număr de încercări sunt independente, adică

probabilitățile p și q sunt aceleași pentru fiecare eveniment și rămân constante de-a lungul

încercărilor.

Presupunem că efectuăm un numar de N serii în care efectuăm câte n încercări în fiecare din

cele N serii și determinăm numărul de succese din fiecare serie (ex. aruncăm o moneda de 10 ori

pentru fiecare serie, observând de câte ori apare stema la fiecare serie).

În general, vor exista unele serii la care nu vom observa succese, altele la care vom observa

un succes, altele cu două succese ș.a.m.d. Prin urmare dacă grupăm seriile în raport cu numărul de

succese vom obține o repartiție de frecvență.

Ex. 12 zaruri aruncate de 4096 de ori, apariția lui 6 fiind considerată un succes, conduce la

următorul rezultat.

Nr. succese 0 1 2 3 4 5 6 7 și mai mult.

Nr. aruncări 447 1145 1181 796 380 115 24 8

Vom arăta că, folosind ipotezele de independență a experiențelor succesive vom putea

determina teoretic natura acestei repartiții.

În cazul seriilor cu o singură încercare, estimăm ca în N astfel de serii să obținem Np

succese și Nq insuccese.

Când avem două încercări, posibilitățile sunt:

Page 29: Statistică - Suport de Curs

29

SS SI IS II

p2+2pq+q

2 de N ori

Când avem trei încercări:

SSS SSI ISS IIS ISI SII III

Deoarece nu contează ordinea în care au apărut succesele și insuccesele, putem scrie

SSS 3SSI 3SII III

p3 + 3p

2q + 3pq

2 + q

3 sau

p3 + C3

1p

2q + C3

2pq

2+q

3

Pentru n încercări, obținem formula generală (dezvoltarea binomială):

N{pn+ 1

nC pn-1

q+...+ k

nC pn-k

qk+...+ 1n

nC pqn-1

+qn}

Exmplul1.Dacă luăm 100 de serii cu câte10 aruncări ale unei monezi perfecte, în câte cazuri

ne așteptăm să obținem de 7 ori stema și de 3 ori valoarea?

R. Aici avem p=2

1, q=

2

1.

Frecvențele a celor 0,1,...,10 succese sunt termenii din dezvoltarea binomială,

100 .2

1

2

110

Termenul care dă frecvența a 7 succese și a 3 insuccese este:

100 122

1

2

137

7

10

C

Page 30: Statistică - Suport de Curs

30

E Exemplul 2. Același text cu întrebarea: în câte cazuri ne așteptăm să obținem cel puțin de

7 ori stema.

R. Căutăm suma termenilor corespunzatori la 7,8,9 și 10 succese:

172

100 10

10

9

10

8

10

7

1010 CCCC

Forma generală a repartiției binomială depinde de valorile lui p și q și de valorile

exponentului n (numărul de încercări din fiecare serie).

Dacă p și q sunt egali, repartiția este evident simetrică, deoarece p și q pot fi permutați între

ei, fără a schimba valoarea vreunui termen și prin urmare termenii echidistanți de la cele două

capete ale seriei sunt egali. Dacă p și q nu sunt egali, repartiția este asimetrică.

Forma limită a repartiției binomială. Când n crește, fiecare termen al repartiției

binomială scade. Însă suma unor termeni care cad între anumite limite nu va fi mică.

Chiar dacă p nu este egal cu q, când n devine din ce în ce mai mare, repartiția binomială tinde către

forma unei curbe continue simetrice. În figura de mai jos am exemplificat (Yule, Kendal, 1969)

tendința spre simetrie pe care o are repartiția binomială (0,9+0,1)n pentru diferite valori ale lui n.

Page 31: Statistică - Suport de Curs

31

Se demonstrează că valoarea maximă este atinsă într-un anumit punct pe care îl vom nota cu

pk și care este dată de

npq

pk

2

1

Astfel funcția care aproximează foarte bine valorile repartiției binomiale este

npq

npx

enpq

xf 2

)( 2

2

1)(

unde

np= valoarea mediei

npq = = abaterea medie patratică

Astfel la modul general putem scrie funcția sub forma

2

2

20

x

eyy

Această funcție se numește curba normală. De parametri m și și se notează N(m,).

Reprezentarea grafică a acestei distribuții este o curbă în formă de clopot simetrică față de axa Oy

Page 32: Statistică - Suport de Curs

32

și a cărei forme este determinată de valoarea lui . Această curbă mai este numită și curba lui

Gauss. În figura de mai jos sunt prezentate două curbe normale pentru diferite valori ale lui m și .

Proprietăți ale curbei normale.

Curba normală este simetrică în jurul punctului x=0, în acest punct își atinge valoarea

maximă. Curba normală este complet specificată dacă se definește media (originea lui x), abaterea

standard și valoarea 0y . În practică, dacă dorim să obținem o curbă normală cu ajutorul unor

date cunoscute, valoarea lui 0y nu se dă direct, ci se calculează folosind faptul că aria curbei

trebuie să fie egală pe scala aleasă, cu numarul total de observații.

Aria determinată de curba normală și axa Ox este:

202

0

2

2

ydxey

x

Dacă luăm 2

10 y , aria este egală cu unitatea.

În această situație putem obține imediat forma corespunzătoare unei repartiții de orice

frecvență dată. Astfel, dacă frecvența este N, curba normală corespunzatoare este:

2

2

2

2

x

eN

y

.

Media curbei normale, așa cum am văzut, este localizată în origine. Dacă dorim să scriem

expresia curbei, în raport cu un alt punct ca origine, obținem forma:

222

1

2

1 mx

ey

,

Page 33: Statistică - Suport de Curs

33

Unde m este abaterea de la medie a valorii alese ca origine.

2 este dispersia;

este abaterea medie pătratică (abaterea standard).

Proprietățile curbei normale.

Curba normală este evident simetrică în jurul punctului x=0, deoarece ecuația ei este

independentă de semnul lui x. În acest punct ordonata își atinge valoarea maximă. Valoarea medie,

mediana și modulul coincid. Este considerată o curba simetrică ideală.

Curba normală este complet specificată dacă se definește media (originea lui x), abaterea

medie pătratică și valoarea 0y . În practică, dacă dorim să obținem o curbă normală cu ajutorul

unor date cunoscute, valoarea lui 0y nu se dă direct, ci se calculează folosind faptul că aria curbei

trebuie sa fie egală, pe scara aleasă, cu numărul total de observații.

Page 34: Statistică - Suport de Curs

34

Sondajul statistic

Una dintre cele mai importante probleme este investigarea unei populații mari într-un timp

redus și cu rezultate de cunoaștere imediată. Din ansamblul populației se alege o parte, numită

colectivitate de selecție sau eșantion, parte care va fi supusă în mod nemijlocit investigației.

Alegerea trebuie făcută de așa manieră încât prin intermediul acestui studiu redus să se obțină

concluzii cu valabilitate generală asupra întregii populații. Eșantionul trebuie să aibă capacitatea de

a reproduce cât mai fidel structurile și caracteristicile populației din care este extras.

În cele mai multe situații, studiile selective constituie o soluție necesară deoarece o

investigare completă a întregii populații este imposibil de făcut. Cu alte cuvinte, în loc să se culeagă

informații de la toți indivizii din populație, se face o prelevare de la o mică parte a ei. Acest gen de

studiu, așa cum vom vedea, asigură un control mai bun al activității conducând la o anumită

superioritate pe planul cunoașterii. Deși pare paradoxal, o investigare selectivă poate conține mai

multe caracteristici, spre deosebire de abordarea unei populații mari care implică o investigare

simplificată. Pe de altă parte studiile arată că dacă eșantionul este ales corespunzător acesta se va

confunda cu populația. Un exemplu de anchetă națională exhaustivă este recensământul.

În studiul statistic al fenomenelor se folosește foarte frecvent perechea de noțiuni valoare

calculată și valoare estimată. Valorile calculate sunt rezultatul unei cercetări empirice. Acestea

sunt folosite pentru a evalua indicatorii din eșantioane care vor deveni estimatori ai colectivității

generale.

Pentru ca cercetarea selectivă să fie eficientă eșantionul trebuie să posede o calitate numită

reprezentativitate, care constă în capacitatea lui de a reproduce cât mai fidel structurile și

carcateristicile populației din care a fost extras. Această definiție este destul de imprecisă, dar ea

capătă o semnificație exactă prin aplicarea tehnicilor teoriei probabilităților. În acest context

exprimarea cantitativă a gradului de reprezentativitate a unui eșantion se face prin două mărimi:

Eroarea maximă (E) care exprimă diferența dintre valoarea calculată din eșantion (ve) și

valoarea corespunzătoare v a populației totale (necunoscută).

E=|v-ve|

Nivelul de încredere sau nivelul de probabilitate (P) care exprimă o măsură a șansei ca

eroarea comisă să nu depășească valoarea E.

Page 35: Statistică - Suport de Curs

35

Pentru a evalua eroarea E trebuie să avem în vedere o caracteristică a populației ce urmează a fi

estimată. Aceasta poate fi de exemplu vârsta, iar valoarea poate fi media aritmetică. În acest caz

eroarea E ne spune cu cât se abate vârsta medie a indivizilor din populația generală de la vârsta

medie a indivizilor din populația de selecție. Cu alte cuvinte, cu ajutorul erorii E se construiește un

interval (ve-E, ve+E) în interiorul căruia se află valoarea căutată v.

Alți indicatori statistici care mai pot fi evaluați sunt abaterea medie pătratică, coeficientul de

corelație, dar mai pot fi evaluate și proporții, diferențe etc.

Pentru înțelegerea corectă a reprezentatitivității unui eșantion vom detalia câteva aspecte privind

această noțiune.

1. Niciodată nu putem fi siguri că eroarea de eșantionare este mai mică de o valoare E, sau altfel

spus plasarea lui v pe intervalul menționat nu este niciodată certă. Aceasta înseamnă că trebuie

evaluată atât eroarea E cât și nivelul de probabilitate P. Deci nivelul de reprezentatitivitate este dat

de cuplul (E,P).

2. Nu se poate vorbi de o reprezentativitate a unui eșantion în general, ci numai în raport cu o

caracteristică dată. Așadar un eșantion are o reprezentativitate în raport cu vârsta, (adică un cuplu

(E,P)), o altă reprezentativitate în raport cu numărul de turiști, (adică un alt cuplu (E,P)) ș.a.m.d.

3. Reprezentativitatea este o noțiune relativă, în sensul că un eșantion este mai mult sau mai

puțin reprezentativ și nu reprezentativ sau nereprezentativ. De exemplu, pentru o aceeași

caracteristică și un nivel de probabilitate dat avem o eroare mică E într-un eșantion decât în alt

eșantion. Atunci primul eșantion este mai reprezentativ. Dacă la o aceeași eroare, P este mai mare

într-un eșantion acesta este din nou mai reprezentativ. Dacă pentru un eșantion avem o eroare mică

și o probabilitate mare acesta va fi mai reprezentativ față de cel cu care se compară. Desigur că pot

să existe situații care nu pot fi comparate cum ar fi o eroare mare și o probabilitate mare. Aceste

situații va determina cercetătorul să aducă lucrurile “la același numitor”, pentru uniformizarea

idicatorilor.

4. Cele două mărimi E și P nu sunt independente, astfel că nu se poate spune direct ce nivel de

probabilitate îi corespunde unei erori date. Fixând una din ele, cealaltă rezultă din calcul. În condiții

egale scăderea erorii antrenează scăderea probabilității, adică un câștig dobândit pe de o parte

constituie o pierdere de cealaltă parte. Nu putem ameliora simultan și precizia estimării și siguranța

acesteia, păstrând totodată restul condițiilor identice.

Page 36: Statistică - Suport de Curs

36

5. În activitatea practică se folosește expresia “eșantion reprezentativ” sau “eșantion

nereprezentativ” chiar dacă, așa cum am precizat este vorba de o însușire graduală a

reprezentativității. În conformitate cu exigențele studiului se acceptă că o anumită eroare “este

suficient de mică” iar o anumită probabilitate este “este suficient de mare”. Pentru nivelul de

probabilitate valoarea minimă acceptată este de obicei 0,95 ceea ce înseamnă că șansa de a greși

estimarea trebuie să fie mai mare sau egală cu 5%.

În majoritea studiilor se obișnuiește să se evidențieze această probabilitate de a “greși” notată cu

p care este complementar adică p=1-P.

În consecință folosirea expresiei “eșantion reprezentativ” este justificată dacă prin aceasta se

înțelege că, în raport cu toate caracteristicile cercetate eroarea E este sub o limită acceptabilă, iar

mărimea p se află sub pragul de 5%.

Gradul de reprezentativitate al eșantionului depinde de: caracteristicile populației, mărimea

eșantionului și procedura de eșantionare.

Pentru a caracteriza nivelul de omogenitate (eterogenitate) a unei populații se folosește

indicatorul abaterea medie pătratică (). Majoritatea formulelor prin care se exprimă eroarea de

eșantionare arată că aceasta este direct proporțională cu , deci cu nivelul de “împrăștiere” față de

medie.

În ceea ce privește mărimea eșantionului reprezentativitatea crește odată cu creșterea numărului

de indivizi din eșantion. Numai că sporul de reprezentativitate nu este direct proporțională cu

creșterea volumului eșantionului, adică dependența nu este liniară. S-au făcut numeroase studii și s-

a ajuns la concluzia că dependența dintre reprezentativitatea și mărimea eșantionului este o curbă

(vezi figura de mai jos)

Page 37: Statistică - Suport de Curs

37

După cum se vede în figură reprezentativitatea atinge foarte repede un nivel suficient de

ridicat, așa încât o creștere suplimentară a numărului de indivizi din eșantion nu mai aduce un spor

notabil de reprezentativitate. Cu alte cuvinte valorile calculate nu se mai schimbă aproape deloc.

Trebuie făcută remarca importantă: eșantionul format din n indivizi are aceeași

reprezentativitate indiferent de mărimea populației din care el a fost extras. De aceea expresii de

genul “ce proporție din populație trebuie să reprezinte un eșantion bun” sunt lipsite de sens.

Mărimea absolută a eșantionului este decizivă.

Procee clasice de eșantionare

Există două metode de eșantionare: aleatoare (probabilistă) și selecțiile subiectiv

organizate sau selecțiile dirijate (nealeatoare).

Reprezentativitatea se poate calcula numai pentru eșantioane strict probabilistice și fiecare

tehnică de eșantionare aleatoare presupune formule specifice de estimare a erorii.

1.Eșantionarea aleatoare simplă.

Indivizii sunt aleși cu o probabilitate identică. Procedura tipică este “tragerea la sorți”.

Acest luru se face atunci când avem la dispoziție întreaga populație și putem stabili o regula pentru

“tragerea la sorți”.

Procedeul tragerii la sorți este bazat pe schemele de probabilitate: al bilei revenite și cel al

bilei nerevenite. Schema bilei revenite presupune o urnă cu N bile de N culori, evenimentul

constând din extragerea unei bile. Probabilitatea de a extrage o bilă de o anumita culoare este 1/N.

după ce s-a efectuat evenimentul, se introduce bila înapoi și experimentul se repetă. Întotdeauna

vom avea probabilități 1/N. În cazul schemei cu bila nerevenită, experimentul constă în extragerea

unei bile (probabilitatea_1 este = 1/N), nu mai punem bila înapoi și repetăm experimentul

(probabilitatea_2=1/(N-1)). La al treilea experiment vom avea probabilitatea_3=1/(N-3). Datorită

faptului că în cazul selecției nerepetate este exclusă posibilitatea extragerii de mai multe ori a

aceleași unitați, erorile sunt mai mici.

O altă tehnică este generarea de numere aleatoare care se asociază cu populația în studiu. Se

presupune că există o listă cu toți indivizii din populație și fiecăruia i se atribuie un număr de ordine

și apoi se face asocierea cu tabelul generat automat.

Page 38: Statistică - Suport de Curs

38

2.Eșantionarea prin stratificare. Procedeul, în forma sa cea mai simplă, are la bază

următoarea idee: se efectuează o diviziune a populației după caracteristici, în s clase: N1, N2, ..., Ns

(Ni=N). Alegerea eșantionului de volum n se va face în s etape selectând cu o procedură aleatoare

simplă s subeșatioane de mărime n1, n2, ..., ns, fiecare provenind din câte o clasă, fiind proporțional

cu mărimea clasei respective:

n1/N1 = n2/N2 = ... = ns/Ns

3.Eșantionarea multistadială.

Acest procedeu este asociat cu statistica spațială adică o statistică ale căror elemente au

referință spațială. Esența procedeului se bazează pe următoarea idee. Întreaga populație poate fi

privită ca fiind formată din grupuri repartizate pe un teritoriu. Într-un prim stadiu se alege

(probabilistic) un eșantion de grupuri de cel mai înalt rang (1), apoi din fiecare din acestea se alege

un eșantion de grupuri de rang 2 ș.a.m.d. În final se va ajunge la un eșantion de indivizi. Denumirea

“multisadial” provine de la faptul că există mai multe stadii în alegerea eșantionului final

corespunzător fiecărui nivel de eșantionare.

Exemplu. Dacă populația studiată este întreaga țară, primul pas este alegerea unuiu eșantion

de județe, apoi de comune etc.

De remarcat este faptul că dintr-o anumită populație pot fi extrase mai multe eșantioane,

care diferă între ele atât ca volum cât și ca structură. Din această cauză indicatorii statistici cu care

caracterizăm colectivitatea de sondaj pot fi considerați de forma unor variabile aleatoare pentru care

se pot stabili distribuții de frecvență cunoscute, spre deosebire de media și dispersia din

colectivitatea generală, pentru care există o singură valoare.

Cercetarea selectivă se face pe baza unui plan care trebuie să cuprindă:

- delimitarea în timp și spațiu a colectivității generale prin identificarea tuturor cazurilor

individuale sub care se manifestă fenomenul respectiv;

- verificarea gradului de omogenitate al colectivității generale (se utilizează studii vechi);

- alegerea sau stabilirea bazei de sondaj;

(Prin bază de sondaj se întelege orice sistematizare a unităților - liste, hărți- astfel încât să

permită alegerea întâmplătoare a unităților ce vor fi supuse prelucrării în eșantion).

- alegerea tipului și a procedeului de selecție;

Page 39: Statistică - Suport de Curs

39

- stabilirea periodicității efectuării sondajului;

- stabilirea planului observării;

- stabilirea planului de prelucrare a datelor de selecție din punct de vedere metodologic și

organizatoric;

- alegerea procedeelor de verificare a semnificației indicatorilor de selecție și de extindere a

rezultatelor selecției asupra întregului ansamblu.

Etapele importante în cercetarea prin sondaj sunt.

Etapa 1. Se stabilește modul de eșantionare.

Etapa 2. Se culeg și se prelucrează date statistice din eșantioane din care rezultă indicatori derivați:

mărimi relative, medii, indici etc. care descriu statistic eșantionul folosit.

Etapa 3. Indicatorii obținuți se extind, cu o anumită probabilitate P și o eroare E, asupra întregii

colectivități.

Page 40: Statistică - Suport de Curs

40

Estimarea parametrilor

Parametrii calculați pentru o colectivitate de selecție pot fi generalizați la întreaga

colectivitate în anumite condiții. Această generalizare se referă, în particular, la estimarea

parametrilor necunoscuți ai colectivității inițiale (generale). Determinând un anumit parametru, ne

propunem să obținem o mărime, care într-o măsură oarecare să fie cât mai apropiată de valoarea

reală a parametrului necunoscut. În caz contrar căutăm niște limite în interiorul cărora, cu o

anumită probabilitate, putem afirma că se află mărimea reală a parametrului necunoscut. În acest

caz avem de-a face cu un interval de încredere pentru parametrul necunoscut.

Considerăm că populația statistică satisface legea normală. Astfel toți parametri estimați fac

referire la o distribuție normală de frecvență.

Estimarea mediei

Vom nota cu σ 2

dispersia colectivității generale, cu s2 dispersia colectivității de selecție (a

eșantionului).

Măsura erorii standard pentru medie este

n

sEm

Unde n este mărimea eșantionului (nr. elementelor care formeză eșantionul).

În această situație estimarea pentru media colectivității generale este:

Page 41: Statistică - Suport de Curs

41

mExX cu o probabilitate de 0,682

mExX 2 cu o probabilitate de 0,954

mExX 3 cu o probabilitate de 0,997

Estimarea pentru abaterea medie pătratică (σ)

Limitele de confidență pentru o abatere medie pătratică pot fi estimate într-o manieră

similară. Pentru aceasta introducem noțiunea de eroare standard a abaterii medii pătratice

n

sEs

2

În mod analog intervalele de încredere sunt date de

sEs cu o probabilitate de 0,682

sEs 2 cu o probabilitate de 0,954

sEs 3 cu o probabilitate de 0,997

Estimarea proporțiilor

Formulele pentru erorile standard pot fi aplicate doar pentru a estima media și abaterea

medie pătratică. Sunt situații când avem exprimări procentuale, cum ar fi procentul de persoane

care au optat pentru o anumită situație (care au votat pentru un partid). Astfel eroarea standard

pentru estimarea procentelor este:

n

pqE %

Page 42: Statistică - Suport de Curs

42

unde p este procentul din eșantion care posedă un anumit atribut, q este procentul din eșantion care

nu posedă acel atribut, iar n este numarul de indivizi din eșantion.

Exemplu. Pe un eșantion de 50 indivizi s-a evaluat că 86% dintre aceștia au televizoare (p).

Procentul pentru cei care nu au televizoare (q) este de 100 – 86 = 14 (nu au fost numărați ci

deduși). Avem:

91,408,2450

1486%

E

Așa cum am procedat la celelalte estimări această eroare standard pote fi folosită pentru a

stabili limitele de confidență a procentului estimat al colectivității generale. Astfel avem :

Populația gen % = eșantion % ± E% cu probabilitate 0,682

Populația gen % = eșantion % ±2 E% cu probabilitate 0,954

Populația gen % = eșantion % ±3 E% cu probabilitate 0,997

Pentru exemplul de mai sus semnificația este următoarea. Avem o probabilitate de 0,682 ca

deținătorii de aparate TV să fie undeva între 81,09% și 90,91% (adică 86-4,91 și 86 + 4,91). La un

nivel de confidență de 0,954, procentele vor fi între 76,18% și 95,82% (86-24,91 și 86+24,91).

Mărimea eșantionului

În cele expuse mai sus am introdus erorile standard pentru anumite mărimi estimate.

Acestea permit evaluarea limitelor de confidență pe baza unor ipoteze (distribuția normală a

populației și un eșantion obținut într-o manieră aleatoare). Pentru evaluarea efectivă a acestora

trebuie să știm doar două lucruri : mărimea (n) și abaterea medie pătratică (s) a eșantionului. În cele

ce urmează vom revedea problema invers : cât de mic trebuie să fie eșantionul (n) astfel încât

media și abaterea medie pătratică să aibe niște limite de confidență specificate.

Din formula erorii pentru medie

n

sEm

explicităm pe n:

Page 43: Statistică - Suport de Curs

43

2

mE

sn

Ex. Dacă vrem să avem o eroare pentru medie de 0,25 și o dispersie de 2 => n = 64

Estimări provenite din eșantioane mici

În general cel care face estimări pe bază de eșantioane este o persoană prudentă. Dacă

eșantioanele sunt mici această prudență trebuie mărită. Așa cum am văzut până acum abaterea

medie pătratică a eșantionului (s) este foarte importantă pentru stabilirea limitelor de confidență ale

mediei și abaterii medii pătratice pentru colectivitatea generală. Când se lucrează cu eșantioane

mici, de 10 sau mai mici, trebuie să adoptăm niște limite de confidență mai mari.

Astfel estimarea abaterii standard va fi înlocuită cu «cea mai bună estimare a abaterii»

notată cu ̂ și care se calculează din formula

1

ˆ

n

ns

sau dacă calculăm direct din eșantion

1

)(

ˆ 1

2

n

xxn

i

i

Se observă că pentru eșantioane mari această valoare nu diferă prea mult de s, dar pentru

valori mici ale lui n această diferență poate fi semnificativă. Valoarea lui

este ceva mai mare

decât s și astfel limitele de confidență vor fi mai largi. Toate calculele privitoare la erori se vor face

cu

și nu cu s.

Page 44: Statistică - Suport de Curs

44

Corelația statistică

În procesul de cercetare a legăturilor cauzale existente între fenomenele naturale avem de-a

face cu contopirea acțiunilor unei multitudini de factori (cauze), dintre care unii esențiali, alții

neesențiali, unii pot fi determinați, alții nu. Tocmai de aceea, în cercetarea legăturii reciproce dintre

două fenomene apar dificultăți mari deoarece pot să existe cauze necunoscute. În astfel de situații

este util să determinăm gradul de corelare și apoi să analizăm separat unele din aceste cauze. Cu

alte cuvinte, trebuie să definim relații posibile între diferiți factori, evenimente, atribute sau

caracteristici care ar putea avea o influență, cel puțin parțială asupra datelor experimentale. În acest

mod este posibilă stabilirea unui tablou al condițiilor în care se desfășoară un anumit fenomen

natural, fapt care duce la modelarea matematică a sa. Astfel de probleme se cercetează cu mult

succes prin metodele statisticii, unde teoria corelației are o pondere însemnată.

Eficiența aplicării metodei corelației depinde de punerea (enunțarea) corectă a problemei în

studiu precum și de aplicarea corectă a statisticii matematice.

Caracterul complex al dependenței statistice pune pe primul plan problema identificării

existenței legăturilor. Calculul indicatorilor de corelație este admis cu condiția stabilirii anticipate a

unei legături cauzale reale între fenomenele cercetate. Statistica nu poate să rezolve o astfel de

problemă fără ajutorul științei din domeniul căreia face parte fenomenul studiat. Cu alte cuvinte,

specialistul din domeniul respectiv trebuie să cunoască temeinic noțiunile analizei statistice

implicate pentru a da o interpretare corectă a rezultatelor. Pentru a asigura deducții suficient de

întemeiate, este necesar includerea în cercetare, dacă este posibil, a tuturor factorilor cu acțiune

esențială.

În multe procese naturale, pe lîngă complexa întrepătrundere cu alte fenomene (procese),

acestea mai sunt supuse unor evoluții care la prima vedere pot fi considerate probabiliste

(aleatoare). De aceea, pentru cunoașterea modului de evoluție probabilă în viitor - prognoza unui

anumit fenomen - trebuie să ne bazăm pe cunoașterea evoluției trecute, precum și pe situația

prezentă. Experiența unui mare număr de observații (probe) au dus la concluzia că între diferitele

mărimi variabile pot exista următoarele tipuri de relații:

a) Relația de dependență, Y depinde de X sau invers. O modificare a unei variabile duce la

o modificare a celei de-a doua. În cazul unei astfel de relații s-ar putea aminti existența relației

Page 45: Statistică - Suport de Curs

45

cauzale în care o variabilă este cauza, iar cealaltă este efectul, cauza fiind un fenomen sau un

complex de fenomene care provoacă, generează sau determină un alt fenomen - efectul. Operația

logică prin care efectul este dedus din cauză se numește inferență cauzală.

b) Relația de interdependență, Y depinde de X și X depinde de Y. În acest caz modificarea

unei variabile provoacă modificarea celei de-a doua variabile, iar modificarea acesteia din urmă are

influență asupra primei variabile.

c) Relația de tranziție, X se transformă parțial sau total în Y și invers.

d) Corelația statistică sau covarianța. Pentru X există întotdeauna Y și invers. Este o relație

reciprocă dintre două variabile, dintre care una în mod logic apelează la alta și pe baza analizei

datelor experimentale se poate pune în evidenză o asociere între ele.

e) Relația stochastică; dacă se realizează X atunci cu o anumită probabilitate se realizează și

Y, sau invers.

În cele ce urmează vom analiza cu precădere corelația statistică.

O problemă importantă pentru cercetarea corelațiilor este problema determinării funcției de

regresie, care să exprime relația cantitativă dintre fenomenul efect și fenomenul cauză. Forma

legăturii dintre fenomene și descrierea printr-o ecuație analitică, pe baza cărora se definesc valorile

fenomenului efect, în funcție numai de factorul sau factorii luați în considerare (cauze).

Pentru ajustarea seriei de valori empirice trebuie să se aleagă acea ecuație care oglindește în

modul cel mai corespunzător caracterul legăturii cercetate. De buna alegere a funcției de regresie

depinde rezultatele analizei de corelație, valoarea estimațiilor variabilei dependente. Stabilirea

formei legăturii ține seama de natura dependenței fenomenului cercetat (de obicei se reprezintă

grafic).

La fenomenele simple, unde cauzele acționează separat, relația dintre fenomenul-efect și

fenomenul-cauză se reprezintă sub forma:

y=f(x)

unde x reprezintă cauza, iar y efectul.

La fenomenele complexe, dependența se exprimă sub forma generală:

y = f(x1 , x2 ,..., xn)

Page 46: Statistică - Suport de Curs

46

Fenomenul y este generat de acțiunea comună a factorilor x1 ,x2 ,.., xn (cauze), din care luăm

însă în calcul numai o parte.

Să admitem că am luat în calcul factorul x1. Întrebarea care se pune este următoarea: în ce

condiții indicatorii corelației obținuți exprimă măsura reală a influenței variabilei x1 asupra

variabilei y? Numai cu condiția ca factorul x1 să fie hotărâtor în determinarea lui y, ceilalți fiind

nesemnificativi. În cazul în care fenomenul este sub acțiunea unui complex de factori esențiali și

aceasta este situația obișnuită, pentru a exprima influența și gradul de intensitate a legăturilor în

raport cu un singur factor trebuie să eliminăm influența celorlați.

Să considerăm o colectivitate statistică caracterizată prin mărimile X și Y. Efectuând o serie

de determinări experimentale (sau observații) asupra acestei colectivități, putem întocmi tabela

datelor respective:

X | x1, x2 , ..., xn

Y | y1 , y2 , ..., yn

Repartiția empirică a celor două variabile se poate afișa grafic, într-un sistem de axe XOY,

unde vom reprezenta punctele de coordonate xi și yi. Un ansamblu de astfel de puncte se numește

câmp de corelație, tabel de corelație sau nor statistic.

Dacă punctele Mi(xi ,yi) sunt distribuite de-a lungul unei fâșii, care în general, urmează o

curbă determinată, spunem că între mărimile respective există o dependență funcțională. Dacă

punctele Mi(xi ,yi) nu arată o dependență funcțională strictă, dar există o tendință ca valorile lui Y să

depind de cele ale lui X deși nu în mod riguros, între mărimile X și Y există o corelație Aceasta

poate să fie liniară (fig. 1) sau neliniară (fig. 2). În cazul când între X și Y nu există nici un fel de

dependență, câmpul de distribuție se va prezenta asemănător cu acela arătat în fig. 3, 4. Cele două

caracteristici sunt independente.

Page 47: Statistică - Suport de Curs

47

Figura 1 Distribuţie liniară Figura 2 Distribuţie neliniară

Figura 3 Distribuţie aleatoare

Figura 4 Distribuţie grupată

Page 48: Statistică - Suport de Curs

48

Într-un caz particular, dependența corelaționară se poate transforma într-o dependență

funcțională, dar cu un anumit grad de certitudine. Apare problema de stabili cantitativ (numeric) în

ce măsură dependența corelațională se apropie sau se depărtează de dependența funcțională.

În foarte multe cazuri, din observarea fenomenelor naturale sau a proceselor sociale, fără a

cunoaște natura exactă a acestora și nici cauzele prin care este pusă în evidență o anumită

caracteristică, se pot trage concluzii foarte importante prin examinarea corelației dintre aceste

trăsături și alte evenimente. În acest mod se poate aprecia existența unei relații statistice între două

sau mai multe variabile, adică, în astfel de cazuri se vorbește despre corelații dintre mărimile care

indică o dependență reciprocă.

În cazul când se consideră numai două variabile, se pot stabili corelații simple, iar când

numărul variabilelor este mai mare de doi, avem corelații multiple.

Din punct de vedere al formei unei relații statistice, spunem că ea este directă atunci când

creșterea unei variabile, duce la o creștere a celeilalte variabile, și o denumim inversă când o

creștere a unei variabile duce la o descreștere a celeilalte.

Relațiile statistice definite prin corelații pot avea aspect liniar sau neliniar; prin urmare vom

distinge corelații liniare și corelații neliniare sau curbilinii.

În cazul în care sunt implicate mai multe variabile vom avea corelație parțială când se

consideră constante unele variabile și corelație parțială când se iau în considerare variațiile tuturor

mărimilor.

Metoda celor mai mici pătrate.

Dependența funcțională a unei variabile y față de altă variabilă x poate fi studiată empiric,

pe cale experimentală, efectuîndu-se o serie de măsurători asupra variabilei y pentru diferite valori

ale lui x. Rezultatele se pot prezenta sub formă de tabel sau grafic.

Problema care se pune în acest caz este de a găsi reprezentarea analitică a dependenței

funcționale căutate, adică de a alege o formulă care să descrie rezultatele experimentului.

Formula se alege dintr-o mulțime de formule de tip determinat, de exemplu.

y = ax + b , y = ax2 + bx + c , y = ae

bx + c , y = a + h sin( ωt + φ )

Page 49: Statistică - Suport de Curs

49

Cu alte cuvinte, problema constă în a determina parametrii a, b, c, ai formulei, în timp ce

tipul formulei este cunoscut dinainte ca urmare a unor considerente teoretice sau după forma

prezentării grafice a materialului empiric.

Să notăm, la modul general când avem n parametrii, dependența funcțională prin:

y = f(x; a0 ,a1 ,...,an)

Parametrii a0, a1,..., an nu se pot determina exact pe baza valorilor empirice y1, y2,...,yn ale

funcției, deoarece acestea din urmă conțin erori aleatoare. Este vorba de obținerea unei estimații

"suficient de bune".

Formularea problemei

Dacă toate măsurătorile valorilor funcției sunt y1, y2,...,yn atunci estimațiile parametrilor a0,

a1,..., an se determină din condiția ca suma pătratelor abaterilor valorilor măsurate yk de la cele

calculate f(xk; a0, a1,..., an), adică expresia

n

k

nkk aaaxfyS1

2

10 )],...,,;([

să ia valoarea minimă.

Considerația formulată se păstrează și pentru determinarea estimațiilor parametrilor unei

funcții de mai multe variabile. Adică un efect și două cauze. De exemplu, pentru funcția z de două

variabile x și y, estimațiile parametrilor a0, a1,..., an se determină din condiția ca expresia:

n

k

nkkk aaayxfzS1

2

10 )],...,,;,([

să fie minimă.

Aflarea valorilor parametrilor a0, a1,..., an, care conduc la cea mai mică valoare a funcției

),...,,( 10 naaass

revine la rezolvarea sistemului de ecuații

00

a

S, 0

1

a

S,…, 0

na

S

Dacă formula empirică depinde liniar de parametrii necunoscuți atunci sistemul de mai sus va fi de

asemenea liniar.

Page 50: Statistică - Suport de Curs

50

Dreapta de regresie.

În cazul cel mai simplu se studiază numai două variabile X, Y și se dorește găsirea

dependenței:

Y = aX + b

în ipoteza că X este cauza și Y este efectul.

În urma celor n probe se cunosc datele (xi ,yi), i=1,..., n și trebuie să determinăm coeficienții

a și b astfel încât suma

n

i

ii ybaxbaS1

2)(),(

să fie minimă. Se obține

xy

x

y

yx

xy

x

y

x

xyr

cca

2 xayb

unde x2 este dispersia variabilei x, iar y

2 este dispersia variabilei y.

Mărimea

yxyxcxy

se mumește corelația variabilelor X și Y. Raportul yxxyxy cr / se numește coeficient de

corelație a variabilelor X, Y și măsoară intensitatea dependenței liniare dintre variabilele X și Y.

În în final se va obține ecuația de regresie:

)( xXryY xy

x

y

Această dependență reprezintă o dreaptă numită dreaptă de regresie a variabilei Y în raport cu

variabila X.

Dreapta de regresie

Page 51: Statistică - Suport de Curs

51

Observație. Se poate vorbi și de dependența variabilei X în funcție de Y. Urmând un calcul

asemănător se ajunge la dreapta de regresie a variabilei X în raport cu Y:

)( yYrxX xy

y

x

Se observă că cele două drepte de regresie coincid dacă și numai dacă 12 xyr .

Observații.

1. Trebuie să facem observația că, indiferent de gradul de împrăștiere al punctelor,

întotdeauna se poate găsi o dreaptă de regresie, dar în cazul unei dispersii mari aceasta devine

inutilă. De aceea un studiu preliminar a distribuției punctelor în plan sau spațiu se impune cu

necesitate.

2. Coeficientul de corelație este o mărime foarte importantă în cadrul regresiei liniare. El

măsoară gradul de dependență liniară între cauză și efect și are o valoare cuprinsă între –1 și 1.

Apropierea de 1 implică o dependență liniară puternică între mărimi, iar apropierea de zero indică o

lipsă a corelatiei. Valorile negative semnifică o corelație inversă.

EXEMPLE

În cele ce urmează vom lua două exemple. În primul exemplu vom determina o dreaptă de

regresie, corespunzătoare debitului și al pH-ului, măsurate în perioada ianuarie -decembrie 1993

pe râul Arieș. Datele au fost obținute de la R.A. Apele Române.

PH 8.7 7.8 6.6 7.9 7.3 7.5 7.5 7.3 6 7.6 7.8 7 6.8 6.6 6.4

Debit 13 40 80 23 50 30 25 60 10 28 15 74 45 59 68

Figura 45 Dreapta de regresie

Variatia debit-pH

y = -32.633x + 284.03

0

2040

60

80100

120

0 5 10

debit

Linear (debit)

Page 52: Statistică - Suport de Curs

52

Se observă că pH-ul scade odată cu creșterea debitului. La debite mai mari procesele hidrice

(dizolvare, diluție etc) fiind mai accentuate. La valori mai mici ale debitului, pH-ul crește devenind

ușor acid (7,6 – 7,9) sau acid (8,7). Coeficientul de corelație este r=-0,87946; avem astfel o

corelație inversă strânsă.

În al doilea exemplu am determinat curba de regresie corespunzătoare variației debitului și

suspensiilor. Datele au fost obținute în urma analizelor fizico-chimice efectuate pe Valea Zalăului,

de pe teritoriul municipiului Zalău în anul 1995.

debit 251 190 308 375 165 357 369 280 469 640 215 150 169 550 460

susp. 75 68 157 200 69 134 125 67 205 270 48 90 88 125 145

Figura 46 Curba exponențială de regresie

În figura 46 se distinge faptul că odată cu creșterea debitului cantitatea de suspensii din apă

crește exponențial. Datorită curentului, particulele de dimensiuni mari de pe fundul albiei sunt

antrenate în mișcare, devenind suspensii. În cazul unor debite mai mici, când scurgerea este mai

lină, doar particulele de dimesiuni mici sunt antrenate în mișcare. Facem observația că acestă lege

nu este atât de reprezentativă ca și cea din exemplul precedent.

Calculele au fost făcute cu programul de calcul tabelar Excel.

Regresia multiplă.

Considerăm cazul în care variabila Z depinde de două variabile X și Y. Se dorește obținerea

dependenței

Z = a X + b Y + c

astfel încât suma

n

i

iii zcbyaxcbaS1

2)(),,( să fie minimă. Se obține

Variatia debit-suspensii

y = 46.436e0.0026x

0

50

100

150

200

250

300

0 500 1000

susp.

Expon. (susp.)

Page 53: Statistică - Suport de Curs

53

x

z

xy

yzxyxy

xyyx

yzxyxzy

s

s

r

rrr

css

cccsa

2222

2

1

x

z

xy

zxxyxy

xyyx

yzxyyzx

s

s

r

rrr

css

cccsb

2222

2

1

și ecuația de regresie:

)()( yYbxXazZ

Reprezentată geometric această ecuație este un plan în spațiul oxyz. Interpretarea este

următoatrea: acest plan este planul care ajustează cel mai bine șirurile xi și yi, i=1,..., n. Cu alte

cuvinte, dacă Z reprezintă efectul, X și Y reprezintă cauzele, în consecință, Z arată dependența

liniară de cele două variabile X și Y luate împreună.

Page 54: Statistică - Suport de Curs

54

Corelația rangurilor

Există cazuri în care ne interesează gradul de corelație dintre două serii de mărimi, dar când

nu putem efectua măsurătorile respective. În anumite tipuri de probleme avem de-a face cu

caracteristici care nu pot fi exprimate prin cifre, dar pot fi ordonate după un aumit criteriu. În astfel

de cazuri vom lua în considerare ordinea lor și nu evaluarea numerică.

În cazul în care rangul anumitor caracteristici este mai accesibil decât măsurătorile efective,

pentru examinarea legăturilor dintre anumiți parametrii, putem cerceta corelația rangurilor

respective. Prezentăm mai jos câteva procedee de evaluare a anumitor corelații în care se ține

seama de ordonarea mărimilor caracteristice, adică în care se utilizează rangul sau poziția pe care

le au anumite mărimi, una în raport cu alta. Vom determina deci coeficientul de corelație al

rangurilor.

Coeficientul lui Spearman

Fie n numărul de elemnte ale unei mulțimi ordonate după caracteristici calitativ diferite.

Pentru că avem n unități statistice A1, A2, ... , An, fiecare dintre ele având două caracteristici

(x1, y1), (x2 , y2),...,(xn, yn)

Pentru caracteristica x dispunem de ordonarea: x1 , x2 ,...,xn, iar pentru caracteristica y avem:

y1, y2 ,...,yn, unde x și y sunt simple permutari ale celor n numere naturale. Notăm:

di = xi –yi (k=1, 2,...,n)

unde vectorul de componente di este o mărime a gradului de apropiere pe care o poate avea

corespondența dintre x și y. Dacă d=0, înseamnă că toți indivizii considerați au cele două

caracteristici în aceeași ordine, avem deci o corespondență perfectă. Cu cât diferențele di sunt mai

mari, cu atât mai mare este discordanța între cele două caracteristici.

Pentru o cercetare a corelației rangurilor, vom considera scrise în ordine crescătoare sau

descrescătoare toate valorile lui xi iar alături scriem valorile corespunzătoare ale lui yi, acestea din

urmă putînd fi sau nu în vreo anumită ordine. Prin urmare, în cadrul ordonării după rang, x ia

valorile: 1,2,3,..., n într-o anumită ordine, pe când y ia aceleași numere dar ordonate după această

caracteristică. Pentru ca să nu existe compensări între valorile di se va lua pătratul acestor valori.

Astfel se definește coefficient de corelație al rangurilor (coeficientul lui Spearman) ca fiind

expresia:

Page 55: Statistică - Suport de Curs

55

)1(

61

2

2

nn

d i

Dacă =1 avem concordanță maximă, iar dacă =-1 avem discordanță maximă.

Pentru o ilustrare mai sugestivă vom lua un exeplu. Considerăm că A1, A2, ... , An

reprezintă n persoane, caracteristicile x1 , x2 ,...,xn, fiind înălțimea lor măsurată în cm, iar

caracteristicile y1, y2 ,...,yn greutatea lor măsuraă în kg. Se pune problema dacă există o corelație

între aceste două caracteristici. Pentru simplificare vom lua n=10. Această clasificare are următorul

rezultat.

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

3 1 10 6 2 5 7 8 4 9

1 2 9 7 4 3 6 10 5 8

În prima linie sunt cele 10 persoane, în linia a doua ordinea pe care o ocupă fiecare persoană

după înălțime (crescătoare), iar în linia a treia ordinea lor după greutate. Această ordonare ne

permite să dăm un criteriu privind legătura între aceste două caracteristici.

Vom deosebi două situații extreme. Situația cea mai strâns legată (cel mai înalt este cel mai

mare în greutate):

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

3 1 10 6 2 5 7 8 4 9

3 1 10 6 2 5 7 8 4 9

și situația cu legătura cea mai slabă (cel mai înalt este cel mai mic în greutate).

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

3 1 10 6 2 5 7 8 4 9

8 10 1 5 9 6 4 3 7 2

Rangurile obținute în cele două clasificări pot oferi o indicație asupra corelației dintre cele două

caracteristici. Diferențele dintre cele două valori sunt (primul șir minus al doilea șir):

2 -1 1 -1 -2 2 1 -2 -1 1

Page 56: Statistică - Suport de Curs

56

iar suma pătratelor diferențelor este dată de

2210

1

2

i

id iar coeficientul lui Spearman =0,862

Apropierea de 1 lui indică o corelație destul de mare între carcatristicile luate în considerare.

Page 57: Statistică - Suport de Curs

57

PARTEA IIa

INTRODUCERE ÎN TEORIA PROBABILITATILOR

Noțiunea de probabilitate este un concept fundamental în statistică. Toate testele statistice

implică calculul probabilităților, fie direct, fie indirect. Statistica nu lucrează cu certitudini, ci cu

probabilități. Ipotezele statistice nu pot fi considerate în totalitate adevărate sau false.

Raționamentul probabilist explică evenimentele fundamentale ale universului fizic în care

trăim precum și o mare parte din evenimentele petrecute în lumea ființelor vii. Utilitatea aproape

nelimitată a raționamentului probabilist este unul din aspectele cele mai importante și mai izbitoare

ale științei moderne. Acest punct de vedere a fost dezvoltat și acceptat mai ales în ultimii 80 de ani,

cu toate că teoria probabilităților s-a născut cu peste trei secole în urmă.

Vom examina în acest capitol numai acel tip de raționament, în care un pas conduce în mod

ordonat la pasul următor, întregul proces succesiv conducînd în final la o concluzie. Acest gen de

gândire ajunge la un nivel foarte rafinat în matematică, precizia sa depinzând de mai mulți factori:

modul precis în care sunt definiți termenii, rigoarea cu care definițiile sunt respectate și atenția cu

care toate regulile de acțiune sunt puse în evidență și clar exprimate. Acest mod de a gândi

constituie gândirea logică, iar logica însăși poate fi definită astfel drept studiul sistematic al

condițiilor și procedeelor care permit o judecare valabilă, cu alte cuvinte care permit să se

pornească de la una sau mai multe afirmații și să se deducă din aceasta una sau mai multe concluzii,

sau propoziții noi care să fie valabile, în sensul justificării lor de către propozițiile inițiale ale căror

consecințe sunt de fapt. Este extrem de important faptul că logica nu afirmă ceva din nimic ci

scoate la iveală afirmații, propoziții și relații cuprinse în propozițiile inițiale. Ceea ce are

importanță, prin urmare, într-o într-o astfel de gândire logică nu este adevărul, ci mai degrabă

valabilitatea sa. O concluzie logică poate să merite pe drept cuvânt adjectivele : corectă, sănătoasă

sau precisă, toate acestea însemnînd că ea a fost dedusă în mod riguros din materialul inițial. Dar

faptul că a fost dedusă prin metode logice corecte nu înseamnă câtuși de puțin că ea este în mod

necesar adevărată. Dacă afirmațiile (ipotezele) inițiale sunt adevărate, atunci consecințele logice

deduse trebuie să fie adevărate.

Logica probabilistă ia în considerare o serie întreagă de afirmații, dintre care nici una nu

este total falsă sau total adevărată, ordonîndu-le în raport cu gradul lor de adevăr, spunînd cu cât

Page 58: Statistică - Suport de Curs

58

este mai plauzibilă sau mai puțin plauzibilă una față de cealaltă. Logica probabilistă nu se limitează

numai la două valori de adevăr 0 și 1, ci utilizează o infinitate de valori exprimate ca numere situate

între 0 și 1.

Teoria probabilităților poate să analizeze acele situații în care nu avem suficiente informații

care să permită aplicarea logicii clasice; ea este capabilă să ne dea un cel mai bun tip de răspuns pe

care-l justifică o informație incompletă. Într-un mare număr de cazuri, teoria probabilităților nu ne

spune numai "sfatul meu este așa și așa", ci poate să ne indice gradul de încredere pe care suntem

îndreptățiți să-l acordăm sfatului dat.

În diferite stadii ale dezvoltării științei se poate considera un ansamblu de fenomene reale și

se poate căuta pentru el un model matematic. De exemplu o familie de ipoteze plus teoria pură care

rezultă pe baza acestora și care se aplică cu strictă precizie unui sistem fizic idealizat - suficient de

asemănător sistemului fizic real - în așa fel încât teoria sistemului idealizat va "explica" sau măcar

va organiza și simplifica fenomenele reale.

Primii experți în teoria probabilităților vorbeau despre extragerea de bile colorate din urne.

Aceasta nu pentru că lumea ar fi într-adevăr interesată în urne cu bile ci pentru că deseori acestea

puteau fi folosite ca modele utile ale unor situații reale. Calculele probabilistice se aplică strict la

modele fictive pe care ele sunt bazate. Dacă ele se aplică sau nu în mod util situațiilor reale este o

chestiune la care trebuie să reflectăm cu grijă.

Câmp de evenimente

În teoria probabilităților sunt studiate experiențele cu rezultat întâmplător, numite

experiențe aleatoare; pe scurt experiențe (experimente).

Definiție. Prin experiență în teoria probabilităților se înțelege orice act care poate fi repetat în

condiții date.

Nu se poate preciza rezultatul exact al unei experiențe. De exemplu la aruncarea unei

monede nu se poate ști dinainte ce față a monedei va apare. De asemenea la aruncarea unui zar nu

se poate ști dinainte ce față a zarului va apare. Orice eveniment aleator depinde de acțiunea

combinată a mai multor factori întâmplători.

Rezultatele posibile ale experienței se numește probă.

Page 59: Statistică - Suport de Curs

59

Definiție. Orice situație legate de experiență și despre care putem spune că s-a produs sau

nu, după efectuarea experienței, poartă numele de eveniment. aleator

Cu alte cuvinte, un eveniment aleator sau pe scurt eveniment (atașat experienței) este orice situație

care se poate realiza prin una sau mai multe probe.

Deci un eveniment este determinat prin mulțimea probelor prin care se realizează, prin

urmare îl putem interpreta ca o submulțime a mulțimii tuturor probelor experienței.

Exemple

1. Aruncarea unei monezi este un experiment. Apartiția oricărei fețe o probă. Apariția unei

anumite fețe este un eveniment.

2. Aruncarea zar este un experiment. Apartiția oricărei fețe o probă. Apariția unei anumite

fețe este un eveniment. Apariția fețelor 2, 3, 4, este de asemenea un eveniment.

Evenimentele aleatoare se supun unor legi, cunoscute sub numele de legi statistitice, teoria

probabilităților stabilind forma lor de manifestare și permițând să se prevadă desfășurarea lor.

Evenimentele care se realizează printr-o singură probă se numesc evenimente elementare,

celelalte se numesc evenimente compuse.

Evenimentul care se realizează prin oricare din probe se numește eveniment sigur (notat

prin E).

Exemplu. Apariția oricărei fețe la o monedă sau la un zar.

Evenimentul care nu se realizează prin nici o probă se numește eveniment imposibil, notat

cu .

Exemplu. Apariția niciunei fețe la o monedă sau la un zar.

Evenimentul contrar lui A sau non-A (sau Ā) este evenimentul care se realizează atunci și

numai atunci cînd nu se realizează A.

Exemplu. Apariția unei fețe cu număr par la un zar și apariția unei fețe cu număr impar sunt

evenimente contrare.

Întotdeauna unui eveniment îi corespunde un eveniment contrar, a cărui producere înseamnă

nerealizarea primului.

Definiție. Spațiul de selecție asociat cu o expereiență este mulțimea de elemente cu

proprietatea că orice eveniment rezultat în urma experienței corespunde unui singur element al

acestei mulțimi.

Page 60: Statistică - Suport de Curs

60

Definiție. Fie mulțimea E={E1, E2,...,En} mulțimea tuturor evenimentelor elementare

corespunzătoare unei experiențe. Se numește câmp finit de evenimente, mulțimea tuturor

submulțimilor lui E, la care se adaugă mulțimea E însăși și .

Exemple: La aruncarea unei monezi avem următoarele situații (evenimente): apariția unei

fețe, apariția celeilalte fețe, apariția oricărei fețe (E) și apariția nici uneia din fețe (). În total sunt

4 evenimente

Un câmp de evenimente se notează cu {E,K} unde prin E înțelegem evenimentele, iar K

semnifică numărul evenimentelor.

Observație: Ori de câte ori într-o relație vor intra mai multe evenimente, vom presupune că

ele aparțin aceluiași câmp și nu vom mai specifica acest lucru.

Operații cu evenimente.

Când în cadrul unei experiențe ne fixăm atenția asupra unui eveniment, de fapt, ne fixăm

atenția asupra unei părți din mulțimea rezultatelor experienței.

Exemplu. La aruncarea unui zar ne interesează evenimentul A care constă în apariția uneia

din fețele 2, 4 sau 6. Evenimentul A este perfect determinat de mulțimea formată din aceste două

rezultate și deci îl putem identifica cu aceasta. Vom scrie

A={2,4,6}

Considerăm că evenimentul B constă numai din apariția feței 2 și 4.

Se observă că evenimentul A se produce ori de câte ori se produce evenimentul B. Astfel putem

scrie:

BA

Definiție. Fiind date două evenimente A și B, numim reuniunea lor, AB, evenimentul a

cărei producere constă în producerea a cel puțin unul din cele două evenimente.

Exemplu. La aruncarea unui zar se consideră evenimentele:

A={1,2,4}, B={2,4,5}

Evenimentul A se produce dacă obținem unul din rezultatele {1}, {2} sau {4}, iar B dacă se

obține unul din rezultatele {2}, {4} sau {5}

AB={1,2,4,5}

Definiția 3. Intersecția evenimentelor A și B constă în producerea simultană a

evenimentelor A și B.

Page 61: Statistică - Suport de Curs

61

Pentru exemplul de mai sus, avem următoarea expresie:

AB={2,4}

Definiția 4. Spunem că două evenimente sunt compatibile dacă se pot produce simultan.

Exemplu. Apariția feței {1} și apariția fețelor impare.

Definiția 5. Spunem că două evenimente sunt incompatibile dacă nu se pot produce

simultan.

Exemplu. Apariția unei fețe pare și apariția unei fețelor impare.

Se folosește expresia

AB=

Definiție. Fie A un eveniment; dacă într-o serie de n probe, evenimentul A s-a realizat de nA

ori, numim frecvență relativă a evenimentului A numărul f(A) = nA/n.

Câmp de probabilitate

Considerăm o experiență cu n evenimente elementare (deci n probe) egal posibile și fie A

un eveniment oarecare, care se poate realiza prin m probe; m n.

Definiție (definiția clasică a probabilității). Se numește probabilitatea evenimentului A,

numărul P(A)=m/n, adică raportul dintre numărul cazurilor favorabile și numărul cazurilor egal

posibile.

Probabilitatea unui eveniment elementar este 1/n (n fiind numărul probelor).

Proprietăți:

1) 0 P(A) 1

2) P()=0

3) P(E)=1, m=n

4) P(Ā) = 1-P(A)

5) P(AB) = P(A)+P(B), dacă AB= (evenimente incompatibile)

6) P(A)P(B) dacă AB.

Definiție (definiția axiomatică aprobabilității). O probabilitate P definită pe câmpul de

evenimente {E,K} este o funcție care asociază fiecărui eveniment A{E,K} un număr real P(A)

care satisface următoarele axiome:

1) P(A)0 , A{E,K}

2) P(E)=1, E fiind elementul sigur

Page 62: Statistică - Suport de Curs

62

3) P(AB)=P(A)+P(B), A,B{E,K}, AB=

Observație. Definiția clasică a probabilității satisface toate axiomele definiției de mai sus.

Definiția 8. Numim câmp finit de probabilitate un câmp finit de evenimente {E,K} înzestrat

cu o probabilitate; se notează {E,K,P}.

Evenimente independente. Două evenimente A, B sunt independente dacă:

P(AB) = P(A) P(B)

Evenimente incompatibile. Două evenimente se numesc incompatibile dacă

AB= deci P(AB) = P() = 0

Scheme calsice de probabilitate.

Calculul probabilităților de apariție a unor evenimente este același pentru o clasă largă de

experimente. Din acest motiv se construiește un model matematic pentru o astfel de clasă, care se

numește schemă de probabilitate. Pentru o astfel de schemă se determină formulele

corespunzătoare de calcul, ce depind de anumiți parametri, formule care se aplică pentru fiecare

experiment din clasa respectivă, prin particularizarea acestor parametri. În cele ce urmează vom

prezenta principalele scheme de probabilitate cele mai de întâlnite.

1. Schema lui Bernoulli (schema binomială sau schema bilei revenite)

În urma efectuării unei experiențe poate apărea evenimentul A cu probabilitatea p, sau

evenimentul contrar (Ā) cu probabilitatea q=1-p. Se repetă experiența de n ori în condiții identice.

Probabilitatea P(n;m) ca în cele n experiențe evenimentul A să apaă de m ori este

mnmm

n qpCmnP );(

Deoarece probabilitatea P(n;m) este coeficientul lui xm din dezvoltarea (q+px)

n acesată

schemă se mai numește schema binomială.

Schema lui Bernoulli mai poate fi realizată printr-o urnă cu bile de două culori (albe și negre), se

extrage pe rând câte o bilă din urnă, dar de fiecare dată bila se pune înapoi, motiv pentru care se

mai numește schema bilei revenite (întoarse).

2. Schema bilei nerevenite

Dintr-o urnă cu a bile albe și b bile negre se extrag n bile, na+b. Probabilitatea Pa,b(,) ca

din bilele extrase să fie albe și negre, + =n, este

Page 63: Statistică - Suport de Curs

63

ba

baba

C

CCP ),(,

3. Schema lui Poisson

Se fac n experiențe independente. În urma experienței de rang k poate apărea evenimentul A

cu probabilitățile pk sau evenimentul Ā cu probabilitatea qk = 1- pk. Probabilitatea pm ca în cele n

experiențe evenimentul A să apară de m ori este coeficientul lui xm din polinomul

P(x)=(p1x+q1) (p2x+q2)(pnx+qn), P(A)=p1p2plq1q2qm, l+m=n

Variabilă aleatoare.

Până acum ne-am ocupat de apariția sau neapariția unor evenimente, așadar de latura

calitativă a fenomenului aleator. Pentru studiul matematic al fenomenelor aleatoare este necesar ca

descrierea acestora să aibă expresii cantitative, care să poată fi tratate din punct de vedere

matematic. Această expresie cantitativă este dată de variabila aleatoare. Deoarece noțiunea de

variabilă aleatoare este foarte importantă trebuie să-i acordăm o atenție deosebită. Pentru a se

înțelege mai bine această noțiune îi vom da, la început, o definiție intuitivă.

Numim variabilă aleatoare o mărime care – drept rezultat al unui experiment- poate lua o

valoare oarecare, fără să se poată preciza dinainte care anume. Adică mulțimea de evenimente este

discretă (avem un număr finit de evenimente) vom avea o variabilă aleatoare discretă, iar în caz

contrar o variabilă aleatoare continuă. Valorile posibile ale variabilelor aleatoare disrete pot fi

enumerate dinainte, spre deosebire de variabilelor aleatoare continue, care pot lua orice valoare

într-un anumit interval.

Definiția riguroasă a variabilei aleatoare este următoarea.

Definiție. O variabilă aleatoare este o funcție (măsurabilă) definită pe mulțimea

evenimentelor E cu valori în mulțimea numerelor reale.

Așa cum am amintit, dacă E={A1 , A2 , …, An} avem o variabilă aleatoare discretă și ea,

notată cu X, ia valoarea x1 dacă se verifică evenimentu A1 , ia valoarea x2 dacă se verifică

evenimentu A2 ș.a.m.d. Fiecare din valorile x1, x2,…, xn este posibilă dar nici una sigură. De aceea

se spune că probabilitatea ca variabila aleatoare X să ia valoarea xi este pi=P(X=xi), unde P este

funcția de probabilitate definită mai sus axiomatic.

Page 64: Statistică - Suport de Curs

64

Variabila aleatoare va fi mult mai bine precizată atunci când se cunoaște probabilitatea cu

care este luată fiecare valoare.

Definiție. Numim distribuția sau repartiția variabilei aleatoare X, tabloul

n

n

ppp

xxxX

...

...

21

21

Unde pi sunt probabilitățile de apariție ale vaorilor xi, i=1,n și se mai scrie pi = P(X= xi) ;

deci X= xi este un eveniment.

Distribuția unei variabile aleatoare X poate fi reprezentată grafic în plan, prin poligonul de

repartiție, care se obține unind printr-o linie poligonală punctele de coordonate (xi, pi), i=1,n ; în

general pe cele două axe se iau măsuri diferite.

Distribuții clasice de probabilitate

1. Distribuția corespunzătoare schemei lui Bernoulli (binomială).

Se atașează schemei lui Bernoulli o variabilă aleatoare X care reprezintă numărul de apariții

ale evenimentului A atunci când se efectuează n experiențe. X are următorul tablou de distribuție

nknkk

k

n

n

n

n

n pqpCqpCpqCq

nkX

22211

210

n

k

nknkk

n qpqpC1

1)(

2. Distribuția corespunzătoare schemei bilei neîntoarse

Se atașează schemei bilei neîntoarse variabila aleatoare X care reprezintă numărul de bile

albe din cele n bile extrase din urnă. X are repartiția :

n

ba

b

n

a

n

ba

kn

b

k

a

n

ba

n

ba

n

ba

n

ba

C

CC

C

CC

C

CC

C

CC

nk

X 0110

10

n

kn

ba

kn

b

k

a

C

CC

1

1

3. Distribuția corespunzătoare schemei lui Poisson

Se atașează schemei lui Poisson variabila aleatoare X care reprezintă numărul numărul de apariții

ale evenimentului A, atunci când se efectuează n experiențe. X are distribuția

nk ppppp

nkX

210

210

unde pk este coeficientul lui xm din polinomul

P(x)=(p1x+q1) (p2x+q2)(pnx+qn), pn=1

Page 65: Statistică - Suport de Curs

65

Funcția de repartiție.

Definiție. Fie X o variabilă aleatoare și F(x) probabilitatea ca X să ia valori mai mici decât

x, adică F(x) = P(Xx). Funcția F(x) se numește funcție de repartiție a variabilei aleatoare X.

În cazul în care variabila aleatoare X este o variabilă aleatoare discretă și are repartiția

n

n

ppp

xxxX

...

...

21

21

funcția de repartiție F este o funcție în scară definită prin:

i

nnn

iii

xa

xaxppp

xaxppp

xaxp

xaxp

xa

aF

,1

,...

...

,...

...

,

,

,0

)(

1121

121

322

211

1

Page 66: Statistică - Suport de Curs

66

Bibliografie

1. Bot E., Leonhard W, 2002, Microsoft Office XP, Ed. Teora.

2. Baron T., Korka M., Pecican E., 1981, Stănescu Maria, Statistică pentru comerț și

turism, Ed. Did. Şi Ped. București

3. Ciucu B., Craiu V., 1971, Introducere în teoria probabilităților și statistică

matematică, Ed. Didactică și Pedagogică, București.

4. Ebdon D., 1989, Statistics in Geography, Blackwell Inc., New-York .

5. Person R., 1997, Utilizare Excel, Ed. Teora

6. Petcu Nicoleta, 2000, Stastistică în turism. Teorie și aplicații, Ed. Albastră (Grupul

Microinformatica), Cluj-Napoca.

7. Rotaru T., Bădescu G., Culic Irina, Mezei E., Mureșan Cornelia, 1999, Metode

statistice aplicate în științe sociale, Ed. Polirom, Iași.

8. Yule G.U., Kendall M.G., 1969, Introducere în teoria statisticii, Ed. St., București.