Statistică - Suport de Curs
-
Upload
cristi-bucatari -
Category
Documents
-
view
74 -
download
1
Embed Size (px)
description
Transcript of Statistică - Suport de Curs

1
PARTEA I
STATISTICĂ DESCRIPTIVĂ
Curs 1: Scurt istoric
Într-o primă concepție, statistica echivala cu descrierea statului, expunerea situației
geografice, economice și politice. Acest gen de statistică a fost cultivat mai întâi de italieni. Încă
din sec. XIII - XIV în Republica Veneția se elaborau diferite rapoarte care conțineau informații
privitoare la partenerii săi comerciali și au fost utilizate în politica comercială oficială.
Curentul "descrierea statului" a atins apogeul în sec. XVII- XVII când, în Germania, s-a
constituit o adevărată școală cunoscută sub denumirea de școala descriptivă germană.
Descrierea statului a devenit disciplină de predare acadamică, încadrată într-un sistem
construit după norme teoretice și practice, care s-au elaborat și dezvoltat în universitățile germane.
Noua disciplină (Staatskunde), a primit numele de statistică (Statistik).
Pe vremea constituirii statisticii ca disciplină descriptivă a statului, se năștea în Anglia, în
afara universităților, o statistică cunoscută sub numele de aritmetica politică, a cărui scop era:
analiza datelor de observație prin procedee matematice, desprinderea regularităților în fenomenul
social și chiar formularea de previziuni. Studiile demografice lăsau să se întrevadă că previziunea
fenomenelor colective ar putea avea o însemnătate practică; dealtfel tabelele de mortalitate,
întocmite în sec. XVIII au constituit punctul de plecare al înfloritoarei industrii de asigurări.
Folosirea metodei statistice, recurgerea la instrumentul matematic și căutarea legităților marcau un
substanțial progres, prefigurînd statistica modernă.
Este dificil să se dea o definiție satisfăcătoare statisticii. În limbaj uzual termenul este
folosit pentru a desemna o colecție de numere referitoare la un anumit domeniu (demografie,
precipitații, debite). În sens tehnic (mai precis matematic) statistica este un instrument al
matematicii utilizat pentru prelucrarea și interpretarea informațiilor numerice.
Scopul statisticii
Statistica poate fi clasificată în două mari categorii:
- statistica descriptivă
- statistica analitică.

2
Statistica descriptivă se ocupă de prezentarea, clasificarea și sintetizarea datelor de
observație. Aceasta concentrează informația existentă în datele respective cu ajutorul anumitor
indicatori statistici care, în fond, sunt niște numere ce exprimă caracteristici sau tendințe ale
fenomenului studiat.
Statistica analitică folosește metode matematice (teoria probabilităților) pentru extragerea
și prelucrea informației statistice; în multe cazuri aceste metode pun în evidență legități statistice.
Depășirea stadiului descriptiv, al simplei metode cantitative, a însemnat, istoric vorbind,
deplasarea gândirii statistice spre interpretarea analitică a fenomenului și obținerea de concluzii
inductive, pe baza observațiilor empirice. Această schimbare de conținut a făcut ca statistica să se
întrepătrundă în mod constant cu matematica, în căutarea de metode corespunzătoare obiectivelor
sale.
Transpusă într-un limbaj matematic statistica s-a construit într-o teorie numită teoria
corelației statistice, ale cărei aplicații au permis identificarea unor noi legi de dependență, specific
statistice și adaptate la formele complexe și variate pe care le oferă natura în diferitele sale
manifestări.
În cercetările moderne se pornește de la ipoteze statistice asupra fenomenului sau procesului
observat, consecințele lor logic deduse se compară apoi cu datele disponibile și dacă sunt în
concordanță, ipotezele sunt justificate, cel puțin până la noi observații mai riguroase.
Unul din obiectivele esențiale ale statisticii se consideră tocmai măsurarea incertitudinii
concluziilor inductive. De la un timp însă, gîndirea statistică tinde să se preocupe mai puțin de
măsurarea incertitudinii și mai mult de determinarea riscului de eroare și a pierderilor implicate de
orice decizie întemeiată pe o informație care, prin natura sa, nu poate fi exhaustivă.
Aplicarea calculelor statistice la datele empirice, oferite de observare a fenomenului,
permite desprinderea de legități statistice.
Fenomenele sunt în interconexiune unele cu altele, în sensul că se generează și se
influențează reciproc. Acest fapt conduce la noțiunea de cauzalitate care exprimă interacțiunea
dintre cauză și efect astfel încât întotdeauna cauza să preceadă efectul. Desfășurarea fenomenelor
constă astfel într-un șir neîntrerupt de momente, într-o succesiune cauză-efect, efectul fiind la
rîndul lui cauză pentru un alt efect ș.a.m.d. Astfel se formează un lanț cauzal. Orice întrerupere a
lanțului cauzal înseamnă de fapt existența unui efect care să nu aibă cauză. Nici un fenomen nu se
abate de la acest principiu care poartă numele de principiul cauzalității. Cunoașterea desfășurării

3
evenimentelor este asigurată de cunoașterea legilor care guvernează fenomenul și a ansamblului de
condiții în care se desfășoară acesta. Deci legea este un element primordial în cunoașterea
fenomenelor deoarece exprimă raporturile esențiale, necesare, generale, relativ stabile și repetabile
ale fenomenelor și ale desfășurării lor. Putem deosebi două mari categorii de legi:
- legi fizice, care se aplică fenomenelor și proceselor individuale luate în parte (ex. legea
atracției universale, legile I, II, III ale dinamicii etc.) și
- legi statistice, care se aplică numai fenomenelor de masă, ansamblurilor de obiecte (ex.
legea gazelor perfecte, legea dezintegrării radioactive, etc.) și care exprimă anumite caracteristici
ale ansamblului considerat.
Legile fizice permit cunoașterea perfectă a desfășurării viitoare a fenomenelor pe baza
cunoașterii la momentul inițial a unor mărimi. Astfel, în mecanică, legea a II-a a lui Newton
permite cunoașterea perfectă a mișcării unui obiect atunci când se cunosc la momentul inițial
poziția (trei coordonate) și viteza sau impulsul (trei proiecții) obiectului.
Legile statistice permit cunoașterea desfășurării viitoare a fenomenelor doar în termeni
probabilistici (probabilități, valori medii, erori statistice etc.). Acest lucru indică de la început că
informația pe care o dă o lege statistică este mai săracă decât cea dată de legea dinamică. Cu toate
acestea, legea statistică permite cunoașterea desfășurării viitoare a fenomenelor și poate fi tot atât
de deterministă ca și cea dinamică.
Particularitatea esențială a legilor statistice izvorâtă din faptul că ele acționează în
fenomenele de masă, unde întregul este determinat de unitatea părților componente, o constituie
exprimarea comportării ansamblului de unități omogene și nu a fiecărei unități în parte. În mod
corespunzător, legea statistică se realizează ca o tendință predominantă, ca o necesitate care își
croiește drum printr-un număr foarte mare de contingențe și care se manifestă în aceste contingențe
ca media unui număr mare de abateri întîmplătoare. De aici și principiul verificat deseori în
practică: legea statistică poate fi evidențiată dacă și numai dacă este considerat și supus observării
un număr mare sau suficient de mare de unități elementare ale ansamblului considerat.

4
Noțiuni elementare
Investigarea statistică presupune, prin definiție, considerarea fenomenelor în multiplicitatea
și variabilitatea lor. Un ansamblu de fenomene formează un fenomen de masă, sau, ceea ce numim
populație statistică, în măsura în care elementele componente (indivizi) sunt de aceași natură, adică
au toate o proprietate comună și se deosebesc unele de altele în raport cu aspectele sau valorile
caracteristice luate în studiu. Populația cu care lucrează statistica trebuie să fie global omogenă - să
includă doar elementele similare, aparținînd de aceeași "categorie" și intern structurată -
elementele ei să poată fi ordonate potrivit unui sistem de clasificare.
Așa cum rezultă din cele de mai sus, o însușire specifică statisticii este aceea că statistica nu
se ocupă cu un element (individ) luat ca atare, ci cu colectivități, cu grupuri de elemente ce posedă
o anumită trăsătură comună. Această trăsătură se numește caracteristică. Denumirea de "populație"
s-a păstrat din timpurile în care statistica se ocupa cu precădere de populații în sensul propriu al
cuvîntului. O populație poate fi împățită în subpopulații sau populații parțiale, care sunt: clase,
grupe și eșantioane.
O clasă este un subansamblu de elemente ale unei populații care conțin o variabliă
determinată de aceeași măsură.
Un grup este un subansamblu de elemente ale unei populații care se distinge printr-o
manieră de tratare comună.
Un eșantion este un subansamblu de elemente ale unei populații ales la întâmplare. Se
apelează la acest gen de populație parțială atunci când populația în studiu este prea mare pentru a fi
tratată în ansamblul ei. Studiul asupra eșantionului va fi atribuit întregii populații.
Indivizii unei populații statistice sunt cercetați pentru una sau mai multe caracteristici.
Caracteristicile întâlnite se clasifică în caracteristici cantitative și calitative. Caracteristicile
cantitative sunt cele care se a căror măsură au o exprimare numerică (înălțime, greutate, lungimea
unui râu etc.) și se mai numesc variabile statistice. Caracteristicile calitative nu se măsoară numeric
(culoare, sexul unei persoane etc.). Ele nu reprezintă o măsură a unei entități. Dacă se convine să se
reprezinte unele din ele prin numere atașate la categoriile ce le determină, nu este vorba decât de o
"codificare", procedeul nejustificând operațiile aritmetice. Aceste caracteristici se mai numesc
atribute.
La rândul lor, caracteristicile cantitative pot fi discrete sau continue. Variabilele discrete
sunt cele care pot lua un număr finit (sau cel mult numărabil) de valori distincte (întregi,

5
fracționare), cum ar fi numărul membrilor unei familii, nr. de stații hidrologice etc. Variabilele
continue sunt cele care pot lua orice valoare dintr-un anumit interval (înălțimea unui individ,
nivelul unui râu etc.). Totuși, în practică nu se întâlnește o informație privind adâncimea unui râu
de forma: 1m, 3 cm, 17 microni. Acest lucru nu se va întîmpla fie că precizia aparatelor cu care
efectuăm măsurătorile este limitată, fie că o precizie exagerată nu este întotdeauna folositoare
pentru ceea ce urmărim în investigație. Astfel, măsurătorile sau datele de observație se grupează în
cadrul unei anumite unități și deci din punct de vedere practic se lucrează cu forma discretă chiar
dacă variabilele sunt de tip continuu. Distincția între caracterul cantitativ și cel calitativ, precum și
între variabilele discrete și variabilele continue este fundamentală deoarece ele recurg la tehnici de
analiză foarte diferite.
Aici trebuie să lămurim un lucru care dă deseori naștere la confuzii: mulți sunt înclinați să
creadă că variabilele discrete trebuie să ia numai valori întregi și că numerele fracționare sunt tipice
pentru variabilele continue; cu alte cuvinte diferența dintre continuu și discret se confundă cu
diferența dintre măsurătorile cu numere întregi și cele fracționare. Să luăm exemplul următor: o
variabilă ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabilă discretă deoarece trecerea de la o
valoare la alta se face fără vreo altă valoare intermediară.
Cercetarea statistică a unei colectivități poate fi:
-exhaustivă (totală), când fiecare individ este analizat, de exemplu în cazul recensămintelor;
-parțială (selectivă), când sunt examinați numai anumiți indivizi, aleși aleator. Ea este cea
mai frecvent folosită, în majoritatea cazurilor fiind și singura posibilă.
Partea examinată din colectivitate se numește selecție sau eșantion. Numărul indivizilor
examinați se numește volumul selecției.

6
Curs 2: Analiza seriilor statistice
Evaluarea anumitor indicatori (parametri) statistici implică stabilirea caracteristicilor
(proprietăților) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea,
independența și concentrarea/împrăștierea (dispersia) către/față de un una sau mai multe valori ale
seriei.
Variabilitatea termenilor unei serii statistice este determinată de faptul că fenomenul pe
care îl reprezintă nu este univoc determinat, ci apare ca un rezultat al acțiunii combinate a mai
multor cauze (permanente sau întâmplătoare). Cu cât acțiunea cauzelor întâmplătoare este mai
mare, cu atât variabilitatea este mai mare și gradul de omogenitate mai mic.
Omogenitatea presupune o variație minimă între termeni. Dacă în urma analizei se constată
că o serie nu prezintă omogenitate, înseamnă că în acest caz colectivitatea este formată din mai
multe tipuri calitative și seria trebuie descompusă în subserii componente.
Independența termenilor unei serii provine din faptul că fiecare valoare individuală
reprezintă un element distinct și obiectiv al unei populații statistice. Termenii ce aparțin aceleiași
colectivități se supun acelorași legi care se manifestă sub formă de tendință.
Concentrarea/împrăștierea (dispersia) către/față de un una sau mai multe valori ale seriei
apare ca rezultat al intensității unui efect produs de cauze esențiale și întâmplătoare. Acest lucru
determină frecvențele diferite de apariție a diferitelor valori din serie. Dacă intensitatea factorilor
este uniformă, frecvențele de apariție sunt apropiate. În caz contrar, frecvențele de apariție se
concentrează fie la un singur capăt al seriei, fie către o valoare centrală.
Repartiții de frecvențe
Există diferențe între analiza seriilor dinamice și problemele legate de gruparea și analizarea
materialelor pentru care factorul timp nu are importanță. La cercetarea seriilor dinamice problema
de bază o reprezintă analiza variabilei timp.
Metodele de analiză folosite în aceste două cazuri se deosebesc sensibil. În cele ce urmează
ne vom ocupa de problemele grupării și analizei prealabile a datelor numerice pentru care ordinea
de așezare în timp nu contează.
Datele statistice în stare brută reprezintă o masă dezordonată de materiale. Prima problemă
este aceea de a face o asemenea grupare a datelor cu ajutorul căreia să se poată aprecia valoarea lor
în legătură cu problema propusă, să se poată înlesni comparația cu alte date de același gen și să se

7
poată obține posibilitatea unei analize ulterioare. Înainte ca materialul statistic să fie supus analizei
ulterioare și generalizărilor care vor permite să se facă anumite deducții, el trebuie să capete o
anumită formă și o structură clară. Cu alte cuvinte în cadrul analizei datelor statistice trebuie să se
ia în considerare atât valorile individuale cât și frecvențele de apariție ale acestora.
În urma observării caracteristicii cantitative X în n probe se obțin următoarele date primare:
x1, x2,..., xn (1)
În cazul în care volumul selecției este mic aceste date sunt ușor de manipulat și nu este nevoie de o
grupare a lor. Dacă însă avem o selecție de volum mare este greu de lucrat cu aceste date. În plus
tabelele de date primare nu sugerează nimic referitor la referitor la repartiția variabilei X. De aceea
este nevoie de o grupare (centralizare) a datelor.
Gruparea datelor se face în funcție de tipul caracteristicii X. Astfel, dacă X este o variabilă
discretă ce poate lua valorile distincte v1, v2 ,..., vn , atunci în locul datelor inițiale se va reține
repartiția empirică:
m
m
nnn
vvv
....
....
21
21 (2)
Unde ni, (i=1, m) reprezintă frecvența apariției (numărul de apariții) valorii vi, iar n reprezintă
numărul valorilor din șirul inițial (1) și se numește frecvență absolută a valorii v. Valoare m
reprezintă numărul de clase.
Raportul fj =nj/n dintre frecvența absolută și numărul total de probe se numește frecvență
relativă. Se observă că
f1 + f2 +…+ fm =1 întrucât n1 +n2 + ... +nm = n.
Frecvențele relative, numite impropriu și probabilități de apariție, stau la baza calculării densității
de repartiție a frecvențelor și a indicatorilor care exprimă gradul de concentrare. De asemenea
permit compararea a două repartiții construite pe aceeași variabilă, care diferă numai prin numărul
unităților pe grupe.

8
Dacă X este o variabilă continuă care poate lua valori într-un interval [a,b] atunci acest
interval este împărțit în m subintervale [aj, aj+1], j=1, m , cu a1 = a și am+1 = b. Pentru fiecare din
aceste subintervale se determină numărul n al valorilor din șirul (1) care se află în acest interval
numit frecvență absolută a subintervalului.
Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremitățile se iau
echidistante, deci subintervalele au lungimi egale. Însă numărul m al subintervalelor nu se alege la
întîmplare. Este important ca prin gruparea datelor să nu se piardă caracterul global al repartiției
(dacă m este prea mic se poate denatura repartiția reală a variabilei X). Astfel, după unii autori
numărul subintervalelor, m, trebuie alese în conformitate cu formula lui Sturges:
m=[1 + 3,322logn]
Mărimea intervalului va fi dată de formula:
m
xxi minmax
Reprezentarea grafică a repartițiilor statistice
Există mai multe tipuri de reprezentări grafice a datelor statistice. Dintre acestea prezentăm
histograma, poligonul frecvențelor și graficul frecvențelor cumulate.
Histograma este o figură într-un sistem de coordonate rectangualre care reprezintă
distribuția empirică prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor,
reprezintă subintervalele folosite în centralizarea datelor. Înălțimea hj a dreptunghiului cu baza (aj,
aj+1) este proporțională cu raportul dintre frecvența relativă a intervalului și lungimea sa:
jj
j
jaa
fCh
1
constanta C fiind un factor de scară. În cazul când subintervalele grupării au lungimi egale,
înălțimea hj va fi proporțională cu frecvența relativă, deci hj =C*fj .

9
Poligonul frecvențelor este o diagramă în care pe axa absciselor se iau mijloacele vj ale
intervalelor (aj, aj+1) folosite în grupare, iar pe axa ordonatelor valorile hj definite în construirea
histogramei. Linia frîntă care unește punctele de coordonate (vj, hj) se numește poligonul
frecvențelor. El se poate obține din histogramă unind mijloacele laturilor superioare ale
drptunghiurilor. În fig 1 poligonul frecvențelor este trasat printr-o linie punctată.
Mărimile c1, c2, ..., cm definite prin:
j
i
ij fc1
se numesc frecvențe cumulate.
Linia frântă obținută prin unirea punctelor de coordonate (aj+1, cj ] se numește graficul frecvențelor
cumulate.
Modalitǎți de clasificare a datelor
Modul de stabilire a claselor – determinarea pragurilor minime și maxime ale fiecǎrei clase
– determinǎ maniera în care sunt atribuite valorile fiecǎrei clase și deci felul în care va arǎta
distribuția. Prin schimbarea claselor se crează diagrame cu aspect diferit. În general se urmărește ca
valori similare să fie în aceeași clasă.
Există doi factori cheie în clasificarea datelor: schema de clasificare utilizatǎ și numǎrul de
clase ce se dorește a fi creat. Dacǎ datele sunt bine cunoscute se poate predetermina manual
numǎrul de clase. În caz contrar se utilizează schemele clasice. Cele mai frecvente scheme de
clasificare sunt: natural breaks, quantile, intervale egale și deviația standard. Acestea sunt descrise
în cele ce urmează.

10
Scheme standard de clasificare
Natural breaks (Jenks)
Datele se clasificǎ pe baza grupǎrii naturale a valorilor. Se identificǎ punctele de rupturǎ
cǎutând acele modele de grupare implicite ale datelor. Valorile sunt împǎrțite în clase acolo unde
granițele sunt marcate prin salturi mari de la o valoare la alta.
Quantile
Fiecare clasǎ conține un numǎr egal de valori. O astfel de clasificare este foarte potrivitǎ în
cazul datelor liniare. Din cauzǎ cǎ datele sunt grupate dupǎ numǎr în fiecare clasǎ, diagrama
rezultatǎ poate fi înșelǎtoare. Datele similare pot fi plasate în clase diferite, sau valori foarte diferite
pot fi grupate împreunǎ. Aceastǎ distorsiune poate fi evitatǎ mǎrind numǎrul de clase.

11
Intervale egale
Aceastǎ schemǎ de clasificare divide șirul de valori atribut în subșiruri egale. Spre exemplu
în cazul unui șir de valori de la 1 la 300 și a trei clase, fiecare clasǎ reprezintǎ un șir de 100 ( 1-100,
101-200, 201-300). Aceastǎ metodǎ accentueazǎ cantitatea de valori atribut relativ la celelalte
valori, spre exemplu pentru arǎta cǎ un magazin este parte a unui lanț de magazine care a realizat o
treime din vânzǎri. Cel mai bine se utilizeazǎ pentru șiruri de date dintr-un anumit domeniu cum ar
fi temperatura și procentele.

12
Deviația standard
Aceastǎ schemǎ de clasificare arată cu cât variază o valoare de la medie. Se calculeazǎ
media și apoi se genereazǎ clasele adǎugând sau scǎzând din ea deviația standard.
Caracterizarea repartițiilor de frecvență
Datele (care se referă la diferite domenii ale cunoașterii) odată aranjate într-o repartiție de
frecvențe, scot în evidență trăsăturile commune ale tuturor curbelor de repartiție și care se supun
unor legi generale. Acest lucru ne permite ca experiența câștigată într-un anumit domeniu al
cunoașterii să poată fi extinsă și în alt domeniu.
La toate curbele însă trebuie să observăm variabilitatea mărimilor care se obțin ca rezultat al
unor măsurători. Cu toate că există variabilitate, se observă o tendință a datelor de a se grupa în
centrul curbei (tendința centrală). Dacă se măsoară mărimea abaterii de la punctul de concentrare
maximă a frecvențelor, se constată că sunt mai frecvente abaterile mici decât cele mari, că abaterile
în ambele părți față de punctul de concentrare maximă se echilibrează aproape complet și că
abaterile foarte mari sunt foarte rare. Deoarece frecvența variază, vom alege acea mărime care se
întâlnește cel mai des. Ea va fi măsura tendinței centrale a repartiției. Această mărime, ca și altele
asemănătoare se numesc indicatori (sau parametrii) de poziție, deoarece arată poziția elementelor
principale ale repartiției pe axa absciselor.
Caracterul reprezentativ al oricărui indicator de poziție depinde de cât de strîns i se alătură
celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor în jurul tendinței centrale.

13
Indicatorii tendinței centrale
Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populație statistică se
face prin calcularea unor medii, în felul acesta făcându-se o compensare a valorilor individuale.
Acest calcul ne arată o anumită tendință a fenomenului studiat, media statistică fiind o valoare ce
sintetizează într-o singură expresie numerică toate valorile din seria măsurători sau observații.
Termenii seriei diferă de medie deoarece au fost influențați de diferiți factori.
Media aritmetică
Media aritmetică simplă exprimă un nivel mediu, anihilând abaterile individuale, netipice.
Ea este cuprinsă între valoraea cea mai mare și cea mai mică.
Definiția 1. Dacă în urma unei selecții apar valorile distincte x1, x2,..., xn, atunci media aritmetică
este dată de formula:
n
i
in x
nn
xxxx
1
21 1...
În cazul datelor centralizate (în care avem repartiția de frecvență (2)):
n
i
iinn vn
nn
vnvnvnx
1
2211 1...
care se mai numește medie aritmetică ponderată. Numărul care arată de câte ori se repetă fiecare
valoare (nj) este "ponderea" valorii respective.
Observația 1. Media aritmetică are dezavantajul că este sensibilă la valori extreme, iar dacă
termenii sunt prea "împrăștiați", tinde să devină o valoare nereprezentativă. Media aritmetică este o
valoare lipsită de conținut dacă elementele sunt deosebite din punct de vedere calitativ, caz în care
este mai util să se facă medii parțiale pentru fiecare tip de colectivitate.
Observația 2. Dacă avem mai multe medii, fiecare referindu-se la o anumită categorie,
fiecare medie va fi ponderată în funcție de importanța categoriei sale.

14
Media geometrică
Media geometrică este mai puțin sensibilă la valorile extreme decât celelalte medii, deci se
întrebuințează când dorim să atenuăm divergențele mari dintr-o serie de determinări cu frecvențe
egale, fiind după o expresie "cea mai exactă medie". Se utilizează când valorile au o evoluție (de
creștere sau scădere) permanentă, neîntreruptă, sau o rație din ce în ce mai mare, termenii fiind
legați între ei printr-o relație de produs. De asemenea se mai întrebuințează când vrem să dăm o
importanță mai mare termenilor mai mici, în valoare absolută, sau când diferențele între termeni
sunt foarte mari. Are dezavantajul că nu se poate întrebuința când avem valori nule sau negative.
Definiția 2. Dacă x1, x2,..., xn sunt n valori, media geometrică se definește prin
nng xxxM ...21
Calculul se face mai ușor cu ajutorul logaritmilor:
n
i
ig xn
M1
lg1
lg
Datorită faptului că se calculează mai ușor cu ajutorul logarimilor, se mai numește "medie
logaritmică". Ea se utilizează și la calcularea ritmului (de creștere sau descreștere) numindu-se
astfel și "medie de ritm". În rezumat, se întrebuințează când:
- seria are o mare dinamicitate;
- termenii au variații mari;
- distribuția are un caracter pronunțat de asimetrie.
Observația 3. Media geometrică se folosește atunci când prezintă importanță variațiile
relative. De asemenea media geometrică poate fi folositoare pentru calculul unor rapoarte.
Media pătratica se întrebuințează când valorile prezintă creșteri din ce în ce mai mari. Ea
constituie modelul matematic pentru abaterea medie pătratică. Media este sensibilă la valori
extreme, din care cauză este întotdeauna mai mare decât celelalte medii. Are avantajul că se poate

15
aplica și în cazul valorilor nule sau negative (care prin ridicare la pătrat devin pozitive). Se
întrebuinzează când dăm importanță valorilor mari.
Definiția 3. Media pătratică este definită prin formula:
n
i
ispatr xn
x1
2
,
1
sau în cazul datelor centralizate (media ponerată):
n
i
iippatr vnn
x1
2
,
1
Media Armonică
Definiția 4. Media armonică este valoarea inversă a mediei aritmetice ale valorilor inverse
datelor de observație:
n
i i
h
x
nM
1
1
Exprimă caracterul sintetic al unor valori ce se află în raport invers. Se utilizează când
frecvențele sunt egale. Pentru o repartiție de frecvență, media armonică se folosește rar. Se
utilizează cu predilecție în economie.
Media glisantă numită și "medie mobilă", se utilizează în cazul în care șirul valorilor
prezintă fluctuații mari, bruște și e greu de apreciat tendința (trendul). Se presupune că media
glisantă corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori
alăturate.
Definiția 5. Media glisantă pentru 3, respectiv 5 valori alăturate sunt date de formulele
3
113,
iii
glis
xxxx

16
5
21125,
iiiii
glis
xxxxxx
Mediana
Definiția 6. Mediana este elementul dintr-un șir de date statistice care ar împărți intervalul în două
grupe egale ca număr, după ce acestea au fost ordonate după mărimea lor. Dacă seria are 2n+1
elemente, atunci mediana este elementul n+1, iar dacă are 2n elemente mediana este media
aritmetică a celor doi termeni din mijloc.
Indicatorii variației
O medie este reprezentativă numai atunci când se calculează din valori omogene între ele.
Cu cât fenomenele sunt mai complexe (dependente de mai multi factori), cu atât variația este mai
mare și utilizarea mărimilor medii devine insuficientă. De aceea este important de cunoscut cât de
‘departe’ sunt valorile sumei statistice față de medie. Comparația se face cu media seriei,
considerată ca fiind valoarea cea mai reprezentativă pentru populația statistică.
Analiza statistică a unei repartiții poate fi aprofundată prin calculul indicatorilor de variație.
Acești indicatori trebuie să servească la:
-verificarea reprezentativității mediei ca valoare tipică a unei populații statistice;
-verificarea gradului de omogenitate a seriei;
-caracterizarea statistică a formei și gradului de variație a unui indicator;
-cunoasterea gradului de influență a factorilor după care s-a facut gruparea unităților observate.
Indicatorii simpli ai variației
Indicatorii simpli ai variației servesc la caracterizarea gradului de împraștiere a mărimilor seriei
statistice. Se pot exprima atât în mărimi absolute cât și în mărimi relative.
Din aceasta grupă fac parte:
-amplitudinea variației (absolută și relativă);
-abaterile individuale (absolute și relative).

17
Amplitudinea absolută se calculeaza ca diferența dintre valoarea maximă și valoarea minimă al
caracteristicii:
Aa = xmax – xmin
Amplitudinea relativă se exprima de regulă în procente și se calculează ca un raport între
amplitudinea absolută și media aritmetică:
Ar= 100x
Aa
Abaterile individuale absolute (di) se calculează ca diferența între fiecare valoare și media
aritmetică:
di = xi - x , i = 1,...,n
Abaterile individuale relative (dr) se calculează ca raportul dintre abaterile individuale absolute și
media aritmetică (se exprima în procente):
dr = 100x
d i , i = 1,...,n
Gradul de variație al unei caracteristici depinde de toate abaterile variantelor înregistrate și
de frecvența lor de apariție și prin urmare indicatorii simpli ai variației nu pot exprima întreaga
variație a unei populații statistice. De aceea a fost necesară introducerea indicatorilor sintetici ai
variației.
Indicatorii sintetici ai variației
Indicatorii sintetici ai variației, la fel ca și indicatorii tendintei centrale trebuie să se bazeze
pe toate observațiile, sa fie ușor de calculat, ușor de înteles și să fie cât mai puțin afectați de
fluctuațiile de selecție.
Indicatorii sintetici ai variației sunt:
-abaterea medie liniară ;
-abaterea medie patratică;
-dispersia;
-coeficientul de variație.

18
Abaterea medie liniară se calculează ca o medie aritmetică simplă sau ponderată, luate în
valoare absolută:
Pentru o serie simplă
n
xx
d
n
i
i
1
||
Abaterea medie liniară prezintă dezavantajul că nu ține seama de faptul că abaterile mai
mari în valoare absolută influentează în mai mare masură gradul de variație a unei caracteristici, în
comparație cu abaterile mici. În plus, nu este indicat să se renunțe în mod arbitrar la semnul
valorilor din care se calculează o valoare medie. Din aceste considerente se folosește ca principal
indicator sintetic al variației abaterea medie patratică.
Abaterea medie patratică sau abaterea standard (σ) se calculează ca o medie patratică din
abaterile tuturor elementelor seriei de la media lor aritmetică:
σ = n
xxn
i
i
1
2)(
Acest indicator este mai concludent decât abaterea medie liniară. Prin ridicarea la pătrat se dă o
importanță mai mare abaterilor mari în valoare absolută, acestea influențând într-o măsura mai
mare gradul de variație al variabilelor analizate.
În literatura de specialitate se apreciază ca pentru o serie de distribuție normală abaterea
medie liniară este egală cu 4/5 din valoarea abaterii medii pătratice.
Abaterea medie pătratică este un indicator de bază, care se folosește la analiza variației, la
estimarea erorilor de selecție în calculul de corelație.
La fel ca abaterea medie liniară, abaterea medie pătratică se exprimă în unitatea de masură a
variabilei a cărei variație o caracterizează. Prin urmare cei doi indicatori nu se pot folosi pentru
compararea gradului de variație și în aceasta situație se recurge la un alt indicator de variație:
coeficientul de variație.

19
Coeficientul de variație (v) se calculeaza ca un raport între abaterea medie pătratică și
media aritmetică. De obicei se exprimă sub formă de procente:
v = 100x
Semnificație. Cu cât valoarea lui v este mai aproape de zero cu atât variația este mai slabă,
colectivitatea este mai omogenă, media având un grad ridicat de reprezentativitate. Cu cât valoarea
lui v este mai mare cu atât variația este mai intensă, colectivitatea este mai eterogenă, iar media are
un nivel de semnificație scăzut.
Se apreciază că la un coeficient de peste 35-40%, media nu mai este reprezentativă și datele
trebuie separate în serii de componente, pe grupe, în funcție de variația unei alte caracteristici de
grupare.
Se poate afirma că acest indicator poate fi folosit ca un test în aplicarea metodei grupării.
Dacă media aritmetică este aproape de zero, coeficientul de variație nu are semnificație.
Dispersia ( 2 ) este media pătratelor abaterilor de la media aritmetică:
22 1 xx
ni .
Măsura dispersiei se referă la «împrăștierea» valorilor dintr-un set de date. Media nu are
semnificație dacă se aplică pe un set de date foarte dispersate. De exemplu dacă luăm valoarea
medie a orașelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorită
Bucureștiului care are 2.000.000. Însă rezultatul nu are nici o semnificație (nici un oraș nu area
această valoare).
Măsurile dispersiei, exprimate sub forma unităților de măsură ale fenomenului cercetat, nu
sunt întotdeauna utile atunci când se compară dispersiile a două sau mai multe serii. Compararea
dispersiilor a două sau mai multe serii dă rezultate în următoarele 2 situații:
a) șirurile care se compară pot fi exprimate în aceleași unități, iar mediile pot fi aceleași sau
au dimensiuni aproape egale.
b) șirurile care se compară pot fi exprimate în aceleași unități, însă mediile diferă.
Dacă seriile se exprimă în unități diferite, dispersiile nu pot fi comparate direct. De aceea de multe
ori se folosește abaterea medie pătratică în loc de dispersie.

20
În unele lucrări această mărime se numește varianță (din l. engl. variance). Varianța este o măsură
importantă în special când se studiază variația a două sau mai multe eșantioane. O tehnică statistică
foarte puternică este cunoscută sub numele de analiza de varianță și utilizează dispersia pentru a
decide dacă un număr de eșantioane diferă semnificativ unul de altul.
Skewness și kurtosis
Skewness
Abaterea medie pătratică și dispersia sunt indicatori care dau o măsură a împrăștierii
valorilor într-o distribuție de frecvență. Într-un anume sens ele oferă o măsură a «lățimii»
distribuției. Aceasta însă nu oferă nici o informație privind caracteristicile formei distribuției de
frecvență. Figura de mai jos înfățișează 6 distribuții utilizând histograma. Aceasta reprezintă un set
de date care au același număr de valori. Pe orizontală avem o unitate de măsură exprimată în abateri
medii patratice (), iar pe verticală avem media aritmetică. După cum se observă, se poate face o
comparație directă.
Aparent cele șase distribuții de frecvență sunt foarte diferite. Cele din partea dreaptă (b, d, și
f) sunt similare dintr-un singur punct de vedere, anume ele sunt asimetrice, “vârful” este plasat în
stânga sau dreapta mediei. Spunem că avem o distribuție distorsionată sau asimetrică (skewed).
Cele din stânga (a, c, e) au un grad mic de distorsiune (asimetrie). În toate cazurile vârful este în
apropierea mediei. Toate acestea sunt distribuite simetric.
Pe de altă parte cele două distribuții de pe fiecare rând pot fi considerate similare, în sensul că au un
anumit grad de “ascuțire” sau kurtosis. Cele din primul rând sunt foarte ascuțite; ele au aceleași
grad de kurtosis. Cele din al doilea rând au “ascuțimea” mai moderată, iar cele din al treilea rând
sunt relative plate.
Distorsiunea măsoară, deci, volumul de valori din distribuția concentrată de o parte și de
alta a mediei. Dacă acest volum de valori este mai mic decât media, spunem că distribuția este
pozitiv distorsionată (b). Dacă există mai multe valori mai mari decât media, spunem că distribuția
este negativ distorsionată (d).

21
O distribuție perfect simetrică nu are distorsiune (skewness=0).
Există mai multe metode de măsurare a distorsiunii. Cea mai uzitată este formula:
3
3)(
n
xxS
unde la numărător avem deviația cubică a valorilor față de medie, iar este abaterea medie
pătratică.
În rezumat, avem următoarele situații:
-dacă S <0 avem distorsiune negativă;
-dacă S >0 avem distorsiune pozitivă.
Skewness este un concept cu aplicații importante în geografie deoarece foarte multe
variabile în geografie au o distribuție accentuat distorsionată. Cu alte cuvinte distribuția de
frecvență seamănă foarte mult cu cele înfățișate în b, d sau f.
În al doilea rând alți indicatori cum ar fi media sau dispersia pot conduce la interpretări
greșite dacă se folosesc izolat.
Kurtosis
Kurtosis dă o măsură a extinderii înspre valorile care sunt concentrate într-o parte a
distribuției de frecvență. Dacă o clasă într-o distribuție de frecvență conține o foarte mare parte din

22
valorile din distribuție, atunci distribuția prezintă un mare grad de kurtosis, iar forma este mai
ascuțită.
Într-o distribuție cu un grad mic de kurtosis (distribuție plată) fiecare clasă conține o
proporție similară din toate valorile.
Formula folosită pentru Kurtosis (K) este:
4
4)(
n
xxK
Pentru distribuția normală avem K=3, pentru o distribuție ascuțita K>3, iar pentru o
distribuție plată K<3.
Din păcate acest indicator nu este folosit în studii geografice asa cum ar fi de dorit. Ca și
skewness kurtosis oferă informații prețioase asupra distribuției unui set de date suplimentare celor
date de medie și dispersie.
Trebuie remarcat faptul ca multe variabile statistice întâlnite în geografie au o distorsiune
mare dar și un K mare (>3). Când se aplică acestor variabile media aritmetica și dispersia, acestea
pot conduce la informații eronate. Mai mult în aceste condiții datele nu prezintă o distribuție
normală astfel că nu pot fi aplicate testele parametrice.

23
Repartiții de frecvență
Asocierea dintre distribuția observată și cea teoretică a fost mult timp neglijată în geografie.
Un studiu statistic nu poate fi făcut (nu are sens) fără această asociere. Forma unei distribuții
permite găsirea parametrilor descriptivi cei mai potriviți pentru fenomenul urmărit. Recunoașterea
formei unei distribuții este un indiciu pentru procedurile de transformare a datelor în mod
corespunzător. Totodată încadrarea într-o lege de distribuție teoretică permite atât operații de
interpolare cât și de extrapolare.
Ajustarea unei distribuții observate la o distribuție teoretică-adică la modele probabiliste
propriu-zise-implică acceptarea a priori că legile se încadrează în repartiția observată/măsurată a
fenomenului în cauză.
O cantitate măsurabila care poate varia de la un element la altul se numește caracteristică
cantitativă. Uneori se mai folosește termenul de variabilă. Ansamblul noțiunilor consacrate acestor
caracteristici poartă numele generic de teoria caracteristicilor cantitative.
Reamintim că, caracteristicile care pot lua orice valoare numerică între anumite limite sunt
numite caracteristici cantitative (variabile) continue. Caracteristicile care pot lua numai anumite
valori se numesc caracteristici cantitative (variabile) discrete (discontinue).
Dacă mai multe sute sau mii de valori ale unei variabile au fost notate într-o ordine cu totul
arbitrară în care au apărut ele în realitate, va fi dificil să tragem vreo concluzie cu privire la
semnificația acestor date. De aceea va trebui să condensăm datele cu ajutorul unor anumite metode
de ordonare sau grupare astfel ca proprietațile datelor să poată fi ușor evidențiate. De regulă
valorile alese pentru a defini grupele succesive vor fi echidistante, astfel ca numerele provenite din
observații și care aparțin la diferite grupe să poată fi comparabile.
Modul în care frecvențele de grupă sunt repartizate în intervale succesive se numește
repartiția de frecvență a variabilei.

24
Reprezentarea grafica: poligonul frecvențelor și histograma.
Deseori este convenabil să reprezentăm o repartiție de frecvență cu ajutorul unei diagrame
care să sugereze configurația observațiilor.
Histograma
-poligonul frecvenței: unirea punctelor marcate pe verticală pe mijlocul intervalului.
De observat că oricare ar fi aceste diagrame (orice formă ar avea), o anumită arie reprezintă un
număr de observații.

25
Numarul de observații care cad în intervalul [x1, x2] este proporțional cu aria delimitată de
curbă și cele două drepte.
Dacă intervalele de grupă sunt micșorate, în același timp numărul de observații crește, astfel
încât frecvențele de grupă să rămână finite, poligonul și histograma se apropie din ce în ce mai mult
de o curbă netedă.
O astfel de linie ideală a poligonului și histogramei se numește curbă de frecvență. Este un
concept esențial în statistică.
Când vom aborda teoria selecției va trebui să privim curba de frecvență ca reprezentând o
populație din care datele reale reprezintă un eșantion. Poligonul frecvențelor și histograma vor fi
aproximate cu o curbă, dar se vor îndepărta de ea în anumite porțiuni, datorită fluctuațiilor selecției.
Atunci când numărul de observații este considerabil, să zicem 1000, poligonul frecvențelor este
suficient de neted pentru a da o bună imagine a formei repartiției ‘ideale.’

26
Câteva tipuri uzuale de repartiții de frecvență.
Formele histogramelor corespunzatoare diferitelor date statistice sunt aproape fără sfârșit în
varietatea lor, dar printre ele putem distinge un număr relativ mic de tipuri fundamentale.
1) Repartiția simetrică. Valoarea medie este valoarea maximă și centrată, iar extremele
descresc și tind spre zero (distribuția normală) – ideal.
2) Repartiția moderat-asimetrică (oblică). Frecvențele de grupă descresc cu mare
rapiditate într-o parte și mai lent în cealaltă parte. Este cazul cel mai frecvent.

27
3) Repartiția în forma de U. Frecvențele maxime sunt la capetele intervalului de variație.
Este rar.
4) Repartiția extrem asimetrică.

28
Repartiții teoretice importante
Repartiția binomială
Legea binomială permite descrierea probabilităților asociate cu privire la două experimente
exclusive.
Pentru evitarea unor exemple particulare (monede, zaruri), vom folosi termenul de ‘succes’
pentru apariția unui eveniment (probabilitatea_1=p) și ‘insucces’ pentru neapariția sa
(probabilitatea_2=q). Evident vom avea p+q=1.
Considerăm că toate evenimentele într-un număr de încercări sunt independente, adică
probabilitățile p și q sunt aceleași pentru fiecare eveniment și rămân constante de-a lungul
încercărilor.
Presupunem că efectuăm un numar de N serii în care efectuăm câte n încercări în fiecare din
cele N serii și determinăm numărul de succese din fiecare serie (ex. aruncăm o moneda de 10 ori
pentru fiecare serie, observând de câte ori apare stema la fiecare serie).
În general, vor exista unele serii la care nu vom observa succese, altele la care vom observa
un succes, altele cu două succese ș.a.m.d. Prin urmare dacă grupăm seriile în raport cu numărul de
succese vom obține o repartiție de frecvență.
Ex. 12 zaruri aruncate de 4096 de ori, apariția lui 6 fiind considerată un succes, conduce la
următorul rezultat.
Nr. succese 0 1 2 3 4 5 6 7 și mai mult.
Nr. aruncări 447 1145 1181 796 380 115 24 8
Vom arăta că, folosind ipotezele de independență a experiențelor succesive vom putea
determina teoretic natura acestei repartiții.
În cazul seriilor cu o singură încercare, estimăm ca în N astfel de serii să obținem Np
succese și Nq insuccese.
Când avem două încercări, posibilitățile sunt:

29
SS SI IS II
p2+2pq+q
2 de N ori
Când avem trei încercări:
SSS SSI ISS IIS ISI SII III
Deoarece nu contează ordinea în care au apărut succesele și insuccesele, putem scrie
SSS 3SSI 3SII III
p3 + 3p
2q + 3pq
2 + q
3 sau
p3 + C3
1p
2q + C3
2pq
2+q
3
Pentru n încercări, obținem formula generală (dezvoltarea binomială):
N{pn+ 1
nC pn-1
q+...+ k
nC pn-k
qk+...+ 1n
nC pqn-1
+qn}
Exmplul1.Dacă luăm 100 de serii cu câte10 aruncări ale unei monezi perfecte, în câte cazuri
ne așteptăm să obținem de 7 ori stema și de 3 ori valoarea?
R. Aici avem p=2
1, q=
2
1.
Frecvențele a celor 0,1,...,10 succese sunt termenii din dezvoltarea binomială,
100 .2
1
2
110
Termenul care dă frecvența a 7 succese și a 3 insuccese este:
100 122
1
2
137
7
10
C

30
E Exemplul 2. Același text cu întrebarea: în câte cazuri ne așteptăm să obținem cel puțin de
7 ori stema.
R. Căutăm suma termenilor corespunzatori la 7,8,9 și 10 succese:
172
100 10
10
9
10
8
10
7
1010 CCCC
Forma generală a repartiției binomială depinde de valorile lui p și q și de valorile
exponentului n (numărul de încercări din fiecare serie).
Dacă p și q sunt egali, repartiția este evident simetrică, deoarece p și q pot fi permutați între
ei, fără a schimba valoarea vreunui termen și prin urmare termenii echidistanți de la cele două
capete ale seriei sunt egali. Dacă p și q nu sunt egali, repartiția este asimetrică.
Forma limită a repartiției binomială. Când n crește, fiecare termen al repartiției
binomială scade. Însă suma unor termeni care cad între anumite limite nu va fi mică.
Chiar dacă p nu este egal cu q, când n devine din ce în ce mai mare, repartiția binomială tinde către
forma unei curbe continue simetrice. În figura de mai jos am exemplificat (Yule, Kendal, 1969)
tendința spre simetrie pe care o are repartiția binomială (0,9+0,1)n pentru diferite valori ale lui n.

31
Se demonstrează că valoarea maximă este atinsă într-un anumit punct pe care îl vom nota cu
pk și care este dată de
npq
pk
2
1
Astfel funcția care aproximează foarte bine valorile repartiției binomiale este
npq
npx
enpq
xf 2
)( 2
2
1)(
unde
np= valoarea mediei
npq = = abaterea medie patratică
Astfel la modul general putem scrie funcția sub forma
2
2
20
x
eyy
Această funcție se numește curba normală. De parametri m și și se notează N(m,).
Reprezentarea grafică a acestei distribuții este o curbă în formă de clopot simetrică față de axa Oy

32
și a cărei forme este determinată de valoarea lui . Această curbă mai este numită și curba lui
Gauss. În figura de mai jos sunt prezentate două curbe normale pentru diferite valori ale lui m și .
Proprietăți ale curbei normale.
Curba normală este simetrică în jurul punctului x=0, în acest punct își atinge valoarea
maximă. Curba normală este complet specificată dacă se definește media (originea lui x), abaterea
standard și valoarea 0y . În practică, dacă dorim să obținem o curbă normală cu ajutorul unor
date cunoscute, valoarea lui 0y nu se dă direct, ci se calculează folosind faptul că aria curbei
trebuie să fie egală pe scala aleasă, cu numarul total de observații.
Aria determinată de curba normală și axa Ox este:
202
0
2
2
ydxey
x
Dacă luăm 2
10 y , aria este egală cu unitatea.
În această situație putem obține imediat forma corespunzătoare unei repartiții de orice
frecvență dată. Astfel, dacă frecvența este N, curba normală corespunzatoare este:
2
2
2
2
x
eN
y
.
Media curbei normale, așa cum am văzut, este localizată în origine. Dacă dorim să scriem
expresia curbei, în raport cu un alt punct ca origine, obținem forma:
222
1
2
1 mx
ey
,

33
Unde m este abaterea de la medie a valorii alese ca origine.
2 este dispersia;
este abaterea medie pătratică (abaterea standard).
Proprietățile curbei normale.
Curba normală este evident simetrică în jurul punctului x=0, deoarece ecuația ei este
independentă de semnul lui x. În acest punct ordonata își atinge valoarea maximă. Valoarea medie,
mediana și modulul coincid. Este considerată o curba simetrică ideală.
Curba normală este complet specificată dacă se definește media (originea lui x), abaterea
medie pătratică și valoarea 0y . În practică, dacă dorim să obținem o curbă normală cu ajutorul
unor date cunoscute, valoarea lui 0y nu se dă direct, ci se calculează folosind faptul că aria curbei
trebuie sa fie egală, pe scara aleasă, cu numărul total de observații.

34
Sondajul statistic
Una dintre cele mai importante probleme este investigarea unei populații mari într-un timp
redus și cu rezultate de cunoaștere imediată. Din ansamblul populației se alege o parte, numită
colectivitate de selecție sau eșantion, parte care va fi supusă în mod nemijlocit investigației.
Alegerea trebuie făcută de așa manieră încât prin intermediul acestui studiu redus să se obțină
concluzii cu valabilitate generală asupra întregii populații. Eșantionul trebuie să aibă capacitatea de
a reproduce cât mai fidel structurile și caracteristicile populației din care este extras.
În cele mai multe situații, studiile selective constituie o soluție necesară deoarece o
investigare completă a întregii populații este imposibil de făcut. Cu alte cuvinte, în loc să se culeagă
informații de la toți indivizii din populație, se face o prelevare de la o mică parte a ei. Acest gen de
studiu, așa cum vom vedea, asigură un control mai bun al activității conducând la o anumită
superioritate pe planul cunoașterii. Deși pare paradoxal, o investigare selectivă poate conține mai
multe caracteristici, spre deosebire de abordarea unei populații mari care implică o investigare
simplificată. Pe de altă parte studiile arată că dacă eșantionul este ales corespunzător acesta se va
confunda cu populația. Un exemplu de anchetă națională exhaustivă este recensământul.
În studiul statistic al fenomenelor se folosește foarte frecvent perechea de noțiuni valoare
calculată și valoare estimată. Valorile calculate sunt rezultatul unei cercetări empirice. Acestea
sunt folosite pentru a evalua indicatorii din eșantioane care vor deveni estimatori ai colectivității
generale.
Pentru ca cercetarea selectivă să fie eficientă eșantionul trebuie să posede o calitate numită
reprezentativitate, care constă în capacitatea lui de a reproduce cât mai fidel structurile și
carcateristicile populației din care a fost extras. Această definiție este destul de imprecisă, dar ea
capătă o semnificație exactă prin aplicarea tehnicilor teoriei probabilităților. În acest context
exprimarea cantitativă a gradului de reprezentativitate a unui eșantion se face prin două mărimi:
Eroarea maximă (E) care exprimă diferența dintre valoarea calculată din eșantion (ve) și
valoarea corespunzătoare v a populației totale (necunoscută).
E=|v-ve|
Nivelul de încredere sau nivelul de probabilitate (P) care exprimă o măsură a șansei ca
eroarea comisă să nu depășească valoarea E.

35
Pentru a evalua eroarea E trebuie să avem în vedere o caracteristică a populației ce urmează a fi
estimată. Aceasta poate fi de exemplu vârsta, iar valoarea poate fi media aritmetică. În acest caz
eroarea E ne spune cu cât se abate vârsta medie a indivizilor din populația generală de la vârsta
medie a indivizilor din populația de selecție. Cu alte cuvinte, cu ajutorul erorii E se construiește un
interval (ve-E, ve+E) în interiorul căruia se află valoarea căutată v.
Alți indicatori statistici care mai pot fi evaluați sunt abaterea medie pătratică, coeficientul de
corelație, dar mai pot fi evaluate și proporții, diferențe etc.
Pentru înțelegerea corectă a reprezentatitivității unui eșantion vom detalia câteva aspecte privind
această noțiune.
1. Niciodată nu putem fi siguri că eroarea de eșantionare este mai mică de o valoare E, sau altfel
spus plasarea lui v pe intervalul menționat nu este niciodată certă. Aceasta înseamnă că trebuie
evaluată atât eroarea E cât și nivelul de probabilitate P. Deci nivelul de reprezentatitivitate este dat
de cuplul (E,P).
2. Nu se poate vorbi de o reprezentativitate a unui eșantion în general, ci numai în raport cu o
caracteristică dată. Așadar un eșantion are o reprezentativitate în raport cu vârsta, (adică un cuplu
(E,P)), o altă reprezentativitate în raport cu numărul de turiști, (adică un alt cuplu (E,P)) ș.a.m.d.
3. Reprezentativitatea este o noțiune relativă, în sensul că un eșantion este mai mult sau mai
puțin reprezentativ și nu reprezentativ sau nereprezentativ. De exemplu, pentru o aceeași
caracteristică și un nivel de probabilitate dat avem o eroare mică E într-un eșantion decât în alt
eșantion. Atunci primul eșantion este mai reprezentativ. Dacă la o aceeași eroare, P este mai mare
într-un eșantion acesta este din nou mai reprezentativ. Dacă pentru un eșantion avem o eroare mică
și o probabilitate mare acesta va fi mai reprezentativ față de cel cu care se compară. Desigur că pot
să existe situații care nu pot fi comparate cum ar fi o eroare mare și o probabilitate mare. Aceste
situații va determina cercetătorul să aducă lucrurile “la același numitor”, pentru uniformizarea
idicatorilor.
4. Cele două mărimi E și P nu sunt independente, astfel că nu se poate spune direct ce nivel de
probabilitate îi corespunde unei erori date. Fixând una din ele, cealaltă rezultă din calcul. În condiții
egale scăderea erorii antrenează scăderea probabilității, adică un câștig dobândit pe de o parte
constituie o pierdere de cealaltă parte. Nu putem ameliora simultan și precizia estimării și siguranța
acesteia, păstrând totodată restul condițiilor identice.

36
5. În activitatea practică se folosește expresia “eșantion reprezentativ” sau “eșantion
nereprezentativ” chiar dacă, așa cum am precizat este vorba de o însușire graduală a
reprezentativității. În conformitate cu exigențele studiului se acceptă că o anumită eroare “este
suficient de mică” iar o anumită probabilitate este “este suficient de mare”. Pentru nivelul de
probabilitate valoarea minimă acceptată este de obicei 0,95 ceea ce înseamnă că șansa de a greși
estimarea trebuie să fie mai mare sau egală cu 5%.
În majoritea studiilor se obișnuiește să se evidențieze această probabilitate de a “greși” notată cu
p care este complementar adică p=1-P.
În consecință folosirea expresiei “eșantion reprezentativ” este justificată dacă prin aceasta se
înțelege că, în raport cu toate caracteristicile cercetate eroarea E este sub o limită acceptabilă, iar
mărimea p se află sub pragul de 5%.
Gradul de reprezentativitate al eșantionului depinde de: caracteristicile populației, mărimea
eșantionului și procedura de eșantionare.
Pentru a caracteriza nivelul de omogenitate (eterogenitate) a unei populații se folosește
indicatorul abaterea medie pătratică (). Majoritatea formulelor prin care se exprimă eroarea de
eșantionare arată că aceasta este direct proporțională cu , deci cu nivelul de “împrăștiere” față de
medie.
În ceea ce privește mărimea eșantionului reprezentativitatea crește odată cu creșterea numărului
de indivizi din eșantion. Numai că sporul de reprezentativitate nu este direct proporțională cu
creșterea volumului eșantionului, adică dependența nu este liniară. S-au făcut numeroase studii și s-
a ajuns la concluzia că dependența dintre reprezentativitatea și mărimea eșantionului este o curbă
(vezi figura de mai jos)

37
După cum se vede în figură reprezentativitatea atinge foarte repede un nivel suficient de
ridicat, așa încât o creștere suplimentară a numărului de indivizi din eșantion nu mai aduce un spor
notabil de reprezentativitate. Cu alte cuvinte valorile calculate nu se mai schimbă aproape deloc.
Trebuie făcută remarca importantă: eșantionul format din n indivizi are aceeași
reprezentativitate indiferent de mărimea populației din care el a fost extras. De aceea expresii de
genul “ce proporție din populație trebuie să reprezinte un eșantion bun” sunt lipsite de sens.
Mărimea absolută a eșantionului este decizivă.
Procee clasice de eșantionare
Există două metode de eșantionare: aleatoare (probabilistă) și selecțiile subiectiv
organizate sau selecțiile dirijate (nealeatoare).
Reprezentativitatea se poate calcula numai pentru eșantioane strict probabilistice și fiecare
tehnică de eșantionare aleatoare presupune formule specifice de estimare a erorii.
1.Eșantionarea aleatoare simplă.
Indivizii sunt aleși cu o probabilitate identică. Procedura tipică este “tragerea la sorți”.
Acest luru se face atunci când avem la dispoziție întreaga populație și putem stabili o regula pentru
“tragerea la sorți”.
Procedeul tragerii la sorți este bazat pe schemele de probabilitate: al bilei revenite și cel al
bilei nerevenite. Schema bilei revenite presupune o urnă cu N bile de N culori, evenimentul
constând din extragerea unei bile. Probabilitatea de a extrage o bilă de o anumita culoare este 1/N.
după ce s-a efectuat evenimentul, se introduce bila înapoi și experimentul se repetă. Întotdeauna
vom avea probabilități 1/N. În cazul schemei cu bila nerevenită, experimentul constă în extragerea
unei bile (probabilitatea_1 este = 1/N), nu mai punem bila înapoi și repetăm experimentul
(probabilitatea_2=1/(N-1)). La al treilea experiment vom avea probabilitatea_3=1/(N-3). Datorită
faptului că în cazul selecției nerepetate este exclusă posibilitatea extragerii de mai multe ori a
aceleași unitați, erorile sunt mai mici.
O altă tehnică este generarea de numere aleatoare care se asociază cu populația în studiu. Se
presupune că există o listă cu toți indivizii din populație și fiecăruia i se atribuie un număr de ordine
și apoi se face asocierea cu tabelul generat automat.

38
2.Eșantionarea prin stratificare. Procedeul, în forma sa cea mai simplă, are la bază
următoarea idee: se efectuează o diviziune a populației după caracteristici, în s clase: N1, N2, ..., Ns
(Ni=N). Alegerea eșantionului de volum n se va face în s etape selectând cu o procedură aleatoare
simplă s subeșatioane de mărime n1, n2, ..., ns, fiecare provenind din câte o clasă, fiind proporțional
cu mărimea clasei respective:
n1/N1 = n2/N2 = ... = ns/Ns
3.Eșantionarea multistadială.
Acest procedeu este asociat cu statistica spațială adică o statistică ale căror elemente au
referință spațială. Esența procedeului se bazează pe următoarea idee. Întreaga populație poate fi
privită ca fiind formată din grupuri repartizate pe un teritoriu. Într-un prim stadiu se alege
(probabilistic) un eșantion de grupuri de cel mai înalt rang (1), apoi din fiecare din acestea se alege
un eșantion de grupuri de rang 2 ș.a.m.d. În final se va ajunge la un eșantion de indivizi. Denumirea
“multisadial” provine de la faptul că există mai multe stadii în alegerea eșantionului final
corespunzător fiecărui nivel de eșantionare.
Exemplu. Dacă populația studiată este întreaga țară, primul pas este alegerea unuiu eșantion
de județe, apoi de comune etc.
De remarcat este faptul că dintr-o anumită populație pot fi extrase mai multe eșantioane,
care diferă între ele atât ca volum cât și ca structură. Din această cauză indicatorii statistici cu care
caracterizăm colectivitatea de sondaj pot fi considerați de forma unor variabile aleatoare pentru care
se pot stabili distribuții de frecvență cunoscute, spre deosebire de media și dispersia din
colectivitatea generală, pentru care există o singură valoare.
Cercetarea selectivă se face pe baza unui plan care trebuie să cuprindă:
- delimitarea în timp și spațiu a colectivității generale prin identificarea tuturor cazurilor
individuale sub care se manifestă fenomenul respectiv;
- verificarea gradului de omogenitate al colectivității generale (se utilizează studii vechi);
- alegerea sau stabilirea bazei de sondaj;
(Prin bază de sondaj se întelege orice sistematizare a unităților - liste, hărți- astfel încât să
permită alegerea întâmplătoare a unităților ce vor fi supuse prelucrării în eșantion).
- alegerea tipului și a procedeului de selecție;

39
- stabilirea periodicității efectuării sondajului;
- stabilirea planului observării;
- stabilirea planului de prelucrare a datelor de selecție din punct de vedere metodologic și
organizatoric;
- alegerea procedeelor de verificare a semnificației indicatorilor de selecție și de extindere a
rezultatelor selecției asupra întregului ansamblu.
Etapele importante în cercetarea prin sondaj sunt.
Etapa 1. Se stabilește modul de eșantionare.
Etapa 2. Se culeg și se prelucrează date statistice din eșantioane din care rezultă indicatori derivați:
mărimi relative, medii, indici etc. care descriu statistic eșantionul folosit.
Etapa 3. Indicatorii obținuți se extind, cu o anumită probabilitate P și o eroare E, asupra întregii
colectivități.

40
Estimarea parametrilor
Parametrii calculați pentru o colectivitate de selecție pot fi generalizați la întreaga
colectivitate în anumite condiții. Această generalizare se referă, în particular, la estimarea
parametrilor necunoscuți ai colectivității inițiale (generale). Determinând un anumit parametru, ne
propunem să obținem o mărime, care într-o măsură oarecare să fie cât mai apropiată de valoarea
reală a parametrului necunoscut. În caz contrar căutăm niște limite în interiorul cărora, cu o
anumită probabilitate, putem afirma că se află mărimea reală a parametrului necunoscut. În acest
caz avem de-a face cu un interval de încredere pentru parametrul necunoscut.
Considerăm că populația statistică satisface legea normală. Astfel toți parametri estimați fac
referire la o distribuție normală de frecvență.
Estimarea mediei
Vom nota cu σ 2
dispersia colectivității generale, cu s2 dispersia colectivității de selecție (a
eșantionului).
Măsura erorii standard pentru medie este
n
sEm
Unde n este mărimea eșantionului (nr. elementelor care formeză eșantionul).
În această situație estimarea pentru media colectivității generale este:

41
mExX cu o probabilitate de 0,682
mExX 2 cu o probabilitate de 0,954
mExX 3 cu o probabilitate de 0,997
Estimarea pentru abaterea medie pătratică (σ)
Limitele de confidență pentru o abatere medie pătratică pot fi estimate într-o manieră
similară. Pentru aceasta introducem noțiunea de eroare standard a abaterii medii pătratice
n
sEs
2
În mod analog intervalele de încredere sunt date de
sEs cu o probabilitate de 0,682
sEs 2 cu o probabilitate de 0,954
sEs 3 cu o probabilitate de 0,997
Estimarea proporțiilor
Formulele pentru erorile standard pot fi aplicate doar pentru a estima media și abaterea
medie pătratică. Sunt situații când avem exprimări procentuale, cum ar fi procentul de persoane
care au optat pentru o anumită situație (care au votat pentru un partid). Astfel eroarea standard
pentru estimarea procentelor este:
n
pqE %

42
unde p este procentul din eșantion care posedă un anumit atribut, q este procentul din eșantion care
nu posedă acel atribut, iar n este numarul de indivizi din eșantion.
Exemplu. Pe un eșantion de 50 indivizi s-a evaluat că 86% dintre aceștia au televizoare (p).
Procentul pentru cei care nu au televizoare (q) este de 100 – 86 = 14 (nu au fost numărați ci
deduși). Avem:
91,408,2450
1486%
E
Așa cum am procedat la celelalte estimări această eroare standard pote fi folosită pentru a
stabili limitele de confidență a procentului estimat al colectivității generale. Astfel avem :
Populația gen % = eșantion % ± E% cu probabilitate 0,682
Populația gen % = eșantion % ±2 E% cu probabilitate 0,954
Populația gen % = eșantion % ±3 E% cu probabilitate 0,997
Pentru exemplul de mai sus semnificația este următoarea. Avem o probabilitate de 0,682 ca
deținătorii de aparate TV să fie undeva între 81,09% și 90,91% (adică 86-4,91 și 86 + 4,91). La un
nivel de confidență de 0,954, procentele vor fi între 76,18% și 95,82% (86-24,91 și 86+24,91).
Mărimea eșantionului
În cele expuse mai sus am introdus erorile standard pentru anumite mărimi estimate.
Acestea permit evaluarea limitelor de confidență pe baza unor ipoteze (distribuția normală a
populației și un eșantion obținut într-o manieră aleatoare). Pentru evaluarea efectivă a acestora
trebuie să știm doar două lucruri : mărimea (n) și abaterea medie pătratică (s) a eșantionului. În cele
ce urmează vom revedea problema invers : cât de mic trebuie să fie eșantionul (n) astfel încât
media și abaterea medie pătratică să aibe niște limite de confidență specificate.
Din formula erorii pentru medie
n
sEm
explicităm pe n:

43
2
mE
sn
Ex. Dacă vrem să avem o eroare pentru medie de 0,25 și o dispersie de 2 => n = 64
Estimări provenite din eșantioane mici
În general cel care face estimări pe bază de eșantioane este o persoană prudentă. Dacă
eșantioanele sunt mici această prudență trebuie mărită. Așa cum am văzut până acum abaterea
medie pătratică a eșantionului (s) este foarte importantă pentru stabilirea limitelor de confidență ale
mediei și abaterii medii pătratice pentru colectivitatea generală. Când se lucrează cu eșantioane
mici, de 10 sau mai mici, trebuie să adoptăm niște limite de confidență mai mari.
Astfel estimarea abaterii standard va fi înlocuită cu «cea mai bună estimare a abaterii»
notată cu ̂ și care se calculează din formula
1
ˆ
n
ns
sau dacă calculăm direct din eșantion
1
)(
ˆ 1
2
n
xxn
i
i
Se observă că pentru eșantioane mari această valoare nu diferă prea mult de s, dar pentru
valori mici ale lui n această diferență poate fi semnificativă. Valoarea lui
este ceva mai mare
decât s și astfel limitele de confidență vor fi mai largi. Toate calculele privitoare la erori se vor face
cu
și nu cu s.

44
Corelația statistică
În procesul de cercetare a legăturilor cauzale existente între fenomenele naturale avem de-a
face cu contopirea acțiunilor unei multitudini de factori (cauze), dintre care unii esențiali, alții
neesențiali, unii pot fi determinați, alții nu. Tocmai de aceea, în cercetarea legăturii reciproce dintre
două fenomene apar dificultăți mari deoarece pot să existe cauze necunoscute. În astfel de situații
este util să determinăm gradul de corelare și apoi să analizăm separat unele din aceste cauze. Cu
alte cuvinte, trebuie să definim relații posibile între diferiți factori, evenimente, atribute sau
caracteristici care ar putea avea o influență, cel puțin parțială asupra datelor experimentale. În acest
mod este posibilă stabilirea unui tablou al condițiilor în care se desfășoară un anumit fenomen
natural, fapt care duce la modelarea matematică a sa. Astfel de probleme se cercetează cu mult
succes prin metodele statisticii, unde teoria corelației are o pondere însemnată.
Eficiența aplicării metodei corelației depinde de punerea (enunțarea) corectă a problemei în
studiu precum și de aplicarea corectă a statisticii matematice.
Caracterul complex al dependenței statistice pune pe primul plan problema identificării
existenței legăturilor. Calculul indicatorilor de corelație este admis cu condiția stabilirii anticipate a
unei legături cauzale reale între fenomenele cercetate. Statistica nu poate să rezolve o astfel de
problemă fără ajutorul științei din domeniul căreia face parte fenomenul studiat. Cu alte cuvinte,
specialistul din domeniul respectiv trebuie să cunoască temeinic noțiunile analizei statistice
implicate pentru a da o interpretare corectă a rezultatelor. Pentru a asigura deducții suficient de
întemeiate, este necesar includerea în cercetare, dacă este posibil, a tuturor factorilor cu acțiune
esențială.
În multe procese naturale, pe lîngă complexa întrepătrundere cu alte fenomene (procese),
acestea mai sunt supuse unor evoluții care la prima vedere pot fi considerate probabiliste
(aleatoare). De aceea, pentru cunoașterea modului de evoluție probabilă în viitor - prognoza unui
anumit fenomen - trebuie să ne bazăm pe cunoașterea evoluției trecute, precum și pe situația
prezentă. Experiența unui mare număr de observații (probe) au dus la concluzia că între diferitele
mărimi variabile pot exista următoarele tipuri de relații:
a) Relația de dependență, Y depinde de X sau invers. O modificare a unei variabile duce la
o modificare a celei de-a doua. În cazul unei astfel de relații s-ar putea aminti existența relației

45
cauzale în care o variabilă este cauza, iar cealaltă este efectul, cauza fiind un fenomen sau un
complex de fenomene care provoacă, generează sau determină un alt fenomen - efectul. Operația
logică prin care efectul este dedus din cauză se numește inferență cauzală.
b) Relația de interdependență, Y depinde de X și X depinde de Y. În acest caz modificarea
unei variabile provoacă modificarea celei de-a doua variabile, iar modificarea acesteia din urmă are
influență asupra primei variabile.
c) Relația de tranziție, X se transformă parțial sau total în Y și invers.
d) Corelația statistică sau covarianța. Pentru X există întotdeauna Y și invers. Este o relație
reciprocă dintre două variabile, dintre care una în mod logic apelează la alta și pe baza analizei
datelor experimentale se poate pune în evidenză o asociere între ele.
e) Relația stochastică; dacă se realizează X atunci cu o anumită probabilitate se realizează și
Y, sau invers.
În cele ce urmează vom analiza cu precădere corelația statistică.
O problemă importantă pentru cercetarea corelațiilor este problema determinării funcției de
regresie, care să exprime relația cantitativă dintre fenomenul efect și fenomenul cauză. Forma
legăturii dintre fenomene și descrierea printr-o ecuație analitică, pe baza cărora se definesc valorile
fenomenului efect, în funcție numai de factorul sau factorii luați în considerare (cauze).
Pentru ajustarea seriei de valori empirice trebuie să se aleagă acea ecuație care oglindește în
modul cel mai corespunzător caracterul legăturii cercetate. De buna alegere a funcției de regresie
depinde rezultatele analizei de corelație, valoarea estimațiilor variabilei dependente. Stabilirea
formei legăturii ține seama de natura dependenței fenomenului cercetat (de obicei se reprezintă
grafic).
La fenomenele simple, unde cauzele acționează separat, relația dintre fenomenul-efect și
fenomenul-cauză se reprezintă sub forma:
y=f(x)
unde x reprezintă cauza, iar y efectul.
La fenomenele complexe, dependența se exprimă sub forma generală:
y = f(x1 , x2 ,..., xn)

46
Fenomenul y este generat de acțiunea comună a factorilor x1 ,x2 ,.., xn (cauze), din care luăm
însă în calcul numai o parte.
Să admitem că am luat în calcul factorul x1. Întrebarea care se pune este următoarea: în ce
condiții indicatorii corelației obținuți exprimă măsura reală a influenței variabilei x1 asupra
variabilei y? Numai cu condiția ca factorul x1 să fie hotărâtor în determinarea lui y, ceilalți fiind
nesemnificativi. În cazul în care fenomenul este sub acțiunea unui complex de factori esențiali și
aceasta este situația obișnuită, pentru a exprima influența și gradul de intensitate a legăturilor în
raport cu un singur factor trebuie să eliminăm influența celorlați.
Să considerăm o colectivitate statistică caracterizată prin mărimile X și Y. Efectuând o serie
de determinări experimentale (sau observații) asupra acestei colectivități, putem întocmi tabela
datelor respective:
X | x1, x2 , ..., xn
Y | y1 , y2 , ..., yn
Repartiția empirică a celor două variabile se poate afișa grafic, într-un sistem de axe XOY,
unde vom reprezenta punctele de coordonate xi și yi. Un ansamblu de astfel de puncte se numește
câmp de corelație, tabel de corelație sau nor statistic.
Dacă punctele Mi(xi ,yi) sunt distribuite de-a lungul unei fâșii, care în general, urmează o
curbă determinată, spunem că între mărimile respective există o dependență funcțională. Dacă
punctele Mi(xi ,yi) nu arată o dependență funcțională strictă, dar există o tendință ca valorile lui Y să
depind de cele ale lui X deși nu în mod riguros, între mărimile X și Y există o corelație Aceasta
poate să fie liniară (fig. 1) sau neliniară (fig. 2). În cazul când între X și Y nu există nici un fel de
dependență, câmpul de distribuție se va prezenta asemănător cu acela arătat în fig. 3, 4. Cele două
caracteristici sunt independente.

47
Figura 1 Distribuţie liniară Figura 2 Distribuţie neliniară
Figura 3 Distribuţie aleatoare
Figura 4 Distribuţie grupată

48
Într-un caz particular, dependența corelaționară se poate transforma într-o dependență
funcțională, dar cu un anumit grad de certitudine. Apare problema de stabili cantitativ (numeric) în
ce măsură dependența corelațională se apropie sau se depărtează de dependența funcțională.
În foarte multe cazuri, din observarea fenomenelor naturale sau a proceselor sociale, fără a
cunoaște natura exactă a acestora și nici cauzele prin care este pusă în evidență o anumită
caracteristică, se pot trage concluzii foarte importante prin examinarea corelației dintre aceste
trăsături și alte evenimente. În acest mod se poate aprecia existența unei relații statistice între două
sau mai multe variabile, adică, în astfel de cazuri se vorbește despre corelații dintre mărimile care
indică o dependență reciprocă.
În cazul când se consideră numai două variabile, se pot stabili corelații simple, iar când
numărul variabilelor este mai mare de doi, avem corelații multiple.
Din punct de vedere al formei unei relații statistice, spunem că ea este directă atunci când
creșterea unei variabile, duce la o creștere a celeilalte variabile, și o denumim inversă când o
creștere a unei variabile duce la o descreștere a celeilalte.
Relațiile statistice definite prin corelații pot avea aspect liniar sau neliniar; prin urmare vom
distinge corelații liniare și corelații neliniare sau curbilinii.
În cazul în care sunt implicate mai multe variabile vom avea corelație parțială când se
consideră constante unele variabile și corelație parțială când se iau în considerare variațiile tuturor
mărimilor.
Metoda celor mai mici pătrate.
Dependența funcțională a unei variabile y față de altă variabilă x poate fi studiată empiric,
pe cale experimentală, efectuîndu-se o serie de măsurători asupra variabilei y pentru diferite valori
ale lui x. Rezultatele se pot prezenta sub formă de tabel sau grafic.
Problema care se pune în acest caz este de a găsi reprezentarea analitică a dependenței
funcționale căutate, adică de a alege o formulă care să descrie rezultatele experimentului.
Formula se alege dintr-o mulțime de formule de tip determinat, de exemplu.
y = ax + b , y = ax2 + bx + c , y = ae
bx + c , y = a + h sin( ωt + φ )

49
Cu alte cuvinte, problema constă în a determina parametrii a, b, c, ai formulei, în timp ce
tipul formulei este cunoscut dinainte ca urmare a unor considerente teoretice sau după forma
prezentării grafice a materialului empiric.
Să notăm, la modul general când avem n parametrii, dependența funcțională prin:
y = f(x; a0 ,a1 ,...,an)
Parametrii a0, a1,..., an nu se pot determina exact pe baza valorilor empirice y1, y2,...,yn ale
funcției, deoarece acestea din urmă conțin erori aleatoare. Este vorba de obținerea unei estimații
"suficient de bune".
Formularea problemei
Dacă toate măsurătorile valorilor funcției sunt y1, y2,...,yn atunci estimațiile parametrilor a0,
a1,..., an se determină din condiția ca suma pătratelor abaterilor valorilor măsurate yk de la cele
calculate f(xk; a0, a1,..., an), adică expresia
n
k
nkk aaaxfyS1
2
10 )],...,,;([
să ia valoarea minimă.
Considerația formulată se păstrează și pentru determinarea estimațiilor parametrilor unei
funcții de mai multe variabile. Adică un efect și două cauze. De exemplu, pentru funcția z de două
variabile x și y, estimațiile parametrilor a0, a1,..., an se determină din condiția ca expresia:
n
k
nkkk aaayxfzS1
2
10 )],...,,;,([
să fie minimă.
Aflarea valorilor parametrilor a0, a1,..., an, care conduc la cea mai mică valoare a funcției
),...,,( 10 naaass
revine la rezolvarea sistemului de ecuații
00
a
S, 0
1
a
S,…, 0
na
S
Dacă formula empirică depinde liniar de parametrii necunoscuți atunci sistemul de mai sus va fi de
asemenea liniar.

50
Dreapta de regresie.
În cazul cel mai simplu se studiază numai două variabile X, Y și se dorește găsirea
dependenței:
Y = aX + b
în ipoteza că X este cauza și Y este efectul.
În urma celor n probe se cunosc datele (xi ,yi), i=1,..., n și trebuie să determinăm coeficienții
a și b astfel încât suma
n
i
ii ybaxbaS1
2)(),(
să fie minimă. Se obține
xy
x
y
yx
xy
x
y
x
xyr
cca
2 xayb
unde x2 este dispersia variabilei x, iar y
2 este dispersia variabilei y.
Mărimea
yxyxcxy
se mumește corelația variabilelor X și Y. Raportul yxxyxy cr / se numește coeficient de
corelație a variabilelor X, Y și măsoară intensitatea dependenței liniare dintre variabilele X și Y.
În în final se va obține ecuația de regresie:
)( xXryY xy
x
y
Această dependență reprezintă o dreaptă numită dreaptă de regresie a variabilei Y în raport cu
variabila X.
Dreapta de regresie

51
Observație. Se poate vorbi și de dependența variabilei X în funcție de Y. Urmând un calcul
asemănător se ajunge la dreapta de regresie a variabilei X în raport cu Y:
)( yYrxX xy
y
x
Se observă că cele două drepte de regresie coincid dacă și numai dacă 12 xyr .
Observații.
1. Trebuie să facem observația că, indiferent de gradul de împrăștiere al punctelor,
întotdeauna se poate găsi o dreaptă de regresie, dar în cazul unei dispersii mari aceasta devine
inutilă. De aceea un studiu preliminar a distribuției punctelor în plan sau spațiu se impune cu
necesitate.
2. Coeficientul de corelație este o mărime foarte importantă în cadrul regresiei liniare. El
măsoară gradul de dependență liniară între cauză și efect și are o valoare cuprinsă între –1 și 1.
Apropierea de 1 implică o dependență liniară puternică între mărimi, iar apropierea de zero indică o
lipsă a corelatiei. Valorile negative semnifică o corelație inversă.
EXEMPLE
În cele ce urmează vom lua două exemple. În primul exemplu vom determina o dreaptă de
regresie, corespunzătoare debitului și al pH-ului, măsurate în perioada ianuarie -decembrie 1993
pe râul Arieș. Datele au fost obținute de la R.A. Apele Române.
PH 8.7 7.8 6.6 7.9 7.3 7.5 7.5 7.3 6 7.6 7.8 7 6.8 6.6 6.4
Debit 13 40 80 23 50 30 25 60 10 28 15 74 45 59 68
Figura 45 Dreapta de regresie
Variatia debit-pH
y = -32.633x + 284.03
0
2040
60
80100
120
0 5 10
debit
Linear (debit)

52
Se observă că pH-ul scade odată cu creșterea debitului. La debite mai mari procesele hidrice
(dizolvare, diluție etc) fiind mai accentuate. La valori mai mici ale debitului, pH-ul crește devenind
ușor acid (7,6 – 7,9) sau acid (8,7). Coeficientul de corelație este r=-0,87946; avem astfel o
corelație inversă strânsă.
În al doilea exemplu am determinat curba de regresie corespunzătoare variației debitului și
suspensiilor. Datele au fost obținute în urma analizelor fizico-chimice efectuate pe Valea Zalăului,
de pe teritoriul municipiului Zalău în anul 1995.
debit 251 190 308 375 165 357 369 280 469 640 215 150 169 550 460
susp. 75 68 157 200 69 134 125 67 205 270 48 90 88 125 145
Figura 46 Curba exponențială de regresie
În figura 46 se distinge faptul că odată cu creșterea debitului cantitatea de suspensii din apă
crește exponențial. Datorită curentului, particulele de dimensiuni mari de pe fundul albiei sunt
antrenate în mișcare, devenind suspensii. În cazul unor debite mai mici, când scurgerea este mai
lină, doar particulele de dimesiuni mici sunt antrenate în mișcare. Facem observația că acestă lege
nu este atât de reprezentativă ca și cea din exemplul precedent.
Calculele au fost făcute cu programul de calcul tabelar Excel.
Regresia multiplă.
Considerăm cazul în care variabila Z depinde de două variabile X și Y. Se dorește obținerea
dependenței
Z = a X + b Y + c
astfel încât suma
n
i
iii zcbyaxcbaS1
2)(),,( să fie minimă. Se obține
Variatia debit-suspensii
y = 46.436e0.0026x
0
50
100
150
200
250
300
0 500 1000
susp.
Expon. (susp.)

53
x
z
xy
yzxyxy
xyyx
yzxyxzy
s
s
r
rrr
css
cccsa
2222
2
1
x
z
xy
zxxyxy
xyyx
yzxyyzx
s
s
r
rrr
css
cccsb
2222
2
1
și ecuația de regresie:
)()( yYbxXazZ
Reprezentată geometric această ecuație este un plan în spațiul oxyz. Interpretarea este
următoatrea: acest plan este planul care ajustează cel mai bine șirurile xi și yi, i=1,..., n. Cu alte
cuvinte, dacă Z reprezintă efectul, X și Y reprezintă cauzele, în consecință, Z arată dependența
liniară de cele două variabile X și Y luate împreună.

54
Corelația rangurilor
Există cazuri în care ne interesează gradul de corelație dintre două serii de mărimi, dar când
nu putem efectua măsurătorile respective. În anumite tipuri de probleme avem de-a face cu
caracteristici care nu pot fi exprimate prin cifre, dar pot fi ordonate după un aumit criteriu. În astfel
de cazuri vom lua în considerare ordinea lor și nu evaluarea numerică.
În cazul în care rangul anumitor caracteristici este mai accesibil decât măsurătorile efective,
pentru examinarea legăturilor dintre anumiți parametrii, putem cerceta corelația rangurilor
respective. Prezentăm mai jos câteva procedee de evaluare a anumitor corelații în care se ține
seama de ordonarea mărimilor caracteristice, adică în care se utilizează rangul sau poziția pe care
le au anumite mărimi, una în raport cu alta. Vom determina deci coeficientul de corelație al
rangurilor.
Coeficientul lui Spearman
Fie n numărul de elemnte ale unei mulțimi ordonate după caracteristici calitativ diferite.
Pentru că avem n unități statistice A1, A2, ... , An, fiecare dintre ele având două caracteristici
(x1, y1), (x2 , y2),...,(xn, yn)
Pentru caracteristica x dispunem de ordonarea: x1 , x2 ,...,xn, iar pentru caracteristica y avem:
y1, y2 ,...,yn, unde x și y sunt simple permutari ale celor n numere naturale. Notăm:
di = xi –yi (k=1, 2,...,n)
unde vectorul de componente di este o mărime a gradului de apropiere pe care o poate avea
corespondența dintre x și y. Dacă d=0, înseamnă că toți indivizii considerați au cele două
caracteristici în aceeași ordine, avem deci o corespondență perfectă. Cu cât diferențele di sunt mai
mari, cu atât mai mare este discordanța între cele două caracteristici.
Pentru o cercetare a corelației rangurilor, vom considera scrise în ordine crescătoare sau
descrescătoare toate valorile lui xi iar alături scriem valorile corespunzătoare ale lui yi, acestea din
urmă putînd fi sau nu în vreo anumită ordine. Prin urmare, în cadrul ordonării după rang, x ia
valorile: 1,2,3,..., n într-o anumită ordine, pe când y ia aceleași numere dar ordonate după această
caracteristică. Pentru ca să nu existe compensări între valorile di se va lua pătratul acestor valori.
Astfel se definește coefficient de corelație al rangurilor (coeficientul lui Spearman) ca fiind
expresia:

55
)1(
61
2
2
nn
d i
Dacă =1 avem concordanță maximă, iar dacă =-1 avem discordanță maximă.
Pentru o ilustrare mai sugestivă vom lua un exeplu. Considerăm că A1, A2, ... , An
reprezintă n persoane, caracteristicile x1 , x2 ,...,xn, fiind înălțimea lor măsurată în cm, iar
caracteristicile y1, y2 ,...,yn greutatea lor măsuraă în kg. Se pune problema dacă există o corelație
între aceste două caracteristici. Pentru simplificare vom lua n=10. Această clasificare are următorul
rezultat.
A1 A2 A3 A4 A5 A6 A7 A8 A9 A10
3 1 10 6 2 5 7 8 4 9
1 2 9 7 4 3 6 10 5 8
În prima linie sunt cele 10 persoane, în linia a doua ordinea pe care o ocupă fiecare persoană
după înălțime (crescătoare), iar în linia a treia ordinea lor după greutate. Această ordonare ne
permite să dăm un criteriu privind legătura între aceste două caracteristici.
Vom deosebi două situații extreme. Situația cea mai strâns legată (cel mai înalt este cel mai
mare în greutate):
A1 A2 A3 A4 A5 A6 A7 A8 A9 A10
3 1 10 6 2 5 7 8 4 9
3 1 10 6 2 5 7 8 4 9
și situația cu legătura cea mai slabă (cel mai înalt este cel mai mic în greutate).
A1 A2 A3 A4 A5 A6 A7 A8 A9 A10
3 1 10 6 2 5 7 8 4 9
8 10 1 5 9 6 4 3 7 2
Rangurile obținute în cele două clasificări pot oferi o indicație asupra corelației dintre cele două
caracteristici. Diferențele dintre cele două valori sunt (primul șir minus al doilea șir):
2 -1 1 -1 -2 2 1 -2 -1 1

56
iar suma pătratelor diferențelor este dată de
2210
1
2
i
id iar coeficientul lui Spearman =0,862
Apropierea de 1 lui indică o corelație destul de mare între carcatristicile luate în considerare.

57
PARTEA IIa
INTRODUCERE ÎN TEORIA PROBABILITATILOR
Noțiunea de probabilitate este un concept fundamental în statistică. Toate testele statistice
implică calculul probabilităților, fie direct, fie indirect. Statistica nu lucrează cu certitudini, ci cu
probabilități. Ipotezele statistice nu pot fi considerate în totalitate adevărate sau false.
Raționamentul probabilist explică evenimentele fundamentale ale universului fizic în care
trăim precum și o mare parte din evenimentele petrecute în lumea ființelor vii. Utilitatea aproape
nelimitată a raționamentului probabilist este unul din aspectele cele mai importante și mai izbitoare
ale științei moderne. Acest punct de vedere a fost dezvoltat și acceptat mai ales în ultimii 80 de ani,
cu toate că teoria probabilităților s-a născut cu peste trei secole în urmă.
Vom examina în acest capitol numai acel tip de raționament, în care un pas conduce în mod
ordonat la pasul următor, întregul proces succesiv conducînd în final la o concluzie. Acest gen de
gândire ajunge la un nivel foarte rafinat în matematică, precizia sa depinzând de mai mulți factori:
modul precis în care sunt definiți termenii, rigoarea cu care definițiile sunt respectate și atenția cu
care toate regulile de acțiune sunt puse în evidență și clar exprimate. Acest mod de a gândi
constituie gândirea logică, iar logica însăși poate fi definită astfel drept studiul sistematic al
condițiilor și procedeelor care permit o judecare valabilă, cu alte cuvinte care permit să se
pornească de la una sau mai multe afirmații și să se deducă din aceasta una sau mai multe concluzii,
sau propoziții noi care să fie valabile, în sensul justificării lor de către propozițiile inițiale ale căror
consecințe sunt de fapt. Este extrem de important faptul că logica nu afirmă ceva din nimic ci
scoate la iveală afirmații, propoziții și relații cuprinse în propozițiile inițiale. Ceea ce are
importanță, prin urmare, într-o într-o astfel de gândire logică nu este adevărul, ci mai degrabă
valabilitatea sa. O concluzie logică poate să merite pe drept cuvânt adjectivele : corectă, sănătoasă
sau precisă, toate acestea însemnînd că ea a fost dedusă în mod riguros din materialul inițial. Dar
faptul că a fost dedusă prin metode logice corecte nu înseamnă câtuși de puțin că ea este în mod
necesar adevărată. Dacă afirmațiile (ipotezele) inițiale sunt adevărate, atunci consecințele logice
deduse trebuie să fie adevărate.
Logica probabilistă ia în considerare o serie întreagă de afirmații, dintre care nici una nu
este total falsă sau total adevărată, ordonîndu-le în raport cu gradul lor de adevăr, spunînd cu cât

58
este mai plauzibilă sau mai puțin plauzibilă una față de cealaltă. Logica probabilistă nu se limitează
numai la două valori de adevăr 0 și 1, ci utilizează o infinitate de valori exprimate ca numere situate
între 0 și 1.
Teoria probabilităților poate să analizeze acele situații în care nu avem suficiente informații
care să permită aplicarea logicii clasice; ea este capabilă să ne dea un cel mai bun tip de răspuns pe
care-l justifică o informație incompletă. Într-un mare număr de cazuri, teoria probabilităților nu ne
spune numai "sfatul meu este așa și așa", ci poate să ne indice gradul de încredere pe care suntem
îndreptățiți să-l acordăm sfatului dat.
În diferite stadii ale dezvoltării științei se poate considera un ansamblu de fenomene reale și
se poate căuta pentru el un model matematic. De exemplu o familie de ipoteze plus teoria pură care
rezultă pe baza acestora și care se aplică cu strictă precizie unui sistem fizic idealizat - suficient de
asemănător sistemului fizic real - în așa fel încât teoria sistemului idealizat va "explica" sau măcar
va organiza și simplifica fenomenele reale.
Primii experți în teoria probabilităților vorbeau despre extragerea de bile colorate din urne.
Aceasta nu pentru că lumea ar fi într-adevăr interesată în urne cu bile ci pentru că deseori acestea
puteau fi folosite ca modele utile ale unor situații reale. Calculele probabilistice se aplică strict la
modele fictive pe care ele sunt bazate. Dacă ele se aplică sau nu în mod util situațiilor reale este o
chestiune la care trebuie să reflectăm cu grijă.
Câmp de evenimente
În teoria probabilităților sunt studiate experiențele cu rezultat întâmplător, numite
experiențe aleatoare; pe scurt experiențe (experimente).
Definiție. Prin experiență în teoria probabilităților se înțelege orice act care poate fi repetat în
condiții date.
Nu se poate preciza rezultatul exact al unei experiențe. De exemplu la aruncarea unei
monede nu se poate ști dinainte ce față a monedei va apare. De asemenea la aruncarea unui zar nu
se poate ști dinainte ce față a zarului va apare. Orice eveniment aleator depinde de acțiunea
combinată a mai multor factori întâmplători.
Rezultatele posibile ale experienței se numește probă.

59
Definiție. Orice situație legate de experiență și despre care putem spune că s-a produs sau
nu, după efectuarea experienței, poartă numele de eveniment. aleator
Cu alte cuvinte, un eveniment aleator sau pe scurt eveniment (atașat experienței) este orice situație
care se poate realiza prin una sau mai multe probe.
Deci un eveniment este determinat prin mulțimea probelor prin care se realizează, prin
urmare îl putem interpreta ca o submulțime a mulțimii tuturor probelor experienței.
Exemple
1. Aruncarea unei monezi este un experiment. Apartiția oricărei fețe o probă. Apariția unei
anumite fețe este un eveniment.
2. Aruncarea zar este un experiment. Apartiția oricărei fețe o probă. Apariția unei anumite
fețe este un eveniment. Apariția fețelor 2, 3, 4, este de asemenea un eveniment.
Evenimentele aleatoare se supun unor legi, cunoscute sub numele de legi statistitice, teoria
probabilităților stabilind forma lor de manifestare și permițând să se prevadă desfășurarea lor.
Evenimentele care se realizează printr-o singură probă se numesc evenimente elementare,
celelalte se numesc evenimente compuse.
Evenimentul care se realizează prin oricare din probe se numește eveniment sigur (notat
prin E).
Exemplu. Apariția oricărei fețe la o monedă sau la un zar.
Evenimentul care nu se realizează prin nici o probă se numește eveniment imposibil, notat
cu .
Exemplu. Apariția niciunei fețe la o monedă sau la un zar.
Evenimentul contrar lui A sau non-A (sau Ā) este evenimentul care se realizează atunci și
numai atunci cînd nu se realizează A.
Exemplu. Apariția unei fețe cu număr par la un zar și apariția unei fețe cu număr impar sunt
evenimente contrare.
Întotdeauna unui eveniment îi corespunde un eveniment contrar, a cărui producere înseamnă
nerealizarea primului.
Definiție. Spațiul de selecție asociat cu o expereiență este mulțimea de elemente cu
proprietatea că orice eveniment rezultat în urma experienței corespunde unui singur element al
acestei mulțimi.

60
Definiție. Fie mulțimea E={E1, E2,...,En} mulțimea tuturor evenimentelor elementare
corespunzătoare unei experiențe. Se numește câmp finit de evenimente, mulțimea tuturor
submulțimilor lui E, la care se adaugă mulțimea E însăși și .
Exemple: La aruncarea unei monezi avem următoarele situații (evenimente): apariția unei
fețe, apariția celeilalte fețe, apariția oricărei fețe (E) și apariția nici uneia din fețe (). În total sunt
4 evenimente
Un câmp de evenimente se notează cu {E,K} unde prin E înțelegem evenimentele, iar K
semnifică numărul evenimentelor.
Observație: Ori de câte ori într-o relație vor intra mai multe evenimente, vom presupune că
ele aparțin aceluiași câmp și nu vom mai specifica acest lucru.
Operații cu evenimente.
Când în cadrul unei experiențe ne fixăm atenția asupra unui eveniment, de fapt, ne fixăm
atenția asupra unei părți din mulțimea rezultatelor experienței.
Exemplu. La aruncarea unui zar ne interesează evenimentul A care constă în apariția uneia
din fețele 2, 4 sau 6. Evenimentul A este perfect determinat de mulțimea formată din aceste două
rezultate și deci îl putem identifica cu aceasta. Vom scrie
A={2,4,6}
Considerăm că evenimentul B constă numai din apariția feței 2 și 4.
Se observă că evenimentul A se produce ori de câte ori se produce evenimentul B. Astfel putem
scrie:
BA
Definiție. Fiind date două evenimente A și B, numim reuniunea lor, AB, evenimentul a
cărei producere constă în producerea a cel puțin unul din cele două evenimente.
Exemplu. La aruncarea unui zar se consideră evenimentele:
A={1,2,4}, B={2,4,5}
Evenimentul A se produce dacă obținem unul din rezultatele {1}, {2} sau {4}, iar B dacă se
obține unul din rezultatele {2}, {4} sau {5}
AB={1,2,4,5}
Definiția 3. Intersecția evenimentelor A și B constă în producerea simultană a
evenimentelor A și B.

61
Pentru exemplul de mai sus, avem următoarea expresie:
AB={2,4}
Definiția 4. Spunem că două evenimente sunt compatibile dacă se pot produce simultan.
Exemplu. Apariția feței {1} și apariția fețelor impare.
Definiția 5. Spunem că două evenimente sunt incompatibile dacă nu se pot produce
simultan.
Exemplu. Apariția unei fețe pare și apariția unei fețelor impare.
Se folosește expresia
AB=
Definiție. Fie A un eveniment; dacă într-o serie de n probe, evenimentul A s-a realizat de nA
ori, numim frecvență relativă a evenimentului A numărul f(A) = nA/n.
Câmp de probabilitate
Considerăm o experiență cu n evenimente elementare (deci n probe) egal posibile și fie A
un eveniment oarecare, care se poate realiza prin m probe; m n.
Definiție (definiția clasică a probabilității). Se numește probabilitatea evenimentului A,
numărul P(A)=m/n, adică raportul dintre numărul cazurilor favorabile și numărul cazurilor egal
posibile.
Probabilitatea unui eveniment elementar este 1/n (n fiind numărul probelor).
Proprietăți:
1) 0 P(A) 1
2) P()=0
3) P(E)=1, m=n
4) P(Ā) = 1-P(A)
5) P(AB) = P(A)+P(B), dacă AB= (evenimente incompatibile)
6) P(A)P(B) dacă AB.
Definiție (definiția axiomatică aprobabilității). O probabilitate P definită pe câmpul de
evenimente {E,K} este o funcție care asociază fiecărui eveniment A{E,K} un număr real P(A)
care satisface următoarele axiome:
1) P(A)0 , A{E,K}
2) P(E)=1, E fiind elementul sigur

62
3) P(AB)=P(A)+P(B), A,B{E,K}, AB=
Observație. Definiția clasică a probabilității satisface toate axiomele definiției de mai sus.
Definiția 8. Numim câmp finit de probabilitate un câmp finit de evenimente {E,K} înzestrat
cu o probabilitate; se notează {E,K,P}.
Evenimente independente. Două evenimente A, B sunt independente dacă:
P(AB) = P(A) P(B)
Evenimente incompatibile. Două evenimente se numesc incompatibile dacă
AB= deci P(AB) = P() = 0
Scheme calsice de probabilitate.
Calculul probabilităților de apariție a unor evenimente este același pentru o clasă largă de
experimente. Din acest motiv se construiește un model matematic pentru o astfel de clasă, care se
numește schemă de probabilitate. Pentru o astfel de schemă se determină formulele
corespunzătoare de calcul, ce depind de anumiți parametri, formule care se aplică pentru fiecare
experiment din clasa respectivă, prin particularizarea acestor parametri. În cele ce urmează vom
prezenta principalele scheme de probabilitate cele mai de întâlnite.
1. Schema lui Bernoulli (schema binomială sau schema bilei revenite)
În urma efectuării unei experiențe poate apărea evenimentul A cu probabilitatea p, sau
evenimentul contrar (Ā) cu probabilitatea q=1-p. Se repetă experiența de n ori în condiții identice.
Probabilitatea P(n;m) ca în cele n experiențe evenimentul A să apaă de m ori este
mnmm
n qpCmnP );(
Deoarece probabilitatea P(n;m) este coeficientul lui xm din dezvoltarea (q+px)
n acesată
schemă se mai numește schema binomială.
Schema lui Bernoulli mai poate fi realizată printr-o urnă cu bile de două culori (albe și negre), se
extrage pe rând câte o bilă din urnă, dar de fiecare dată bila se pune înapoi, motiv pentru care se
mai numește schema bilei revenite (întoarse).
2. Schema bilei nerevenite
Dintr-o urnă cu a bile albe și b bile negre se extrag n bile, na+b. Probabilitatea Pa,b(,) ca
din bilele extrase să fie albe și negre, + =n, este

63
ba
baba
C
CCP ),(,
3. Schema lui Poisson
Se fac n experiențe independente. În urma experienței de rang k poate apărea evenimentul A
cu probabilitățile pk sau evenimentul Ā cu probabilitatea qk = 1- pk. Probabilitatea pm ca în cele n
experiențe evenimentul A să apară de m ori este coeficientul lui xm din polinomul
P(x)=(p1x+q1) (p2x+q2)(pnx+qn), P(A)=p1p2plq1q2qm, l+m=n
Variabilă aleatoare.
Până acum ne-am ocupat de apariția sau neapariția unor evenimente, așadar de latura
calitativă a fenomenului aleator. Pentru studiul matematic al fenomenelor aleatoare este necesar ca
descrierea acestora să aibă expresii cantitative, care să poată fi tratate din punct de vedere
matematic. Această expresie cantitativă este dată de variabila aleatoare. Deoarece noțiunea de
variabilă aleatoare este foarte importantă trebuie să-i acordăm o atenție deosebită. Pentru a se
înțelege mai bine această noțiune îi vom da, la început, o definiție intuitivă.
Numim variabilă aleatoare o mărime care – drept rezultat al unui experiment- poate lua o
valoare oarecare, fără să se poată preciza dinainte care anume. Adică mulțimea de evenimente este
discretă (avem un număr finit de evenimente) vom avea o variabilă aleatoare discretă, iar în caz
contrar o variabilă aleatoare continuă. Valorile posibile ale variabilelor aleatoare disrete pot fi
enumerate dinainte, spre deosebire de variabilelor aleatoare continue, care pot lua orice valoare
într-un anumit interval.
Definiția riguroasă a variabilei aleatoare este următoarea.
Definiție. O variabilă aleatoare este o funcție (măsurabilă) definită pe mulțimea
evenimentelor E cu valori în mulțimea numerelor reale.
Așa cum am amintit, dacă E={A1 , A2 , …, An} avem o variabilă aleatoare discretă și ea,
notată cu X, ia valoarea x1 dacă se verifică evenimentu A1 , ia valoarea x2 dacă se verifică
evenimentu A2 ș.a.m.d. Fiecare din valorile x1, x2,…, xn este posibilă dar nici una sigură. De aceea
se spune că probabilitatea ca variabila aleatoare X să ia valoarea xi este pi=P(X=xi), unde P este
funcția de probabilitate definită mai sus axiomatic.

64
Variabila aleatoare va fi mult mai bine precizată atunci când se cunoaște probabilitatea cu
care este luată fiecare valoare.
Definiție. Numim distribuția sau repartiția variabilei aleatoare X, tabloul
n
n
ppp
xxxX
...
...
21
21
Unde pi sunt probabilitățile de apariție ale vaorilor xi, i=1,n și se mai scrie pi = P(X= xi) ;
deci X= xi este un eveniment.
Distribuția unei variabile aleatoare X poate fi reprezentată grafic în plan, prin poligonul de
repartiție, care se obține unind printr-o linie poligonală punctele de coordonate (xi, pi), i=1,n ; în
general pe cele două axe se iau măsuri diferite.
Distribuții clasice de probabilitate
1. Distribuția corespunzătoare schemei lui Bernoulli (binomială).
Se atașează schemei lui Bernoulli o variabilă aleatoare X care reprezintă numărul de apariții
ale evenimentului A atunci când se efectuează n experiențe. X are următorul tablou de distribuție
nknkk
k
n
n
n
n
n pqpCqpCpqCq
nkX
22211
210
n
k
nknkk
n qpqpC1
1)(
2. Distribuția corespunzătoare schemei bilei neîntoarse
Se atașează schemei bilei neîntoarse variabila aleatoare X care reprezintă numărul de bile
albe din cele n bile extrase din urnă. X are repartiția :
n
ba
b
n
a
n
ba
kn
b
k
a
n
ba
n
ba
n
ba
n
ba
C
CC
C
CC
C
CC
C
CC
nk
X 0110
10
n
kn
ba
kn
b
k
a
C
CC
1
1
3. Distribuția corespunzătoare schemei lui Poisson
Se atașează schemei lui Poisson variabila aleatoare X care reprezintă numărul numărul de apariții
ale evenimentului A, atunci când se efectuează n experiențe. X are distribuția
nk ppppp
nkX
210
210
unde pk este coeficientul lui xm din polinomul
P(x)=(p1x+q1) (p2x+q2)(pnx+qn), pn=1

65
Funcția de repartiție.
Definiție. Fie X o variabilă aleatoare și F(x) probabilitatea ca X să ia valori mai mici decât
x, adică F(x) = P(Xx). Funcția F(x) se numește funcție de repartiție a variabilei aleatoare X.
În cazul în care variabila aleatoare X este o variabilă aleatoare discretă și are repartiția
n
n
ppp
xxxX
...
...
21
21
funcția de repartiție F este o funcție în scară definită prin:
i
nnn
iii
xa
xaxppp
xaxppp
xaxp
xaxp
xa
aF
,1
,...
...
,...
...
,
,
,0
)(
1121
121
322
211
1

66
Bibliografie
1. Bot E., Leonhard W, 2002, Microsoft Office XP, Ed. Teora.
2. Baron T., Korka M., Pecican E., 1981, Stănescu Maria, Statistică pentru comerț și
turism, Ed. Did. Şi Ped. București
3. Ciucu B., Craiu V., 1971, Introducere în teoria probabilităților și statistică
matematică, Ed. Didactică și Pedagogică, București.
4. Ebdon D., 1989, Statistics in Geography, Blackwell Inc., New-York .
5. Person R., 1997, Utilizare Excel, Ed. Teora
6. Petcu Nicoleta, 2000, Stastistică în turism. Teorie și aplicații, Ed. Albastră (Grupul
Microinformatica), Cluj-Napoca.
7. Rotaru T., Bădescu G., Culic Irina, Mezei E., Mureșan Cornelia, 1999, Metode
statistice aplicate în științe sociale, Ed. Polirom, Iași.
8. Yule G.U., Kendall M.G., 1969, Introducere în teoria statisticii, Ed. St., București.