CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica...

126
CE ESTE STATISTICA? Statistica este o știință care, folosind calculul probabilităților, studiază fenomenele și procesele de tip colectiv (din societate, natură etc.) din punct de vedere cantitativ în scopul descrierii acestora și al descoperirii legilor care guvernează manifestarea lor. Statistica se ocupă de obținerea de informații relevante din datele disponibile într-un volum suficient de mare. Informațiile pot fi folosite pentru a înțelege datele disponibile (statistică descriptivă) sau pentru a descoperi noi informații despre evenimente și relațiile dintre ele (statistică inferențială). Procesul de obținere a informației din date se numește inferență statistică referitoare la unii parametri statistici, sau chiar întregii distribuții probabilistice. Acesta este punctul de vedere mai general adoptat de teoria neparametrică în statistică. În statistica aplicată clasică este preferată ideea de a construi un model statistic cu care se pot face inferențe; în majoritatea cazurilor acest model nu este verificat, ceea ce poate conduce la concluzii eronate. Statistica aplicată modernă analizează însă date mult prea complexe, cum ar fi imagini sau structura proteinelor, pentru a se putea mărgini la ideea de modelare. Statistica oferă suport pentru fizică, biologie, psihologie, economie, sociologie etc. Statistica excelează atunci când relațiile deterministe referitoare la evenimentul studiat sunt imposibil ori foarte dificil de aflat. Pe teritoriul României lucrarea lui Dimitrie Cantemir "Descriptio Moldaviae" (1716) poate fi considerată ca o primă lucrare de statistică. Ea a fost scrisă la cererea Academiei din Berlin și conține toate cunoștințele acumulate în domeniu până la acea dată. Statistica este considerată, pe de o parte, o parte matematică a științei ce se referea la colectarea, interpretarea sau explicarea și prezentarea datelor și pe de altă parte o ramură a matematicii ce se ocupă cu colectarea și interpretarea datelor. Datorită rădăcinilor ei empirice și a accentului pe aplicații, statistica este considerată cel mai adesea o știinta matematică distinctă mai degrabă decât o ramură a matematicii. O mare parte a statisticii asigură colectarea datelor este adresată într-un mod care produce concluzii valide; codarea și arhivarea datelor pentru a reține informațiile; raportarea rezultatelor si rezumarea lor (tabele și grafice) într-un mod inteligibil celor care trebuie să le folosească. Statisticienii îmbunătațesc calitatea datelor dezvoltând experimente și studiul prelevarii probelor. Statistica oferă, de asemenea, instrumente pentru prezicerea utilizării datelor și modelelor statistice. Statistica este aplicabila unei vaste varietăți de discipline academice, incluzând științe naturale și sociale, guvern și afaceri. Consultanții în statistică ajută organizații și companii care nu dispun de expertiza "in-house" relevantă întrebărilor specifice companiilor sau organizațiilor. "Statistica aplicată" cuprinde statistica descriptivă și statistica dedusă. Statistica teoretică se preocupă cu argumentele logice ce subliniază justificarea abordărilor asupra statisticii deduse. Pentru a aplica statistica unei probleme știintifice, industriale sau sociale este necesar să se înceapă cu un proces sau o populație de studiat. Populațiile pot avea teme diverse cum ar fi "toate persoanele care trăiesc într-o țară" sau "fiecare atom cuprins într-un cristal". O populație poate fi, de asemenea, compusă din observațiile unui proces la diferiți timpi, fiecare informație din observații folosind drept un număr diferit al grupului în totalitate. Informațiile colectate despre acest tip de "populații" constituie ceea ce se numește serii de timpi.

Transcript of CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica...

Page 1: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

CE ESTE STATISTICA?

Statistica este o știință care, folosind calculul probabilităților, studiază fenomenele și procesele de tip colectiv (din societate, natură etc.) din punct de vedere cantitativ în scopul descrierii acestora și al descoperirii legilor care guvernează manifestarea lor.

Statistica se ocupă de obținerea de informații relevante din datele disponibile într-un volum suficient de mare. Informațiile pot fi folosite pentru a înțelege datele disponibile (statistică descriptivă) sau pentru a descoperi noi informații despre evenimente și relațiile dintre ele (statistică inferențială).

Procesul de obținere a informației din date se numește inferență statistică referitoare la unii parametri statistici, sau chiar întregii distribuții probabilistice. Acesta este punctul de vedere mai general adoptat de teoria neparametrică în statistică. În statistica aplicată clasică este preferată ideea de a construi un model statistic cu care se pot face inferențe; în majoritatea cazurilor acest model nu este verificat, ceea ce poate conduce la concluzii eronate. Statistica aplicată modernă analizează însă date mult prea complexe, cum ar fi imagini sau structura proteinelor, pentru a se putea mărgini la ideea de modelare.

Statistica oferă suport pentru fizică, biologie, psihologie, economie, sociologie etc. Statistica excelează atunci când relațiile deterministe referitoare la evenimentul studiat sunt imposibil ori foarte dificil de aflat.

Pe teritoriul României lucrarea lui Dimitrie Cantemir "Descriptio Moldaviae" (1716) poate fi considerată ca o primă lucrare de statistică. Ea a fost scrisă la cererea Academiei din Berlin și conține toate cunoștințele acumulate în domeniu până la acea dată.

Statistica este considerată, pe de o parte, o parte matematică a științei ce se referea la colectarea, interpretarea sau explicarea și prezentarea datelor și pe de altă parte o ramură a matematicii ce se ocupă cu colectarea și interpretarea datelor. Datorită rădăcinilor ei empirice și a accentului pe aplicații, statistica este considerată cel mai adesea o știinta matematică distinctă mai degrabă decât o ramură a matematicii. O mare parte a statisticii asigură colectarea datelor este adresată într-un mod care produce concluzii valide; codarea și arhivarea datelor pentru a reține informațiile; raportarea rezultatelor si rezumarea lor (tabele și grafice) într-un mod inteligibil celor care trebuie să le folosească.

Statisticienii îmbunătațesc calitatea datelor dezvoltând experimente și studiul prelevarii probelor. Statistica oferă, de asemenea, instrumente pentru prezicerea utilizării datelor și modelelor statistice. Statistica este aplicabila unei vaste varietăți de discipline academice, incluzând științe naturale și sociale, guvern și afaceri. Consultanții în statistică ajută organizații și companii care nu dispun de expertiza "in-house" relevantă întrebărilor specifice companiilor sau organizațiilor.

"Statistica aplicată" cuprinde statistica descriptivă și statistica dedusă. Statistica teoretică se preocupă cu argumentele logice ce subliniază justificarea abordărilor asupra statisticii deduse.

Pentru a aplica statistica unei probleme știintifice, industriale sau sociale este necesar să se înceapă cu un proces sau o populație de studiat. Populațiile pot avea teme diverse cum ar fi "toate persoanele care trăiesc într-o țară" sau "fiecare atom cuprins într-un cristal". O populație poate fi, de asemenea, compusă din observațiile unui proces la diferiți timpi, fiecare informație din observații folosind drept un număr diferit al grupului în totalitate. Informațiile colectate despre acest tip de "populații" constituie ceea ce se numește serii de timpi.

Page 2: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

1. CONCEPTE GENERALE 1.1 Ce este statistica? Statistica este ştiinţa care culege, sintetizează, descrie, interpretează datele referitoare la fenomene generale (DEX ’98). Obiectul statisticii moderne îl constituie colectarea, organizarea, analiza şi interpretarea datelor în vederea adoptării deciziilor de afaceri. Clasificare: � Statistica matematică � Statistica economică � Statistica industrială � Statistica socială � Statistica medicală (biostatistica) Statistica matematică este o ramură a matematicii care elaborează noţiunile şi metodele folosite în statistică. Statistica economică (sau Statistica pentru afaceri = Business Statistics) este ramura statisticii care studiază fenomenele şi procesele economice, cu aplicaţii în asigurări, finanţe, marketing, management ş.a. Statistica industrială (în engleză Engineering Statistics sau Industrial Statistics) studiază fenomenele şi procesele din inginerie şi industrie, cu aplicaţii în proiectarea experimentelor, controlul statistic al calităţii, fiabilitate etc.). Statistica socială studiază fenomenele sociale, cu aplicaţii în demografie, recensăminte, analize politice etc. Statistica medicală (biostatistica): aplicaţii în medicină, farmacie şi ştiinţe biologice. Din punct de vedere istoric, creşterea şi dezvoltarea statisticii moderne este asociată cu două direcţii distincte: � nevoia statelor de a colecta informaţii referitoare la dezvoltarea economică şi socială; � dezvoltarea teoriei probabilităţilor, ca ramură distinctă a matematicii Datele privind evoluţia economică şi socială au fost colectate din cele mai vechi timpuri. În antichitate, civilizaţiile egipteană, greacă, romană, dar şi cele din Asia, au colectat date despre evoluţia datelor populaţiilor statelor respective. În evul mediu, biserica înregistra datele referitoare la naşteri, căsătorii, decese Statistica modernă, ca ştiinţă, apare în secolul al XVIII-lea. Dezvoltarea actuală a statisticii este strâns legată de dezvoltarea explozivă a calculatoarelor electronice, din ultimii 50 de ani “Gândirea statistică este un mod de gândire al viitorului” - Viorel Gh. Vodă - 1977 1.2 Statistica descriptivă şi statistica inferenţială

Statistica are ca obiect de studiu două tipuri de probleme: � descrierea unor mulţimi de date de mari dimensiuni, domeniu care aparţine statisticii descriptive; � utilizarea unor eşantioane de date pentru inferenţa1 asupra naturii mulţimilor de date din care au fost extrase eşantioanele respective, domeniu care aparţine statisticii inferenţiale. 1.2.1 Statistica descriptivă

Statistica descriptivă cuprinde metodele de colectare, analiză, sintetizare şi prezentare a datelor în scopul descrierii corespunzătoare a diferitelor caracteristici ale unei mulţimi de date. În acest scop statistica descriptivă utilizează metode specifice (grafice şi numerice), precum şi baze de date pentru prelucrarea datelor. De obicei în statistica descriptivă dispunem de întreaga mulţime de date ce caracterizează fenomenul analizat.

Pentru a ilustra aplicaţiile descriptive ale statisticii, să considerăm mulţimea de date pe care o reprezintă caracteristicile socio-economice ale populaţiei ţării noastre. Prelucrarea acestei mase enorme de date constituie o problemă dificilă, pentru prelucrarea şi descrierea acestor date (de exemplu, ca urmare a unui recensământ sau pentru anuarul statistic anual) utilizându-se metode statistice specifice.

Page 3: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

În mod similar, specialiştii în ingineria mediului, utilizează metodele statisticii descriptive pentru a descrie mulţimea de date referitoare, de exemplu, la gradul de poluare al aerului, al apei sau al solului, pe baza determinărilor şi înregistrării periodice a datelor. 1.2.2 Statistica inferenţială În multe situaţii practice, fenomenul pe care îl analizăm poate fi caracterizat printr-o mulţime de date care fie sunt greu de obţinut, fie obţinerea acestor date costă prea mult sau durează un timp prea îndelungat. În aceste cazuri, din mulţimea de date se extrag eşantioane şi informaţiile asupra eşantioanelor se utilizează pentru inferenţă. Ramura statisticii care rezolvă acest tip de probleme se numeşte statistică inferenţială. Statistica inferenţială cuprinde metodele utilizate pentru caracterizarea unei mulţimi de date statistice pe baza unei submulţimi de date extrase din acea mulţime. De exemplu, pentru estimarea rezultatelor alegerilor politice se utilizează aşa-numitul “exit-poll”. Pe baza preferinţelor electorale ale unui număr relativ redus de alegători (selectaţi însă după metode riguroase), se poate stabili, cu o precizie acceptabilă, rezultatul final al alegerilor. 1.3 Populaţie statistică şi eşantion statistic În terminologia statistică, mulţimea de date pe care dorim să o analizăm, aceea care caracterizează fenomenul care ne interesează, se numeşte populaţie statistică. Un eşantion este o submulţime de date extrase dintr-o populaţie. Definiţia 1.1 O populaţie statistică este o mulţime sau o colecţie de obiecte despre care observăm şi înregistrăm date, în scopul unei analize statistice. Inferenţa este o noţiune din logică şi se referă la deducerea unor proprietăţi generale din unele caracteristici particulare ale fenomenelor. CONCEPTE DE BAZĂ ÎN STATISTICA ECONOMICĂ În literatura statistică de specialitate pentru termenul de populaţie statistică se utilizează şi termenii echivalenţi: colectivitate statistică sau univers statistic Definiţia 1.2 Măsurile numerice ce caracterizează o populaţie statistică se numesc parametri statistici. Parametrii unei populaţii se notează cu litere greceşti. De exemplu, media unei populaţii se notează cu μ, iar abaterea standard cu σ. Definiţia 1.3 Un eşantion statistic este o submulţime de obiecte extrase dintr-o populaţie statistică. În literatura statistică de specialitate pentru termenul de eşantion statistic se utilizează şi termenii echivalenţi: selecţie statistică sau sondaj statistic. Definiţia 1.4 Măsurile numerice ce caracterizează un eşantion statistic se numesc statistici sau indicatori statistici. De exemplu, media unui eşantion se notează cu x (xbar), iar abaterea standard cu s. 1.4 Metode de colectare a datelor Principalele metode de colectare sau de culegere a datelor sunt: � observarea directă � experimentele � sondajele Observarea directă este cea mai simplă metodă de obţinere a datelor statistice şi constă din observarea şi înregistrarea directă (nemijlocită) a datelor dintr-un anumit eşantion sau populaţie statistică Experimentele reprezintă o metodă de a obţine date statistice prin proiectarea şi planificarea modalităţii de obţinere a datelor statistice respective. Sondajele statistice reprezintă o metodă de culegere a datelor statistice, ce constă în obţinerea de informaţii de la diferite categorii de populaţii, referitoare la opţiunile politice, economice sau alte date (venituri, consumuri etc.)

Page 4: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Tehnicile de sondaj utilizează: � interviuri (directe, telefonice) � chestionare (directe, prin poştă, e-mail, internet) Pentru analiza datelor statistice şi pentru decizie se utilizează şi date obţinute prin metode de simulare. Indiferent de metoda de colectare a datelor, pentru inferenţa statistică este importantă eşantionarea datelor . 1.5 Metode de eşantionare Eşantionarea are ca obiectiv selectarea sau extragerea unui eşantion din populaţia statistică analizată, în scopul utilizării informaţiilor rezultate din prelucrarea datelor eşantionului pentru a caracteriza populaţia respective Eşantionarea reprezintă, în general, un aşa-numit studiu observaţional, în care se urmăreşte ca eşantionul să fie reprezentativ pentru populaţia respectivă. Un eşantion se consideră reprezentativ pentru o anumită populaţie statistică, dacă el corespunde din punct de vedere al numărului de elemente extrase, cât şi al structurii acestor elemente. Reprezentativitatea eşantionului este confirmată atunci când există concordanţă între statisticile eşantionului şi parametrii populaţiei din care a fost extras eşantionul. Metodele de eşantionare sunt de două tipuri: � aleatoare (sau probabiliste) � nealeatoare (sau deterministe) Eşantionarea nealeatoare se bazează, în general pe raţionament şi pe modul în care datele sunt disponibile Eşantionarea aleatoare se bazează pe tehnica numerelor aleatoare (întâmplătoare) şi pe teoria probabilităţilor. Definiţia 1.5 Un eşantion aleator simplu de efectiv n este un eşantion selectat întâmplător dintr-o populaţie astfel încât orice eşantion diferit să aibă aceeaşi probabilitate de prelevare sau de extragere. Efectivul eşantionului sau volumul eşantionului reprezintă numărul de obiecte sau de elemente care aparţin eşantionului respectiv. Cea mai uzuală metodă de eşantionare aleatoare simplă este numerotarea fiecărui element al populaţiei şi apoi extragerea întâmplătoare dintr-o urnă a numerelor corespunzătoare obiectelor populaţiei care să constituie eşantionul. Metoda nu este întotdeauna aplicabilă şi atunci trebuie utilizate metode care implică calculatorul. Definiţia 1.6 Un eşantion aleator sistematic de efectiv k se obţine prin divizarea populaţiei cu efectivul N în k eşantioane cu efectivul n şi apoi extragerea elementului de acelaşi rang (ales întâmplător) din fiecare eşantion format. Definiţia 1.7 Un eşantion aleator stratificat de efectiv n se obţine prin separarea populaţiei cu efectivul N în n subpopulaţii sau straturi şi apoi extragerea de eşantioane aleatoare simple din fiecare strat. Stratificarea trebuie să fie realizată astfel încât fiecare strat să fie independent unul de altul, iar fiecare observaţie să aparţină unui singur strat. Definiţia 1.8 Un eşantion aleator pe grupuri (pe clustere) de efectiv n se obţine prin separarea populaţiei cu efectivul N în n grupuri sau clustere şi apoi extragerea aleatoare a unui anumit grup. Eşantionarea pe grupuri de elemente se utilizează atunci când este dificil sau costisitor să obţinem lista completă a elementelor populaţiei statistice pe care o observăm. 1.6 Tipuri de date statistice Obiectivul statisticii este de a extrage informaţii din datele statistice. Vom defini în continuare principalii termeni referitori la datele şi informaţiile statistice. O variabilă statistică este o anumită caracteristică a unei populaţii sau a unui eşantion De exemplu, preţul acţiunilor la bursă, înregistrat zilnic, reprezintă o variabilă statistică. Valorile unei variabile statistice sunt valorile observate şi posibile ale variabilei respective Datele statistice sunt valorile observate şi înregistrate ale unei variabile statistice. Informaţiile statistice rezultă din prelucrarea şi analiza datelor statistice.

Page 5: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Datele statistice se clasifică în: � date cantitative � date calitative Definiţia 1.9 Datele cantitative reprezintă observaţii numerice referitoare la cantitatea, mărimea sau măsura unei anumite variabile statistice. Datele cantitative se clasifică în: � date cantitative discrete, atunci când observaţiile înregistrate sunt rezultatul unui proces de numărare; � date cantitative continue, atunci când observaţiile înregistrate sunt rezultatul unui proces de măsurare. Datele cantitative discrete pot fi puse în corespondenţă cu mulţimea numerelor naturale N (care este o mulţime numărabilă) sau cu mulţimea numerelor întregi Z. Date cantitative continue pot fi puse în corespondenţă cu mulţimea numerelor reale R (care este o mulţime de puterea continuului). În literatura statistică de specialitate, datele cantitative continue sunt denumite şi date de tip interval (date definite pe intervale de numere reale) Definiţia 1.10 Datele calitative reprezintă observaţii atributive referitoare la proprietăţile sau caracteristicile unei anumite variabile statistice. Datele calitative se clasifică în: � datele calitative nominale sunt acele date care au ca valori atribute, caracteristici sau categorii � datele calitative ordinale sunt date calitative nominale, în care caracteristicile sau categoriile sunt ordonate

POPULAŢIE. ESANTIOANE. CARACTERISTICI. VARIABILE

Noţiuni introductive Statistica este stiinţa care, folosind calculul probabilitaţilor, studiaza fenomenele din punct de vedere cantitativ. Statistica este un domeniu stiinţific prin intermediul caruia se studiaza fenomene folosind un set de caracteristici a caror trasatura principala este variabilitatea. Prin studiu se înţelege culegerea, gruparea, analiza si interpretarea datelor precum si stabilirea unor predicţii privind evoluţia viitoare a acestora. Studiul se realizeaza asupra unor colecţii de obsevaţii efectuate asupra unor entitaţi de aceeasi natura denumite unitaţi statistice. Observaţiile asupra entitaţilor se pot realiza dupa una sau mai multe caracteristici variabile. Statistica este folosita în diferite domenii cum ar fi: economic, industrial, învaţamânt, medical, farmaceutic etc. Plecându-se de la certitudinea ca nu exista doua fiinţe umane riguros identice si ţinându-se cont de aceasta variabilitate, un parametru biologic pentru a fi cunoscut cu o anumita precizie trebuie evaluat pe baza unei mulţimi de masuratori si observaţii. Ramura statisticii care se ocupa cu studiul detaliat si sintetic al mulţimilor de obervaţii referitoare la entitaţi umane se numeste biostatistica. Statistica descriptiva este ramura statisticii care se ocupa cu culegerea, înregistrarea si analiza datelor în vederea determinarii unor caracteristici numerice sintetice ale acestora. Statistica descriptiva se ocupa doar cu analiza unei mulţimi date de entitaţi fara a trage concluzii asupra unei mulţimi mai mari ce include mulţimea data. În practica, în general, studiile se realizeaza pe un numar restrâns de entitaţi dar concluziile se doresc a fi aplicate pentru întreaga populaţie de entitaţi. Exemplu studiu: - testarea unui medicament se face pe un numar redus de voluntari, rezultatele trebuie applicate pentru o populaţie întreaga.

Page 6: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Statistica inductiva este ramura statisticii ce stabileste concluzii despre o populaţie plecând de la un studiu efectuat asupra unei parţi a populaţiei. Odata cu dezvoltarea calculatoarelor si aplicaţiilor în domeniul statisticii, cercetatorul din este absolvit de efectuarea calculelor laboriase, dar trebuie sa cunoasca si sa înţeleaga setul de principii de baza din statistica si sa fie capabil sa interpreteze rezultatele obţinute. Populaţie statistica În domeniul biomedical, statistica analizeaza un numar de entitaţi de aceeasi natura care au un set de caracteristici comune. Mulţimea acestor entitaţi (elemente) se numeste populaţie statistica. Exemple de populaţie statistica: - un grup de persoane dintr-un spaţiu geografic, demografic sau social (studenţii unei universitaţi) care au o anumita vârsta (mai tineri de 26 de ani) si sunt de un anumit gen (masculin); - o mulţime de obiecte (totalitatea vaccinurilor antigripale produse într-o perioada de timp la un institut); - o mulţime de masuratori (tensiunea arteriala masurata la o persoana sau grup de persoane de o anumita varsta într-un interval de timp). Numarul de entitaţi (elemente) ale unei populaţii reprezinta volumul, efectivul, dimensiunea sau talia populaţiei. Entitaţile unei populaţii statistice se numesc unitaţi statistice sau indivizi. Stabilirea indivizilor unei populaţii se bazeaza pe doua tipuri de criterii: 1. criterii de includere ce stabilesc condiţiile ce trebuiesc îndeplinite pentru ca un individ sa aparţina unei populaţii; 2. criterii de excludere ce stabilesc condiţiile în care un individ nu aparţine unei populaţii. În practica de multe ori cercetatorul utilizeaza o populaţie de subiecţi disponibili în locul populaţiei iniţiale (populaţie ţinta) numita si populaţie de selecţie. Din populaţia de selecţie, daca este reprezentativa pentru populaţia ţinta, se extrag esantioane ce vor fi folosite în studiile statistice. Esantioane În statistica, în cadrul studiilor, nu se utilizeaza întreaga populaţie din unul mai multe din inconveniente: - volumul populaţie poate fi uneori foarte mare; - timpul efectiv de studiu creste proporţional cu numarul elementelor studiate; - costurile si resursele alocate cresc proporţional cu numarul entitaţilor studiate; - de multe ori se distrug entitaţile studiate; - exista situaţii în care nu se pot culege informaţii despre toţi indivizii populaţiei; - precizia rezultatele este invers proporţionala cu numarul entitaţilor studiate. Plecându-se de la aceste considerente, apare necesitatea de a cuantifica (reduce) populaţia statistica la o submulţime de elemente cu un efectiv redus, submulţime ce numeste esantion sau selecţie. Esantionele sunt imagini reduse cât mai fidele ale întregii populaţii statistice care permit studierea corecta a unui set de caracteristici. În acest caz, spunem despre un esantion ca este reprezentativ pentru populaţie, în caz contrar este nereprezentativ. Un esantion reprezentativ pentru o populaţie statistica îndeplineste doua condiţii principale: 1. o condiţie cantitativa în sensul ca talia sa trebuie sa fie suficient de mare pentru studii statistice; 2. o condiţie calitativa în sensul ca extragerea indivizilor din populaţie trebuie facuta aleator. Esantioane în care pentru fiecare individ al populaţiei se cunoaste probabilitatea (sansa) de a fi inclus în esantion se numesc esantioane probabiliste. În situaţia în care nu se cunoaste probabilitatea de selectare a indivizilor avem de a face cu esantioane nonprobabilistice. În practica se folosesc patru metode de crearea a esantioanelor probabilistice: A. esantionarea randomizata este o metoda simpla prin care sunt selectaţi aleator subiecţii (indivizii) din populaţia statistica, fiecare subiect având aceeasi probabilitate de a fi selectat.

Page 7: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

În practica pentru obţinerea unui esantion randomizat se folosesc funcţii de generare numere aleatoare dintr-o mulţime de numere ce identifica în mod unic fiecare subiect al populaţiei statistice. Nr. de numere generate aleator este egal cu talia sau dimensiunea esantionului; B. esantionarea sistematica este o metoda simpla prin care sunt selectaţi fiecare al k-lea subiect din populaţia statistica. Nr. k se obţine prin împarţirea taliei populaţiei statistice la talia esantionului. Acest tip de esantionare nu se foloseste în cazul în care în populaţia statistica apar periodicitaţi; C. esantionarea stratificata este o metoda complexa ce se realizeaza în doua etape: - se împarte populaţia statistica în mai multe subgrupe relevante numite straturi; - se extrage aleatoriu subiecţi din straturi folosind una din metodele simple. Reprezentarea straturilor în esantionul probabilistic se va face în funcţie de importanţa sa; D. esantionarea cluster este o metoda complexa ce se realizeaza în doua etape: - se împarte populaţia statistica în grupe de dimensiuni egale numite clusteri; - se extrage aleatoriu subiecţi din clusteri folosind una din metodele simple. În obţinerea unui esantion reprezentativ populaţia supusa studiului trebuie definita cât mai precis posibil pentru a evita apariţia fenomenului "bias" prin care esantionale sunt extrase din submulţimi ale populaţiei ţinta. Exemplu de introducere a unui "bias" în alegerea unui esantion: - la realizarea unui studiu privind cazurile de infarct miocardic din România sunt observaţi numai bolnavii internaţi în clinicile de cardiologie ale spitalelor universitare în care de fapt sunt trataţi pacienţii cu afecţiuni grave. În studiile practice se pot folosi doua sau mai multe esantioane ce sunt extrase din populaţia ţinta astfel: - independent caz în care extragerea unui esantion nu influenţeaza extragerea celorlalte esantioane, în general esantioanele având talii diferite; - dependent sau pereche caz în care esantianele au aceeasi talie si indivizii din esantioane diferite se gasesc într-o corespondeţa bijectiva. Exemplu de esantioane pereche: - la realizarea unui studiu privind efectul unui tratament medicamentos se folosesc doua esantioane formate din aceeasi pacienţi înainte si dupa folosirea tratamentului. Caracteristica statistica Trasatura comuna tuturor entitaţilor unei populaţii statistice ce este supusa unei studio statistic se numeste caracteristica statistica. Principala trasatura a unei caracteristici este variabilitatea. La realizarea studiilor biostatistice pentru o populaţie statistica se pot folosi una sau mai multe caracteristici ale acesteia. Exemple de caracteristici statistice: - studiul statistic al hipertensiunii; populaţie statistica: mulţimea bolnavilor internaţi într-o secţie de cardiologie al unui spital într-o perioada de un an de zile; esantion un numar de 100 de bolnavi obţinuţi prin metoda sistematica; caracteristici statistice: valoarea tensiunii la internare, valoarea tensiunii la externare; - studiul utilizarii medicamentelor pentru tratarea hipertensiunii; populaţie statistica: locuitorii unui oras ce folosesc medicamente hipertensive cu vîrsta mai mare de 40 de ani; esantion obţinut prin esantionarea stratificata (se selecteaza un numar 10 de farmacii reprezentative, se extrag aleator câte 100 clienţi pentru fiecare farmacie); caracteristici statistice: 3 medicamente. Variabile Se numeste variabila statistica definita pe o populaţie sau esantion mulţimea de valori pe care o caracteristica le ia pentru fiecare individ sau entitate a populaţiei. Dupa natura lor variabilele statistice pot fi: 1. variabile cantitative atunci când sunt asociate caracteristicilor ce pot fi masurate; 2. variabile calitative atunci când sunt asociate caracteristicilor ce nu pot fi masurate. La rândul lor variabilele cantitative pot fi:

Page 8: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

- variabile continue atunci când caracteristicile masurabile pot lua o infinitate de valori cuprinse într-un interval; - variabile discontinue sau discrete atunci când caracteristicile masurabile iau un numar finit de valori. Variabilele calitative sunt nemasurabile, fiind definite clase de valori pe care acestea le pot lua. Variabilele calitative pot fi: - variabile nominale atunci când clasele de valori nu pot fi ordonate; - variabile ordinale atunci când clasele de valori pot fi ordonate; - variabile dichotomiale atunci când clasele de valori au dooar doua valori. Ele sunt un caz particular al variabilelor nominale. Exemple de variabile: - variabile cantitative continue: înalţime, greutate, vârsta, nr. globule rosii; - variabile cantitative discrete: nr. nasteri, nr. copii; - variabile calitative nominale: culoarea ochilor, pigmentul pielii; - variabile calitative ordonate: starea de sanatate (precara, buna, foarte buna); - variabile calitative dichotomiale: sex (masculin/feminin); infestare cu virus (da/nu). În practica, variabilele continue se pot transforma în variabile discontinue prin aproximarea la un set de valori, sau în variabile calitative prin stabilirea unei clase de valori. Aceste tipuri de transformari conduc întotdeauna la pierderi de informaţie. Transformarea inversa nu este posibila. Pentru unele studii statistice, exista o categorie separata de variabile cantitative numite variabile de supravieţuire. Aceste variabile sunt asociate unor caracteristici ce sunt luate în evidenţa de la includerea subiectului în studiu pâna la apariţia unui eveniment predefinit (exemplu: deces, complicaţii, schimbarea diagnosticului) diferit de evenimentul de finalizare a studiului.

CÂMP DE EVENIMENTE. CÂMP DE PROBABILITATE.

SCHEME PROBABILISTICE CLASICE

&1. Evenimente. Categorii de evenimente

Lucrurile, fiinţele sau fenomenele care printr-o proprietate comună pot fi considerate împreună constituie o mulţime, o colectivitate, o populaţie. Fiinţele sau fenomenele care constituie o colectivitate sunt numite elementele colectivităţii.

Fie dată o colectivitate (populaţie) E, cu elementul generic e. Elementele colectivităţii E posedă sa nu posedă anumite proprietăţi rezultate din studiul ei. Proprietatea considerată constituie criteriul de cercetare a mulţimii respective. Realizarea practică a complexului de condiţii corespunzătoare criteriului de cercetare este numită experienţă. Aplicarea experienţei asupra unui element al populaţiei este numită probă. Rezultatul unui experiment (realizarea unui anumit criteriu în urma unei probe) este numit eveniment (în teoria probabilităţilor, noţiunea de eveniment este o noţiune primară). Este evident, că un eveniment poate sau nu poate avea loc.

Fie o anumită experienţă care ne poate da un anumit rezultat Ai dintr-o mulţime finită de rezultate posibile A1,A2,...,An = Ai ,i=1,2,...,n;evenimentul Ai care poate fi realizat de o probă şi numai de una, se numeşte eveniment elementar. Restul evenimentelor se numesc evenimente compuse.

Vorbind de o colectivitate E, totdeuna suntem puşi în faţa criteriului de cercetare care a permis constituirea colectivităţii respective, numit criteriul fundamental, care determină relaţia de apartenenţă e

Page 9: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

E. Corespunzător acestui criteriu fundamental se ataşează evenimentul sigur, E, deoarece în experienţa respectivă (constituirea colectivităţii), proba realizează totdeuna criteriul de apartenenţă.

Fie dat evenimentul sigur E corespunzător mulţimii E, ale cărei elemente sunt supuse unor criterii de cercetare care duc la considerarea unor evenimenete . Să notăm cu X un anumit eveniment şi cu X mulţimea elementelor e din E care satisfac acestui eveniment. În acest mod este realizată următoarea dublă corespondenţă biunivocă (între elemente şi mulţimi corespunzătoare): E E , X X.

Deoarece între mulţimile E şi X există relaţia de incluziune, X E, definim o relaţie analoagă pentru evenimentele X şi E, numită relaţia de implicaţie, pe care o scriem: X E, citind, "evenimentul X este implicat în evenimentul sigur E".

Această relaţie de implicaţie, poate prezenta următoarele situaţii:

1) X=E sau X=I, când toate elementele e din E satisfac criteriul care determină evenimentul X; în acest caz X=E, adică în orice probă are loc evenimentul X. Numim acest eveniment X eveniment cert (sigur);

2) X E, când unele elemente e din E satisfac criteriul care determină evenimentul X, altele nu; în aces caz, notăm XE, ceea înseamnă că în unele probe are loc evenimentul X, în altele nu. Numim în acest caz evenimentul X eveniment întâmplător sau eveniment aleator sau încă eveniment stocastic.

3) X=, când nici un element e din E nu satisface criteriul care determină evenimentulX; în acest caz, vom nota X=, ceea ce înseamnă că în nici o probă nu are loc evenimentul X. Numim acest eveniment X eveniment imposibil.

Fie evenimentul sigur E, şi evenimentul A. Numim eveniment contrar al evenimentului A, evenimentul notat A (sau AC, sau încă CA), care constă în nerealizarea evenimentului considerat A (A este evenimentul care se produce ori de câte ori nu se produce A).

În particular, E = , = E.

Dat fiind corespondenţa biunivocă dintre mulţime şi eveniment, în continuare nu vom face distincţie în notaţie, între mulţime şi eveniment.

Problema comparării evenimentelor X,Y între ele are sens atâta timp cât X E şi Y E.Distingem:

1) Evenimentul X implică evenimentul Y, (XY) sau evenimentul Y este implicat de evenimentul X, dacă evenimentul Y se realizează de fiecare dată când se realizează evenimentul X (mulţimile corespunzătoare sunt în aceeiaşi relaţie de incluziune). În particular: X E.

2) Două evenimente se numesc echivalente (evenimente echialeatoare), (X = Y),dacă evenimentul X implică evenimentul Y şi în acelaşi timp evenimentul Y implică evenimentul X (mulţimile corespunzătoare sunt egale).

Proprietăţi ale relaţiei de implicaţie între evenimente:

a) AB şi BC AC, tranzitivitatea relaţiei ;

Page 10: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

b) AB şi BA A=B, antisimetria relaţiei ;

c) aA, reflexivitatea relaţiei ;

d) Nu pentru orice A,B avem: AB sau B A.

Fiind date mai multe evenimente, realizarea lor ne conduce a le privi sub diverse aspecte: realizarea sau nerealizarea lor împreună, realizarea unora este condiţionată sau nu de realizarea celorlalte evenimente. În funcţie de aceste consideraţii, distingem următoarele categorii de evenimente:

1) Două sau mai multe evenimente se numesc incompatibile dacă producerea unuia dintre ele, exclude posibilitatea producerii celorlalte în aceeaşi probă; în caz contrar, când se pot realiza simultan sunt numite evenimente compatibile.

2) Două evenimente se numesc independente, dacă realizarea unuia nu influenţează realizarea celuilalt; în caz contrar, când realizarea unui eveniment influenţează realizarea altui eveniment, ele sunt numite evenimente dependente.

3) Dacă A şi B sunt două evenimente dependente şi dacă realizarea evenimentului B este condiţionată de realizarea evenimentului A, atunci vom nota B/A înţelegând că "evenimentul B are loc numai dacă are loc evenimentul A" şi vom citi "B condiţionat de A".

Observaţie.

Problema compatibilităţii sau a incompatibilităţii a două evenimente A şi B este pusă, presupunând îndeplinită relaţia de implicaţie a acestor evenimente faţă de un acelaşi eveniment sigur E.

Problema dependenţei evenimentelor A şi B necesită implicaţia lor faţă de un acelaşi eveniment eveniment sigur,pe când problema independenţei nu necesită implicaţia faţă de un acelaşi eveniment sigur.

&2. Operaţii cu evenimente

Pornind de la analogia dintre mulţime şi eveniment, operaţiile între mulţimi permit definirea unor operaţii analoage între evenimente.

1) Fie A şi B două evenimente. Notăm S = A B şi vom numi evenimentul S suma sau reuniunea lor, evenimentul care se produce dacă se produce evenimentul A, sau evenimentul B, sau se produc ambele evenimente A şi B (evenimentul AB se mai citeşte "A sau B" ).

În cazul unui sistem de n evenimente: Ai,i=1,2,...,n atunci vom nota reuniunea lor prin

A1 A2 ... An = Aii

n

1 ,

şi este evenimentul care se realizează atunci când se realizează cel puţin unul din ele.

Observaţie. Dacă A1,A2,...,An sunt toate rezultatele posibile ale unei experienţe, atunci:

Page 11: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

E = A1 A2 ... An .

2) Fiind date două evenimente A şi B, vom numi produsul sau intersecţia lor, evenimentul notat AB, care se produce dacă se produce atât evenimentul A cât şi evenimentul B (evenimentul AB se mai citeşte "A şi B" ).

În cazul unui sistem de n evenimente: Ai ,i=1,...,n intersecţia lor se scrie :

A1 A2 ... An = Aii

n

1 ,

şi acest eveniment se realizează atunci când se realizează simultan evenimentele A1,...,An.

Observaţii.

a) Două evenimente A şi B sunt disjuncte dacă AB=. Această proprietate este caracteristică evenimentelor

incompatibile.

b) Operaţia de reuniune a evenimentelor are sens pentru evenimente incompatibile şi compatibile; operaţia de intersecţie a evenimentelor are sens pentru evenimente independente şi dependente.

c) A A = E şi A A = .

3) Diferenţa evenimentelor A şi B, este evenimentul notat A-B, care se produce atunci şi numai atunci, când se produce evenimentul A, dar nu se produce evenimentul B.

Din definiţie,deducem:

a) A - B = A B ;

b) A A Aii

n

i jj

i

i

n

1 1

1

1 ( ) , (inductiv)

deci orice reuniune de evenimente se poate scrie ca o reuniune de evenimente incompatibile.

Operaţiile cu evenimente, analoage operaţiilor cu mulţimi, au următoarele proprietăţi care se verifică folosind definiţiile date:

1. comutativitatea: AB=BA,

AB=BA;

2. asociativitatea: (AB)C=A(BC),

(AB)C=A(BC);

3.Operaţiile şi între ele sunt distributive:

A(BC)=(AB)(AC);

Page 12: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

A(BC)=(AB)(AC);

4. AE=A , AE =E;

5. A=A , A= ;

6. dacă AB, atunci: AB=B, AB=A;

7. dacă AC, BC, atunci: ABC, ABC;

8. AA=A, AA=A;

9. absorbţie: (AB)B=B, A(AB)=A.

&3. Câmp de evenimente

Mulţimea tuturor evenimentelor legate de o experienţă inclusiv evenimentul sigur şi evenimentul imposibil, formează un câmp de evenimente.

Dacă de exemplu, E=A1, A2,...,An,reprezintă mulţimea evenimentelor elementare generate de o experienţă oarecare, atunci evenimentele care constituie câmpul de evenimente sunt:

............................................ în număr de Cn0

A1,A2, ... , An .......................... în număr de Cn1

AiAj , (ij) ........................... în număr de Cn2

AiAjAk , (ijk) ................ în număr de Cn3

................................................

A1A2 ... An=E ................ în număr de Cnn .

În total: C C C Cn n n nn n0 1 2 2 ... , evenimente care compun câmpul de evenimente.

Dacă E= A1,A2,...,An , evenimentul sigur cu Ai, i=l,...,n mulţimea tuturor evenimentelor posibile legate de o anumită experienţă, atunci câmpul de evenimente corespunzător va fi notat E,K, unde K = P(E), mulţimea tuturor părţilor mulţimii E.

Observaţie. Un câmp de evenimente este o mulţime parţial ordonată. Un câmp de evenimente este finit dacă mulţimea E este o mulţime finită. În caz contrar, câmpul de evenimente este infinit.

Prin definiţie, evenimentele A1,A2,...,An formează un sistem complet de evenimente dacă un experiment conduce la unul şi numai unul dintre aceste evenimente, adică:

1.Ai Aj= , (ij);

2.A1 A2 ... An = E.

Page 13: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Observaţie. Evenimentele A şi A ; E şi formează un sistem complet de evenimente.

Fie dat într-un câmp de evenimente E,K un sistem de evenimente:A1,...,Am şi un eveniment A E,K astfel încât:

1.Ai Aj = , i j ; i,j = 1,2,...,m;

2.A = A1 A2 ... Am .

În acest caz se spune că sistemul de evenimente dat reprezintă o desfacere sau partiţie a evenimentului A.

În particular, considerând evenimentul sigur EE,K, atunci un sistem complet de evenimente: A1,...,An determină o partiţie sau o desfacere a evenimentului sigur.

Observaţie. Din XE,K şi XE,deducem că orice eveniment X al câmpului de evenimente, poate fi scris ca o reuniune de evenimente elementare, adică:

X = A1 A2 ... Ak , k n.

&4. Axiomele câmpului de evenimente

Un câmp de evenimente poate fi caracterizat ca fiind o mulţime de evenimente ce satisface următoarele proprietăţi, numite axiomele câmpului de evenimente E,K:

A1. dacă X E, atunci evenimentele X, X E,K;

A2. dacă X,Y E,K, atunci XYE,K.

Consecinţe.

1) Evenimentul sigur EE,K.

În adevăr, dacă XE,K, atunci X E,K (ax.A1) şi X X =EE,K, (ax.A2).

2) Evenimentul imposibil E,K.

În adevăr, din EE,K obţinem E =E,K .

3) Dacă AiE,K, i=1,2,...,p atunci şi evenimentul

Bp = (A1 A2 ... Ap)E,K .

Justificarea se face folosind inducţia matematică.

Pentru două evenimente, proprietatea este adevărată (ax.A2). În ipoteza, că proprietatea este adevărată pentru p-1 evenimente, adică evenimenteul Bp-1E,K, atunci evenimentul Bp = Bp-1 ApE,K , (ax.A2, pentru Bp-1 şi Ap).

4) Oricare ar fi evenimentele X,Y din E,K , avem că evenimentul XYE,K.

Page 14: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

În adevăr, din X,YE,K X Y, E,K X Y E,K X Y X Y = XYE,K.

5) În mulţimea de evenimente ale câmpului de evenimente E,K, există o submulţime A1,...,An, numită mulţimea evenimentelor elementare, cu proprietăţile:

a) Ai , i=1,2,...,n;

b) Ai Aj = , i j ; i,j=1,2,...,n;

c) A1 A2 ... An = E;

d) în câmpul de evenimente E,K există cel puţin un eveniment oarecare A care nu este elementar, (A Ai , i= 1, 2,...,n) în aşa fel că pentru cel puţin un i avem Ai A. De aici, rezultă că oricare eveniment al câmpului este o reuniune de evenimente elementare. În particular, proprietatea este adevărată şi pentru evenimentul sigur E.

6) Pentru două evenimente A ,BE,K, are loc una din: A B, A = B, A B.

Prin definiţie, o mulţime nevidă B are o structură de algebră Boole, dacă s-au definit două operaţii algebrice binare (reuniunea şi intersecţia) şi o operaţie algebrică unară (complementarierea) peste tot definite pe B, satisfăcând axiomele:

B1: comutativitatea reuniunii şi intersecţiei;

B2: asociativitatea reuniunii şi intersecţiei;

B3. absorbţie;

B4. distributivitatea reuniunii faţă de intersecţie şi invers;

B5. complementarietate.

7)Câmpul de evenimente are o structură de algebră Boole.

&5. Mărimi şi măsura lor

O anumită proprietate care are diferite forme de prezentare, notate A,B,C,... este considerată mărime dacă în mulţimea formelor de existenţă a acestei proprietăţi sunt satisfăcute următoarele proprietăţi, numite axiome ale mărimii:

A1. Ax. identităţii. Intotdeuna are loc A = A;

A2. Ax. reflexivităţii. Relaţia A=B este tot una cu B=A;

A3. Ax.comparării. Între elementele mulţimii proprietăţii considerate există o relaţie de ordine pe care o notăm simbolic cu " < " sau " > ", iar între două elemente oarecare A şi B există una din relaţiile:

A < B , A = B , A > B ;

A4. Ax.tranzitivităţii. Pentru oricare din semnele " < , = , > " " " , avem: A B şi B C A C;

Page 15: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

A5. Proprietatea considerată este omogenă şi aditivă, adică există A,B,C astfel ca: A + B = B + A = C.

Măsura unei mărimi este o funcţie de proprietatea care constituie mărimea respectivă, care la rândul ei satisface anumitor proprietăţi pe care le numim, axiomele măsurii:

Fie X mărimea considerată şi m(X) funcţia măsură.

A1. m(X) 0 ,oricare ar fi X;

A2. m() = 0 ;

A3. măsura este aditivă, adică dacă:

X X kk

n

1 , Xi Xj = , i j ; i,j=1,2,...,n avem:

m(X) = m X kk

n

( ).

1

Observaţie. Funcţia măsură m(X) se alege de obicei prin raportarea măsurii la o măsură etalon.

&6. Măsura realizării evenimentelor. Probabilitate.

Definiţia clasică a probabilităţii. Frecvenţe

Fie dat un câmp de evenimente E,K .

Numim probabilitatea unui eveniment X o funcţie de eveniment care măsoară realizarea lui, pe care o notăm P(X).

Evenimentul etalon, va fi luat evenimentul sigur E, considerând P(E) = 1.

Probabilitatea P(X) a unui eveniment XE,K este o funcţie care, conform proprietăţilor generale ale măsurii, îndeplineşte următoarele condiţii, numite axiomele probabilităţii şi anume :

P1. dacă XE,K, atunci P(X) 0 ;

P2. P(E) = 1 ;

P3. dacă X,YE,K , X Y = , atunci

P(X Y) = P(X) + P(Y).

Consecinţe.

1. P(X) + P( X ) = 1, (X X =E , X X =);

2. P( X )=1-P(X). În particular, P()=1-P(E)=0;

3. dacă XE,K 0 P(X) 1;

Page 16: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

4. Dacă X1,X2,...,Xn este un sistem de evenimente, astfel încât: XkE,K , k=1,2,...,n; X i Xj = , i j ;i,j=1,...,n atunci:

P(Bn) = P( X P Xkk

n

kk

n

1 1 ) ( );

În adevăr,proprietatea fiind adevărată pentru n=2 (ax.P3), în ipoteza că este adevărată şi pentru n-1,avem:

P(Bn)=P(Bn-1Xn)=P(Bn-1)+P(Xn)

P(Bn)= P X P X P Xkk

n

n kk

n

( ) ( ) ( ).

1

1

1

Fie dat în câmpul E,K un sistem de evenimente elementare: E1,E2,...,En, EkE,K, k=1,2,...,n ; Ei Ej = , i j, i,j=1,2,...,n care reprezintă o desfacere a evenimentului sigur E.

Deoarece realizarea oricărui eveniment elementar Ek, k=1,2,...,n duce la realizarea evenimentului sigur E, evenimentele Ek , k=1,...,n mai sunt numite evenimente posibile sau cazuri posibile. Admitem că toate evenimentele posibile Ek sunt echiprobabile (egal posibile sau au aceeaşi şansă de a se realiza), adică avem: P(Ek)=p ,k=1,2,...,n .

Din relaţia

P( E P E P E np pni i

i

n

i

n

) ( ) ( ) ,

11

1 11 adică probabilitatea realizării unui

eveniment elementar, când toate evenimentele elementare sunt egal posibile, este 1/n (n reprezintă numărul evenimentelor posibile).

Fie un eveniment oarecare X E,K .

În acest caz, evenimentul X poate fi exprimat printr-o desfacere de x evenimente alementare Ek, x n , adică avem:

X = E FSS F

, 1,2,...,n, (sau X = Eik

x

k1 )

unde prin F s-a notat x indici din cei n indici ai evenimentelor elementare prin realizarea cărora se realizează evenimentul X.

Deoarece:

P(X) = P( E P ESS F

SS F

) ( ) P(X)=x.p

(deoarece sunt x termeni). Apoi,p=1/n, de unde P(X)=x/n.

Acest rezultat, cunoscut sub denumirea de definiţia clasică a probabilităţii, poate fi formulată astfel:

Page 17: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Probabilitatea realizării unui eveniment X este dată de raportul dintre numărul cazurilor favorabile realizării evenimentului X şi numărul cazurilor posibile,toate cazurile fiind considerate egal posibile.

Observaţie. Funcţia P(X)=x/n, implică îndeplinirea condiţiilor: n numărul cazurilor posibile şi x numărul cazurilor favorabile să fie finite.

Ţinând cont că la acest rezultat s-a ajuns respectând axiomele probabilităţii, trebuie atunci scos în evidenţă alt sens al numerelor n şi x, decât acela dat prin particularizarea făcută când am fost conduşi la definiţia clasică a probabilităţii.

Mai general, dacă: m(E), măsura mulţimii care corespunde evenimentului sigur E şi m(X), măsura mulţimii care corespunde evenimentului X E, atunci:

P(X) = m X

m E

( )

( ),

rezultat care constituie expresia generală a probabilităţii :

Probabilitatea realizării unui eveniment X E este dată de raportul dintre măsura mulţimii ce realizează evenimentul considerat X şi măsura mulţimii ce realizează evenimentul sigur E.

Observaţii.

1) Definiţia clasică devine un caz particular al acesteia, luând m(X) = x , m(E) = n .

2) Expresia generală a funcţiei de probabilitate dă posibilitatea să se înlăture greutăţile care survin în cazul colectivităţilor infinite, atât cele discrete cât şi cele continue, bineînţeles cu precauţia de a determina măsura mulţimilor cu care lucrăm. De exemplu, dacă mărimile sunt continue şi au imagini geometrice, ca segmente de dreaptă, figuri plane sau corpuri, atunci se va lua ca măsură lungimea, aria sau volumul mulţimii respective.

În cazul când ne îndreptăm atenţia spre studiul unui eveniment, numărând de câte ori s-a realizat acest eveniment, în probele efectuate, obişnuim a spune că exprimăm frecvenţa

absolută a evenimentului respectiv.

Astfel frecvenţa absolută ataşată unui eveniment X E este acelaşi lucru cu măsura mulţimii discrete şi finite corespunzătoare evenimentului X.

Considerând frecvenţele absolute ale evenimentelor X şi E, se numeşte frecvenţa relativă a evenimentului XE, notată cu f, raportul frecvenţelor absolute corespunzătoare, adică f=x/n .

Importanţa noţiunii de frecvenţă relativă se pune în evidenţă atunci când colectivitatea studiată nu este cunoscută în totalitatea ei şi suntem nevoiţi a face cercetări parţiale studiind subcolectivităţi pentru care determinăm frecvenţele relative ale evenimentului studiat.

&7. Probabilităţi condiţionate

Prin definiţie, probabilitatea condiţionată a evenimentului B de către evenimentul A, notată P(B/A)=PA(B), este probabilitatea evenimentului B în ipoteza că evenimentul A s-a produs şi

Page 18: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

PA(B) = P A B

P A

( )

( )

.

Justificarea o vom face folosind definiţia clasică a probabilităţii. Dacă vom nota: cu n, numărul cazurilor posibile ale experimentului în urma căruia se pot produce evenimentele A şi B; cu m, numărul cazurilor favorabile producerii evenimentului A, (mn); şi cu m', numărul cazurilor favorabile producerii evenimentului B/A, (m'm), atunci:

P A Bm

nP A

m

nP B

m

m

m n

m n

P A B

P AA( ) , ( ) , ( )/

/

( )

( )

Folosind şi PB(A),vom obţine:

P A BP A P B

P B P AA

B

( )( ). ( )

( ). ( )

,

adică probabilitatea producerii simultane a două evenimente dependente este egală cu produsul dintre probabilitatea unuia dintre evenimente şi probabilitatea condiţionată a celuilalt eveniment, calculată în ipoteza că primul eveniment a avut loc.

Observaţii.

1) Calculul probabilităţii condiţionate a unui eveniment, se face în ipoteza că: A,B.

2) Dacă avem n evenimente dependente A1 ,...,An atunci, folosind metoda inducţiei matematice, obţinem:

P(Bn)=P(A1). P A P A P A B AB B B n n ii

n

n1 2 12 31

( ). ( )... ( ),

.

Relaţia fiind adevărată pentru n=2,în ipoteza că ea este adevărată pentru n-1,avem:

P(Bn) = P(Bn-1An) = P(Bn-1) P AB nn

1( )

= P A P A P AB n B nn n( )... ( ). ( ).1 12 1

&8. Probabilitatea evenimentelor rezultate din operaţii cu evenimente

A. Probabilitatea evenimentului sumă

Reamintim că operaţia de adunare a evenimentelor are sens, pentru evenimente incompatibile şi evenimente compatibile. Distingem:

a) Termenii sumei sunt evenimente incompatibile

În acest caz problema este rezolvată de axioma (P3) a prbabilităţii pentru n=2, şi de consecinţa 4 a axiomelor probabilităţii pentru n termeni:

Page 19: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

P A P Akk

n

kk

n

( ) ( )

1 1 , Ai Aj = , i j; i,j=1,...,n .

Ne propunem să verificăm acest rezultat (pentru n=2), folosind definiţia clasică a probabilităţii sau expresia generală a probabilităţii.

a1) Fie

P(A) =

m

n , P(B) =

m

n .

Dacă ţinem cont pe de o parte că la fiecare caz favorabil al evenimentului A corespund n" cazuri favorabile ale evenimentului AB (după definiţia a reuniunii a două evenimente, este indiferent ce se întâmplă cu B) adică m'n" cazuri favorabile, iar pe de altă parte, la fiecare caz favorabil al evenimentului B corespunde n' cazuri favorabile ale evenimentului AB, adică m"n' cazuri favorabile, deducem că sunt m'n"+m"n' cazuri favorabile producerii evenimentului AB (nu putem avea cazuri favorabile comune căci A, B sunt evenimente incompatibile).

Un raţionament analog, ne conduce la n'n" cazuri posibile realizării evenimentului A B. Deci:

P(AB)=

m n m n

n n

m

n

m

nP A P B

" '

' "

"

"( ) ( ) , sau

a2) Folosind expresia generală a probabilităţii, fie A şi B două evenimente: AE, BE, AB=

m(AB) = m(A) + m(B) şi

m A B

m E

m A m B

m E

m A

m E

m B

m E

( )

( )

( ) ( )

( )

( )

( )

( )

( )

adică

P(AB) = P(A) + P(B) .

b) Termenii sumei sunt evenimente compatibile

b1) Fie A şi B două evenimente compatibile: AE, BE şi AB . Deoarece AB

m(AB) = m(A) + m(B) - m(AB) , de unde

m A B

m E

m A

m E

m B

m E

m A B

m E

( )

( )

( )

( )

( )

( )

( )

( )

, adică

P(AB) = P(A) + P(B) - P(AB), sau

b2) Din relaţiile:

A = (A - B) (AB) şi (A - B) (AB) = ,

deducem

Page 20: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

P(A) = P(A - B) + P(A + B) ,

de unde

P(A - B) = P(A) - P(AB).

În cazul particular, când B A P(B) P(A), (deoarece P(A - B) 0).

Cu aceasta, verificând că au loc:

AB=A(B-AB) şi A(B-AB) = ,

deducem

P(AB) = P(A) + P(B-AB) =P(A) + P(B) -P(AB) deoarece AB B .

Mai general:

b3) Dacă Ai, i=1,2,...,n sunt evenimente compatibile, atunci:

P A P A P A Aii

n

ii

n

i ji j

i j

n

( ) ( ) ( ),

1 1 1 +

+ P A A A P Aii j k

i j k

n

j kn

ii

n

( ) ... ( ) ( ), ,

1

1

1

1 ,

(formula lui Poincaré).

Folosind metoda inducţiei matematice, observăm că relaţia este adevărată pentru n=2, din b2). În ipoteza că relaţia este adevărată pentru n-1, obţinem:

P A P A Aii

n

i ni

n

( ) ( )

1 1

1

= P A P A P A Aii

n

n i ni

n

( ) ( ) ( )

1

1

1

1

. Apoi,

P A A P A A P A Ai ni

n

i ni

n

i ni

n

( ) ( ) ( )

1

1

1

1

1

1

- P A A A P A Aii j

i j

n

j nn

i ni

n

( ) ... ( ) ( ),

1

2

1

1

1 ,

care adăugată la relaţia precedentă după care folosim ipoteza inductivă, ne va conduce la relaţia cerută.

Page 21: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Observaţie. În particular, dacă evenimentele Ak, k=1,...,n sunt între ele incompatibile: Ai Aj = , Ai Aj Ak = etc., atunci obţinem relaţia cazului a) când termenii sumei sunt evenimente incompatibile.

B. Probabilitatea evenimentului produs

Pentru evenimentul produs vom distinge situaţiile după care evenimentele factori sunt evenimente independente, evenimente dependente sau evenimente oarecare (nu se ştie dacă sunt sau nu independente sau dependente).

a) Factorii produsului sunt evenimente independente

Fie A,B evenimente independente. Atunci

P(AB) = P(A).P(B),

adică probabilitatea producerii simultane a evenimentului A şi B, este egală cu produsul probabilităţilor acestor evenimente.

În adevăr, fie:

P(A) = m/n , P(B) = m'/n', (m n , m' n'), adică de exemplu n reprezintă numărul cazurilor incompatibile egal posibile ale experimentului în urma căruia poată să se producă evenimentul A, etc.

Dacă la fiecare din cele n cazuri egal posibile ale producerii evenimentului A, asociem cele n' cazuri posibile ale producerii evenimentului B, obţinem nn' cazuri posibile în care pot să apară evenimentele: sau

A şi B , sau A şi B, sau A şi B .

Numărul cazurilor favorabile este egal cu mm', deoarece la fiecare din cele m cazuri favorabile producerii evenimentului A, asociem m' cazuri favorabile producerii evenimentului B. Deci

P(AB) = mm

nnP A P B

( ). ( ) .

Prin definiţie, mai multe evenimente sunt independente în totalitatea lor, (mutual independente), atunci când fiecare dintre ele şi orice intersecţie a lor (toate sau numai o parte), sunt evenimente independente.

Dacă Ai , i=1,2,...,n sunt evenimente independente în totalitatea lor, atunci:

P Aii

n

( )1 =P(A1).P(A2) ... P(An) = P Ai

i

n

( )

1

.

Observaţii.

1) Dacă evenimentele Ai , i=1,...,n sunt independente în totalitatea lor, atunci din formula lui Poincaré, obţinem:

P A P A P A P Aii

n

ii

n

i ji j

i j

n

( ) ( ) ( ). ( ),

1 1 1 +

Page 22: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

+ P A P A P A P Aii j k

i j k

j kn

ii

n

( ). ( ). ( ) ... ( ) . ( ), ,

1

1

1

1 =

= 1 -1-P(A1).1-P(A2) ... 1-P(An) =

= 1 11

P Aii

n

( ) .

2) La ultima formă a formulei precedente se poate ajunge şi fără a face apel la formula lui Poincaré.

Fie evenimentele Ai, i=1,2,...,n independente.

Evenimentul Aii

n

1 are loc când are loc cel puţin unul dintre evenimente, iar evenimentul Ai

i

n

1 , are

loc dacă au loc toate evenimentele Ai , deci nu are loc nici un eveniment Ai. În acest caz, evenimentele

Aii

n

1 şi Ai

i

n

1 sunt evenimente contrarii, deci:

P A P A P Aii

n

ii

n

i

i

n

( ) ( ) ( )

1 1 1

1 1 =

= 1 - 11

P Aii

n

( ) ,

căci şi sistemul evenimentelor contrarii Ai , sunt evenimente independente.

3) Dacă mai multe evenimente sunt independente două câte două, aceasta nu implică independenţa în totalitatea lor.

b) Factorii produsului sunt evenimente dependente

Dacă A şi B sunt două evenimente dependente, aceasta înseamnă că au loc evenimentele condiţionate A/B sau B/A. În acest caz, vom folosi rezultatele găsite la probabilităţile condiţionate.

c) Inegalitatea lui Boole

Fie evenimentele Ai, i=1,2,...,n despre care nu cunoaştem dacă sunt independente sau dependente. În acest caz se poate demonstra o inegalitate, care dă o limită inferioară a probabilităţii evenimentului produs:

P A P A nii

n

ii

n

( ) ( ) ( ).

1 1

1

În adevăr, din relaţia:

P(AB) = P(A) + P(B) - P(AB) şi 0 P(AB) 0 deducem

Page 23: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

P(AB) P(A) + P(B) -1 ,

adică inegalitatea dată este adevărată pentru două evenimente.

În ipoteza că inegalitatea este adevărată pentru n-1 evenimente, obţinem:

P A P A A P A P Aii

n

i ni

n

ii

n

n( ) ( ) ( ) ( ) ,

1 1

1

1

1

1

Folosind ipoteza inductivă, avem:

P A P A n P A P A nii

n

ii

n

n ii

n

( ) ( ) ( ) ( ) ( ) ( )

1 1

1

1

2 1 1

Observaţie. Pentru evenimentul sumă ( Aii

n

)1 , se poate obţine o inegalitate care dă valoarea

maximă a evenimentului. Când nu ştim dacă evenimentele sunt incompatibile sau nu, în ipoteza că suma probabilităţilor evenimentelor este mai mică decât unitatea avem:

P A P Aii

n

ii

n

( ) ( ),

1 1

adică probabilitatea producerii a cel puţin unui din evenimentele unui sistem , nu depăşeşte suma probabilităţilor acestor evenimente.

&9. Formula probabilităţii totale. Formula probabilităţii cauzelor (Bayes)

a) Fie Ai ,i=1,2,...,n un sistem complet de evenimente.

Să presupunem că un eveniment oarecare XE,K poate să se producă condiţionat de unul dintre evenimentele Ai, i=1,2,...,n adică:

X=XE=(A1X)(A2X) ... (AnX) .

Deoarece (AiX)(AjX)=, ij; i,j=1,2,...,n, adică evenimentele (AiX ) şi (AjX), ij sunt incompatibile, vom putea scrie:

P(X)= P A X P A X P A P Xii

n

ii

n

i Ai

n

i( ) ( ) ( ). ( )

1 1 1 ,

rezultat cunoscut sub numele de formula probabilităţii totale.

b) În aceleaşi condiţii ale sistemului de evenimente de la punctul a), fixându-ne atenţia asupra unui eveniment Ai , vom putea să scriem:

P(Ai X)=P(Ai). P X P X P AA X ii( ) ( ). ( ) ,

Page 24: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

de unde, obţinem o formulă cunoscută sub numele de formula probabilităţilor cauzelor sau formula lui Bayes (Th.Bayes -m.1763-, matematician englez. Paralel cu J.Bernoulli s-a ocupat de probabilitatea aposteriori, rezolvând pentru prima dată această problemă fundamentală pentru aplicaţii), care dă probabilitatea evenimentului Ai în ipoteza că evenimentul X s-a produs:

P AP A P X

P XX i

i Ai( )( ). ( )

( ) ,

cu P(X) determinat la punctul a).

&10. Câmp de probabilitate

Fie câmpul de evenimente E,K. Realizarea oricărui eveniment XE, deci X din E,K, este măsurată de prbabilitatea P(X) (definită prin axiomele P1-P3, cunoscute de axiomele lui Kolmogorov). Deci, funcţia de eveniment P(X) are domeniul de definiţie câmpul de evenimente E,K, iar drept mulţime a valorilor o mulţime pe care o numim câmp de probabilitate, notat E,K;P.

Observăm că pentru câmpul de probabilitate, funcţia P(X)E,K;P îndeplineşte condiţiile:

1. 0 P(X) 1, pentru orice X din E,K;

2. P(X) P(Y), dacă X Y cu x,yE,K.

Fiecare în parte, câmpul de evenimente E,K şi câmpul de probabilitate E,K;P pot fi finite sau infinite. Dat fiind că E,K;P este subordonat lui E,K, nu pot avea loc decât următoarele situaţii:

E,K E,K;P

finit finit

infinit finit

infinit infinit

&11. Scheme probabilistice clasice

Colectivităţile studiate în practică au caracteristici care duc la evenimente ce se realizează după scheme teoretice asemănătoare, grupându-se în tipuri de scheme probabilistice. Întâlnim:

a) Schema urnei cu bila nerevenită

Fie o urnă în care sunt a bile albe şi b bile negre. Din urnă se extrag succesiv n bile, fără a pune bila extrasă înapoi în urnă (rezultatul experienţei este acelaşi dacă s-ar lua n deodată).

Se cere să se determine probabilitatea P a evenimentului ca din cele n bile extrase, u bile extrase să fie albe şi v bile să fie negre .

Pentru a calcula probabilitatea evenimentului cerut,vom aplica definţia clasică a probabilităţii.

Page 25: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Numărul cazurilor posibile, este egal cu numărul grupelor ce se pot forma cu cele a+b bile, adică Ca b

n grupe.

Câte cazuri favorabile sunt ?

Numărul de grupe care să conţină u bile albe, respectiv v bile negre sunt Cau , respectiv Cb

v .

Deoarece pentru fiecare grupă din Cau ,avem Cb

v grupe favorabile, rezultă că în total avem C Cau

bv. grupe

favorabile, de unde

Pn(a,b;u,v) = C C

Cau

bv

a bu v

.

.

Generalizând: fie o urnă în care sunt ak bile de culoarea k, k=1,2,...,s; să se determine probabilitatea evenimentului ca luând deodată n bile să avem din fiecare culoare uk ,k=1,...,s bile.

Printr-un raţionament analog celui făcut în cazul a două culori, se găseşte:

Pn(a1,...,as;u1,...,us) = C C C

Cau

au

au

a an

s

s

s

1

1

2

2

1

. ....

...

.

b) Schema urnei cu bila revenită (binomială sau Bernoulli)

Să presupunem că într-o urnă sunt bile de două culori: albe şi negre. Fie A, evenimentul de a extrage

o bilă albă cu probabilitatea P(A)=p; A , evenimentul de a extrage o bilă neagră cu probabilitatea P( A ) =q = 1 - p .

Făcându-se n extracţii succesive, introducându-se de fiecare dată în urnă bila extrasă, să se calculeze probabilitatea evenimentului X, ca din cele n bile extrase, k bile să fie albe şi n-k bile să fie negre.

Să notăm cu Ak, evenimentul compus care constă în faptul că în cele n probe evenimentul A se

produce de k ori şi evenimentul A de n-k ori, adică:

Ak= A A A A Ak ori n k ori

... ..., ,

cu P(Ak)=pk.qn-k .

Evenimentul X este o reuniune de evenimente incompatibile Ak, în număr de Cnk , deci:

P(X) = P A P A p q C p qjj

C

jj

Ck

j

Cn k

nk k n k

nk

nk

nk

( ) ( )

1 1 1 .

Pentru a pune în evidenţă parametrii acestei probabilităţi, vom scrie:

fn(k,p) = C p qn

k n kp qn

k k n k k n k !

!( )!.

c) Schema polinomială

Page 26: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Să considerăm acum cazul mai general, când în urnă sunt bile de s culori şi se fac n extracţii succesive, punând de fiecare dată bila scoasă înapoi în urnă.

Cunoscând că probabilitatea evenimentului Ai, i=1,2,...,s de a scoate o bilă de culoarea i, este P(Ai)=pi, se cere să se determine probabilitatea evenimentului ca din cele n bile extrase, evenimentul Ai, i=1,...,s să se producă de ki ori (să apară de ki ori bila de culoare i , i=1,2,...,s).

Un raţionament analog cu cel făcut în cazul schemei urnei în care se află bile de două culori, ne conduce la relaţia:

fn(k1,...,ks;p1,...,ps) = n

k k kp p p

s

k ksks

!

! !... !. ...

1 21 2

1 2

unde p1+p2+ ... +ps = 1 şi k1 + k2 + ... + ks = n.

d) Schema urnelor Poisson

O urnă Bernoulli este careacterizată prin aceea că probabilitatea p pentru realizarea evenimentului dorit A, în timpul celor n extracţii succesive este constantă (deoarece bila extrasă se pune din nou în urnă). Schema lui Bernoulli, poate fi prezentată sub forma a n urne identice din care se scoate câte o bilă, de unde se obţine că probabilitatea ca din cele n bile extrase, k să fie albe, este dată de fn(x,p).

Schema urnelor Poisson (S.D.Poisson,1781-1840, matematician francez, s-a ocupat cu analiza matematică, mecanică şi probabilităţi), generealizează schema urnei cu bila revenită considerând n urne Ui cu bile albe şi negre, iar evenimentul Ai de a scoate o bilă albă din urna Ui, are probabilitatea P(Ai)=pi iar P(

Ai ) =qi .

Scoţându-se din fiecare urnă câte o bilă, se cere să se determine probabilitatea evenimentului X, ca din cele n bile extrase, x bile să fie albe şi n-x bile să fie negre.

Dacă se notează cu:

h1 , h2 , ... , hx şi k1 , k2 , ... , kn-x

grupuri de x, respectiv n-x numere din şirul 1,2,...,n, atunci un eveniment care realizează evenimentul cert, va fi de forma:

Ah,k = A A A A Ah h h k kx n x1 2 1

... ...

şi are probabilitatea:

P(Ah,k) = p p p q qh h h k kx n x1 2 1. ... . ...

Evenimentele Ah,k sunt grupe distincte de x evenimente Ah şi n-x evenimente Ak permutate între ele, deci evenimentul cerut:

X = Ah k,

are probabilitatea:

Page 27: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Pn(X) = p p q qh h k kx n x1 1... . ...

şi se observă că termenii sumei precedente sunt produse parţiale ale dezvoltării:

(p1+q1)(p2+q2) ... (pn+qn),

care conţine x factori ph şi n-x factori qk .

Dacă se consideră polinomul în t:

(p1t+q1)(p2t+q2) ... (pnt+qn) ,

atunci probabilitatea Pn(X) este tocmai coeficientul lui tx din dezvoltarea acestui polinom.

VARIABILE ALEATOARE (STOCASTICE)

&1. Definiţia noţiunii de variabilă aleatoare

O noţiune fundamentală din teoria probabilităţilor este şi noţiunea de variabilă aleatoare. De exemplu, în experienţa "aruncarea unui zar", nu vom putea să ştim înainte de a arunca zarul, ce număr va apare.Vom spune în cazul acestui exemplu, că numărul care apare la aruncarea zarului este o variabilă aleatoare ale cărei valori posibile sunt 1,2,...,6 .

Pentru cunoaşterea unei variabile aleatoare trebuie să cunoaştem mai întâi valorile pe care le poate lua. Cunoaşterea acestor valori, nu pot fi considerate ca suficiente pentru definirea unei variabile aleatoare. Deoarece fiecare valoare este luată sub influenţa unor factori întâmplători şi o valoare poate să apară de mai multe ori decât altă valoare, atunci o variabilă aleatoare va fi mai bine precizată dacă vom cunoaşte (după cum vom mai vedea mai târziu), şi probabilitatea cu care este luată fiecare valoare .

Se numeşte variabilă aleatoare (stocastică) o mărime care în funcţie de rezultatul unui experiment poate lua o valoare dintr-o mulţime bine definită de valori şi anume, mulţimea valorilor posibile.

Mai pe scurt, am putea spune că o variabilă aleatoare este o funcţie reală de eveniment (şi anume, definită pe un sistem complet de evenimente). Deci, variabila aleatoare exprimă variaţia unei caracteristici întâmplătoare ce rezultă din cerecetarea unei colectivităţi.

Vom conveni să notăm variabilele aleatoare cu litere mari X,Y,Z,etc., iar valorile posibile cu litere mici.

În funcţie de mulţimea pe care este definită variabila aleatoare X, avem:

a) variabilă aleatoare X discretă , dacă mulţimea pe care este definită are un număr finit sau infinit de puncte, dar izolate: x1 ,x2 , ... ,xn , ....

b) variabilă aleatoare X continuă, dacă mulţimea punctelor pe care este definită umplu un interval finit a,b sau (-,).

Page 28: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

&2. Distribuţia unei variabile aleatoare discrete

Fie X o variabilă aleatoare discretă şi fie x valoarea pe care o ia variabila la un moment dat al procesului de variaţie; are loc evenimentul (X=x) cu probabilitatea P(X=x) =f(x).

Se numeşte distribuţie sau repartiţie a unei variabile aleatoare discretă X, enumerarea valorilor posibile x1 ,x2 ,...,xn,... ale variabilei aleatoare X cât şi probabilităţile p1 ,p2 ,...,pn,... corespunzătoare acestora, (pi=P(X=xi)=f(xi)).

Facem observaţia, că numai mulţimea valorilor posibile ale unei variabile, nu sunt suficiente pentru a caracteriza distribuţia acelei variabile aleatoare.

Schematic, distribuţia unei variabile aleatoare discrete X se scrie sub forma unui tablou unde pe primul rând vom trece valorile posibile ale variabilei aleatoare X, iar sub fiecare valoare posibilă, probabilitatea cu care X ia această valoare.

Simbolic:

X: x x x x

p p p p

x

pi n

i n

i

i

1 2

1 2

... ...

... ...

, i=1,2,...,n

iar funcţia f(x)=P(X=x), definită pe mulţimea x1,x2,...,xn se numeşte funcţie de probabilitate.

Deoarece într-un experiment variabila aleatoare ia una şi numai una din valorile sale posibile (evenimentele Ai=(X=xi), formează un sistem complet de evenimente), avem relaţia:

P(X=x1) + P(X=x2) + ... + P(X=xn) = 1

sau

p1 + p2 + ... + pn = 1 .

Rezumând, pentru ca o funcţie f(x) definită pe o mulţime x1,...,xn sau x1,...,xn,... să fie o funcţie de probabilitate, trebuie să fie îndeplinite condiţiile:

1. f(xi) = pi 0 , i=1,2,...,n (sau i=1,2,...,n,...) ;

2. f x p sau pii

n

ii

n

ii

( ) ( ,

1 1 1

1 1 adică seria din membrul întâi este convergentă şi are suma

egală cu 1).

Observaţii.

1) Mulţimea evenimentelor Ai pentru care pi=P(Ai)=P(X=xi), fiind un sistem complet de evenimente aleatoare ce determină evenimentul sigur E, defineşte un câmp de evenimente E,K şi un câmp de probabilitate E,K;P. Variabila aleatoare X realizează o corespondenţă între domeniul de definiţie al argumentului x şi câmpul de probabilitate E,K;P, prin funcţia de probabilitate f(xi) .

2) Dacă vom considera o variabilă aleatoare X definită pe o mulţime discretă de volum S, iar valorile xi ale argumentului puse în corespondenţă cu frecvenţele absolute si, atunci variabila se poate scrie şi astfel:

Page 29: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

X: x x x

s s sS

x

sS

n

n

i

i

1 2

1 2

...

...

,i=1,2,...,n

cu condiţia: s1 + s2 + ... + sn = S .

Folosind frecvenţele relative: fi = si/S ,i=1,...,n atunci obţinem:

X: x x x

f f f

x

fn

n

i

i

1 2

1 2

...

...

,i=1,...,n cu f i

i

n

1

1.

&3. Distribuţia unei variabile continue

Fie X o variabilă aleatoare continuă cu a,b domeniul de variaţie (deci xa,b ). Din expresia generală a probabilităţii, deoarece pentru evenimentul (X=x) avem m(X=x)=0 (măsura unui punct este zero), iar m(E) 0 (m(E) poate fi chiar b-a, lungimea intervalului a,b), obţinem P(X=x)=0.

Fie intervalul infinitezimal x,x+dx) cu dx 0 a cărui măsură este diferit de zero (poate fi chiar dx). Probabilitatea elementară (infinitezimală) dP ca variabila aleatoare X să ia o valoare x' x,x+dx) (evenimentul X=x'), reprezintă o funcţie care depinde de x şi este de forma:

dP = (x).dx

unde funcţia (x) se va numi densitatea de probabilitate (sau densitatea de repartiţie) în punctul x.

Cum dP este o probabilitate, avem dP 0 , deci (x)0, şi cum dx 0, deducem (x) 0;

Apoi, dacă se împarte intervalulu a,b în intervale infinitizimale de lungime dx,evenimentul sigur E constă în aceea că variabila aleatoare X ia în mod cert o valoare din unul din aceste intervale elementare,

deci .( )x dxa

b

1 , deci integrala calculată asupra probabilităţilor elementare pe tot domeniul de variaţie a

argumentului x reprezintă probabilitatea evenimentului sigur.

Prin analogie cu o variabilă aleatoare discretă, o variabilă continuă X ar putea fi notată:

X: x

x dx.( )

, xa,b unde avem:

dP = PX = x'(x,x+dx) = (x)dx, diferenţiala dP fiind probabilitatea elementară.

În mod obişnuit se scrie numai funcţia densitate de probabilitate, adică:

X: x

x.( )

,xa,b

unde funcţia (x) este caracterizată de:

Page 30: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

1) (x) 0 , x a,b ;

2) .( ) .x dxa

b

1

Funcţia densitate de probabilitate (x) caracterizează distribuţia variabilei aleatoare continuă X.

Observaţii.

1) Dacă x (-,), atunci avem:

.( ) ,x dx

1

deci integrala improprie este convergentă şi are valoarea egală cu 1.

2) Variabila aleatoare X poate fi continuă într-un interval, având însă anumite puncte de discontinuitate în care este discretă, obţinând o variabilă aleatoare mixtă.

3) Pentru unificarea rezultatelor la tipurile de variabile aleatoare întâlnite, se poate defini distribuţia variabilei aleatoare în mod unic, astfel:

X : x

f x( )

cu condiţiile:

a) f(x) 0, x a,b, (sau x (-,));

b) dP x dx sau dP x dxa

b

( ). , ( ( ). )

1 1 ,

integrala fiind o integrală Stieltjes. Aceasta înseamnă că pentru variabila aleatoare continuă, avem:

f(x).dx = dP(x) ,

cu sensul obişnuit al diferenţialei; iar pentru variabila aleatoare discretă avem: f x dP xii

k

x

x

( ) ( )

00

,cu xk

< x < xk+1 .

4) În statistica practică se înlocuieşte fie o variabilă aleatoare continuă cu una discretă, fie o distribuţie discretă cu o distribuţie limită continuă, după caz.

&4. Operaţii cu variabile aleatoare discrete

Fie variabilele aleatoare discrete:

Page 31: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

X: x

p

i n

p p Yy

q

j m

q qi

i i ii

n j

j j jj

m

,, , ...,

, ; : ,

, , ...,

, .1 2

0 1

1 2

0 11 1

a) Produsul dintre o constantă a şi o variabilă aleatoare X, este variabila aleatoare notată cu aX:

aX: ax

pi n

i

i

, , , ..., ;1 2

b) Ridicarea la o putere k a variabilei aleatoare X, este variabila aleatoare notată Xk:

Xk: x

pi ni

k

i

, , , ..., ;1 2

c) Suma variabilelor aleatoare X şi Y (produs de compoziţie), este tot o variabilă aleatoare Z = X + Y :

Z: x y

p

i n

j mi j

ij

,, , ..., ;

, , ...,

1 2

1 2

unde

pij=P(X=xi)(Y=yj)= P X x P Y y sau

P Y y P X xi X x j

j Y y i

i

j

( ). ( ),

( ). ( ).

( )

( )

Deoarece evenimentele (X=xi)(Y=yj), i=1,2,...,n ; j=1,2,...,m sunt evenimente ce formează un

sistem complet de evenimente, avem: pijj

m

i

n

11

1.

Observaţie. Dacă variabile aleatoare X şi Y sunt independente (adică pentru orice i şi j, 1 i n; 1 j m, evenimentele (X=xi) şi (Y=yj) sunt mutual independente), atunci

pij = P(X=xi).P(y=yj) = pi.qj .

În cazul a mai multor variabile aleatoare, de exemplu trei, suma lor se defineşte în mod cu totul analog:

X+Y+Z: x y z

p

i n

j m k si j k

ijk

,, ..., ;

, ..., ; , ...,

1

1 1

unde

Z: z

r

k s

r rk

k k kk

s

,, , ..., ;

,

1 2

0 11

şi

Page 32: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

pijk=P(X=xi)(Y=yj)(Z=zk), cu pijkk

s

j

m

i

n

111

1.

d) Produsul variabilelor aleatoare X şi Y,este tot o variabilă aleatoare Z = XY :

Z: x y

p

i n

j mi j

ij

,, , ..., ;

, , ...,

1 2

1 2

unde

pij = P(X=xi)(Y=yj) cu pijj

m

i

n

11

1.

&5. Funcţia de repartiţie a unei variabile aleatoare

După cum se poate constata, în cazul unei variabile aleatoare discrete, distribuţia variabilei aleatoare caracterizată de funcţia de probabilitate, poate să caracterizeze complet un fenomen probabilistic. În cazul unei variabile aleatoare continue, când mulţimea tuturor variabilelor posibile umplu un interval (a,b), întocmirea unei serii a distribuţiei în care să fie evidenţiată fiecare valoare cu probabilitatea respectivă, este practic imposibilă. Pentru o caracterizare cantitativă nu se foloseşte probabilitatea evenimentului (X=xi), ci probabilitatea

evenimentului (X<x).

Se numeşte funcţie de repartiţie a probabilităţilor variabilei aleatoare X, aplicaţia:

F = Fx:R 0,1 , dată de F(x) = P(X < x) .

Proprietăţi ale funcţiei de repartiţie:

1. 0 F(x) 1, evident deoarece F(x) = P(X<x);

2. 0 P(x1 X < x2) = F(x2) - F(x1) .

În adevăr, fie evenimentele: A1=(X<x1), A2=(X<x2) şi A3=(x1X<x2). Avem relaţia: A2=A1A3 cu A1,A3 evenimente incompatibile, deci:

P(A2) = P(A1) + P(A3), de unde

P(x1 X <x2) = P(X<x2) - P(X<x1) = F(x2) - F(x1);

3. Funcţia F(x) este crescătoare.

În adevăr, pentru x1 < x2 din proprietatea precedentă , F(x2)-F(x1) 0, deci F(x1) F(x2);

4. Dacă valorile posibile x ale variabilei aleatoare X aparţin intervalului (a,b), atunci:

F(x) = 0, pentru x a; F(x) = 1, pentru x > b.

Page 33: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

În adevăr, deoarece variabila aleatoare X nu ia valori mai mici sau egale cu a, atunci evenimentul (X < x a) = , deci, F(x) = P(X<x) = P() = 0. Analog pentru partea a doua a proprietăţii, (evenimentul X<b, este eveniementul sigur).

Observaţie. Din proprietatea 3) dacă variabila aleatoare X este continuă, obţinem:

P(X=x1)= lim (x x

P x2 1

1X < x2)= lim

x x2 1F(x2)-F(x1) = 0, adică regăsim : P(X=x1) = 0.

Este bine să precizăm că această relaţie nu spune că evenimentul (X=x1) este evenimentul imposibil, ci numai că probabilitatea sa de realizare este nulă.

Cum se determină funcţia F(x) ?

a) Funcţia de repartiţie a unei variabile aleatoare discrete. Fie dată variabila aleatoare discretă:

X: x

p

i n

p pi

i i ii

n

,

, , ..., ;

, ;1 2

0 11

Deoarece evenimentele (X=xi), i=1,...,n sunt incompatibile, atunci evenimentul cerut (X<x) este reuniunea evenimentelor (X=xi) până la cel mai mare xi, xi x, notat cu zi, deci:

(X < x) = ( ),:

X xkk

i z xi

1 sau trecând la probabilităţi, avem:

P(X<x) = F(x) = P X x pkk

i z x

kk

i z xi i

( ) ,: :

1 1

adică funcţia de repartiţie F(x) a probabilităţilor variabilei discrete X este determinată de suma probabilităţilor corespunzătoare tuturor valorilor posibile xi mai mici sau cel mult egală cu x.

Funcţia de repartiţie, fiind o sumă de probabilităţi, este numită şi funcţia cumulativă a probabilităţilor.

Explicit, avem:

F(x) =

0

1

1

1 1 2

1 2 2 3

1 1

1 1 1

x x

p x x x

p p x x x

p p x x x

p p x x x

x x

i i i

n n n

n

... ...

...

... ...

...

Page 34: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

iar graficul funcţiei F(x) este un grafic în scară.

Observaţie. P(xi-1 X < xi) = pi .

b) Funcţia de repartiţie a unei variabile aleatoare continue. Fie dată variabila aleatoare continuă:

X: x

x.( )

, x a,b .

Reprezentând grafic funcţia densitate de probabilitate y=(x) considerand o diviziune dn=(x0,x1,...,xn-

1,xn) cu a=x0, b=xn , vom putea să asociem variabilei continue date o variabilă aleatoare discretă de distribuţie (xi)xi, cu xi=xi-xi-1 .

Dacă vom considera variabila discretă corespunzătoare, evenimentul (xi-1 < X < xi), are probabilitatea:

P(xi-1 < X < xi) = F(xi) - F(xi-1) = (xi).xi

sau

F(xi) = (xi)xi ,

F(xi) fiind funcţia de repartiţie, corespunzătoare variabilei aleatoare discrete asociate.

Dacă n şi norma diviziunii dn 0, variabila aleatoare discretă asociată are ca limită variabila

continuă. În acelaşi timp, funcţia de repartiţie a variabilei discrete va avea ca limită o funcţie F(x) numită funcţia de repartiţie a variabilei continue evident, dată de relaţia diferenţială:

dF(x) = (x).dx .

de unde:

F(x) = .( ).t dta

x

formulă care permite calculul funcţiei de repartiţie F(x) pentru o variabilă aleatoare continuă.

Folosind interpretarea geometrică a integralei definite şi faptul că produsul (x)dx dă probabilitatea elementară ca variabila X să ia valoarea x, rezultă că

P(X<x) = F(x) = .( )t dta

x

,

şi

P(x1 X < x2) = .( )t dtx

x

1

2

.

Page 35: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Este bine să precizăm că semnificaţia probabilităţii elementare dP este:

dP = (x).dx = P(x X < x+dx) ,

iar semnificaţia funcţiei de probabilitate este:

f(x) = P(X=x).

Observaţii.

1.Din formula de calcul al funcţiei de repartiţie, aplicând formula derivării unei integrale în raport cu limita superioară, vom obţine o formulă foarte importantă, care dă modul de a determina funcţia densitate de probabilitate cunoscând funcţia de repartiţie a variabilei aleatoare. Avem:

F'(x) = (x) ,

care exprimă de fapt, că funcţia de repartiţie este şi o primitivă pentru funcţia densitate de probabilitate;

2) Funcţia de repartiţie F(x) depinde de o variabilă continuă, chiar dacă dacă variabila aleatoare considerată este discretă; funcţia F(x) este continuă în intervalul xi-1,xi) cu salturile de la o treaptă la cea consecutivă egale cu f(xi).

3) Pentru funcţia de repartiţie F(x) se obişnuieşte a se considera ca domeniu de definiţie, mulţimea numerelor reale, lărgind domeniul de definiţie al funcţiei de probabilitate f(x) când variabila aleatoare X este discretă sau a funcţiei de densitate de probabilitate (x) pe intervalul (-,).

În acest caz, avem:

F(x) = .( ) , ( ) , ( ) .t dt cuF Fx

0 1

4) Se poate defini şi funcţia de repartiţie complementară :

P(X > x) = 1- F(x)

care în cazul unei variabile aleatoare continue,

P(X > x) = .( ).t dtx

b

.

&6. Caracteristici ale variabilelor aleatoare

O variabilă aleatoare X este caracterizată de distribuţia ei. Ce se întâmplă în cazul când distribuţia variabilei nu este cunoscută ? În aceste cazuri, pentru a caracteriza o variabilă aleatoare vom folosi anumite mărimi pe care le vom numi valori tipice asociate variabilei aleatoare. În unele cazuri, cunoaşterea acestor valori tipice înseamnă o mai bună caracterizare a variabilei faţă de distribuţia variabilei aleatoare pe care o vom presupune cunoscută.

Page 36: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Pentru sistematizarea caracteristicilor, acestea sunt grupate după nota dominantă care o pun în evidenţă, arătând:

-tendinţa centrală de grupare;

-împrăştierea sau concentraţia;

-forma graficelor de distribuţie.

A. Tendinţa centrală de grupare.

Drept caracteristici numerice ale tendinţei de grupare mai des utilizate, sunt: valoarea medie, momente de diverse ordine, mediana, modul.

a) Valoarea medie. Fie variabila aleatoare discretă:

X: x

p

i n

p pi

i i ii

n

,

, , ..., ;

, .1 2

0 11

Prin definiţie, valoarea medie (sau speranţa matematică) a variabilei aleatoare discrete X, este numărul M(X) care este acea valoare a argumentului care este obţinut ca suma produselor dintre valorile posibile pe care le ia argumentul variabilei şi probabilităţile corespunzătoare, adică:

M(X) = p xi ii

n

1

.

Dacă valorile argumentului xi a variabilei aleatoare discrete sunt în număr infinit (numărabil), atunci:

M(X) = p xi ii

1

,

cu condiţia ca seria obţinută să fie absolut convergentă.

Observaţie. Valoarea medie a unei variabile aleatoare discrete X, prin definiţia dată, reprezintă de fapt o medie aritmetică ponderată a valorilor xi cu ponderele pi.

Dacă de exemplu, se consideră "masele" probabilităţilor de valoare pi, plasate în punctele xi pe o dreaptă, atunci valoarea medie M(X) determină poziţia centrului maselor (centrului de greutate) plasate în punctele discrete ale dreptei.

Pentru variabila aleatoare continuă:

X: x

xx

.( );

a,b , (sau xR)

definim:

Page 37: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

M(X) = x x dx respectiva

b

.( ). , M(X) = x x dx.( )

cu condiţia ca integrala improprie în care intervalul de integrat este nemărginit, să fie absolut convergentă.

Observaţii.

1) Dacă considerăm o placă omogenă mărginită de curba y=(x), dreptele x=a, x=b şi axa ox, atunci centrul de greutate al acestei plăci are abscisa dată de valoarea medie M(X).

2) Dacă considerăm o diviziune dn=(x0,x1,...,xn-1,xn) cu x0=a,xn=b a intervalului a,b şi sumele integrale

. ( ) .( )( ),d i i ii

n

i inx z z x x z

11 xi-1,xi ,

atunci

lim ( ) .( )( )

n

d

da

b

n

nx x x dx

0

, (dn) -norma diviziunii ,

adică valoarea medie a unei variabile aleatoare continue este un număr constant în jurul căruia se găsesc valorile medii ale unei variabile aleatoare discrete, asociată celei continue şi care se obţine prin împărţirea intervalului continuu în puncte al căror număr tinde spre numerabil, probabilităţile corespunzătoare fiind considerate frecvenţele respective (de fapt după cum vom vedea, acest proces complex de trecere la limită reflectă o aproximare a unei probabilităţi printr-un şir de frecvenţe relative).

Proprietăţi.

P1. Media unei variabile aleatoare X este cuprinsă între cea mai mică şi cea mai mare valoare a argumentului x (notat cu m respectiv cu M) a variabilei aleatoare X:

m M(X) M ,

altfel spus, valoarea medie este o valoare internă.

În adevăr, pentru o variabilă aleatoare discretă X, avem:

m = m(p1+...+pn) M(X)M(p1+...+pn)=M.

Analog, dacă X este o variabilă aleatoare continuă:

m=m. .( ) . .( ) . .( ) .x dx x x dx M x dx Ma

b

a

b

a

b

În cele ce urmează vom enunţa în general proprietăţi ale valorii medii pentru variabile aleatoare, justificările vor fi făcute în cazul variabilelor aleatoare discrete.

P2. M(C) = C, C -constantă oarecare.

Page 38: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Deoarece constanata C poate fi considerată ca o variabilă aleatoare discretă, atunci:

C: C

1

, de unde M(C) = C.1 = C.

P3. M(CX) = C.M(X) , C -constantă oarecare.

Din definiţia variabilei aleatoare CX, obţinem:

M(CX) = Cx p C x p C M Xi ii

n

ii

n

i

1 1

. ( ) .

P4. M(X+Y) = M(X) + M(Y),

adică valoarea medie a unei sume de două variabile aleatoare este egală cu suma valorilor medii ale celor două variabile aleatoare.

În adevăr, dacă

X: x

p

i n

p p Yy

q

j m

q qi

i i ii

n j

j j jj

m

,

, , ..., ;

, ; : ,

, , ..., ;

,

1 2

0 1

1 2

0 11 1

,

atunci : M(X+Y)= ( )x y pi j ijj

m

i

n

11

,pij= P(X=xi)(Y=yj) .

Avem succesiv:

M(X+Y)= x p y pi ijj

m

i

n

j iji

n

j

m

. . ;

11 11

deoarece evenimentele (X=xi) şi (Y=yj), i=1,...,n;j=1,...,m sunt incompatibile două câte două, putem să scriem,de exemplu:

p P X x Y yijj

m

i jj

m

1 1

( ) ( )

P X x Y y P X x Ei jj

m

i( ) ( ( )1

= P(X=xi) = pi , i=1,2,...,n ; p p i nijj

m

i1

1, , ...,

Analog, p qij ji

n

1

, j=1,2,...,m ,

Page 39: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

de unde

M(X+Y) = x p y q M X M Yi ii

n

j jj

m

1 1

( ) ( ).

În particular: M(X+C) = M(X) + C, C -constantă.

Observaţii.

1) Folosind rezultatele de la probabilităţile condiţionate, am putea obţine mai simplu, de exemplu:

p P X x P Y yij i X x jj

m

j

m

i

( ). ( )( )

11

= P(X=xi). P Y y P X x pX x jj

m

i ii( ) ( ) ( )

1

,

deoarece

P Y yX x jj

m

i( ) ( )

11

,

reprezentând tocmai suma probabilităţilor tuturor evenimentelor din sistemul complet de evenmente (Y=yj) , j=1,2,...,m .

2) Valorile medii fiind numere reale, proprietatea asupra sumei a două variabile aleatoare, se poate extinde prin recurenţă la orice număr finit de variabile aleatoare Xh, h=1,2,...,k adică:

M X M Xh hh

k

h

k

( ) ( ).

11

P5. Valoarea medie a unui produs de două variabile aleatoare independente, este egală cu produsul mediilor celor două variabile aleatoare:

M(X.Y) = M(X).M(Y) .

În adevăr, dacă X,Y sunt variabile aleatoare independente atunci, P(X=xi)(Y=yj) = pi.qj şi

M(X.Y) = p x y p q x yij i jj

m

i

n

i j i jj

m

i

n

11 11

= ( )( ) ( ). ( )x p y q M X M Yi ii

n

j jj

m

1 1

.

În particular: M(CX) = M(C).M(X) = C.M(X), cu C o constantă oarecare.

Observaţii.

Page 40: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

1) Analog observaţiei precedente, proprietatea asupra produsului a două variabile aleatoare independente, se poate extinde asupra produsului de variabile aleatoare cu un număr finit de factori, ataşate unor evenimente mutual independente, adică:

M X M Xhh

k

hh

k

( ) ( ).

1 1

2) Ipoteza X,Y variabile aleatoare independente, aşa după cum s-a văzut şi în cursul demonstraţiei, este esenţială. În acest sens, este falsă relaţia:

M(X2) = M(X)2 ,

deoarece variabila aleatoare X nu este independentă faţă de ea însăşi.

b) Momente şi medii de ordin superior. În statistica matematică, în afară de valoarea medie a unei variabile aleatoare, intervin şi alte valori tipice legate de o variabilă

aleatoare, care generealizează valoarea medie a variabilei aleatoare.

Fie o variabilă aleatoare discretă sau continuă:

X: x

f xi n

i

i( ), , ...,

1 sau X:

x

x.( )

, x a,b .

Prin definiţie, numim moment de ordinul r al variabilei aleatoare X, valoarea medie a variabilei aleatoare Xr , şi-l vom nota cu Mr ,deci:

Mr = M(Xr) ,

de unde :

Mr = x pir

ii

n

1

, X -variabilă aleatoare discretă ;

Mr = x x dxr

a

b

.( ) , X -variabilă aleatoare continuă.

În particular: M1 = M(X) şi M0 = 1.

Expresia:

r = Mrr ,

prin definiţie, se va numi media de ordinul r a variabilei aleatoare X.

Observaţie. Pentru variabilele aleatoare continue, considerând intervalul de variaţie a lui x ca fiind toată axa reală, şi luând ca funcţie densitate de probabilitate funcţia:

Page 41: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

f(x) = 0 , ,

.( ) ,,

daca x a x b

x daca a x b

căreia i se asociază funcţia de repartiţie F(x), x(-,), putem scrie:

Mr = x f x dx x dF xr r. ( ) ( )

.

Proprietăţi.

P1. Dacă Xk , k=1,2,...,n este un sistem de n variabile independente, astfel încât M(Xk) = 0 , k=1,...,n atunci :

M ( )X kk

n2

1 = M X k

k

n

( ).2

1

În adevăr, avem succesiv:

M ( )X kk

n

1

2 = M X X Xkk

n

k hh

n

k

n

( )2

1 11

2

= M X M X M Xkk

n

k hh

n

k

n

( ) ( ) ( )2

1 11

2 = M X k

k

n

( )2

1 .

P2. Dacă m şi M, cea mai mică respectiv cea mai mare valoare a argumentului x a variabilei aleatoare X, atunci :

m r M .

În adevăr, din relaţia :

0 m xi M mr xir Mr , i=1,2,...,n

de unde

m f x x f x M f xri i

ri

ri

i

n

i

n

i

n

( ) ( ) ( )

111

,

deci

mr Mr Mr şi m r M .

P3. Dacă p < q şi xi > 1 , i=1,...,n (respectiv 1 a < x b), atunci Mp < Mq, adică momentele de ordin superior sunt ordonate în acelaşi sens cu valorile ordinului.

În adevăr,dacă xi > 1 ,i=1,2,...,n atunci x xip

iq ,de unde:

Page 42: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

x f x x f xip

i iq

ii

n

i

n

( ) ( )

11

,adică Mp < Mq .

Analog dacă X variabilă aleatoare continuă.

Observaţie. Valoarea medie pentru o variabilă aleatoare X sau variabila Xr ce se poate asocia ei reprezintă un indice numeric susceptibil de a sintetiza mulţimile de date numerice care definesc variabila. Acest indice sintetic devine deosebit de util dacă are şi o semnificaţie concretă. Boiarschi şi Chissini (independent unul de altul, în 1929) au emis o teorie ce cuprinde acest indice concret.

O colectivitate poate avea diferite proprietăţi, unele din ele putând fi exprimate numeric.

Se numeşte proprietate determinată a colectivităţii, acea proprietate care poate fi exprimată printr-o variabilă X care rămâne neschimbată, oricare ar fi variaţiile posibile xi ale variabilei considerate. Proprietatea determinată se exprimă prin funcţia, F(x1,x2,...,xn) .

Se numeşte medie a variabilei X, după proprietatea determinată considerată, acea valoare X ,

care prin substituţia xi = X , i=1,2,...,n nu modifică proprietatea determinată a colectivităţii determinate.

Prin definiţie deci, ecuaţia care determină valoarea medie este:

F X X X F x x xn( , , ..., ) ( , , ..., ) 1 2 .

c) Mediana. Numim mediana unei variabile aleatoare X acea valoare Me a argumentului x, pentru care probabilitatea ca variabila aleatoare să ia valori inferioare lui Me ,este egală cu probabilitatea ca să ia valori superioare lui Me , adică:

P( X < Me) = P( X > Me) .

Din definiţia funcţiei de repartiţie a variabilei aleatoare X, rezultă că mediana este soluţia ecuaţiei:

F(x) = 1/2 .

Grafic, abscisa punctului de intersecţie dintre curba y=F(x) şi dreapta y=1/2, dă valoarea mediană.

Pentru o variabilă aleatoare discretă:

X: x

f xi n

i

i( ), , , ...,

1 2

în ipoteza că x1 < x2 < ... < xn , atunci valoarea mediană Me poate coincide cu o valoare a argumentului xi sau poate fi cuprinsă într-un interval (xk,xk+1). În primul caz, valoarea ce dă Me, este unică. În al doilea caz, avem un interval median; se obişnuieşte ca mijlocul acestui interval să fie considerat valoarea mediană Me . Observaţii.

1) Pentru o variabilă aleatoare continuă, când funcţia de repartiţie este o funcţie continuă crescătoare, soluţia ecuaţiei F(x)=1/2, este unică .

Page 43: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

2) Pentru legile de distribuţie simetrice, valoarea mediană este abscisa axei de simetrie a curbei de distribuţie, paralelă cu axa oy şi este egală cu M(X) .

3) Pot exista distribuţii continue, de exemplu ca funcţia densitate de probabilitate admite cel puţin două valori x1 şi x2 în care în care îşi atinge valoarea maximă, astfel ca valoarea mediană Me să nu fie unic determinată, adică să existe un interval median şi în acest caz, pentru valoarea mediană Me se va lua mijlocul intervalului median.

d) Modul (valoarea cea mai probabilă, valoarea dominantă). Se numeşte modul a unei variabile aleatoare X, acea valoare M0 a argumentului x pentru care funcţia de probabilitate sau funcţia densitate de probabilitate (după cum varaiabila aleatoare X este discretă sau continuă), are valoarea maximă.

Dacă variabila aleatoare X este discretă, pentru determinarea valorii maxime a funcţiei de probabilitate f(x), x=xi , i=1,2,...,n nu pot fi folosite metodele obişnuite ale analizei matematice, funcţia f(x) fiind discontinuă. Sunt aplicate metode particulare de calcul.

Dacă variabila aleatoare X este continuă cu funcţia densitate de probabilitate (x), xa,b continuă, se pot aplica metodele obişnuite ale analizei matematice pentru determinarea punctelor de extrem ale unei funcţii. Dacă maximul funcţiei (x) este la o extremitate a intervaluluia a,b, este necesar de exemplu, reprezentarea grafică a funcţiei (x) .

e) Cuantilele de ordinul n. Se numesc cuantile de ordinul n ale variabilei aleatoare X, rădăcinile reale ale ecuaţiei:

F xi

n( ) , i=1,2,...,n-1

n fiind un număr natural dat, iar F(x) funcţia de repartiţie corespunzătoare .

Pentru n=2, se obţine mediana; pentru n=4, cele trei rădăcini ale ecuaţiei F(x) = i/4, i=1,2,3 sunt numite cuartile; pentru n=10, cuantilele obţinute sunt numite decile; pentru n=100,cuantilele obţinute sunt numite centile. Se observă că mediana Me este o cuartilă şi o decilă.

B) Împrăştierea sau concentraţia (dispersia)

Caracteristicile studiate care exprimă tendinţa centrală de grupre a unei variabile aleatoare, nu dau nici o indicaţie asupra împrăştierii, respectiv a concentraţiei valorilor variabilei sau altfel spus, nu răspund la întrebarea: în ce măsură diversele date se abat între ele şi în ce măsură se abat de la poziţia centrului de grupare ?

De exemplu, fie variabilele aleatoare:

X:

1 1

0 5 0 5, , şi Y:

100 100

0 5 0 5, ,

pentru care M(X) = M(Y) = 0, dar valorile variabilei aleatoare Y diferă foarte mult de media lor comparativ cu valorile variabilei aleatoare X.

Page 44: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

De aici, necesitatea unor caracteristici numerice care să poată permite să se compare între ele împrăştierile, respectiv concentrările diferitelor variabile.

Printre acestea sunt folosite: extinderea sau intervalul de variaţie, intervalele intercuantile, abaterea, abaterea absolută medie, dispersia, abaterea medie pătratică, coeficientul de variaţie, etc.

Fie variabila aleatoare X discretă sau continuă:

X: x

f xi n

i

i( ), , , ..., ;

1 2 respectiv X:

x

xx a b

.( ), ,

.

a) Extinderea sau intervalul de variaţie. Caracteristica cea mai simplă a împrăştierii unei variabile aleatoare X se obţine calculând extinderea (amplitudinea, intervalul de variaţie), dată de diferenţa valorilor extreme ale argumentelor variabilei, presupuse ordonate în ordinea mărimii lor; notăm extinderea cu şi:

= b - a sau = xmax -xmin .

Obiecţiile care se pot aduce acestei caracteristici sunt:

1. nu depinde de toate valorile variabilei, ci numai de cele extreme (care pot fi şi accidentale) care nu dau nota tipică a ansamblului de valori ale argumentului;

2. valoarea nu arată modul de repartizare în jurul centrului de grupare;

3. pentru variabile cu intervalul de variaţie nemărginit nu poate fi folosită.

Pentru uşurinţa de calcul al lui ,amplitudinea este folosită în statistica controlului de fabricaţie în serie.

b) Întervalele intercuantile. Fie c1,c2,...,cn-1 valorile cuantilelor de ordinul n la care vom mai adăuga c0=a şi cn=b.

Pentru a micşora influenţa valorilor extreme (xmax ,xmin) care determină amplitudinea , se pot folosi intervalele intercuantile :

cn-1 -c1 ,cn-2 - c2 ,.... analoage = b-a = cn - c0 .

În cazul unei distribuţii uniforme, intercuantilele lasă de o parte şi de alta acelaşi volum de valori ale argumentului variabilei. În aplicaţii sunt folosite cu preferinţă intervalele interdecile şi intercuartile.

c) Abaterea. Abaterea absolută medie. Fie X o variabilă aleatoare şi h o valoare oarecare din intervalul de variaţie. Vom numi abatere a variabilei aleatoare X (abaterea de la constanta h) o nouă variabilă aleatoare Z, cu distribuţia:

Z:x h

f xi n

i

i

( ), , ..., ;1 respectiv Z:

x h

xx a b

, ( ), , .

De regulă, pentru constanta h se ia valoarea medie M(X)=m sau Me (valoarea mediană) a distribuţiei X. Dacă se consideră expresia:

Page 45: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

x m f x respectiv x m x dxii

n

i

1

. ( ), ( . .( ). ),

aceasta prin definiţie, o vom numi abatere absolută medie, care la fel ca abaterea, dau o caracterizare a împrăştierii variabilei aleatoare X în jurul valorii medii, de exemplu.

Proprietăţi.

P1. Media abaterii unei variabile aleatoare X calculată faţă de valoarea medie (h = m), este nulă.

În adevăr, cu h=m:

M(Z)= ( ) ( ) ( ) ( )x m f x x f x m f xi i i ii

n

i

n

ii

n

11 1

0 ,

şi în mod analog dacă X este variabilă aleatoare continuă.

Evident, dacă vom considera valorile absolute ale argumentului variabilei aleatoare Z, atunci M(Z) 0 .

P2. Suma abaterilor unei variabile aletoare discrete X faţă de mediana Me (h = Me) socotite în valoare absolută, este minimă.

În adevăr, fie Me(xi,xi+1) ,cu xi xi+1. Fie funcţia:

g(Me) = x Mk ek

n

1

= (Me-x1)+...+(Me-xi)+(xi+1-Me)+... ...+(xn-Me) = -x1-x2- ... -xi+xi+1+xi+2+ ... + xn -

Me(n-2i).

Funcţia g(Me) este o funcţie liniară de argument Me, a cărei grafic se compune dintr-un şir de segmente de drepte ale căror extremităţi sunt două câte două comune şi ale căror pante se măresc cu 2 când argumentul Me trece prin fiecare xi în mod crescător.

Distingem:a) n=2p+1, când g(Me) trece printr-un minim pentru:Me = xp+1 = xi+1; b) n=2p, când g(Me) are valoarea minimă pentru:xi < Me < xi+1, unde xi = xp , xi+1 = xp+1 iar Me fiind orice valoare din acest interval.

Cantitatea (1/n).g(Me) este abaterea absolută medie în raport cu Me .

d) Dispersia. Abaterea medie pătratică

Fie variabila abaterea de la media m = M(X):

Z:x m

f xi n

i

i

( ), , ...,1 sau Z:

x m

xx a b

.( ), , .

Prin definiţie, dispersia (sau varianţa sau fluctuaţia) variabilei aleatoare X notată cu D(X) (sau cu 2) este M(Z2) , (D(X) = M(Z2/Z=X-m), adică dispersia este momentul de ordinul doi al abaterii lui X. Deci:

Page 46: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

D(X) = ( ) ( )x m f xi ii

n

2

1

sau D(X)= ( ) .( )x m x dxa

b

2 .

Observaţii.

1) Dacă variabila aleatoare X este definită pentru o infinitate de valori x1, ... ,xn, ... în cazul discret sau xR, în cazul când variabila aleatoare X este continuă, atunci:

D(X)= ( ) ( )x m f xi ii

2

1

, D(X)= ( ) .( )x m x dx

2

cu condiţia evidentă ca seria sau integrala impropie din expresia lui D(X), să fie convergente.

2) Din definiţia dispersiei D(X) = M(Z2), aceasta are ca dimensiune pătratul dimensiunii variabilei aleatoare X, ceea ce nu este comod atunci când se face referire la semnificaţia ei de măsură a împrăştierii variabilei X.

Prin definiţie, abaterea medie pătratică a variabilei aleatoare X sau abaterea tip (standard) , notată cu X, este dată de valoarea medie de ordinul doi al abaterii faţă de medie, adică:

X = M Z D X( ) ( )2 .

Este evident că abaterea medie pătratică , are aceeaşi dimensiune ca variabila X, dând o exprimare mai intuitivă în a exprima împrăştierea variabilei.

Observaţie. Ca valori tipice ale împrăştierii, mai ales în statistică, pot fi luate momentele sau valorile

medii de ordin superior ale abaterii, adică: M(Zr) sau M Z rr ( ) .

Proprietăţi.

P1. D(X) = M2(X) - M2(X) , M(X) = m. În adevăr,

D(X)= ( ) ( ) ( ) ( )x m f x x f x m x f xi ii

n

i ii

n

i ii

n

2

1

2

1 1

2 +

+m2 f xii

n

( )

1

= M2(X) - M2(X) .

Analog dacă X variabilă aleatoare continuă.

Formula dată în această proprietate este destul de utilă în calculul dispersiei unei variabile aleatoare X.

În cele ce urmează, în justificarea proprietăţilor vom folosi numai cazul când variabila aleatoare X este discretă, deoarece transpunerea în cazul când variabila aleatoare X este continuă, se face în mod cu totul analog.

P2. D(C) = 0 unde C -constantă. În adevăr,dacă

Page 47: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

C:C

1

, atunci M2(C) = C2 şi M(C) = C .

P3. Dispersia produsului dintre o constantă C şi o variabilă aleatoare X este egală cu produsul dintre pătratul constantei C şi dispersia variabilei aleatoare X, adică:

D(CX) = C2.D(X). În adevăr,

D(CX)= ( ) ( ) ( ( ))Cx f x Cx f xi ii

n

i ii

n2

1 1

2

C2M2(X)-M2(x) .

P4. Dacă X şi Y sunt variabile aleatoare independente, atunci: D(X+Y) = D(X) + D(Y) .

În adevăr, fie variabilele aleatoare :

X:x

pi n Y

y

qj m

i

i

j

j

, , , ..., ; : , , , ...,1 2 1 2 .Avem:

M2(X+Y) = ( ) ( )( )x y p q x p qi j i jj

n

i

n

i ii

n

jj

m

2

11

2

1 1

+

+2 ( )( ) ( )( )x p y q p y qi i j jj

m

i

n

i j jj

m

i

n

11

2

11

=

=M2(X)+2M(X)M(Y)+M2(Y) .

Apoi:

D(X+Y) = M2(X+Y) - M2(X+Y) = D(X) + D(Y) .

Pentru un sistem de n variabile aleatoare Xk, k=1,...,n mutual independente, prin recurenţă deducem:

D X D Xkk

n

kk

n

( ) ( )

1 1

.În particular : D(X - Y) = D(X) + D(Y)

Observaţie. Dacă variabilele aleatoare X şi Y nu sunt independente, atunci:

D(X+Y) D(X) + D(Y) .

În adevăr, deoarece dispersia este valoarea medie a abaterii la pătrat, avem:

D(X+Y) = M((X+Y)-M(X+Y))2 =M((X-m1) +

+(Y-m2))2=M(X-m1)2+M(Y-m2)2+2M(X-m1).(Y-m2)= =D(X)+D(Y)+2M(X-m1).(Y-m2) D(X)+D(Y) D(X+Y) , unde s-a notat cu: m1 = M(X) şi m2 = M(Y) .

Relaţia se păstrează şi în cazul a n variabile aleatoare Xk, k=1,2,...,n care nu sunt mutual independente.

Page 48: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

P5. Orice translaţie aplicată argumentului unei variabile aleatoare X, nu schimbă dispersia variabilei aleatoare X.

În adevăr,

D(X+C) = D(X) + D(C) = D(X) .

P5'. Dacă asupra argumentului x al variabilei aleatoare X

aplicăm o transformare liniară, de forma: x=hy+k, atunci:

D(X) = h2.D(Y) .

În adevăr,

D(X) = D(hY) + D(k) = D(hY) = h2D(Y) .

Generalizând,avem:

D a X b a D Xk k kk

n

kk

n

k( ) . ( ).

1

2

1

P6. Dispersia mediei aritmetice a n variabile aleatoare independente Xi , i=1,2,...,n care urmează aceeaşi lege de distribuţie (deci au aceeaşi valoare medie şi aceeaşi distribuţie), este egală cu dispersia uneia din variabile împărţită la numărul variabilelor.

În adevăr,

D(Y)= Dn

Xn

D Xn

D XD X

nii

n

ii

n

ii

n

( ) ( ) ( )( )1 1 1

12

12

1 ,

unde am notat: D(Xi) = D(X) , i=1,2,...,n .

Ca o consecinţă ,pentru abaterea medie pătratică, avem:

Y = D YD X

n n( )

( )

1Y ,

adică, dacă într-o colectivitate oarecare facem o selecţie de volum n, împrăştierea variabilei aleatoare studiate se micşorează atunci când mărim volumul selecţiei.

e) Momente centrate. Prin definiţie, momentul centrat de ordinul r, notat cu mr, este media variabilei aleatoare (X-m)r , adică:

mr = M(X-m)r , cu m = M(X) ,

de unde:

mr = ( ) ( )x m f xir

i

n

i

1

sau mr = ( ) .( )x m x dxr

a

b

Page 49: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

în cazul în care variabila aleatoare X este discretă sau continuă.

În particular: D(X) = m2 .

Dacă în relaţiile precedente, vom aplica formula binomului lui Newton, vom obţine o exprimare a momentului

centrat mr în funcţie de momentele de diverse ordine, Mk. Deci:

mr = Mr - C M m C M m mr rk

rk

r kk r r1

1 1 1 ... ( ) ... ( ) .

În particular:

m1 = 0 ;

m2 = M2 - m2 ;

m3 = M3 - 3M2m + 2m3 ;

m4 = M4 - 4M3m + 6M2m2 - 3m4 ; etc.

f) Covarianţa. Dacă X şi Y sunt variabile aleatoare care nu mai sunt independente, atunci:

D(X+Y)=D(X)+D(Y)+2XY ; XY=M(X-m1)(Y-m2)

Prin definiţie, XY este covarianţa sau momentul mixt de ordinul al doilea al variabilelor X,Y .

Un calcul simplu, permite să scriem:

XY = M(XY-m2X-m1Y+m1m2) = M(XY)-m2M(X)--m1M(Y)+m1m2 = M(XY)-m1m2 ; m1=M(X) şi m2=M(Y) ,

adică : cov(X,Y) = XY = M(XY) - M(X).M(Y) .

g) Normarea variabilelor aleatoare.Coeficient de corelaţie.

Fie variabila aleatoare X.

Numim normarea variabilei aleatoare X, transformata definită de funcţia:

Z = 1

X

X m m M X( ), ( ) ,

adică trcerea de la argumentul x la argumentul z dat de raportul dintre abatere şi abaterea medie pătratică corespunzătoare (se mai spune că valoarea centrată (abaterea) X-m este măsurată de z în unităţi standard ) .

Proprietăţi.

P1. M(Z) = 0, căci:

Page 50: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

M(Z) = MX m M X m m m

X X X

( )( )

.

0

P2. Dispersia normată D(Z) şi abaterea medie pătratică Z sunt egale cu unitatea.

În adevăr, avem:

D(Z) = D X m D X D X

D XX X

( ) ( ) ( )

( ),. .

2 2 1

Z = D Z( ) . 1

Momentele varaiabilei aleatoare Z sunt numite momente normate ale variabilei iniţiale X.

Fie variabilele aleatoare X,Y care se normează, obţinând:

X1 = X m

YY m

X Y

; 1 cu M(X) = m', M(Y) = m" .

Covarianţa variabilelor normate X1, Y1 este numită coeficient de corelaţie al variabilelor X şi Y , notat XY:

XY = cov(X1,Y1) = M X m Y m M X m Y m

X Y X Y

.( )( )

.. .

sau: XY = cov( , )

. ..

.X Y

X Y

XY

X Y

.

Are loc următoarea proprietate:

P. -1 XY 1, egalitatea având loc când între X şi Y există o dependenţă liniară certă. În adevăr,

M(X1Y1)2 = M(X12) + M(Y12) 2M(X1Y1) 0 ;

Apoi: M(X12) = D(X1) = 1 ; M(Y12) = D(Y1) = 1,

deci: 2(1 XY) 0 ,

adică: 1 + XY 0 , 1 - XY 0 XY -1 , XY 1 .

Valorile extreme sunt luate atunci când:

XY = -1 , Y1 = -X1 ; XY = 1 , Y1 = X1 .

Când variabilele X şi Y sunt independente, atunci se constată: XY = 0 , XY = 0 dar nu şi reciproc.

Observaţie.

Folosind aceste relaţii, putem să scriem:

Page 51: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

M(XY) = M(X).M(Y) + XY.X.Y ,

D(X+Y) = D(X) + D(Y) + 2XY.X.Y ,

D(X-Y) = D(X) + D(Y) -2XY.X.Y .

h) Coeficient de împrăştiere.

După cum s-a văzut abaterea medie pătratică X, are proprietatea de a avea aceeaşi dimensiune ca şi variabila studiată X. Pentru variabile aleatoare ce exprimă mărimi diferite, nefiind aceleaşi, dispersia nu poate să ajute la compararea variabilelor aleatoare. În acest sens, se foloseşte coeficientul de împrăştiere (sau concentraţie) care se obţine ca raportul dintre o valoare a împrăştierii şi o mărime de aceeaşi natură, care în practică, este o valoare tipică a variabilei aleatoare.

De exemplu, un astfel de coeficient, este coeficientul de variaţie, notat cu V:

V = X

M X( ) sau 100.V =

X

M X( ).100 sub formă procentuală.

C. Caracteristici ale formei graficilor distribuţiilor

a) Simetrie şi asimetrie.

O distribuţie a unei variabile aleatoare X:x

f x( )

este numită simetrică faţă de valoarea medie

m,dacă are loc relaţia:

f(m-Z) = f(m+Z) ,

pentru orice abatere Z=X-m (graficul funcţiei f(x) este simetric faţă de dreapta x=m). În caz contrar, distribuţia este numită asimetrică.

Pentru o distribuţie simetrică, avem: M(X)=Me=M0, dacă distribuţia este unimodală.

Are loc următoarea proprietate:

P. Momentele centrate de ordin impar ale unei distribuţii simetrice sunt nule, adică: m2r+1 = 0.

În adevăr,

m2r+1 = ( ) ( ) ( ) ( )x m f x dx x m f x dxr rm

2 1 2 1

+ ( ) ( )x m f x dxr

m

2 1 .

Dacă în prima integrală, facem schimbarea de variabile:

x-m=-t, t > 0 (x<m) ,şi în a doua integrală vom pune x-m=t , t>0 (x>m) , atunci :

Page 52: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

m2r+1= ( ) ( ) ( )

1 02 1

0

2 1 2 1

0

r r rt f m t dt t f m t dt .

b) Boltire (turtire). Pentru a caracteriza simetria (sau asimetria) şi boltirea unei distribuţii, vom ataşa diferiţi coeficienţi numerici. Vom nota cu coeficientul care măsoară asimetria şi cu coeficientul care măsoară boltirea (turtirea) .

b1) Coeficientul de asimetrie al lui Pearson:

= M X M

X

( ) 0

.

Pentru o asimetrie mică avem relaţiile:

M(X) -M0 = 3M(X)-Me şi 3

X

M(X)-M0 .

Cu cât este mai mare, cu atât asimetria este mai pronunţată. Dacă < 0 avem asimetrie negativă şi asimetrie pozitivă când > 0.

b2) Gradul de asimetrie al distribuţiilor este caracterizat prin coeficientul:

= m

X

33

.

b3) Coeficientul de boltire poate fi:

= m

m4

22 sau =

m44 . .

Pentru comparaţie se ia curba cu distribuţia normală, pentru care = 3. Diferenţa E = - 3, este numită excesul şi reprezintă diferenţa de boltire a unei distribuţii studiate, faţă de distribuţia normală.

D. Funcţie generatoare de momente. Funcţia caracteristică

Fie variabila aleatoare X:

X: x

f xi n

i

i( ), , ..., ;

1 sau X:

x

xx R

.( ), .

a) Funcţie generatoare de momente. Vom numi funcţie generatoare a momentelor variabilei aleatoare X, valoarea medie a unei noi varaiabile aleatoare obţinute din X, înlocuind argumentul ei x prin ext , unde t este un parametru real:

g(t) = M(etX) , t real . Deci:

Page 53: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

g(t) = f x eix t

i

i( ).

1

respectiv g(t) = .( ).x e dxxt

,

cu condiţia evidentă, de convergenţă a seriei sau integralei corespunzătoare. Pentru valori suficient de mici ale parametrului t, convergenţa respectivă este asigurată. În acest caz, derivând în raport cu parametrul t, avem:

g'(t) = f x x e g t x xe dxii

itx xti( ). ; ( ) .( ).

1

g"(t) = f x x e g t x x e dxi ii

tx xti( ). ; ( ) .( ).2

1

2

................................ ....................................

g(r)(t) = f x x e g t x x e dxii

ir tx r r xti( ). ; ( ) .( ).( )

1

Dacă facem în aceste relaţii, t = 0 obţinem :

g(r)(0) = Mr , r = 1,2,....

ceea ce arată că funcţia generatoare poate fi folosită la calculul momentelor de diferite ordine.

La acest rezultat vom putea să ajungem, dacă în relaţiile de definiţie ale funcţiei g(t), vom dezvolta ext în serie şi după înmulţirea cu f(xi), respectiv cu (x), efectuăm o însumare, respectiv o integrare, se obţine o expresie a funcţiei g(t) sub forma unei serii de puteri, a căror coeficienţi depind de momentele variabilei considerate. Avem:

g(t) =M(eXt) =MX

kt

t

kM X

t

kM

kk

k

k

k

kk

kk! !

( )!

0 0 0

.

Identificând acest rezultat cu seria Mac-Laurin a funcţiei generatoare g(t), rezultă : g(r)(0) = Mr , r=1,2,.... .

b) Funcţie caracteristică. Se numeşte funcţie caracteristică a variabilei aleatoare X, valoarea

medie a unei noi variabile aleatoare, obţinute din X, înlocuind argumentul ei x prin eixt , unde i= 1 este unitatea imaginară, iar t este un parametru real : c(t) = M(eiXt). Deci:

c(t) = f x ekk

itxk( ).

1

, respectiv c(t) = .( ).x e dxixt

.

Funcţia caracteristică fiind o funcţie mărginită, are un câmp de aplicare mai mare decât al funcţiei generatoare care este nemărginită.

Proprietăţi.

Page 54: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

P1. g(0) = 1, c(0) = 1 .

P2. c(-t) = c (t), unde c (t) este conjugata funcţiei c(t).

P3. Dacă X1,X2,...,Xn sunt variabile aleatoare mutual independente cu funcţiile generatoare gk(t), k=1,2,...,n (funcţiile caracteristice ck(t) ,k=1,2,...,n), atunci funcţia generatoare g(t) (funcţia caracteristică c(t)) a variabilei aleatoare X=X1+...+Xn, este:

g(t) = g1(t).g2(t)...gn(t) ; c(t) = c1(t).c2(t)....cn(t) .

În adevăr, de exemplu:

g(t) = M(eXt) = M( e e etX tX tXn1 2. ... )

= M e M e M etX tX tXl n( ). ( )... ( )2 g1(t).g2(t) ... gn(t) .

Analog pentru funcţia caracteristică c(t).

În particular:

l. Dacă cX(t) este funcţia caracteristică a variabilei X, rezulta

cX+k(t) = cX(t).eikt ; ckX(t) = cX(kt) caX+b(t)=cX(at).eikt .

2. Dacă cele n variabile Xk au aceeaşi lege de distribuţie, atunci funcţia generatoare (funcţia caracteristică) a variabilei

X = X1 + X2 + ... + Xn , va fi: g(t) = gk(t)n , c(t) = ck(t)n .

P4. Au loc relaţiile: g(r)(0) = Mr ; c(r)(0) = ir.Mr .

P5. Dacă c(t) este funcţia caracteristică a variabilei aleatoare X, atunci funcţia densitate

corespunzătoare, este dată de relaţia: (x) = 1

2e c t dtitx

. ( ) .

Observaţie. Pentru calculul momentelor centrate se pot folosi funcţii generatoare (caracteristice) ale variabilelor normate.

Fie Z= X m

X

, m=M(X) variabila normată şi (t) funcţia generatoare corespunzătoare. Avem:

(t)=M( e M e e e gtX m

tXt mt mt

) ( . ) . ( ).

(r)(0)= M MX m

M X mm

rr

rr r

r

( ) ( ). .

1.

Page 55: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

DISTRIBUŢII (REPARTIŢII) CLASICE

&1. Distribuţia uniformă discretă

O varibilă aleatoare X are o distribuţie uniformă discretă dacă repartiţia sa are forma:

X: 1 21 1 1 1 1 1 2

... ...

... ... , , , ...,x n

n n n n

x

nx n

.

I. Funcţia de probabilitate f(x)=1/n, are proprietăţile:

a) f(x) 0 , x=1,2, ... ,n ;

b) f xx

n

( ) 1

1

.

II. M(X) = xn n

xn n

n

n

x

n

x l

n

.( )1 1 1

2

1

21

.

III. M2(x) = xn n

xn n

x

n

x

n2

1

2

1

1 1 1 2 1

6

. .

( )( ) .

IV. D(X) = ( )( )n n n n

1 2 1

6

1

6

1

12

2 2

.

V. g(t) = 1 1

1 1ne

ne

x

nxt xt

x

n

. . .

VI. Mediana Me împarte seria valorilor argumentului x în două părţi, astfel ca numărul valorilor inferioare lui Me şi numărul valorilor superioare lui Me să fie egale.

Dacă seria valorilor i ordonate are n=2k termeni, atunci orice valoare cuprinsă între termenii de rang k şi k+1 satisfac definiţia medianei, deci este vorba de intervalul median (k,k+1).

Luăm Me = 1

21

2 1

2( )k k

k

.

&2. Distribuţia geometrică

O variabilă aleatoare X are o distribuţie geometrică dacă repartiţia sa are forma:

X: x

q p

x n

p q p qx .,

, , , ..., , ...

; ,.

0 1 2

1 0 1

Page 56: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

I. Funcţia f(x) = qx.p, x = 0,1,2,...,n,... cu p+q=1, este o funcţie de probabilitate, căci:

a) f(x) 0, pentru orice x ;

b) f x q p p q pq

p

px

x

x

x

x

( ) . . .

0 0 0

1

11 .

II. Funcţia de repartiţie:

F(x) = f x p q pq

qqj

x x

jx

j

xx

j

( ) .

1

11

1

0

1 .

III. Media M(X):

M(X) = x f x x q p pq xqx

x

x

x

x

. ( ) . .

0 0

1

1

.

Pentru determinarea sumei seriei de puteri:

S = 1 + 2q + 3q2 + .... + xqx-1 + ...

vom integra seria în raport cu q. Se obţine seria geometrică:

S dqq

. 0

q + q2 + q3 + ... + qx + ... = qq

. .1

1

Derivând rezultatul în raport cu q, se obţine:

S = 1

1

1 12 2 2( )

( ) . .

q p

M X pqp

q

p

&3. Distribuţia binomială (Bernoulli)

Se consideră o colectivitate compusă din N elemente. Dintre acestea a posedă o anumită caracteristică A, iar restul nu o posedă; se extrag n elemente întorcând de fiecare dată elementele cercetate

în colectivitate. Dacă P(A)=p ,P( A) =q=1-p, atunci distribuţia variabilei aleatoare X, după numărul x ce

reprezintă numărul elementelor cu caracteristica A din cele n extrase, se scrie:

X: x

C p q

x n

p q p qnx x n x

,, , , ..., ;

; ,'

0 1 2

1 0 1

şi se spune că variabila aleatoare X are o distribuţie binomială (sau Bernoulli) a cărei funcţie de probabilitate s-a calculat după schema urnei cu bila revenită.

I. Funcţia , f(x) = C p qnx x n x , x=0,1,...,n cu p+q=1 este o funcţie de probabilitate, căci:

Page 57: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

a) f(x) 0 ,pentru orice x=0,1,...,n ;

b) f x C p q p q nx

n

nx x n x( ) ( ) .

0

1

Funcţia de probabilitate f(x), depinde de numerele n şi p, numite parametrii distribuţiei. Se spune că distribuţia formează o familie dublu parametrică.

Observaţii.

1) Deoarece valorile funcţiei de probabilitate f(x) pentru x=0,1,...,n sunt termenii dezvoltării binomului (p+q)n , distrbuţia poartă numele de binomială;

2) Pentru calculul valorilor funcţiei f(x) când n are valori mari, care este destul de anevoios, în aplicaţii se foloseşte adesea pentru calculul factorialelor formula asimptotică a lui Moivre-Stirling:

n! nn.e-n. 2n = g(n) .

Este bine să precizăm că, deşi eroarea absolută (n!-g(n)) este mare şi ea creşte o dată cu n, totuşi eroarea relativă (raportul dintre valoarea aproximativă şi cea reală) este foarte aproape de 1 când n creşte şi aceasta ne satisface deoarece probabilităţile sunt câturi de produse factoriale.

Teorema lui Moivre-Stirling se poate scrie:

n! = g(n).(1 + n ),

în care n > 0 descreşte şi tinde la zero, dacă n creşte. Se demonstrează că n < 1/(11n) şi se ia apoximativ egal cu 1/(12n).

3) În diverse probleme (cum ar fi cazul unei selecţii repetate, în care probabilitatea evenimentului care ne interesează este aceeaşi în fiecare probă) din statistică se foloseşte funcţia de probabilitate binomială,trebuind să se calculeze sume de forma:

g(p) = f x n C p p rx r

n

nx

x r

nx n x( , ) ( ) ,

1 0

calculul făcut direct sau chiar folosind formula Moivre-Stirling pentru diverşi termeni,este destul de greoi.

Ne propunem să dăm o altă metodă, poate mai simplă, pentru calculul sumei g(t), şi anume:

Derivând în raport cu p, găsim:

f'(x,n) = n f r n f r n r n

nf n n r n

( , ) ( , ) ,

( , ) ,.

1 1 1

1 1

Dacă înlocuim aceste derivate în g'(p), obţinem:

g'(p) = f x nx r

n

( , ) ;

Page 58: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

g'(p) = nf(r-1,n-1) = n

r n rp pr n r!

( )!( )!( )

111 .

Integrând între 0 şi p (cu g(0)=0), avem:

g(p) = n

r n rt t dtr

o

p

n r!

( )!( )!( ) .

1

11

Folosind funcţiile, Gama şi Beta:

(p) = x e dxp x

1

0

= ( p - 1 )! , p > 0 ;

B(p,q) = x x dxp q

p qq pp q

1

0

111 0( )

( ). ( )

( ), ,

obţinem:

g(p) = 1

111

0B r n r

t t dtr n r

p

( , )( ) .

Pentru integrala din membrul doi, numită funcţia Beta incompletă, sunt construite tabele în raport cu valorile p,r,n. Din aceste motive, formula de mai sus este folosită în practică pentru calculul probabilităţii, ca dintr-o selecţie repetată să obţinem cel mult un număr r de elemente care să posede o anumită caracteristică.

4) Când n este mare (deci când n creşte), probabilitatea f(x,n) tinde către o valoare limită, căreia îi spunem distribuţia asimptotică a distribuţiei binomiale.

După cum vom vedea, valoarea ceamai probabilă a variabilei X (adică valoarea pentru care funcţia de probabilitate f(x), x=0,1,2,...,n este maximă) este egală cu np. Fie Z=X-np, abaterea variabilei X de la valoarea cea mai probabilă np. Probabilitatea obţinerii în n probe a unei abateri egală cu Z este egală cu probabilitatea ca X să ia valoarea np+z, deci:

PZ = Cnnp z pnp+z qn-np-z =

n

np z nq zp qnp z nq z!

( )!( )!

deoarece: n-np-z=n(1-p)-z=nq-z.

Se arată poate demonstra că:

PZ = 1

2

2

2

.npqe

z

npq

,

dă o aproximaţie satisfăcătoare pentru aplicaţii atunci când z npq 2 .

Page 59: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Introducând notaţiile: npq ; PZ= (t) ; z = t

obţinem distribuţia:

(t) = 1

2

1

22

e

t ,

(pentru funcţia (t), sunt construite tabele).

Rezumând, pentru a calcula probabilitatea unei abateri Z dată, vom determina parametrul =

npq cu n,p,q cunoscuţi. Apoi se calculează t = z/ iar din tabele, corespunzător valorii t calculate se va

citi valoarea (t), de unde PZ = (1/).(t) .

II. Funcţia de repartiţie, F(x).

F(x) = P(X<x) =

C p qni i n i

i

x

0

,

unde x notează partea întreagă a lui x.

Pentru calcule practice, probabilitatea evenimentului (a<X<b), se calculează cu formula:

P(a<X<b) = C p q e dtnx

x a

bx n x

a

bt

1

2

1

22

,

în care limitele a' şi b' sunt date de următoarele valori:

a' = 2 1

2

( )a np

npq

, b' =

2 1

2

( )b np

npq

iar valorile integralei sunt tabelate.

III. Modul M0(X).

Să considerăm pe axa ox,valorile argumentului şi fie x-1, x, x+1 trei valori consecutive ale argumentului unde funcţia de probabilitate f(x) schimbă monotonia.În acest caz,

f x

f x

( )

( )

11,

f x

f x

( )

( )

11

de unde, după înlocuirea funcţiei f(x), vom obţine:

n x

x

p

q

11. ,

n x

x

p

q

1

1. sau np-q < x < np+p .

Pentru valorile lu x < np-q, funcţia de probabilitate f(x) este crescătoare, iar pentru valorile lui x > np+q, funcţia de probabilitate f(x) este descrescătoare, deci dacă x np, np+p, funcţia de probabilitate ia valori maxime.

Page 60: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Câte valori maxime poate lua variabila număr întreg x în np-q, np+p ?

Lungimea intervalului este: np+p-np+q=p+q=1.

Numărul întreg x se poate situa fie în interiorul intervalului, când extremităţile lui nu sunt numere întregi şi în acest caz există o singură valoare care face funcţia f(x) maximă, fie la extremităţile intervalului când acestea sunt numere întregi şi în acest caz există două valori care fac funcţia de probabilitate maximă.

Rezultă că avem: np-q M0 np+p .

În cazul că M0 este unic determinat, el este valoarea întreagă cea mai apropiată de np (M0 diferă cu mai puţin de o unitate de np, care reprezintă după cum vom vedea, valoarea medie a distribuţiei binomiale).

Dacă există două valori pentru care funcţia de probabilitate f(x) este maximă, vom avea un interval modal. În acest caz se ia deobicei:

M0 = np-q+1/2 sau M0 = np+p-1/2, valori care sunt egale.

IV. Media , momentul şi media de ordinul doi.

Avem:

M(X) = xC p qnx

x

nx n x

0

şi M2(X) = x C p qx

n

nx x n x2

0

.

Fie identitatea:

(pt+q)n = C p t qnx

x

nx x n x

0

,

pe care o derivăm de două ori în raport cu t şi de fiecare dată vom lua t=1. Obţinem:

n(pt+q)n-1.p = xC p t qnx

x

nx x n x

0

1 ,

de unde, pentru t=1 rezultă M(X) = np . Apoi,

n(n-1)(pt+q)n-2p2 = x C p t q xC p t qx

n

nx x x n x

nx x x n x2

0

2 2

,

de unde pentru t=1, obţinem: n(n-1)p2 = M2 - M(X), deci

M2(X) = np(np+q) şi 2 = np np q( ) .

V. Dispersia , abaterea standard.

Avem: D(X) = M2-M2(X) D(X)=npq şi X = npq .

Calculul dispersiei D(X) pentru variabila aleatoare X cu distribuţia binomială, poate fi calculată folosind proprietăţile dispersiei.

Page 61: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Distribuţia binomială, după cum am arătat, este caracteristica unei extracţii din urna cu bila revenită. Pentru extracţia din urnă de ordinul k, variabila aleatoare care

înregistrează producerea evenimentului A sau a evenimentului contrar A ,este:

Xk : 0 1

q p

,

valoarea 0 fiind dată pentru producerea evenimentului A , iar valoarea 1 fiind dată pentru producerea evenimentului A.

Într-o extracţie repetată de volum n se formează sistemul de variabile independente identice: X1 = X2 = ... = Xn , iar evenimentul total determină variabila: X=X1+X2+ ... +Xn .

Cum avem:

D(Xk) = M2(Xk)-M2(Xk) = p-p2 = p(1-p) = pq , atunci:

D X D X npqkk l

n

kk

n

( )

1

.

VI. Funcţia genratoare, g(t).

Avem:

g(t) = M(eXt) = e C p q C pe qxt

x

n

nx x n x

nx t x n x

x

n

0 0

( )

g(t) = (pet + q)n .

Ca aplicaţie, să recalculăm M(X) şi M2(X) .

Calculând derivatele funcţiei g(t), obţinem:

g'(t) = n(pet+q)n-1.pet ;

g"(T) = n(n-1)(pet+q)n-2.p2e2t + np(pet+q)n-1.et ,

de unde: M(X) = g'(0) = np ,

M2(X) = g"(0) = np(np+q) .

În mod analog, obţinem:

M3(X) = (np)3 + 3q(np)2 + npq(q-p) ,

M4(X) = (np)4 + 6q(np)3 + (np)pq(7q-4p) + npq(1-6pq).

VII. Funcţia caracteristică, c(t) .

Page 62: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

c(t)=M(eiXt)= e C p qixtnx

x

nx n x

0

C(t) = (peit + q)n .

Ca aplicaţie,să determinăm M(X) şi M2(X).

Derivând funcţia caracteristică în raport cu t, avem:

c'(t) = npi(peit + q)n-1eit ,

c"(t) = npi2eit(peit+q)n-1 + n(n-1)p2i2e2it(peit+q)n-2 ,

de unde M(X) = (1/i).C'(0) = np ;

M2X) = (1/i2),C"(0) = np+n(n-1)p2 = np(np+q) .

VIII. Coeficientul de asimetrie. Coeficientul de boltire.

= m npq q p

npq

q p

npq33 3 .

( )

( )

.

Dacă q= p, distribuţia este simetrică; dacă q p, ea este asimetrică; q < p , < 0 -asimetrie negativă (modul este deplasat spre dreapta); q > p, > 0 -asimetrie pozitivă (modul este deplasat spre stânga).

= m npq pq npq

npq

pq

npq44 2

1 6 33

1 6

.

( )

( ).

Excesul : E = 1 6 pq

npq 0, când n .

&4. Distribuţia binomială negativă .

Să presupunem că evenimentul A are aceeaşi probabilitate p de a se realiza în fiecare probă şi

evenimentul contrar A cu probabilitatea q=1-p. Dacă admitem că probele sunt independente între ele, ne propunem să calculăm probabilitatea f(x) ca în x+n probe să se realizeze de n ori evenimentul A.

Pentru aceasta este suficient ca în primele x+n-1 probe, evenimentul A să se realizeze de n-1 ori, iar ultima probă să dea evenimentul A. Probabilităţile acestor două modalităţi sunt respectiv: C p qx n

n n x

11 1

(după schema binomială) şi p. Realizarea lor simultană, după regula de înmulţire, are probabilitatea:

f(x) = p. C p q C p q xx nn n x

x nn n x

1

1 11

1 0 1 2, , , , ...

Distribuţia:

X:x

C p qx

x nn n x

11 0 1 2, , , , ... sau X:

x

C p qx n

xn n x n

11 ,

Page 63: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

se numeşte distribuţie binomială negativă sau distribuţie binomială cu exponent negativ (în forma a doua de exprimare a distribuţiei apare mai clar că poate lua valorile: n,n+1,n+2,...

I. Să arătăm că f(x) = C p q xx nn n x 11 0 1, , ,...este o funcţie densitate de probabilitate.

În adevăr,

a) f(x) 0 , pentru orice x ;

b) C p q p C qx nn n x

x

nx nn

x

x

11

01

1

0

1. ,

dacă arătăm că: C qq pn x

n x

xn n

11

0

1

1

1

( ).

Pentru aceasta, să considerăm funcţia:

h(q) = 1

11

( )( )

qqn

n căreia să-i aplicăm formula (seria) Mac-Laurin.

Avem:

h'(q) = n(1-q)-(n+1) ,

h"(q) = n(n+1)(1-q)-(n+2) ,

...................................

h(k)(q) = n(n+1)...(n+k-1)(1-q)-(n+k) ,

...................................................

de unde

h(0) = 1 = Cnn11 ,

h'(0) = n = C Cn nn1 1 ,

h"(0) = n(n+1) = 2 C Cn nn

1

22 1

12! ( ) ,

.......................................................

h(k)(0) = n(n+1)...(n+k-1) = n! Ck nn

11 ,

deci

1

1 11 1

11

11

0( )... ...

qC C q C q C qn n

nnn

k nn k

x nn x

x

II. Media M(X)

Page 64: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Identitatea demonstrată la punctul precedent, se poate scrie sub forma:

C qq

qxn

x n

xn

1

1

1( )

şi prin derivare, obţinem:

(1) xC qnq

qxn

x n

xn

n

1

1 11

11( ),

de unde

M(X) = xC p q p q xC qn

pxn

x n

n x n n nxn x

x n

11 1

11 1 .

III. Momentul şi media de ordinul doi: M2 , 2 .

Folosind identitatea (1), prin derivare, obţinem:

x x C qnq n q p

qxn

x n

xn

n( )( )

( )

111

1 22

2

de unde:

( )( )

( )x x C p q

nq n q p

qp qx

n n x nn

nx n

n n211

2

22

1

n n q p

p

( ) 2

Cu aceasta:

M2= n n q p

pM X

n np

p

n nq

p

( )( ) , ..

2

2

2 2

2

2

IV. Dispersia D(X). Abaterea standard X .

D(X) =M2(X) - M2(X) = n nq

p

n

p

nq

p

2

2

2

2

,

X = D Xnq

p( ) .

&5. Distribuţia hipergeometrică

O variabilă aleatoare X are o distribuţie hipergeometrică dacă are următoarea lege:

Page 65: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

X:x

C C

Cx na

xt an x

tn

. , , , , ...,

0 1 2 .

Avem:

I.Funcţia f(x)=C C

Cx na

xt an x

tn

, , , , ...,0 1 2 este o funcţie de probabilitate, căci

a) f(x) 0, pentru orice x;

b) f xC

C CC

Cx

n

tn a

x

x

n

t an x

tn t

n( ) .

0 0

1 11

Pentru calculul sumei din membrul drept, se porneşte de la identitatea (1+y)a+b = (1+y)a.(1+y)b, căreia i se aplică binomul lui Newton, iar după identificarea polinoamelor în y din cei doi membrii ai egalităţii care se obţine, obţinem:

C C Ca bn

ax

x

n

bn x

0

sau C C Cpz

z

m

t pm z

tm

0

(se consideră a+b = t , b = t - a).

II. Media M(X).

M(X) = 1

0CxC C

tn a

x

x

n

t an x

.

Deoarece:

x. C xa a a x

xa

a a a x

xaCa

xax

( )...( )

!

( )...( )

( )!,

1 1 1 1

1 11

avem:

( ) ,xC C aC C a C C aCax

t an x

ax

t an x

x

n

x

n

ax

x

n

t an x

tn

1

1

1011

111

deci:

M(X) = a

CC

tn t

n11 .

Deoarece Ct

nCt

ntn 11 M(X) =

an

t.

Notând p=a/t , probabilitatea iniţială de realizare a evenimentului dorit, rezultă:

Page 66: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

M(X) = pn .

III. Modul M0(X).

Considerând funcţia de probabilitate:

f(x) = 1

CC C

tn a

xby , y = n-x ,

se obţine:

f x

f x

a x

x

y

b y

a x n x

x t a n x

( )

( )

( )( )

( )

1

1 1 1 11 ,

f x

f x

a x

x

y

b y

a x n x

x t a n x

( )

( )

( )( )

( )( )

1

1 1 1 11

Rezolvând cele două inecuaţii,obţinem:

an t a n

tx

an a n

t

1

2

1

2.

Se constată că lungimea intervalului este 1; deci M0(X) este unic determinat când extremităţile nu sunt numere întregi; există un interval modal când extremităţile sunt numere întregi.

Considerând probabilităţile iniţiale: p=a/t ; q=(t-a)/t , intervalul precedent devine:

ptn qt n

t

ptn pt n

t

1

2

1

2, .

Când t este un număr mare faţă de n, avem intervalul asimptotic: pn-q , pn+p , adică valoarea modală aproximativă M0(X) = np, formal este aceeaşi ca la distribuţia binomială.

În acest caz, putem scrie:

M(X) = M0(X) = Me(X) np =an

t.

IV. M2(X) = M(X2) , momentul de ordinul doi.

MC

x C Ctn

x

n

ax

t an x

22

0

1

.

Folosind identitatea: x2 = x(x - 1) + x , obţinem:

x C C x x C C xC Cx

n

ax

t an x

ax

x

n

t an x

ax

t an x

x

n2

0 0 0

1

( ) .

Page 67: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Suma a doua a fost calculată al M(X).

Pentru calculul primei sume, avem:

x x C x xa a a x

x x xax( ) ( )

( )...( )

( )!( )

1 11 1

2 1

a aa a x

xa a Ca

x( )( )...( )

( )!( )1

2 1

21 2

2 .

Din identitatea: C C Cax

x

n

t an x

tn

2

2

222 M2(X)=

a a C aC

C

a a n n

t t

an

ttn

tn

tn

( ) ( ) ( )

( )

1 1 1

122

11

.

V. Dispersia D(X).

Aplicând : D(X) = M2(X) - M2(X) , obţinem:

D(X)= na t a t n

t tnpq

t n

tnpq

t n

tX

( )( )

( )

2 1 1 1

.

În cazul când tt este suficient de mare în raport cu n, putem face aproximarea:t n

t

t n

t

n

t

1

1 D(X) npqn

t( )1 , adică dispersia distribuţiei hipergeometrice diferă de

distribuţia binomială cu un factor subunitar ce tinde la unu când t .

Observaţii.

1) Variabila aleatoare X (care reprezintă numărul de bile extrase) asociată urnei cu bila nerevenită are o repartiţie hipergeometrică, unde n este numărul de extrageri nerevenite,

a este numărul de bile albe şi t este numărul total de bile albe şi negre din urnă.

2) Valoarea medie se poate calcula uşor şi astfel. Pentru aceasta să considerăm o urnă cu a bile albe şi b bile negre (a+b=t) din care se extrag una câte una n bile (fără întoarcere) şi luăm variabilele aleatoare Xk, cu :

P(dacă la extracţia k se obţine o bilă albă) = 1 ,

P(dacă la extracţia k se obţine o bilă neagră) = 0 .

Fiecare din aceste variabile aleatoare are distribuţia:

Xk = 1 0a

a b

b

a b

iar numărul total de bile albe obţinut este:

X = X kk

n

1

şi M(X) = M Xna

a b

na

tkk

n

( ) .

1

Page 68: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Deoarece variabilele aleatoare Xk nu sunt independente două câte două, nu putem să scriem: D(X)

= D X kk

n

( )

1

.

&6. Distribuţia Poisson

O variabilă aleatoare X are distribuţia Poisson de parametru a (a > 0), dacă repartiţia sa are forma:

X: x

ea

xx na

x

.!

, , , , ..., , ...0 1 2

I. Să verificăm că funcţia f(x) = ea

xa

x .

! ,x=0,1,...,n,... cu a > 0, este o funcţie de probabilitate.

În adevăr,

a) f(x) 0 ,oricare ar fi x = 0,1,2,...,n,... ;

b) ea

xe

a

xe ea

x

xa

x

x

a a

0 0

1! !

. .

Pentru calculul probabităţii f(x) s-au întocmit tabele pentru : 0,1 a 20.

II. Distribuţia Poisson este valoarea asimptotică a distribuţiei binomiale, adică avem:

ea

xC p qa

x

nnx x n x

.!

lim , unde a=np.

În adevăr,

fn(x) =n n n x

xp qx n x( )...( )

!

1 1

n n n x

n

n p

xq

n

n

n

n

n x

n

np

xqx

x xn x

xn x( )...( )

!...

( )

!

1 1 1 1.

Dacă notăm : np=a pa

nq

a

n , 1 şi atunci:

fn(x) = a

n

n

n

n x

n

a

x

a

n

x n x

1 11...

!

=1 11

11

1 1. ... .!

.

n

x

n

a

x

a

n

a

n

x n x

Page 69: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Presupunând n mare şi p mic, astfel încât np=a să fie constant, obţinem: lim ( ) .!n

na

x

f x ea

x

.

Observaţii.

1) Această aproximare a legii de distribuţie binomială prin legea de distribuţie Poisson presupune îndeplinite condiţiile:

a. probabilitatea p este mică; din acest motiv această lege mai este numită şi legea micilor probabilităţi.

b. p mic în raport cu n, adică realizarea evenimentului de probabilitate p în selecţia n este rară, de aceea această lege este numită şi legea evenimentelor rare.

2) Dacă comparăm funcţiile de probabilitate corespunzătoare distribuţiei binomiale, respectiv distribuţiei Poisson, constatăm că funcţia de probabilitate a distribuţiei binomiale depinde de doi parametri, n şi p, pe când funcţia de probabilitate a distribuţiei Poisson depinde numai de un parametru a.

3) Dacă n 30 şi np < 5 atunci distribuţia Poisson cu parametrul a=np este o bună aproximare a distribuţiei binomiale cu parametri n şi p.

4) Distribuţia Poisson se aplică atunci când un număr mare de obiecte este repartizat în mod uniform pe o suprafaţă mare. Condiţia uniformităţii este esenţială pentru valabilitatea rezultatelor. De exemplu, dacă în agricultură se studiază distribuţia larvelor unor insecte pe o suprafaţă cultivabilă nu se poate folosi distribuţia Poisson, deoarece repartiţia larvelor nu este uniformă.

5) Pentru calculul probabilităţii ca un eveniment să apară într-un număr n de experienţe exact de x ori, Kolmogorov a propus, în locul formulei asimptotice a lui Poisson, formula:

f(x) = e-np( )

!

( )

( )!

( )

( )

np

x

npe

np

x

np

x x

np

x

xnp

x

2 2 2

4 2 1

2

11

Această formulă este valabilă şi pentru cazul când probabilitatea evenimentului variază de la o probă la alta. În acest caz se foloseşte formula:

f(x) = e

p

x

pe

p

x

p ii

n x

ii

n

p ii

n x

ii

n

ii

n

1 1

1

2

1 1

2

4 2! ( )!.

.p

x x

p

x

ii

n

ii

n

1

2

1

1

2

11

( ) .

III. Media M(X).Avem:

Page 70: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

M X xea

xae

a

xae e aa

x

xa

x

x

a a( )! ( )!

.

0

1

1 1

Se observă că valoarea medie M(X)=a, în cazul când distribuţia Poisson este valoarea asimptotică a unei distribuţii binomiale este a=np, deci aceeaşi cu valoarea medie a distribuţiei binomiale.

IV.Funcţia generatoare g(t).Funcţia caracteristică c(t).

Avem:

g(t) = ea

xe e

ae

xe ea

x

x

xt at x

x

a aet

!

( )

!0 0

g(t) = ea et( )1 ;

Analog:

c(t) = ea

xe eitx

x

x

a a eit

!( )

0

1 .

V. Momente de ordin superior. Dispersia D(X).

Avem:

M(X) = xf x xa

xe ae

a

xa

x

x

x

a ax

x

( )! ( )!

;

0 0

1

1 1

M2(X) = x f x xa

xe e x

a

xx

x

x

a ax

x

2

0

2

0 1 1( )

! ( )!

= e xa

xae x

a

xa

x

x

ax

x

( )

( )!( )

( )!1 1

11

11

1

1

+

+ e-aaa

xa e

a

xa

x

x

ax

x

1

1

22

21 2( )! ( )!a2e-aea+a

M2(X) = a2 + a 2 = a a2 ;

D(X) = a2 + a - a2 D(X) = a X = a .

Dacă folosim expresia funcţiei generatoare, avem:

g'(t) = e-a. e aeae tt

;

g"(t) = ae-aet eaet

(1+aet) M(X) = M1 = g'(0) = a ;

M2(X) = g"(0) = a(1+a), şi analog:

M3(X) = a(a3+6a2+7a+1) .

Page 71: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Dacă folosim expresia funcţiei caracteristice,avem:

c'(t) = e-a. eaeit

.iaeit ;

c"(t) = e-a. eaeit

.i2aeit(aeit+1) M1=1

ic'(0)=a, M2=a(a+1).

VI. Modul M0 .

Variabila fiind discretă, vom proceda ca şi în cazul distribuţiei binomiale. Avem:

f x

f x

a

xx a

f x

f x

a

xx a

( )

( ), ;

( )

( ), ,

11

1

11 1

de unde M0a-1,a. În cazul unui interval modal, M0 =a - 1/2 .

VII. Coeficienţii de formă.

Cum se obţin: m3 =a , m4 = a+3a2 vom avea:

Coeficientul de asimetrie: = 1 1

3 3 . ma

a a a .

Când n , 0, căci a deoarece a=np, adică pentru volum mare, distribuţia devine simetrică.

Coeficientul de boltire: = 1 3

31

4 4

2

2 . ma a

a a

.

Când a (n ) atunci 3 .

VIII. Funcţia de repartiţie,F(x) .

F(x) = P(X < x) =

ea

ka

k

x k

0 ! ,

unde x , notează partea întreagă a lui x .

O tabelă de valori pentru 0,1 a 20, dă valorile probabilităţii ca evenimentul să se realizeze cel puţin de x ori, adică

P(X x) = ea

ka

k !

.

&7. Distribuţia uniformă continuă (rectangulară).

O variabilă aleatoare X are o distribuţie uniformă continuă, de parametrii a şi b, dacă funcţia densitate de probabilitate este de forma:

Page 72: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

(x) =

10

0b a

a x b

x a b

,

, , .

I. (x) este o funcţie densitate de probabilitate, căci: a. (x) 0, pentru orice x din a,b cu a<b ;

b. dx

b a b ax

a

b

a

b

11 .

Distribuţia rectangulară are aplicaţii în industrie. Erorile determinate de rotunjirile până la întregul cel mai apropiat când se măsoară anumite mărimi, urmează distribuţia rectangulară. Din punct de vedere teoretic, distribuţia rectangulară este destul de importantă prin forma ei simplă şi apoi orice distribuţie continuă f(x) poate fi transformată într-o distribuţie rectangulară.

II. Funcţia de repartiţie, F(x) este:

F(x) = .( )

,

,

,

t dt

x ax a

b aa x b

x b

x

0

1

.

III. Valori tipice: M(X), M2(X), D(X), M0, Me .

Avem:

Mr = xdx

b ar

a

b

= 1

1r (br + abr-1 + ... + ar) .

În particular, pentru r=1 şi r=2, obţinem:

M1=M(X)=b a

2 ; M2=

b ab a2 2

3

D(X)=

( )a b 2

12.

Modul M0, corespunde valorii lui x pentru care (x) este maximă; deoarece (x) este constantă,

există intervalul modal a,b, şi se va lua: Mo = a b

2.

Pentru a determina valoarea mediană Me, rezolvăm ecuaţia F(x)=1

2

1

2

x a

b aMe =

a b2

.

&8. Distribuţia Cauchy

O variabilă aleatoare X are o distribuţie Cauchy,dacă funcţia densitate de probabilitate este de forma:

Page 73: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

(x) = 1 1

1 2. x

, pentru orice x real.

I. (x) este o funcţie densitate de probabilitate,căci:

a. (x) 0, pentru orice x real ;

b. 1

1

112

dx

xarctgx .

Graficul funcţiei densitate de probabilitate y = (x), xR este caracterizat de o curbă simetrică în raport cu Oy, având asimptota axa Ox.

II. Funcţia de repartiţie F(x). Media M(X). Avem:

F(x) = 1

1

1 1

22 dt

tarctgx

x

,

M(X) = 1

1

1

212

2

x

dx

xx

ln( ) .

Pornind de la expresia: z=ln(1+b2)-ln(1+a2)= ln1

1

2

2

b

a

M(X) = lim lna

b

b

a

1

10

2

2 .

&9.Distribuţia normală

Distribuţia normală este o distribuţie fundamentală atât în teoria probabilităţilor, cât şi în statistica matematică. Apare în multe cercetări experimentale, mai ales când acestea privesc erorile de observaţie, în balistică, biometrie sau multe alte distribuţii, din punct de vedere practic, sunt aproximate de această distribuţie. Această distribuţie a fost în atenţia multor matematicieni, cum ar fi de exemplu: Moivre (A. de Moivre: 1667-1754, matematician francez, a trăit la Londra; scrie "Demensura sortis" în 1711, îmbunătăţită apoi în "The Doctrine of chances"- 1716, care a folosit-o în studiul unor distribuţii binomiale -1733); Laplace (P.S.Laplace: 1749-1827, matematician francez; se ocupă de analiza matematică, mecanică, teoria probabilităţilor şi scrie primul tratat important asupra calcului probabilităţilor,"Thèorie analytique des probabilités, 1813) şi Gauss ( Gh.Fr.Gauss: 1777-1858, matematician german, a trăit la Brunschweig şi G ottingen; în diverse lucrări, în acelaşi timp cu Laplace, introduce calculul diferenţial şi integral în teoria elementelor aleatoare şi în teoria erorilor de observaţie), pentru care motiv această lege de distribuţie mai este numită: legea lui Gauss (gausiană),legea lui Laplace (laplasiană) sau legea lui Moivre.

I. Funcţia densitate de probabilitate

Page 74: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

O variabilă aleatoare X are distribuţia normală de parametrii m, dacă funcţia densitate de probabilitate este următoarea:

n(x;m,) = 1

2

1

2

2

.e

x m

xR ; mR , > 0 .

Să arătăm că funcţia n(x;m,) satisface condiţiile unei funcţii densitate de probabilitate. Avem:

a. n(x;m,) 0 , xR , > 0 ;

b. Cu schimbarea de variabilă:

x mt

. 2, x = m + t 2 , dx = 2

n x m dx e dt e dtt t( ; , ).

.

1

22

11

2 2

.

Graficul funcţiei densitate de probabilitate depinde de parametrii m şi (forma curbei rămânând

aceeaşi) şi are forma unui clopot (clopotul lui Gauss) cu max n(x;m,)= 1

2 . iar x=m, axă de simetrie;

abscisele punctelor de inflexiune: x=m.

Faţă de parametrul m, curba n(x;m,) suferă translaţii de-a lungul axei Ox, menţinându-şi atât forma cât şi mărimea. Faţă de parametrul , curbele sunt mai ascuţite sau mai plate, astfel că suprafaţa închisă de axa Ox să aibă aria 1u2 .

Curba se aproprie destul de repede de axa Ox; în raport cu o abatere z = x-m < 3, diferenţa faţă de axa Ox este de ordinul 0,003 unităţi. Din acest motiv, din punct de vedere practic, distribuţia poate fi considerată într-un interval finit.

În particular, pentru m=0 , =1 obţinem:

n(x;0,1) = 1

2

2

2

e x R

x

, ,

iar pentru x cuprins între 0 şi 3,99 valorile acestei funcţii se găsesc în tabele speciale. De exemplu, n(0;0 , 1)=max=0,3980; n(1;0 , 1)=n(-1;0 , 1)=0,2420; n(3,99;0 , 1)=n(-3,99;0 , 1) = =0,00l ,etc.

Din tabele deducem că pentru x > 4 valorile funcţiei n(x;0 , 1) sunt neglijabile, deci curba se aproprie foarte mult de axa Ox când x creşte.

Dacă facem o translaţie a sistemului Oxy la un sistem paralele O'x'y', astfel încât originea noului sistem să fie punctul de abscisă m, aceasta revine la a considera ecuaţiile de translaţie: x'=x-m, y'=y sau x=x'+m, y'=y care de fapt duc pe x în x'+m ceea ce este echivalent cu a considera m=0.

Page 75: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

În acest caz, funcţia n(x;m,) devine n(x;0,) pe care o vom numi distribuţia centrată, care în funcţie de variaţia lui , are grafice diferite.

II. Semnificaţia parametrilor m şi din n(x;m,) .

Din reprezentarea grafică a curbei n(x;m,), datorită simetriei curbei faţă de dreapta x=m, putem scrie: M(X)=m, M0=m, Me=m.

a) Să arătăm prin calcul că M(X) = m.

Cu schimbarea de variabilă:x m

t dx dt

.

M(X)= xn x m dx m t e dtt

( ; , ).

( . ) .

1

2

1

22

=

=m

e dt e dtt t

2 2

1

2

1

22 2

( ) =

=m

22

2

1

22

e mt

M(X)=m.

b) Apoi, cu aceeaşi schimbare de variabilă:

D(X) = ( ) ( ; , ).

( )x m n x m dx x m e dxx m

2 2

1

2

21

2

=

=1

2 22 2

1

2

2 1

22 2

.

. ..

t e dt t e dtt t

=

. .

..2 1

2

1

2

22

2 22

2 2

te e dtt t

D(X) = 2 X = .

(am folosit metoda de integrare prin părţi)

Rezumând, parametrii m şi din funcţia densitate de probabilitate ce defineşte variabila aleatoare X cu distribuţia normală, reprezintă media şi respectiv abaterea medie pătratică.

III.Funcţia de repartiţie.Funcţia de repartiţie normată.

Legea integrală a lui Lapkace.

Page 76: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Vom nota funcţia de repartiţie a variabilei aleatoare X cu distribuţie normală : F(x) = P(X < x) = N(x;m,) şi:

N(x;m,) = 1

2

1

2

2

x t m

e dt .

Cu schimbarea de variabilă: y =t m

t m y dt dy

, . , .

P(X < x) = P(X < m+y) = N(m+y;m,) =

=1

2

1

20 1

1

2

1

22 2

x m

yz

ye dy e dy N z z

x m. ( ; , ), .

Funcţia:

N(z;0,1) = 1

2

1

22

z

ye dy

este numită funcţia de repartiţie normată.

Se verifică: dN z

dzn z

( ; , )( ; , ).

0 10 1

Ca aplicaţie, cu aceeaşi transformare, calculăm de ex.:

P(a <X< b)=1

2

1

2

1

21

2

22

a

b x m

a m

b m

ye dx e dy

. =

= 1

21

2 21

2

z

zy

e dy

unde: za m

zb m

1 2

, .

Se observă că pentru calculul acestor probabilităţi este necesară cunoaşterea primitivei:

1

2

1

22

e dx

x

despre care se ştie că în sensul obişnuit nu se poate integra. Dar, ca integrală definită, aceasta se poate calcula cu ajutorul unor metode aproximative de calcul al integralelor definite.

Funcţia:

( ) ; ( ) ( ),z e dy z P X zy

z

1

20

1

2

0

2

Page 77: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

este numită funcţia integrală a lui Laplace. Geometric, funcţia integrală a lui Laplace reprezintă aria mărginită de curba n(x;0,1), dreptele x=0 (axa Oy), x=z şi axa Ox.

Din definiţia acestei funcţii, se observă că funcţia (z) este simetrică faţă de origine, căci, (-z) = -(z) ceea ce arată că este suficient să cunoaştem valorile lui (z) numai pentru

z > 0. În acest sens sunt date tabele ale valorilor funcţiei lui Laplace.

Din interpretarea geometrică dată funcţiei lui Laplace şi din proprietăţile integralei definite, deducem:

(0) = 0 , (-) = -1/2 , () = 1/2 .

Folosind funcţia lui Laplace (z), funcţia de repartiţie normată, se scrie:

N(z;0,1) = 1/2 +(z) ,

iar funcţia de repartiţie nenormată:

N(x;m,) = 1

2

x m

.

În acest caz, avem:

P(a < X < b) = P(X < b) - P(X < a) =

= 1

2

1

2

b m a m

P(a < X < b) = b m a m

.

În particular,

P(-a < X < a) = 2(a) = 1

2

2

2

1

2

1

2

0

2 2

e dx e dx

x

a

ax

a

.

IV. Funcţia caracteristică c(t). Avem:

c(t) = e n x m dx e dxitxitx

x m

( ; , )( )

1

2

2

22 .

Cu substituţia: u=x m

it du dx

, .

u2= x m

2

2itx + 2imt - t22 ;

Page 78: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

itx - ( )

.

.x m uimt

t

2

2

2 2 2

2 2 2

c(t) = 1

2

2 2 2

2 2

e e duimt

t u

.

c(t) = eimt

t

2 2

2

.

Ca aplicaţie, folosind funcţia caracteristică să calculăm M1 =M(X) şi M2. Avem:

c'(t) = (im - t2). eimt

t

( ) 2

2 ;

c"(t) = (im - t2)2. e eimt

timt

t

( )

.( )

2 2

2 2 2

M1 = 1

01

02 22 2

ic m M

ic m ( ) ; ( ) . .

V . Momente centrate mr .

Cu substituţia: x m

t x m t dx dt

, ., .

mr = ( ) ( ; , . ) ..x m n x m dx t e dtr r r t

1

2

1

22

=

=

.rr t

t e dt2

11

22

.

( )r

r t r tt e r t e dt

211

1

2 21

22 2

,

de unde, formula de recurenţă:

mr = (r-1)2.mr-2 , cu m0 = 1, m 1 = 0 care conduce la:

m2r+1 = 0 ; m2r = 1.3.5....(2r-1)2r .

VI. Caracteristici ale formei graficului. Avem:

Coeficienţii de asimetrie:1=M X M( ) 0

sau 2=

m33 . = 0, adică se verifică simetria

curbei de distribuţie.

Coeficientul de boltire: = m4

4

4

4

33

.

.

. .

Evident, excesul distribuţiei normale, E = - 3 = 0 .

&3.10. Distribuţia Gama.

Page 79: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

O variabilă aleatoare X are distribuţia Gama de parametri a şi b dacă funcţia densitate de probabilitate este următoarea:

(x;a,b) = 1 1

0

0 0

1

( ),

,a b

x e x

x

aa

x

b

cu a > 0, b > 0, iar (a) = x e dxa x

1

0

, funcţia Gama .

I. Să arătăm că funcţia (x;a,b) satisface condiţiile unei funcţii densitate de probabilitate. Avem:

a. (x;a,b) 0, pentru orice x din R;

b. Cu schimbarea de variabilă: x = bt, dx = bdt

.( ; , )( ) ( )

( ) .x a b dxb

a bt e dt

aa

a

aa t

1 1

1

Pentru reprezentarea grafică a funcţiei (x;a,b), calculând derivata, obţinem:

k' = -x+b(a-1).xa-1 ex

bk

a ba

,

( )

11

,

şi ' = 0, când x = b(a-1). Pentru a < 1 , x > 0 şi 0 ; pentru a>1, x=b(a-1) este abscisa punctului de maxim. Deci M0=b(a-1).

Funcţia de repartiţie a variabilei aleatoare X cu distribuţia Gama este:

P(X < x) = F(x) = 1

0

0 0

1

0 ( ),

,a b

t e dt x

x

aa

t

b

x

.

Observaţie. Se mai obişnuieşte ca pentru funcţia densitate de probabilitate pentru distribuţia Gama, să se ia:

(x;a) = 0 0

101

,

( ),

x

ae x xx a

cu parametrul a > 0, sau distribuţia Gama generalizată cu funcţia densitate de probabilitate:

(x;a,b,) = 1

0

0 0

1

b a

x

be x

x

a x

b

( ),

,

.

,

Page 80: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

pentru care a > 0, b > 0, > 0 .

II. Momente de diferite ordine. Dispersia. Caracteristici ale formei graficului de distribuţie. Funcţia caracteristică.

Momentul de ordinul r, Mr (folosind schimbarea de variabilă x=bt, dx=bdt) va fi:

Mr = x x a b dxb

at e dtr

ra r t.( ; , )

( )( )

1 ( )

( )

a r

abr

=

=

( )( )...( ) ( )...( ) ( )

( )( )...( ) ( )

a r a r a a a a a a a

a a a a a abr

1 2 1 1

1 2

deci:

Mr = a(a+1)(a+2) ... (a+r-1)br .

În particular, pentru:

r = 1 , avem M(X) = M1 = ab ;

r = 2 , avem M2 = a(a+1)b2 ;

r = 3 , avem M3 = a(a+1)(a+2)b3 etc.

D(X) = M2 -M2(X) = ab2 abaterea tip X = b a .

În cazul particular , b=1 avem: M(X) = D(X) = a.

Folosind formula:

m M C M M C M Mr r r r r r 1

1 12

12

2 ...

vom putea calcula momentele centrate de diferite ordine. De exemplu:

m1 = 0 ;

m2 = D(X) = ab2 ;

m3 = M3 -3M1M2 + 2 M13 = 2ab3 ;

m4 = 3a(a+2)b4 , etc.

Coeficienţii de asimetrie sunt :

1 = M X M

a

( ) 0 1

; 2 =

m

a33

2

. .

Coeficientul de boltire este:

Page 81: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

= m a

a a44

3 23 1

2

.

( )

, cu excesul E = -3=

6

a .

Cu substituţia: itx-x

by x

by

itbdx

bdy

itb

, ,

1 1, funcţia caracteristică se scrie:

c(t) = e x a b dxb a

x e dxitxa

a itxx

b

.( ; , )( )

1 1

0

= 1

1 1

1

1

1

10

1 1

0b a

b

itby e

bdy

itb itb ay e dya

a

aa y

aa y

( ) ( ) ( ) ( )

deci :

c(t) = (1 - itb)-a .

La acest rezultat se mai poate ajunge şi astfel:

c(t) = 1 1

0

1

00

1

b ae x e dx

b a

itx

ne x dxa

itx ax

ba

n

n

x

b a

( ) ( )

( )

!

=

1 11

00 0b a

it

nx e dx

b a

it

nn a ba

nn a

x

b

na

na n

n

( )

( )

! ( )

( )

!( ) = 1+

11 1

1

( )

( )

!( )...( ) ( )

a

itb

na a a n a

n

n

= 1+ a a a n

nitb c t itb

n

n a( )...( )

!( ) ( ) ( )

1 1

11

.

&.11. Distribuţia Beta

O variabilă aleatoare X are distribuţia Beta de parametri a şi b (a > 0 , b > 0) dacă funcţia densitate de probabilitate este:

(x;a,b) = 1

1 0 1

0 0 1

1 1

B a bx x x

x x

a b

( , )( ) ,

, ;

,

unde B(a,b) = x x dxa b 1

0

111( ) , funcţia Beta.

I. Funcţia (x;a,b) satisface condiţiile unei funcţii densitate de probabilitate, căci:

a. (x;a,b) 0, pentru orice x din R;

Page 82: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

b. .( ; , )( , )

( )x a b dxB a b

x x dxa b

11 11

0

11 .

Funcţia de repartiţie a acestei distribuţii este:

F(x;a,b) =

0 01

1 0 1

1 1

1 1

0

,

( , )( ) ,

,

x

B a bt t dt x

x

a bx

.

Funcţia F(x;a,b) se numeşte funcţia Beta incompletă.

Ea satisface relaţia:

F(x;a,b) = 1 - F(1-x;a,b),

care se obţine făcând schimbarea de variabilă t=1-z în integrala:

F(1-x;a,b) = 1

11

0

11

B a bt t dta

xb

( , )( ) .

II. Momente de diverse ordine. Dispersia. Modul

Folosind definiţia,

Mr = x x a b dxB a b

x x dxr a r b, ( ; , )( , )

( )( )

111

0

11

Mr = B a r b

B a b

( , )

( , )

. Dar cum B(a,b) =

( ). ( )

( )

a b

a b

Mr = a a a r

a b a b a b r

( )...( )

( )( )...( )

1 1

1 1 .

În particular,pentru

r =1, M1 = M(X) = a

a b ;

r = 2, M2 = a a

a b a betc

( )

( )( ), .

1

1

D(X) = M2 - M2(X) = ab

a b a b( ) ( ) 2 1şi X= D X( ) .

Pentru determinarea modului, avem:

Page 83: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

B(a,b)'(x;a,b) = xa-2(1-x)b-2(a-1)(1-x)-(b-1)x, iar '(x;a,b)=0 implică: x=0, x=1, x=a

a b

1

2. Dacă

a+b-2>0, funcţia (x;a,b) are valoarea maximă, deci M0=a

a b

1

2 .

Fără demonstraţie, enunţăm:

1) Dacă b, distribuţia Beta tinde către distributia Gama .

2) Dacă a, b , distribuţia Beta tinde către distribuţia normală n(x;0,1) .

&12. Distribuţia Hi-pătrat (2 )

Legea de distribuţie Hi-pătrat (Pearson ) pe care o vom nota cu 2, are funcţia densitate de probabilitate :

(x)=

1

22

0

0 0

2

21

2 2

.

.,

,

x e x

x

x

,

cu > 0, 0, număr natural.

După cum se verifică uşor, distribuţia 2 este un caz particular al repartiţiei Gama, pentru a = /2 şi b=22.

Spunem că distribuţia 2 depinde de parametrii şi şi în plus, distribuţia 2 are grade de libertate, adică numărul gradelor de libertate fiind egal cu parametrul al distribuţiei. Se mai notează densitatea de probabilitate cu 2().

I. Să arătăm că (x) satisface condiţiile unei funcţii densitate de probabilitate. Avem:

a. (x) 0, pentru orice x real;

b. Cu schimbarea de variabilă: x=22t, dx=22dt

.( ).

..x dx t e dtt

1

22

2 22

21

0

22

12

1 2

=

= 1

2

1

22

121

0

t e dtt .

Graficul funcţiei densitate de probabilitate (x) depinde de valorile parametrilor şi . Din '(x)=0, deducem x=(-2)2 abscisa punctului de maxim, deci modul Mo = (-2)2 . Curbele sunt asimetrice apropiindu-se pentru valori mari ale parametrului , de curba corespunzătoare distribuţiei normale.

Page 84: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

II. Funcţia de repartiţie

Apicând definiţia, putem să scriem :

P(X = 2 < 02)=F(02)=1

22

20

21

2

02

2

.

.

t e dtt

.

În practică, de obicei se întrebuinţează: P(2 > 02)=; aceste probabilităţi sunt calculate şi date în tabele pentru diferite valori ale parametrului şi ale lui (valori uzuale ale lui ) .

Reamintim că :

P(2 > 02) =

.( )t dt02

;

geometric, aria mărginită de curba y = (x), axa Ox cu x > 02 dă probabilitatea P(2 > 02) = .

III. Momentele de diferite ordine. Dispersia

Cu schimbarea de variabilă :

x = 22t , dx = 22dt

Mr = x x dx x e dxrr

x

.( )

.

.1

22

2

21

0

2 2

=

= 2r2r

2

2

r

Mr= (+2)(+4)...(+2r-2)2r .

În particular , pentru :

r = 1 , M1 = M(X) =2 ;

r = 2 , M2 = (+2)4 ;

r = 3 , M3 = (+2)(+4)6 ,etc.

Dispersia:D(X)=M2-M2(X)D(X) =24 şi X= D X( )

Momentele centrate, sunt:

m1 = 0 ;

m2 = 24 ;

Page 85: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

m3 = M3 -3M1M2 + 2M13 m3 = 86 ;

m4 = 12(+4)8 , etc.

IV. Funcţia caracteristică

Folosind următoarea relaţie obţinută din definiţia funcţiei Gama: x e dxp

ap ax

p

1

0

( ) cu p=

2

1 2

2

2

2,.

.ait

c(t)= 1

22

2

21

0

1 2

2

2

2

.

.

.

x e dxit

= 1

22

2

1 2

2

2 2

2

2

.

.

it

c(t) = ( ).1 2 2 2

it

.

V. Caracteristici ale formei graficelor.

Coeficientii de asimetrie şi boltire, sunt:

= m3

3 22

. ,= m4

4 3 14

. ( ) cu excesul E= 12

.

Fără demonstraţie, enunţăm următoarele proprietăţi din care rezultă un mod de a genera o variabilă aleatoare cu o distribuţie 2 sau legătura între distribuţia 2 şi distribuţia normală.

P1. Dacă variabila aleatoare X are o distribuţie normală cu parametrii 0 şi 1, atunci variabila aleatoare Y = X2 are o distribuţie 2 de parametrii : =1 şi =1 .

P2. Dacă din fiecare din variabilele aleatoare independente X1,X2, ... ,Xn are o distribuţie normală cu parametrii 0 şi 1, atunci varaiabila aleatoare X=X12+...+Xn2 are o distribuţie 2 cu grade de libertate.

P3. Dacă variabila aleatoare X are distribuţia 2 cu grade de libertate ( 1) ,atunci densitatea de

probabilitate a variabilei :1

2X tinde către densitatea de probabilitate a variabilei aleatoare cu distribuţie

normală cu parametrii 0 şi 1.

&13. Distribuţia "t" (Student)

O variabilă aleatoare X are o distribuţie Student (Student este pseudonimul matematicianului englez V.S.Gosset) sau "t" cu n grade de libertate, dacă funcţia densitate de probabilitate este definită de:

Page 86: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

(t) = 1

1

2

2

1

12

1

2n

n

nt

n

n

, t real .

I. Funcţia (t) este o funcţie densitate de probabilitate:

a. (t) 0, oricare ar fi t real;

b. Cu substituţia: t2=ny, 2tdt=ndy, avem:

.( ) ( )t dtn

n

ny

n

nydy

n

2

1

2

2

12

11

2

0

=21

1

2

22

11

21

0

1

2 2

n

n

nn

y y dyn

( )

11

2

2

n

n

.

. Bn

n

n

n

n1

2 2

11

2

2

1

2 21

2

1 1

2

11,

În aceste calcule, am folosit relaţia:

I= x x dx B p qp p q

1

0

1( ) ( , ),( ) funcţia Beta modificată.

În adevăr, cu substituţia:

x

xu x

u

udx

du

ux

u1 1 11

1

12

, ,

( ),

I= u u u u du u u dup p p q p q 1

0

11 2 1 1

0

1

1 1 1 1( ) ( ) ( ) ( )

II. Momente de diverse ordine. Dispersia. Modul

Media variabilei aleatoare X cu distribuţia "t", este:

Page 87: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

M(X) =1

1

2

2

12

1

2

n

n

nt

t

ndt

n

.

Cu substituţia: 1 + t

ny tdt ndy

2

2 , integrala nedefinită:

1

21 2

2 1

21

2 1

2

1

2

t

ntdt

ny dy

n

ny

nn n

a cărui valoare este zero pentru y = . Deci M(X) = 0.

Deoarece M(X) = 0, deducem că Mr = mr, adică momentele centrate de ordinul r ale variabilei aleatoare cu distribuţia Student sunt egale cu momentele de ordinul r obişnuite.

Cu substituţia:

yt

n tt

ny

ydt

ndy

yny

y

2

22

212 1

1

, ,

( )

D(X)=

n

nn

tt

ndt

n

1

2

2

122 1

2

( ) =

21

2

2

1

2

n

nn

.

. tt

ndt

nn

ny y dy

nn

22

0

1

2 3

21

0

1

21 1

1

1

21

2 2

1

( )

nn

nB

nn

n

n n

n

n

1

21

2 2

3

2 21

1

21

2 21

21

3

2 21

1

2

, =

n

nn

nn

.,

1

2

1

21

2 21

23

D(X) =

n

nn

23, .

Page 88: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Deoarece în calculul momentelor de ordin impar M2r+1 intervin funcţii de forma: h(t)=t2r+1 12

t

n cu

h(-t) = h(t) adică funcţii simetrice în raport cu originea iar intervalul de integrat este şi el simetric (-,) deducem că M2r+1 = 0.

Pentru momentele de ordin par, schimbarea de variabilă: t2 = ny conduce succesiv:

M2r= dtn

tt

n

n

n

n

r2

12

2 1

2

2

11

=

n

n

n

n

r

1

2

1

2

2

.

. y y dyn

n

n

n

rn r

1

2

0

2

1

2

1

2

1

1

2

2

( ) .

y y dy

r rn

r( ) ( )( )

1

21

1

2 2

0

1 =

n

n

n

nB r

nr

r

1

2

1

2

2

1

2 2

,

M2r = n

nr r

n

r

2

1

2

2

iar acesta există dacă n

r rn

n2

02

2 , adică distribuţia "t" este aplicabilă unei distribuţii

rezultate din expresii statistice formate din variabile cu cel puţin două grade de libertate.

Folosind expresiile dezvoltate ale funcţiei Gama,adică:

( ) ( )( )... ( ), ( )r r r 1

2

1

2

3

2

1

2

1

2

1

2 ;

( ) ( )( )...( ) ( )n n n n

rn

r2 2

12

22 2

M2r = 13 2 1

2 4 2

. ...( )

( )( )...( )

r

n n n rnr

= m2r .

În cazul particular, pentru:

Page 89: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

r = 1 , M2 = m2 = D(X) = n

n 2

r = 2 , M4 = m4 = 13

2 42.

( )( ), .

n nn etc

Dacă se calculează derivata '(x) , acesta se anulează numai pentru t = 0, când funcţia (x) admite un maxim. Deci M0(X) = 0 .

III. Graficul funcţiei densitate de probabilitate

Funcţia (t) fiind pară în raport cu t: (-t) = (t), graficul

este o curbă simetrică faţă de axa Oy. Apoi, M(X)=0, D(X)=n

n 2, ceea ce arată că pentru n mare (practic

>30), avem D(X) 1, adică aceeaşi parametri ca la distribuţia normală n(x;0,1). Momentele centrate m2r+1 = 0, m2r 0, de asemenea o proprietate întâlnită la distribuţia normală.

În plus avem:

lim lim. . ...( )

( )( )...( ). ...( ),

nr

n

r

mn r

n n n rr

2

13 2 1

2 4 213 2 1

adică tocmai momentele centrate în cazul distribuţiei n(x;0,1).

În concluzie, distribuţia "t" pentru n număr mare, tinde către distribuţia normală.

IV. Funcţia de repartiţie este:

P(X < x) = F(x) = 1

1

2

2

12

1

2

n

n

nt

ndt

xn

.

În practică sunt calculate valorile funcţiei de repartiţie sub formă de tabele şi mai ales sunt folosite tabele care satisfac ecuaţia: P( X > t) = , adică se determină valoarea lui t, pentru un dat.

&14. Distribuţia Fisher (F)

O variabilă aleatoare X are o distribuţie Fisher având gradele de libertate m şi n, dacă funcţia densitate de probabilitate are forma:

h(x) =

0 0

1

2 2 1

02 2

1

2

,

,, ,

x

Bm n

m

n

x

m

nx

x

m m

m n

Page 90: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

cu m,n din N* -numere naturale diferite de zero.

Funcţia h(x) satisface condiţiile unei funcţii densitate de probabilitate, căci:

a. h(x) 0 , pentru orice x real ;

b. Cu substituţia:

x=( )

,1

2

t n

tmdx

n

t mdt

h x dxB

m nm

n

x

xm

n

dx

m m

m n( ),

1

2 2 1

2 21

20

=

1

2 2

12

0

1 21

21

22

Bm n

m

n

t

t

n

m

n

mtt dt

m m mm n

=

=1

2 2

11

2 22 2

121

21

1

Bm n

t t dtB

m nB

m nn m

o,( )

,, .

Media, momentele de ordinul r, dispersia şi abaterea medie pătratică sunt date de relaţiile:

X D X ( ) ;

M(X) =n

nD X

n m n

m n nn

2

2 2

2 44

2

2; ( )( )

( ) ( ), ;

Mr = n

m

n n n r

m m m r

r

( )...( )

( )( )...( )

2 2 2

2 4 2 .

Fără demonstraţie, enunţăm :

Dacă variabilele aleatoare independente X1,...,Xm,Xm+1,... ...,Xm+n urmează legea normală cu parametrii 0 şi , atunci variabila aleatoare

Y = n

m

X X

X Xm

m m n

12 2

12 2

...

... ,

urmează legea Fisher cu parametrii m şi n (legătura între distribuţia normală şi distribuţia "F").

&15. Distribuţia exponenţial negativă

Page 91: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Este un caz particular al distribuţiei Gama, obţinându-se din aceasta pentru a=1 şi b=1/p. Astfel, o variabilă aleatoare X are o distribuţie exponenţial negativă de parametru p (p > 0), dacă funcţia densitate de probabilitate este:

h(x) = pe x

x

px

,

,

0

0 0 .

Funcţia h(x) este o funcţie densitate de probabilitate:

a. h(x) 0, pentru orice x ;

b. h x dx p e dx pepx px( )

0

01 .

Funcţia de repartiţie este:

F(x) = P(X < x) = h t dte x

x

pxx

( ),

,

1 0

0 0 .

Media, dispersia, abaterea medie pătratică şi funcţia caracteristică se obţin prin particularizare din cele ale distribuţiei Gama:

M(X) = 1

p , D(X) =

12p

X = D Xp

( ) 1

;

c(t) = p

p it .

Evoluţia economică (creştere, dezvoltare, ciclicitate etc) reprezintă, în esenţă o succesiune temporală de evenimente economice. Aceste evenimente trebuie observate, înregistrate şi analizate pentru a obţine mai multe caracteristici generale ale proceselor economice care le-au generat. Îşi face astfel apariţia, în cadrul econometriei, alături de seriile cronologice, dinamica economică, cea care pune la dispoziţia cercetătorilor noi metode, tehnici, instrumente şi concepte cu ajutorul cărora se pot interpreta mai coerent, sistematic şi raţional procesele evolutive din economie.

Abordările lor sunt considerate în literatura de specialitate mult mai interesante şi mai apropiate de realitate decât stările de echilibru staţionar, ele reprezentând o sursă de „noutate” în econometrie.

4.1. Teoria probabilităţilor în economie

„Chiar dacă iniţial, cineva „nu are nici o idee” despre ceea ce urmează să se întâmple, totuşi, dacă rezultatele care ar putea să apară sunt importante pentru individ, acesta din urmă va sfârşi prin a-şi exprima starea de cunoaştere prin evaluarea probabilităţilor necesare” afirma M.Maliţa.

Page 92: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Unele decizii se pot lua fără dificultate, nefiind necesar să reflectăm prea mult asupra lor dar există situaţii în care dificultatea de a alege dintre mai multe acţiuni posibile fac necesară o analiză riguroasă. Cu ajutorul teoriei probabilităţilor se încearcă „micşorarea” acestei dificultăţi.

Teoria probabilităţilor are la bază noţiunea de întâmplare, de hazard, termen ce provine din limba arabă, care la rândul său înseamnă „joc de zaruri”. Se poate menţiona şi termenul aleator care provine din latină dar tot de la numele de „zar”.

Ilustrăm în continuare câteva din conceptele importante ale acestei teorii, concepte necesare pentru determinarea unor decizii în condiţii de incertitudine.

Prin experienţă în teoria probabilităţilor se înţelege orice act care poate fi repetat în condiţii date. Toate situaţiile legate de experienţă şi despre care putem spune, cu certitudine, că s-au produs sau nu, după efectuarea experienţei, poartă numele de eveniment. Fiecărei experienţe i se ataşează două evenimente cu caracter special: evenimentul sigur (care se realizează cu certitudine la fiecare efectuare a experienţei) şi evenimentul imposibil (care nu se produce la nici o efectuare a experienţei). Întotdeauna unui eveniment îi corespunde un eveniment contrar, a cărui producere înseamnă, prin definiţie, nerealizarea primului.

Două evenimente se numesc compatibile dacă se pot produce simultan. În caz contrar, când nu există rezultate care să le favorizeze pe ambele, se numesc incompatibile.

Vom spune că evenimentul A implică evenimentul B sau că evenimentul B este implicat de evenimentul A dacă B se produce ori de câte ori se produce A. Reuniunea a două evenimente A şi B este evenimentul a cărei producere constă în realizarea a cel puţin unuia din cele două evenimente A sau B (se notează AB).

Intersecţia evenimentelor A şi B (notată A∩B) constă din realizarea simultană a evenimentelor A şi B.

Spaţiul de selecţie al unei experienţe este o mulţime de elemente, astfel încât orice eveniment rezultat în urma experienţei corespunde unui singur element al acestei mulţimi.

Să considerăm o experienţă şi un eveniment A, corespunzător acestei experienţe. Să repetăm experienţa de n ori în condiţii identice, să notăm prin α numărul de realizări ale evenimentului A şi cu (n-α) numărul de realizări ale evenimentului A (contrar lui A).

Numărul n

f n

se numeşte frecvenţă relativă a evenimentului A de unde 10 nf . Deseori, o

întâlnim şi sub denumirea de capacitate predictivă.

Noţiunea de cazuri egal posibile sau evenimente egal posibile este una din noţiunile de bază din teoria probabilităţilor. Se asimilează noţiunea de egal posibil cu noţiunea de egal probabil.

Dacă diferite evenimente posibile, obţinute în urma unei experienţe efectuate în condiţii bine determinate, au aceeaşi şansă de realizare vom spune că ele sunt egal probabile şi că probabilitatea fiecăruia este egală cu inversul numărului de evenimente posibile.

Page 93: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Problema în econometrie este aceasta: dacă o variabilă a luat în trecut anumite valori cu anumite frecvenţe putem preciza pentru viitor valoarea medie a variabilei şi frecvenţa cu care diferite valori ale ei vor mai apărea.

Vom mai spune că probabilitatea evenimentului A este egală cu raportul dintre numărul de evenimente egal probabile ce definesc pe A şi numărul total de evenimente egal posibile. Aşadar, dacă în urma efectuării unei experienţe, pot rezulta n evenimente egal posibile, diferite şi dacă din acestea m definesc evenimentul A, atunci probabilitatea evenimentului A este:

n

mAP

Aceasta este definiţia clasică a probabilităţii, formulate de Laplace.

Funcţia definită de f(x)=P(X=x) se numeşte funcţie de frecvenţe sau funcţie de probabilitate.

Toate fenomenele de masă sunt purtătoare ale unor însuşiri, caracteristici. În măsura în care acestea interesează într-un studiu, devin variabile. Variabilele, adică orice mărime care se modifică, se clasifică în două moduri diferite:

a) calitative sau cantitative

b) discontinue sau continue

Diferenţa dintre calitativ şi cantitativ este ca diferenţa dintre o descriere într-o lecţie de limba română, ca de exemplu: „fata este foarte înaltă” şi o descriere dintr-o lecţie de matematică: „fata are o înălţime de 195 cm”.

O variabilă calitativă implică o calitate, în timp ce o variabilă cantitativă implică ceea ce poate fi cuantificat, reprezentat numeric.

O variabilă discontinuă este o variabilă care există numai în clase sau valori distincte, pe când o variabilă continuă există într-un număr finit de valori diferite [175].

O variabilă a cărei valoare este un număr determinat de evenimente rezultat în urma unei experienţe este numită variabilă aleatoare.

Fie X o variabilă aleatoare care să poată să ia valorile x1, x2,...,xn cu probabilităţile f(x1), f(x2),...,f(xn).

Mulţimea ale cărei elemente sunt perechile ordonate (xi, f(xi)), ni ,1 defineşte repartiţia variabilei aleatoare X.

O variabilă aleatoare având un număr cel mult numărabil de valori posibile se numeşte variabilă aleatoare discretă.

Fie X o variabilă aleatoare, x un număr real şi F(x) probabilitatea ca X să ia valori mai mici decât x:

F(x)=P(X<x)

Funcţia F definită astfel se numeşte funcţia de repartiţie a variabilei aleatoare X.

Page 94: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Funcţia de repartiţie a variabilei aleatoare constituie o descriere completă a fenomenului aleator considerat. În multe probleme practice nu avem nevoie de o descriere atât de detaliată, putându-ne mulţumi cu informaţii parţiale. În acest scop, unei variabile aleatoare i se asociază anumite valori numerice care ne permit să ne formăm o imagine aproximativă despre fenomenul aleator considerat, mult mai puţin precisă decât cea oferită de funcţia de repartiţie. Printre indicatorii numerici care se asociază unei variabile aleatoare cele mai importante sunt: media, dispersia, momentele de diferite ordine, abaterea medie standard etc.

Media unei variabile aleatoare

Dacă variabila aleatoare X este discretă cu mulţimea valorilor Ix ii )( atunci media sa este:

Ii

ii xfxXM )()(

unde f este funcţia de probabilitate a lui X. Cu alte cuvinte, media unei variabile aleatoare discrete este media ponderată a valorilor pe care le ia această variabilă, ponderile fiind chiar probabilităţile cu care aceste valori sunt luate.

Această observaţie justifică denumirea dată numărului M(X). Uneori media lui X este numită valoarea medie a lui X.

Dacă X este o variabilă aleatoare continuă având densitatea de probabilitate f, atunci media sa se poate scrie sub forma

dxxxffXM )()(

Dispersia unei variabile aleatoare

Fie X o variabilă aleatoare. Putem considera variabila Y=X-M(X) numită şi variabila aleatoare abatere. Această variabilă aleatoare descrie împrăştierea valorilor luate de variabila aleatoare X în jurul valorii sale medii.

Media variabilei aleatoare 2Y este numită dispersia sau varianţa variabilei aleatoare X şi se notează )(2 XD .

222 )()( XMXMXD

Numărul )(2 XD care se mai notează uneori prin D(X) sau )(X este numit abaterea medie

pătratică sau abaterea standard a variabilei aleatoare X.

Dacă 0)(2 XD vom vorbi despre precizia variabilei aleatoare X, care este definită ca inversa

dispersiei, deci )(

12 XD

.

Page 95: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Deoarece dispersia este o măsură a incertitudinii asupra valorilor pe care le ia o variabilă aleatoare, rezultă că precizia poate fi interpretată ca o măsură a certitudinii sau informaţiei asupra lui X.

Modelele probabiliste sunt generate de faptul că în lumea reală şi în economie în special nici o succesiune de evenimente nu este repetabilă la acelaşi nivel de manifestare. Astfel, dacă se păstrează definiţia cauzalităţii a două evenimente A şi B aşa cum am definit-o, în viziunea probabilistă, evenimentul A determină cauzal evenimentul B numai cu o anumită probabilitate. În cercetarea fenomenelor economice interesează atât descrierea evenimentelor ca atare, dar şi probabilităţile de producere a acestora.

Cea mai simplă previziune privind valorile pe care le poate lua o variabilă intr-un moment viitor pleacă de la media valorilor pe care le-a luat în trecut, în experimente deja consumate. În cazul unei variabile discrete avem:

n

iix

nx

1

1

unde xi reprezintă valorile luate de variabilă iar n numărul cazurilor considerate.

Acest indicator nu este însă în măsură să redea întotdeauna aspectul real al fenomenului studiat.

De aceea, informaţiilor de natură aleatoare (reflectate prin variabile aleatoare) le corespund o serie de indicatori de natură deterministă prin care putem măsura caracteristici ale fenomenului respectiv, precum media şi dispersia.

În analiza proceselor economice media variabilei aleatoare ce caracterizează fenomenul respectiv se numeşte speranţa matematică a realizării procesului respectiv. De exemplu, dacă distribuţia veniturilor lunare la un moment dat pentru un salariat al unei firme este

atunci speranţa matematică este M(x)=15500000 lei/lună.

Să considerăm acum aceeaşi problemă, a salariului aşteptat în cazul variabilei

şi să observăm că media M(Y)=15500000 lei/lună.

Deci, cei doi salariaţi au aceeaşi speranţă matematică, dar pe când al doilea are o mică împrăştiere a valorilor aşteptate γ (15460000, 15825000) primul are o plajă foarte mare, între 15000000 şi 25000000.

De aceea avem nevoie de o caracterizare a gradului de împrăştiere a variabilei respective, caracterizare pe care o realizăm cu ajutorul dispersiei, indicarea acesteia contribuind în mod firesc la completarea imaginii pe care o avem despre cele două fenomene. Cu cât este mai mare dispersia valorilor unei variabile având o anumită medie, cu atât mai puţin probabil este ca ea să primească în viitor o valoare mai apropiată de medie şi cu atât mai slabe sunt aşteptările privind apariţia în viitor a unei valori în jurul mediei.

X: 15000000  20000000  25000000 

Y: 15460000  15345000  15825000 

Page 96: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

4.2. Elemente de teoria selecţiei

Numim colectivitate sau populaţie o mulţime C de elemente care este cercetată din punct de vedere a uneia sau mai multor caracteristici (proprietăţi), elementele colectivităţii fiind numite indivizi, iar numărul indivizilor unei colectivităţi se va numi volumul colectivităţii.

1) Problema esenţială a statisticii matematice este de a stabilii legea de probabilitate pe care o urmează caracteristica X.

2) Caracteristicile sunt de tip discret şi de tip continuu.

Numim selecţie (sondaj) o subcolectivitate a colectivităţii cercetate C, iar numărul elementelor selecţiei poartă numele de volumul selecţiei (sondajului).

O selecţie se numeşte repetată sau bernoulliană dacă după examinarea individului acesta se reintroduce în colectivitate, în caz contrar selecţia este nerepetată.

Dacă volumul colectivităţii C este mult mai mare decât volumul selecţiei atunci selecţia nerepetată poate fi considerată ca fiind selecţie repetată. În continuare considerăm numai selecţii repetate.

Numim date de selecţie relative la caracteristica X valorile obţinute pentru indivizii care intră în selecţie privind caracteristica X. Dacă selecţia este de volum n vom nota datele de selecţie prin x1, x2,…,xn.

Datele de selecţie x1, x2,…,xn sunt valorile unor variabile aleatoare, respectiv X1, X2,…,Xn care se vor numi variabile de selecţie.

1) Dacă selecţia este repetată atunci X1, X2,…,Xn sunt independente şi identic repartizate cu X (urmează aceeaşi lege de probabilitate ca X).

2) Dacă datele de selecţie x1, x2,…,xn au valorile distincte x'1, x'2,…,x'N atunci

N21

N21

f...ff

'x...'x'x:X , unde fi = frecvenţa apariţiei valorii x'i, se va numi distribuţia empirică de selecţie

a lui X.

3) Dacă X este de tip continuu se obişnuieşte să se facă o grupare a datelor de selecţie în clase

astfel:

N21

N21

f...ff

'x...'x'x:X ,

2

aa'x i1ii

, fi este frecvenţa datelor de selecţie din intervalul

)a,a[ i1i , ,nf...ff N21 n = volumul selecţiei.

Această grupare se face chiar şi pentru cazul când X este de tip discret.

Dacă avem funcţia RR:h n numim funcţie de selecţie sau statistică, variabila aleatoare )X,...,X,X(hZ n21n iar valoarea numerică )x,...,x,x(hz n21n o numim valoarea funcţiei de

selecţie.

Page 97: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Numim medie de selecţie funcţia de selecţie definită prin ,Xn

1X

n

1kk

iar valoarea numerică

,xn

1x

n

1kk

o numim valoarea mediei de selecţie.

o numim valoarea momentului de selecţie de ordin k.

Numim moment centrat de selecţie de ordin k funcţia de selecţie kn

iik XX

n

1

1 iar

n

1i

kik )xx(

n

1 o numim valoarea momentului centrat de selecţie de ordin k.

Numim funcţie de repartiţie de selecţie funcţia de selecţie definită prin Rx,n

)x(K)x(F n

n

, unde )x(K n este numărul valorilor variabilelor de selecţie mai mici decât x.

Teorema lui Glivenko. Dacă se consideră caracteristica X ce are funcţia de repartiţie teoretică F

şi fie funcţia de repartiţie de selecţie nF , atunci P( 1)0)x(F)x(Fsuplim nRxn

.

Teorema lui Kolmogorov. Fie caracteristica X de tip continuu, care are funcţia de repartiţie

teoretică F şi fie funcţia de repartiţie de selecţie nF , iar )x(F)x(Fsupd nRx

n

, atunci

k

xk2kn

n.0x,e)1()x(K)xdn(Plim

22

Funcţia K(x) se numeşte funcţia lui Kolmogorov şi are valorile tabelate.

4.3. Elemente de teoria estimaţiei

Scopul estimării sau ajustării unor funcţii şi ecuaţii econometrice este obţinerea unui instrument eficace de predicţie. Eficienţa predicţiei depinde, bineînţeles, de gradul de concordanţă dintre modelul econometric considerat şi datele statistice. Acest lucru se poate calcula cu ajutorul estimaţiei.

Se consideră caracteristica X care urmează legea de probabilitate dată prin funcţia de probabilitate f(x; ), parametru necunoscut, unde f este funcţia densitate de probabilitate dacă X este de tip continuu, respectiv funcţia de frecvenţă dacă este de tip discret.

Teoria estimaţiei are ca scop evaluarea parametrilor de care depinde legea de probabilitate a lui X, folosind datele de selecţie n21 x,...,x,x şi bazându-ne pe rezultatele teoretice relative la variabilele de

selecţie n21 X,...,X,X .

Page 98: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Se numeşte funcţie de estimaţie (punctuală) sau estimator al parametrului funcţia de selecţie (statistica) )X,...,X,X( n21

cu ajutorul căreia se trag concluzii relative la .

Spunem că funcţia de estimaţie este estimator consistent dacă 0,1)(Plimn

, adică Pn21 )X,...,X,X( , iar valoarea numerică )x,...,x,x( n21

se numeşte estimaţie

consistentă pentru .

Spunem că funcţia de estimaţie este estimator absolut corect pentru dacă )(M şi

0)(D2 când n , iar valoarea numerică )x,...,x,x( n21 se numeşte estimaţie absolut corectă

pentru .

Spunem că funcţia de estimaţie este estimator corect pentru dacă

)(Mlimn

şi

0)(Dlim 2

n

, iar valoarea numerică )x,...,x,x( n21

se numeşte estimaţie corectă pentru .

Se numeşte distorsiunea (deplasarea) estimatorului diferenţa M( ) , iar dacă

distorsiunea este nulă, estimatorul se numeşte nedeplasat.

Dacă )X,...,X,X( n21 este un estimator absolut corect pentru , atunci estimatorul este

consistent.

Momentul centrat de selecţie de ordin doi 2 este estimator corect pentru momentul centrat

teoretic de ordin doi )X(D22 , adică pentru dispersia teoretică;

Dispersia de selecţie 2 este estimator absolut corect pentru dispersia teoretică )X(D2 .

Estimatorul absolut corect pentru parametrul se numeşte eficient dacă )(I

1)(D2

, iar

raportul )(D

)](I[)(e

2

1

se numeşte eficienţa estimatorului .

Există şi alte criterii ale estimaţiilor pe care cititorul interesat le poate găsi în tratatele de statistică.

4.4. Verosimilitatea – principiu al modelelor econometrice

Vom prezenta pe scurt o metodă generală de a căuta estimaţii „bune” pentru diferiţi parametri, atunci când nu avem la dispoziţie valoarea mediei sau dispersiei de sondaj. Această metodă se numeşte metoda verosimilităţii maxime (R.A.Fisher) şi constă în următoarele:

a) dacă X este discretă se cunoaşte repartiţia P {X = x} = p(x,θ)

b) dacă X este continuă se cunoaşte densitatea f(x,θ).

Page 99: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Având la dispoziţie un eşantion {x1, x2, ..., xn} relativ la variabila X vom calcula probabilitatea corespunzătoare acestui eşantion considerând funcţia L(x1, x2, ..., xn,θ) care se numeşte funcţie de verosimilitate şi este dată de:

a) dacă X este variabilă discretă

L(x1,x2,…,xn,θ) = P{x1=x1,x2=x2,…,xn=xn} =

p(x1,θ)p(x2,θ)…p(xn,θ) =

n

iixp

1

),(

b) dacă X este variabilă continuă

L(x1,x2,…,xn,θ) = P{x1<X1<x1+h,...,xn<Xn<xn+h} =

hnf(x1,θ)f(x2,θ)...f(xn,θ) =

n

ii

n xfh1

),(

Metoda verosimilităţii maxime (maximum likelihood) constă în a alege ca estimaţie pentru θ,

estimaţia ~ care maximizează L(x1,x2,...,xn,θ). Pentru a găsi maximul funcţiei de verosimilitate se constată că funcţia L îşi atinge maximul în acelaşi punct cu funcţia lnL deoarece φ(x)=lnx este o funcţie monoton

crescătoare. Prin urmare estimatorul lui θ va fi ~ care maximizează funcţia lnL, deci pentru care

0ln

L

Soluţiile acestei ecuaţii sunt punctele staţionare ale funcţiei de verosimilitate.

Dacă θ0 = Tn(x1,x2,...,xn) este o soluţie a acestei ecuaţii şi

2

012 ),,...,(

nxxL

< 0

atunci θ0 este o estimaţie de maximă verosimilitate pentru parametrul θ, iar statistica Tn(x1,x2,...,xn) corespunzătoare este un estimator de maximă verosimilitate a lui θ.

În cazul în care θ este un parametru vectorial real definiţiile rămân valabile, iar procedeul de determinare a estimatorului de maximă verosimilitate vectorial este identic cu metodologia de determinare a punctelor de extrem local pentru funcţii de mai multe variabile reale.

Există şi alte metode de estimare ca de exemplu metoda momentelor (K.Pearson), metoda minimului lui 2x sau estimarea prin intervale de încredere hi.

În teoria de specialitate s-a demonstrat că „idealul” este distribuţia normală a erorii generate de model. Această distribuţie a unei erori înseamnă de fapt o concentrare a valorii sale în jurul valorii aşteptate a erorii, care este zero.

De exemplu, dacă pentru un şir de relaţii

Page 100: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

nnn ubxay

ubxay

ubxay

222

111

se vor alterna mai multe perechi de valori a şi b, pentru ca după un număr de încercări să se obţină o serie estimată ''

2'1 ,, nuuu , astfel încât să fie satisfăcută condiţia de distribuţie normală atunci se va obţine un

model de maximă verosimilitate.

2

222

21 2

1exp

2

1,,, inn uuuup

Dacă se admite

22iii bxayu

atunci funcţia de verosimilitate L va fi

2

222 2

1exp

2

1iin

bxayL

cum

i

ii bxaynn

L 2

22

2

1ln

22ln

2ln

şi maximizarea lui L cere anularea derivatelor parţiale de ordinul întâi, se obţine

02

1

2

1)(ln

1)(ln

01)(ln

2

422

2

2

iii

iiii

iii

bxayL

bxayxb

L

bxaya

L

Se obţin astfel ecuaţiile

2iiii

ii

xbxayx

xbnay

2

24 22

1

n

bxay ii

adică

Page 101: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

22 1ii bxay

n

şi anume abaterea medie pătratică a erorii este şi estimarea sa cu maximă verosimilitate. De aceea, econometria pune mare accent pe modelele cu erori normal distribuite pentru că aşa cum se afirma şi în T.Schattles: „econometria este tehnica de estimare după principiul verosimilităţii maxime a metodelor matematicii economice” [175].

4.5 Metoda momentelor

Fie caracteristica X care are funcţia de probabilitate

f(x; s21 ,...,, ). Această metodă de estimare a parametrilor constă în determinarea parametrilor i , i =

s,1 din condiţiile că momentele iniţiale teoretice ale lui X au ca estimatori absolut corecţi momentele de

selecţie de ordin corespondent. Astfel se obţine sistemul de ecuaţii kk , k = s,1 din care se obţin

estimaţii pentru parametrii s21 ,...,, .

4.6 Metoda intervalelor de încredere

Fie caracteristica X care are funcţia de probabilitate f(x; ) , unde este parametrul necunoscut.

Metoda constă în determinarea a două funcţii de selecţie n,1i),X,...,X,X( n21ii astfel încât P(

21 ) = 1- , unde nu depinde de şi poartă numele de probabilitate de risc, iar 1- se numeşte

probabilitate de încredere. Intervalul aleator ( ), 21 poartă numele de interval de încredere pentru

parametrul .

De regulă, pentru a construi un interval de încredere pentru parametrul se caută determinarea unei statistici );X,...,X,X(ZZ n21nn a cărei lege de probabilitate să fie cunoscută şi să nu depindă de

. Se determină apoi un interval numeric ( )z,z 21 astfel încât P( 2n1 zZz ) = 1- . Din 2n1 zZz

se exprimă inegalitatea 21 şi de aici intervalul aleator ( ), 21 este determinat. Intervalul este cu

atât mai bun cu cât are lungimea mai mică şi cu cât 1- este mai mare.

Exemplu

1. Interval de încredere pentru valoarea medie teoretică dacă dispersia teoretică este cunoscută.

Se consideră caracteristica X care urmează legea normală N(m, ) cu m R necunoscut şi 0 cunoscut. Vom determina un interval de încredere pentru m cu o probabilitate de încredere 1- dată

şi cunoscând datele de selecţie n21 x,...,x,x , respectiv variabilele de selecţie n21 X,...,X,X

corespunzătoare.

Page 102: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Considerăm statistica

n

mXZn

, unde

n

1kkX

n

1X , care urmează legea normală N(0,1) ce

nu depinde de parametrul necunoscut m. Deci putem determina intervalul ( )z,z 21 astfel încât P(

)zZz 2n1 = 1- adică 1)z()z( 12 ,

x

0

2

t

dte2

1)x(

2

este funcţia lui Laplace şi

care are valorile tabelate. Intervalul are lungime minimă când este simetric faţă de origine adică

2112 zzz . Rezultă că

2

1)z(

21

şi folosind tabelele de valori pentru funcţia Laplace găsim

21z .

Am obţinut P(

1)z

n

mXz

21

21 adică

P( )zn

Xmzn

X2

12

1

= 1- . Deci intervalul de încredere pentru media

teoretică m este ( )m,m 21 , unde 2

11 zn

Xm

şi

212 z

nXm

, iar

n

1kkX

n

1X .

Se mai pot determina:

1. Intervalul de încredere pentru valoarea medie teoretică dacă dispersia teoretică este necunoscută.

2. Intervalul de încredere pentru diferenţa mediilor a două populaţii

3. Intervalul de încredere pentru dispersia teoretică

4.7. Verificarea ipotezelor statistice

Numim ipoteză statistică o presupunere relativă la o caracteristică X a unei populaţii C, fie privind legea de probabilitate a lui X, fie privind parametrii de care depinde această lege.

Metoda prin care o ipoteză statistică ce trebuie verificată se acceptă sau se respinge, poartă numele de test (criteriu) statistic.

Dacă testul statistic se referă la parametrii de care depinde legea de probabilitate a lui X spunem că avem un test parametric.

Dacă testul statistic se referă la natura legii de probabilitate atunci spunem că avem un test de concordanţă . Considerând caracteristica X cu legea de probabilitate ),;x(f parametru necunoscut,

Page 103: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

ipoteza principală ce se face asupra lui o numim ipoteză nulă şi o notăm A:H0 , iar orice altă

ipoteză ce se face relativ la parametrul o numim ipoteză admisibilă sau alternativă şi o notăm ,...2,1i,A:H ii .

In continuare, relativ la parametrul , vom considera doar două ipoteze: ipoteza nulă A:H0

, şi o ipoteză alternativă 11 A:H .

Verificarea ipotezei nule în ipoteza alternativă pentru o probabilitate de risc se face determinând o regiune U nR numită regiune critică a.î. P(X1,X2,…,Xn) U )H0 . Din modul cum construim această

regiune critică U obţinem diferite teste de verificare a ipotezei statistice H0.

Probabilitatea de risc se mai numeşte şi nivel de semnificaţie a testului.

Numim eroare de genul I respingerea unei ipoteze adevărate, iar probabilitatea de producere a acestei erori este )X,...,X,X((P n21 U )H0 şi poartă numele de riscul furnizorului.

Numim eroare de genul II admiterea unei ipoteze false, iar probabilitatea de producere a acestei erori este

)X,...,X,X((P n21 U )H1 şi poartă numele de riscul beneficiarului.

Se numeşte puterea testului probabilitatea de respingere a unei ipoteze false, adică

)X,...,X,X((P)( n21

~ U )H1 unde

~:H1 sau 1)(

~.

Nu există o metodă generală de construire a regiunii critice U, care ne duce la testul de verificare a ipotezei nule H0, dar se cunosc clase de probleme pentru care s-au construit astfel de regiuni critice şi corespunzător lor avem teste de verificare a ipotezelor statistice: Testul Z, Testul T(Student), Teste pentru compararea a două medii 2.3.14, Testul 2 , Testul F (Snédécor - Fischer), Testul Kolmogorov.

Exemplu: a) Testul T (dacă 21 necunoscute)

Considerăm statistica

21

21

222

211

2121

n

1

n

12nn

)1n()1n(

)mm()XX(T

care urmează legea

Student cu 2nnn 21 grade de libertate.

Pentru statistica T se determină intervalul numeric

2

1,n2

1,nt,t a.î.

1tTtP

21,n

21,n

Etapele aplicării testului:

Page 104: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

1) Se consideră 2n222211n11211 x,...,x,x;x,...,x,x; .

2) Se determină 2

1,nt

a.î. 2nnn,

21tF 21

21,n

n

3) Se calculează

21

21

222

211

21

n

1

n

12nn

)1n()1n(

xxt

2121 n

1k

22k2

2

22

n

1k

21k1

1

21

n

1kk2

2

2

n

1kk1

1

1 xx1n

1;xx

1n

1;x

n

1x;x

n

1x

4) Dacă 2

1,ntt

atunci ipoteza 21 mm este admisă, altfel este respinsă.

b) Testul T (dacă 21 necunoscute)

Considerăm statistica

2

22

1

21

2121

nn

)mm()XX(T

care urmează legea Student cu n grade de

libertate, n este dat de

2

22

1

21

1

21

2

2

1

2

;1

)1(

1

1

nn

nc

n

c

n

c

n

.

Pentru statistica T se determină intervalul numeric

2

1,n2

1,nt;t a.î.

1tTtP

21,n

21,n

.

Etapele aplicării testului:

1) Se consideră ;x,...,x,x;x,...,x,x; 2n222211n11211

2) Se determină 2

1,nt

a.î.

21tF

21,n

n

unde

Page 105: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

;1

)1(

1

1

2

2

1

2

n

c

n

c

n

2

22

1

21

1

21

nn

nc ;

21 n

1k

22k2

2

22

n

1k

21k1

1

21 xx

1n

1;xx

1n

1

21 n

1kk2

2

2

n

1kk1

1

1 xn

1x;x

n

1x

3) Se calculează

2

22

1

21

21

nn

xxt

4) Dacă 2

1,ntt

atunci ipoteza 21 mm este admisă, altfel este respinsă

4.8. Analiza de regresie şi metoda corelaţiei.

Analiza de regresie reprezintă o tehnică econometrică ce stabileşte o legătură între variabile, un model cauzal de previziune în care, din datele istorice se stabileşte o relaţie funcţională folosită apoi pentru a previziona valorile dependente ale variabilelor.

O variabilă este cunoscută sau estimată şi este folosită pentru a previziona valoarea unei variabile necunoscute.

În continuare considerăm cea mai simplă situaţie de regresie, pentru doar două variabile şi relaţia lor funcţională liniară.

Fie două serii statistice {x1, x2,..., xn} şi {y1, y2,..., yn} provenind din variabilele X, respectiv Y. Să presupunem că mx, my reprezintă mediile variabilelor X, respectiv Y şi σx2 şi σy2 reprezintă dispersiile lor. Prin covarianţa seriei de cupluri (xi, yi) ni ,1 numim numărul

yx

n

iiixy mmyx

n

1

1

iar prin coeficientul de corelaţie al celor două serii înţelegem

yx

xyxyr

În cazul în care se cunosc doar mediile şi dispersiile de sondaj yx, respectiv yx SS~

,~

, se folosesc

formulele:

Page 106: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

yxyxn

n

iiixy

1

1 şi

yx

xyxy

SSn

nr

~~1

Există şi o formă grafică de a vizualiza legătura liniară (atunci când există) dintre cele două serii statistice, prin vizualizarea unei drepte de regresie de ecuaţie y=ax+b, ce leagă cuplurile de observaţii, în sensul minimizării distanţei dintre punctele (xi, yi), corespunzătoare cuplului şi punctele (xi, axi+b) corespunzătoare dreptei de regresie.

Formulele de calcul ale coeficientului de regresie a şi a constantei b, ce apar în formulele dreptei de regresie, sunt:

x

yxya

, b = y – ax

sau

2

11

2

111

2

1

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

xxn

xyxxy

a

2

11

2

111

n

ii

n

ii

n

ii

n

ii

n

iii

xxn

yxyxn

b

iar ecuaţia primei drepte de regresie este

)( xxyyx

yxyx

iar a celei de-a doua

)( yyxxy

xxyy

După rezolvarea sistemului de ecuaţii şi aflarea parametrilor a şi b se pot calcula valorile teoretice ale variabilei dependente pentru fiecare valoare a lui x, ceilalţi factori fiind consideraţi constanţi. Pe baza valorilor teoretice ale ecuaţiei de regresie se pot face aprecieri cu privire la modificarea şi tendinţa evoluţiei fenomenului analizat sub influenţa variaţiei factorului independent.

În situaţia în care studiul legăturilor dintre fenomenele şi procesele economico-sociale se face pe baza unui număr mare de date statistice, se impune folosirea tabelului de corelaţii pentru a calcula valorile funcţiei de regresie astfel

Page 107: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

xyiixixi

yixixy

nyxnxbnxa

nynxbna

2

unde xn şi yn sunt frecvenţele grupelor după valorile x şi y xyn - frecvenţele valorilor de funcţii (x,y).

Metoda corelaţiei, specifică statisticii, este utilizată pentru studierea legăturilor statistice dintre caracteristicile variabilelor. Cu acestă metodă se determină cantitativ direcţia şi intensitatea legăturii de cauzalitate dintre fenomene. În acest scop este necesară luarea în considerare a factorilor determinanţi, cu acţiune esenţială, făcând abstracţie de factorii cu acţiune întâmplătoare. În funcţie de numărul factorilor de influenţă sau ale variabilelor luate în calcul, relaţia poate fi simplă (unifactorială sau bidimensională) sau multiplă. Această metodă reprezintă de fapt o cuantificare a intensităţii legăturilor dintre fenomenele şi procesele economice.

Pentru determinarea intensităţii acestor legături este necesar să se calculeze coeficientul de corelaţie. În cazul regresiei liniare simple acesta reprezintă media produselor abaterilor normale normate, iar în practică se foloseşte expresia

2222iiii

iiiixy

yynxxn

yxyxnr

Valorile coeficientului de corelaţie satisfac inegalitatea 11 xyr iar interpretarea lor este

următoarea:

- dacă 2,00 xyr între variabilele x şi y nu există legătură sau această legătură este foarte slabă;

dacă 5,02,0 xyr legătura este slabă; dacă 75,05,0 xyr legătura este de intensitate medie; dacă

175,0 xyr există o legătură deterministă sau de tip funcţional. Tipul de legătură dintre cele două

variabile este determinat prin semnul lui r, dacă r este pozitiv legătura este directă, pentru 0r legătura este indirectă. Când 0r variabilele sunt independente sau necorelate. Raportul de corelaţie (coeficientul Pearson) este un alt indicator al intensităţii legăturii. El poate fi aplicat atât în cazul regresiei liniare, cât şi în cazul regresiei neliniare simple sau multiple. Calculul acestui raport are la bază relaţia dintre variaţia totală a lui iy datorată tuturor categoriilor de cauze, variaţia datorată factorilor

neînregistraţi (consideraţi reziduali) şi variaţia datorată cauzelor esenţiale (variabila factorială ix ):

n

ixi

n

ixii

n

ii y

ny

nyy

n 1

2

1

2

1

2 111

iar expresia sa este:

2

2

1yy

yR

i

xii

XY şi 10

XYR

Page 108: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Dacă 0X

YR variabilele sunt independente şi nu există legătură între ele, iar dacă 1X

YR legătura este

funcţională. Pentru 0X

YR avem o legătură foarte slabă, pe când pentru 1X

YR legătura este intensă,

foarte puternică.

În cazul regresiei liniare multiple se calculează intensitatea legăturii dintre o caracteristică rezultativă

y şi două sau mai multe caracteristici factoriale mixi ,1, , după relaţia

2

2,,

,,,21

211

yy

y

i

xxxi

xxxym

m

şi yxirn mi ,1 .

Să mai notăm că numai în anumite cazuri putem vorbi de o regresie liniară consistentă, cu toate că, în principiu, modelul poate fi aplicat oricăror două variabile aleatoare cuplate. Uzual, înaintea folosirii modelului se verifică următoarele condiţii:

a) variabila dependentă Y este normal repartizată, pentru orice valoare a variabilei independente X;

b) dispersia lui Y este aceeaşi pentru orice valoare a lui X;

c) relaţia ce leagă cele două variabile trebuie să fie liniară.

Problema care se pune este cum verificăm a priori aceste condiţii. Fără a intra în amănunte este suficientă o diagramă care să arate „norul” de împrăştiere al valorilor celor două variabile.

4.9. Erori de măsurare şi estimare

„Cercetarea cantitativă în termenii teoriei probabilităţilor prezintă interes ca instrument de evaluare a utilităţii predictive a datelor obţinute”. Firesc, cunoscând doar statistica comportării unui proces economic, orice proiectare predictivă sau previzională va conţine un element de eroare. În momentul în care se evaluează diferite metode de previziune este nevoie şi de calculul măsurii eficienţei lor. Eroarea de previziune este mecanismul de ţinere a evidenţei acestei eficienţe. Când deciziile importante se bazează pe previziuni, erorile mari pot avea ca rezultat greşeli foarte costisitoare. Unele tipuri de erori de estimare sunt mai costisitoare decât altele. „În unele cazuri, direcţia erorii este critică; în alte cazuri mărimea erorii este cea mai importantă. Deşi costurile exacte ale erorilor sunt adesea dificil de determinat, erorile de previziune pot fi şi trebuie convertite în costuri, chiar dacă o astfel de conversie trebuie aproximată intuitiv”. Studii recente investighează impactul erorilor de previziune asupra costului de producţie-stocare. Aceste studii ilustrează modul în care reducerea erorii de previziune poate avea ca rezultat scăderea costurilor totale de producţie. Eroarea de previziune reprezintă diferenţa numerică dintre cererea previzionată şi cererea reală. Teoria probabilităţilor este cea care ne furnizează conceptele şi metodele unei teorii a erorii de măsurare şi previziune, pentru că, evident, o metodă de previziune care duce la erori mai mari este mai puţin de dorit decât una care duce la erori mai mici.

Definim acum valoarea medie absolută (întâlnită cu notaţia MAD în cărţile de specialitate). MAD reprezintă o măsură a erorii de previziune care reprezintă eroarea de previziune, indiferent de direcţie şi se

Page 109: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

calculează ca sumă a valorii absolute a erorii de previziune pentru toate perioadele, raportată la numărul total de perioade evaluat.

n

iripi

n

ipi cc

ne

nMAD

11

11

unde n este numărul de perioade, ep – eroarea de previziune, cp – cererea previzionată iar cr - cererea reală.

Se observă că dacă previziunea este perfectă cererea reală este egală cu cererea previzionată şi eroarea de previziune este zero. MAD exprimă magnitudinea dar nu şi direcţia erorii, se afirmă în [205]. Această măsurare a valorilor absolute se numeşte deviaţie absolută.

Între deviaţia medie absolută şi măsurarea clasică a dispersiei pentru eroarea de previziune există o relaţie atunci când erorile de previziune au o distribuţie normală:

δe 1,25MAD

O altă măsură a erorii de previziune, dar mai puţin folosită este abaterea. Abaterea reprezintă media erorilor de previziune, în funcţie de direcţie şi arată orice tendinţă constantă referitoare la supra sau subestimare. Este suma erorilor reale de previziune pentru toate perioadele raportată la numărul total de perioade evoluat.

n

iripi

n

ipi cc

ne

nA

11

11

Spre deosebire de MAD, abaterea indică tendinţa direcţională a erorilor de previziune. Dacă previziunea supraestimează repetat cererea reală, abaterea va avea o valoare pozitivă; subestimarea repetată va fi indicată printr-o valoare negativă.

Aceste serii permit econometricianului să facă comparaţii între diferitele modele, însă pot fi nefolositoare dacă variabilele tind către zero. În asemenea cazuri trebuie folosite alternativele

n

ipi

n

iripi

c

cc

MAD

1

1'

sau

nc

ncc

An

ipi

n

iripi

/

/

1

1'

În cadrul extrapolării nu sunt de dorit erori foarte mari. Acestea le putem detecta apelând la analiza erorilor medii pătratice:

Page 110: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

n

iripi cc

nMSE

1

21

Această eroare poate fi descompusă astfel

n

i

n

iripiripiripiripi cccccc

ncc

n 1 1

222 11

adică, se poate scrie ca diferenţă între eroarea medie şi o abatere la pătrat, acest lucru fiind relevant deoarece componenta abatere se poate ajusta în eventualitatea unei simulări

Un alt grup de mărimi folosite pentru evaluarea prognozelor ex-post sunt coeficienţii de inegalitate Theil [Applied Economic Forecasting, North-Holland, Amsterdam, 1966] care apar sub diferite forme:

n

iri

n

ipi

n

iripi

cn

cn

ccn

T

1

2

1

2

1

2

111

1

pentru o prognoză ideală T1 = 0, iar în caz opus T1 = 1.

Deoarece numitorul lui T1 nu are nici o interpretare s-a propus

n

ipi

n

iripi

cn

ccn

T

1

2

1

2

21

1

ca şi pentru T1, o prognoză ideală se obţine dacă T2 = 0.

Erori similare pot fi formulate în funcţie de schimbarea diferenţelor de ordinul întâi:

1

1

rrr

ppp

ccc

ccc

sau a schimbărilor procentuale

11 loglog~;loglog~ rrrppp cccccc

Apare astfel interpretarea

n

ipi

n

iripi

cn

ccn

T

1

2

1

2

21

1

Page 111: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

unde 2T = 1 este echivalentul prognozei status quo, deci 0 rc , iar valorile mai mari decât unitatea indică

faptul că prognoza actuală este mai „proastă” decât un simplu model de lucru aleator.

De exemplu, dacă o firmă producătoare de piese de schimb pentru automobile a previzionat 500 lunar pentru o perioadă de trei luni iar cererea reală a fost de 400, 560 şi 700 lunar:

1203

700500560500400500

MAD unităţi

53

3

700500560500400500

A unităţi

Putem afirma că firma producătoare nu dispune de un model foarte exact deoarece eroarea medie absolută este destul de mare, 24% din numărul previzionat de piese. În acest exemplu, deoarece cererea reală este în medie 553 de unităţi, s-a efectuat o „subestimare” de 9,6%.

Exemplu – Utilizarea funcţiilor de trend în previziune

Datele care caracterizează tendinţa de evoluţie a produsului intern brut (PIB) în orizontul de timp retrospectiv (t1-t7) sunt exprimate prin indicii cu bază fixă din tabelul 2.14.

Tabelul 4.1 Evoluţia produsului intern brut y0 = 100

Anii t1 t2 t3 t4 t5 t6 t7 PIB yt (indicii cu bază fixă) 104 107 110 114 117 120 124

Pe baza acestor date se cere:

a) Să se estimeze parametrii funcţiilor de trend: liniară, parabolică de ordinul II şi exponenţială avându-se în vedere condiţia �t’= 0 unde t’ = variabila independentă;

b) Să se calculeze valorile ajustate pe baza funcţiilor şi apoi să se calculeze abaterea medie pătratică procentuală şi coeficientul (raportul) de corelaţie pentru fiecare funcţie în parte şi pe baza acestora să se decidă care este funcţia cea mai bună pentru efectuarea prognozei;

c) Să se efectueze calculul de prognoză a PIB cu ajutorul funcţiei de trend alese la punctul precedent stabilindu-se indicele dinamicii PIB în anul t12 anul final al orizontului de previziune. Pornind de la indicele dinamicii PIB să se determine valoarea absolută a acestuia în anul t12 ştiind că în anul de bază t0 PIB a reprezentat 172500 miliarde lei;

d) Să se determine zona de încredere pentru funcţia aleasă determinându-se cu ajutorul algoritmului corespunzător funcţiei pentru care s-a optat la elaborarea prognozei varianta minimă (pesimistă) şi varianta maximă (optimistă) a previziunii. În acest scop se va avea în vedere o probabilitate p = 0,95 şi se va extrage din tabela repartiţiei Student coeficientul t� (p,f) corespunzător probabilităţii p şi numărului gradelor de libertate f ;

e) Să se scrie cele trei variante ale previziunii PIB atât sub formă de indici cât şi sub formă de valori absolute. Solutie

a) Pentru estimarea parametrilor funcţiilor de trend:

y = a ± bt

y = a + bt + ct2

Page 112: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

y = abt

vom utiliza metoda celor mai mici pătrate.

Metoda celor mai mici pătrate se bazează pe minimizarea sumei:

minimyyn

1i

2'ti i

,

unde: yi = valorile empirice ale variabilei dependente;

'ti

y = valorile calculate pe baza funcţiei de trend;

i = 1,2, …, n = numărul termenilor seriei dinamice (numărul de ani).

Întrucât avem de calculat parametrii pentru trei funcţii vom proceda etapizat, pentru fiecare funcţie în parte, calculând şi valorile ajustate ale seriei de date şi respectiv abaterea medie pătratică procentuală şi coeficientul (raportul) de corelaţie pentru ca în final să putem decide asupra celei mai potrivite funcţii pentru previziunea PIB.

a1) Pentru funcţia de trend liniară:

y = a + bt minimbtayn

1i

2i

.

Anulând derivatele parţiale în raport cu parametrii a şi b găsim:

01btay2n

1ii

0tbtay2n

1ii

de unde rezultă sistemul de ecuaţii normale:

ii2ii

ii

yttbta

ytbna

Pentru simplificarea calculelor şi ţinând cont de condiţia impusă de problemă 0t'i , vom găsi:

2'i

i'i

i

i'i

2'i

i

t

ytb

n

ya

yttb

yna

Pe baza datelor problemei cele necesare calculului se regăsesc în tabelul 2.15.

Tabelul 4.2

Page 113: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Anii yi 'it *) 2'

it i'i yt i

'ity '

ti iyy 100

y

yy

i

'ti i

2

i

'ti 100

y

yyi

y2

t1 104 -3 9 -312 103,75 0,25 0,240 0,05778 10816

t2 107 -2 4 -214 107,07 -0,07 -0,065 0,00428 11449

t3 110 -1 1 -110 110,39 -0,39 -0,355 0,12570 12100

t4 114 0 0 0 113,71 0,29 0,254 0,06471 12996

t5 117 1 1 117 117,03 -0,03 -0,026 0,00066 13689

t6 120 2 4 240 120,35 -0,35 -0,292 0,08507 14400

T7 124 3 9 372 123,67 0,33 0,266 0,07076 15376

� 796 0 28 93 - - - 0,40896 90826

*) Observaţie: pentru a face �t’ = 0 se procedează astfel:

dacă seria de date este formată dintr-un număr impar de termeni atunci se pune 0 în mijloc şi cu valori negative din 1 în 1 se merge spre primul termen al seriei iar cu valori pozitive tot din 1 în 1 se merge spre ultimul termen al seriei obţinându-se în final �t’ = 0;

dacă seria de date este formată dintr-un număr par de termeni atunci termenii din mijloc primesc valorile –1 şi respectiv +1 continuându-se cu valori negative din 2 în 2 spre primul termen al seriei şi cu valori pozitive tot din 2 în 2 spre ultimul termen al seriei obţinându-se în final �t’ = 0. Exemplu:

t1 t2 t3 t4 t5 t6 -5 -3 -1 1 3 5

şi �t’ = 0.

În general avem: ttt i'i unde

n

tt (media lui t) .

Pe baza datelor din tabelul 2.15, găsim:

32,328

93

t

ytb

71,1137

796

n

ya

2'i

i'i

i

Deci funcţia este 'i

't t32,371,113y .

Pe baza acestei funcţii calculăm valorile teoretice 'ti

y

75,103)3(32,371,113y't1

07,107)2(32,371,113y't2

39,110)1(32,371,113y't3

71,113)0(32,371,113y't4

Page 114: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

03,117)1(32,371,113y't5

35,120)2(32,371,113y't6

67,123)3(32,371,113y't7

Calculăm abaterea medie pătratică procentuală cu relaţia:

n

100y

yy

%

2

i

'ti i

,

unde: yi = valorile empirice;

'ti

y = valorile teoretice (calculate)

Pe baza datelor din tabelul 2.15, găsim:

%2417,07

40896,0%

Calculăm coeficientul de corelaţie cu relaţia:

2'

i2i

2'i

2'i

'i

'ii

'i

yynttn

ytytnr

Pe baza datelor din tabelul 2.15 găsim:

999134,0]633616908267[]0287[

937r

a2) Pentru funcţia de trend parabolică de ordinul II:

y = a + bt + ct2, pornind de la

minimctbtayn

1i

22i

şi anulând derivatele parţiale în raport cu parametrii a, b şi c,

găsim:

01ctbtay2n

1i

2'i

'ii

0tctbtay2n

1i

'i

2'i

'ii

0tctbtay2n

1i

2'i

2'i

'ii

Page 115: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

de unde rezultă sistemul de ecuaţii normale:

i2'

i4'

i3'

i2'

i

i'i

3'i

2'i

'i

i2'

i'i

yttctbta

yttctbta

ytctbna

Făcând 0tt 3'i

'i şi sistemul de rezolvat devine:

i2'

i4'

i2'

i

i'i

2'i

i2'

i

yttcta

yttb

ytcna

(*)

Pe baza datelor problemei cele necesare calculului se regăsesc în tabelul 2.16.

Pe baza datelor din tabelul 2.11 sistemul (*) devine:

3187c196a28

93b28

796c28a7

a = 113,57; b = 3,32; c = 0,036

Tabelul 4.3

Anii yi 'it 2'

it 4'it i

'i yt i

2'i yt '

tiy '

ti iyy

2

i

'ti 100

y

yyi

yyi

2'ti i

yy 2i yy

t1 104 -3 9 81 -312 936 103,93 0,07 0,00453 -9,71 0,0049 94,2841

t2 107 -2 4 16 -214 428 107,07 -0,07 0,00453 -6,71 0,0049 45,0241

t3 110 -1 1 1 -110 110 110,29 -0,29 0,06950 -3,71 0,0841 13,7641

t4 114 0 0 0 0 0 113,57 0,43 0,14227 0,29 0,1849 0,0841

t5 117 1 1 1 117 117 116,93 0,07 0,00453 3,29 0,0049 10,8241

t6 120 2 4 16 240 480 120,35 -0,35 0,08507 6,29 0,1225 39,5641

t7 124 3 9 81 372 1116 123,85 0,15 0,01463 10,29 0,0225 105,8841

� 796 0 28 196 93 3187 - - 0,32506 - 0,4287 309,4287

Deci funcţia parabolică de ordinul II este:

2'i

'i

't t036,0t32,357,113y

Page 116: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Pe baza ei calculăm valorile teoretice:

93,103)9(036,0)3(32,357,113y't1

07,107)4(036,0)2(32,357,113y't2

29,110)1(036,0)1(32,357,113y't3

57,113)0(036,0)0(32,357,113y't4

93,116)1(036,0)1(32,357,113y't5

35,120)4(036,0)2(32,357,113y't6

85,123)9(036,0)3(32,357,113y't7

Calculând abaterea medie pătratică procentuală cu relaţia deja cunoscută şi folosind datele din tabelul 2.16 găsim:

%2155,07

32506,0%

Întrucât legătura dintre PIB şi trend în cazul funcţiei 2'i

'i

't ctbtay nu este de tip liniar vom

calcula raportul de corelaţie cu ajutorul relaţiei:

2i

2'ti

yy

yy1 i unde:

yi = valorile empirice ale variabilei dependente;

'ti

y = valorile calculate cu ajutorul funcţiei parabolice;

n

yy i = media aritmetică simplă a valorilor lui yi .

Pornind de la formula prezentată mai sus şi ţinând cont de datele calculate în tabelul 2.11 găsim:

99931,04287,309

4287,01

57,1137

124120117114110107104y

a3) În cazul funcţiei exponenţiale

Page 117: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

yt = abt pentru uşurinţa calculelor logaritmăm (liniarizăm) şi obţinem:

lgyt = lga + t·lgb

şi notând lgyt = y’

lga = a’

lgb = b’

obţinem y’ = a’ + tb’ şi din

imminyy2'

ti i vom deduce, anulând derivatele parţiale în raport cu a’ şi b’, sistemul

ii2'

i'i

i'i

ylgttblgt)a(lg

ylgt)b(lgalgn şi făcând 0t'

i rezultă:

'2i

i'i

i

t

y lgt=b lg

n

y lg=a lg

Pentru calculul parametrilor a şi b vom utiliza datele problemei şi cele din tabelul 2.17.

Tabelul 4.4

Anii yi lgyi 'it i

'i ylgt '

tiy '

ti iyy

2

i

'ti 100

y

yyi

yyi

2i yy 2'ti i

yy

t1 104 2,01703 -3 -6,05109 103,99 0,01 0,00009 -9,71 0,0001 94,2841

t2 107 2,02938 -2 -4,05876 107,07 -0,07 0,00453 -6,71 0,0049 45,0241

t3 110 2,04139 -1 -2,04139 110,25 -0,25 0,05165 -3,71 0,0625 13,7641

t4 114 2,05690 0 0 113,52 0,48 0,17729 0,29 0,2304 0,0841

t5 117 2,06818 1 2,06818 116,88 0,12 0,01052 3,29 0,0144 10,8241

t6 120 2,07918 2 4,15836 120,35 -0,35 0,08507 6,29 0,1225 39,5641

t7 124 2,09342 3 6,28026 123,92 0,08 0,00416 10,29 0,0064 105,8841

� 796 14,38548 0 0,35556 - - 0,33331 - 0,4412 309,4287

Page 118: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

03,1b0127,028

35556,0=b lg

52,113a05507,27

38548,14=a lg

Deci 'i

'i

t'

t03,152,113y

Pentru calculul valorilor teoretice vom folosi expresia liniarizată

blgtalgylg 'i

'i şi vom obţine:

99,103y017,2)3(01269,005507,2ylg '

t

'

t 11

07,107y02969,2)2(01269,005507,2ylg '

t

'

t 22

25,110y04238,2)1(01269,005507,2ylg '

t

'

t 33

52,113y05507,2)0(01269,005507,2ylg '

t

'

t 44

88,116y06776,2)1(01269,005507,2ylg '

t

'

t 55

35,120y08045,2)2(01269,005507,2ylg '

t

'

t 66

92,123y09314,2)3(01269,005507,2ylg '

t

'

t 77

Pe baza datelor din tabelul 2.17 calculăm abaterea medie pătratică procentuală şi raportul de corelaţie:

%2182,07

33331,0%

99929,04287,309

4412,01

Comparând valorile abaterilor medii pătratice procentuale şi ale raportului (coeficientului) de corelaţie calculate pentru cele trei funcţii vom găsi:

Page 119: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Funcţia Valoarea � Valoarea r sau � 'i

'

tbtay

i 0,2417 0,99913

2'i

'i

'

tctbtay

i 0,2155 0,99931

'i

'i

t'

tbay 0,2182 0,99929

De aici deducem faptul că funcţia parabolică de ordinul II 2'i

'i

'

tctbtay

i este cea mai bună

funcţie pentru elaborarea prognozei PIB, deoarece are cea mai mică valoare pentru � şi cea mai mare valoare pentru �.

c) Pentru calcul va trebui să determinăm valoarea lui 'it corespunzătoare anului t12 , anul final al

orizontului de previziune:

8412ttt 12'12

Înlocuind valoarea calculată în funcţie găsim:

%43,142)64(036,0)8(32,357,113y't12

.

Rezultă că în anul final al orizontului de previziune PIB va creşte cu 42,43% faţă de anul de bază t0 .

În cifre absolute:

75,2456911725004243,1y't12

miliarde lei.

d) Pentru stabilirea variantei minime şi maxime a previziunii PIB se parcurg etapele:

Calculul valorii

327,037

4287,0

cn

yySy

2'ti i

;

Calculul lui Sp cu relaţia

224

42242

2ttn

nttt2tt

t

1SySp

valorile lui t sunt atribuite cronologic iar t� reprezintă anul final al orizontului previzional.

Rezultă

97842,0

14046767

12714414024676144

140

1327,0Sp

2

4

Din tabela repartiţiei Student pentru 4 grade de libertate şi o probabilitate de 0,95 găsim valoarea t� = 2,776.

Page 120: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Calculăm varianta minimă şi maximă a previziunii cu relaţiile:

ymin = ymed – Sp · t� = 142,43 – 2,71 = 139,72%

ymax = ymed + Sp · t� = 142,43 + 2,71 = 145,14%

Rezultă, deci, că evoluţia PIB se va înscrie în anul t12 între 139,72% şi 145,14% (probabilitate 0,95). În cifre absolute, avem:

2410173972,1172500y12tmin miliarde lei

75,2456914243,1172500y12tmed miliarde lei

5,2503664514,1172500y12tmax miliarde lei

– Să se estimeze dreapta de regresie care modelează relaţia dintre cei doi parametri.

– În timpul verii, proprietarul locuinţei îmbunătăţeşte izolaţia termică a casei sale. Drept care în luna februarie următoare, la o diferenţă medie de 40, se consuma 895 mc de gaz. Se poate spune că lucrarea efectuată reduce consumul de gaz?

SERIILE DINAMICE IN ECONOMIE

Un şir de valori pe care le înregistrează la momente sau intervale de timp succesive o anumită caracteristică statistică la o unitate sau o colectivitate statistică reprezintă o serie dinamică (sau cronologică).

Prin studierea seriilor dinamice se studiază variaţia în timp a unui fenomen evidenţiindu-se creşterile sau descreşterile de nivel, modificările de structură. În funcţie de scopul urmărit, există mai multe metode de observare şi analiză a acestor serii:

Page 121: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Pentru a stabili nivelul şi modificarea de nivel, în timp, a unui fenomen se folosesc indicatorii de nivel, exprimaţi în mărimi absolute, relative sau medii;

Pentru a determina variaţia de la o perioadă la alta şi influenţa factorilor se foloseşte metoda indicilor dinamicii fenomenelor;

Pentru estimarea tendinţai (trendului), a oscilaţiilor sezoniere şi a variaţiilor aleatoare se foloseşte metoda de analiză a componentelor;

Pentru extrapolarea trendului se folosesc metode de prognoză statistică. Din punct de vedere econometric, aceste serii ajută la dezvăluirea unor regularităţi într-un proces evolutiv, ceea ce înseamnă un pas înainte spre specificarea precisă a unor variabile care acţionează în timp, reprezentând totodată „măsura artificială” a unor variabile necuantificabile dar care sunt elemente ale mecanismului economic studiat.

În cadrul econometriei se urmăresc, în determinarea trendului trei tendinţe:

Trendul direct, ce se referă la anumite fenomene ce nu pot fi nemijlocit specificate; Trendul ca factor auxiliar în funcţii în care nu toţi factorii care acţionează asupra unui proces pot fi

explicitaţi; Trendul care face separare analitică a acelor factori care sunt specificaţi dar nu sunt în acelaşi timp

cuantificabili. Majoritatea seriilor dinamice întâlnite în economie au o tendinţă de lungă durată, peste care, acolo unde este cazul se suprapun componente ce conţin modificări:

Ciclice reprezentate de oscilaţii în jurul tendinţei generale, oscilaţii care au o anumită periodicitate în manifestare;

Sezoniere, generate de acţiunea unor factori sezonieri, care apar de obicei pe parcursul unui an. Aceste oscilaţii se produc sub influenţa unor factori naturali – climatici (producţia agricolă) sau cu caracter social (concedii, sărbători, tradiţii), lungimea lor fiind de regulă constantă;

Accidentale, care apar datorită unor factori întâmplători, cu acţiune imprevizibilă. Se manifestă sub forma unor abateri de la ceea ce este sistematic în evoluţia fenomenului analizat. Erorile de observare a datelor se înscriu tot în această categorie.

- Fig.5.1 -

În funcţie de aceste componente, prezentăm schematic câteva modele de evoluţii în dinamică (fig.5.1).

Metoda de determinare şi analiză a trendului

Model de trend 

liniar 

Model de trend 

liniar şi ciclu 

Model de trend liniar 

şi modificări 

sezoniere 

Page 122: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Deoarece sistemul de indicatori ai unei serii dinamice nu este suficient pentru a releva schimbările care au loc în fiecare an, cele datorate unei mişcări de durată (chiar cu tendinţă seculară), cele cu oscilaţii nesistematice sau cele ciclice (care pot fi periodice sau neperiodice) este necesar să apelăm la modelarea acestora. În general agregarea celor patru componente ale unei serii dinamice: trendul (T), componenta ciclică (C), componenta sezonieră (S) şi componenta aleatoare (E) se face prin combinarea acestora fie ca model aditiv (fig.5.2) de combinare a componentelor unei serii dinamice T = C + S + E,

Model aditiv de combinare a componentelor unei serii dinamice

- Fig.5.2 -

fie ca model multiplicativ T = C · S · E (fig.5.3) de combinare a componentelor unei serii dinamice

Model multiplicativ de combinare a componentelor unei serii dinamice

- Fig.5.3 -

În practică, însă, această analiză nu urmează întotdeauna un anumit model şi atunci trebuie ales un model care să aproximeze cel mai bine evoluţia reală a fenomenului studiat. Cunoaşterea tendinţei, a legii de evoluţie a procesului economic studiat nu este însă posibilă decât prin măsurarea acţiunii fiecărei categorii de factori implicaţi.

În sens larg, a determina trendul unei serii dinamice sau a ajusta o astfel de serie înseamnă a înlocui termenii săi yi, ni ,1 cu termenii yi* ai unei serii teoretice, yi* fiind obţinuţi prin metode de cuantificare şi eliminare a abaterilor provocate de factori cu caracter periodic şi aleator.

Analiza acestor serii de date statistice pentru elaborarea studiilor previzionale porneşte de la început de la ipotezele formulate de ştiinţele economice, pentru că din datele respective nu rezultă de cele mai multe ori dacă între fenomene există sau nu o legătură cauzală sau de asociere. Dacă dependenţa dintre date a fost admisă, trebuie stabilită forma acestei dependenţe, adică descrierea legăturii dintre fiecare valoare a

y y 

t t

t

y y 

t

Page 123: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

variabilei dependente şi fiecare valoare a variabilei sau variabilelor interdependente ale seriilor de date statistice. Conceptul de ajustare porneşte de la ipoteza că legătura poate fi descrisă dar nu neapărat şi explicată [147]. Funcţia econometrică ce formalizează matematic legătura dintre două variabile generează, pentru variabila dependentă, o nouă serie de date yi*. Descrierea cu suficientă precizie a formei legăturii dintre variabile presupune cunoaşterea unor serii de date statistice suficient de lungi, ceea ce de multe ori este greu de asigurat. Subliniem că în calcule nu se urmăreşte stabilirea unor corelaţii exacte ci a unora convenabile, cu abateri minime faţă de datele reale, iar rezultatele obţinute cu ajutorul funcţiilor econometrice trebuie neapărat asociate şi cu alte metode de analiză sau cercetare prospectivă, atât pentru compararea rezultatelor cât şi pentru sporirea gradului de siguranţă.

Metoda folosită frecvent pentru elaborarea studiilor previzionale prin „prelungirea tendinţelor trecute ale variabilelor”, care se bazează pe cunoaşterea relaţiilor cauzale este metoda extrapolării. „Extrapolarea transportă în mod simplist trecutul spre viitor” [38]. Există două modalităţi de aplicare a acestei metode: extrapolarea mecanică şi extrapolarea euristică şi mai multe procedee de extrapolare: extrapolarea analitică; extrapolarea prin curbe înfăşurătoare; extrapolarea fenomenologică.

Extrapolarea mecanică presupune că relaţiile formate între variabile nu se modifică în viitor, admiţând astfel, prin continuitate, prelungirea tendinţelor manifestate în trecut.

În cadrul extrapolării euristice, pornindu-se de la analiza perioadei precedente, se introduc anumite corecţii în curba de evoluţie viitoare a fenomenului în funcţie de modificarea previzibilă a desfăşurării fenomenului sau de anumite opţiuni ale factorilor de decizie.

Extrapolarea analitică pleacă de la o serie de valori ale seriei dinamice, valori pe care le prelucrează putând astfel să estimeze comportarea ulterioară a fenomenului descris de seria respectivă. Această extrapolare se realizează cu ajutorul sporului mediu absolut, al ritmului mediu anual şi al funcţiilor de corelaţie. Formula folosită în această situaţie este:

ynyy tt 0

unde yt este valoarea variabilei de previziune în anul final al orizontului, y0 valoarea variabilei în anul de bază,

y sporul mediu absolut al variabilei de previziune în perioada statistică, iar nt este numărul anilor din

perioada de previziune.

În cazul unei extrapolări euristice, sporul mediu absolut se corectează prin înmulţire cu un coeficient k (subunitar sau supraunitar, după cum se apreciază modificarea tendinţei evoluţiei):

kynyy tt 0

Extrapolarea cu ajutorul ritmului mediu anual se aplică în special când este vorba despre fenomene ce evoluează sub formă de progresie geometrică:

tt ryy )1(0

în care )1( r este ritmul mediu anual de creştere a variabilei, iar t numărul de ani ai perioadei de previziune.

La fel ca mai sus, în cadrul extrapolării euristice se utilizează coeficientul k:

Page 124: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

tt ryy )1(0 k

Alegerea şi estimarea unei curbe. Cea mai dificilă problemă de determinare a trendului este alegerea tipului de funcţii şi estimarea parametrilor. Funcţia aleasă trebuie să descrie în modul cel mai adecvat tendinţa de evoluţie din perioada precedentă, tendinţă care se presupune că se va afirma şi în viitor. De aceea sunt necesare următoarele succesiuni [38]:

Definirea obiectului previziunii care condiţionează, fixarea orizontului de previziune şi stabilirea gradului de siguranţă al acesteia;

Alegerea variabilelor independente; Determinarea perioadei pentru analiza retrospectivă; Alegerea funcţiei de extrapolare care descrie cel mai bine evoluţia trecută a variabilei dependente; Estimarea parametrilor funcţiei de extrapolare sau parametrizarea acesteia; Aprecierea calităţii funcţiilor de extrapolare cu ajutorul estimatorilor statistici; Efectuarea calculului de previziune (particularităţi în raport cu modelul econometric al funcţiei de

extrapolare); Analiza economică a rezultatelor obţinute, pentru a selecta cea mai bună variantă din mai multe

posibile. Reprezentarea grafică este metoda cea mai simplă şi poate da rezultate satisfăcătoare în cazul funcţiilor de trend şi de corelaţie simplă.

O metodă cu mai mare precizie este metoda Hanstein sau analitică. Aplicarea acestei metode necesită următoarele operaţii:

Calculul fucţiilor asociate unei funcţii de extrapolare; Reprezentarea grafică a funcţiilor asociate; Analiza comparativă a reprezentărilor respective cu graficele corespunzătoare asociatelor unor funcţii

de extrapolare. Fiecare funcţie de extrapolare are trei funcţii asociate, cu ajutorul cărora se pot aprecia direcţiile de creştere, natura procesului, simetria etc.

Derivata absolută:

t

yt

)( ceea ce în cazul diferenţelor finite devine 1)( tt yyt

Derivata relativă:

yt

yt :)(

ceea ce pentru diferenţe finite înseamnă 1

1)(

t

tt

y

yyt

Funcţia de elasticitate:

t

t

y

yt

:)( sau, pentru diferenţe finite t

y

yyt

t

tt

1

1)(

Revenind asupra celor trei tendinţe urmărite în econometrie în determinarea trendului subliniem că funcţiile de extrapolare pot fi funcţii de corelaţie, când variabila sau variabilele independente sunt mărimi economice sau tehnice, ca de exemplu y = f(x) sau y = f(xi) şi, funcţii de tendinţă, adică y = f(t). Cele mai

Page 125: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

cunoscute modele matematice ale funcţiilor de extrapolare sunt funcţiile liniare, parabolice, exponenţiale, hiperbolice, logaritmice, logistice etc. Pentru estimarea parametrilor acestor funcţii se foloseşte metoda celor mai mici pătrate.

Extrapolarea cu ajutorul curbei înfăşurătoare constă în reprezentarea grafică a mai multor curbe de evoluţie a unor activităţi şi extrapolarea tendinţelor pe o înfăşurare, chiar dacă nu se cunoaşte cu siguranţă soluţia concretă ce va apare în viitor.

În literatura economică noţiunea de curbă înfăşurătoare este definită de profesorul M.Botez în cursul său de prognoză astfel [8]:

Curba înfăşurătoare de speţa I

- Fig.5.4 -

Dacă {yα = fα(x)} este o familie finită de funcţii pozitive fα(x) ≥ 0 definite pe intervalele Iα = (aα,bα) şi {gα} curbele care reprezintă grafic aceste funcţii se numeşte înfăşurătoare de gradul I a acestei familii funcţia care este definită pe

II , care asociază oricărui Ix numărul )(max)( xfxy

. Notăm C1 curba

înfăşurătoare a acestei funcţii (fig.5.4) care este, de fapt, o reuniune de porţiuni ale unei curbe gα.

Considerând aceeaşi familie de curbe {gα} numim înfăşurătoare de speta a II-a a acestei familii, curba C2, tangentă tuturor curbelor acestei familii (fig.5.5).

1 2

3

5

4

   a1               a2 b1          a3     a4    b2   a5     b4 b3                          b5

x

C1

  a1            a2    b1    a3           b2        a4 b3                     b4

x

C2

Page 126: CE ESTE STATISTICA? Statistica ș ță ăț ă și procesele de ... · 1.2.1 Statistica descriptivă Statistica descriptiv ă cuprinde metodele de colectare, analiză, sintetizare

Curba înfăşurătoare de speţa a II-a

- Fig.5.5 -

O analiză globală a fenomenului în urma căruia să se deducă legile ce guvernează variabila respectivului fenomen se face cu ajutorul extrapolării fenomenologice. Această metodă urmăreşte identificarea unor legi în evoluţia fenomenului studiat şi încearcă să descrie variaţia pe baza acestora, concentrându-se pe analiza factorilor ce modifică tendinţele manifestate în perioada trecută. De exemplu, o funcţie de forma

y = a ± bkt

este pusă în evidenţă de studierea variaţiei randamentelor agregatelor şi a consumului specific de combustibil în analizarea evoluţiei producţiei de energie electrică.