Cursuri biostatistica 2015
-
Upload
chris-theclaw -
Category
Documents
-
view
45 -
download
6
description
Transcript of Cursuri biostatistica 2015
1. Introducere în statistică2. Statistica descriptivă
Curs 3
BIOSTATISTICA
Ce este statistica?
Statistica este ştiinţa care culege, sintetizează, descrie, interpretează datele referitoare la fenomene generale (DEX ’98)
Obiectul statisticii moderne îl constituie colectarea, organizarea, analiza şi interpretarea datelor în vederea adoptării deciziilor.
Ce este statistica?
Clasificare: Statistica matematică Statistica economică Statistica industrială Statistica socială Statistica medicală (biostatistica)
Ce este statistica?
Statistica matematică este o ramură a matematicii care elaborează noţiunile şi metodele folosite în statistică
Statistica economică (sau Statistica pentru afaceri = Business Statistics) este ramura statisticii care studiază fenomenele şi procesele economice, cu aplicaţii în asigurări, finanţe, marketing, management ş.a.
1Facult
atea d
e Farm
acie
Ce este statistica?
Statistica industrială (în engleză Engineering Statistics sau Industrial Statistics) studiază fenomenele şi procesele din inginerie şi industrie, cu aplicaţii în proiectarea experimentelor, controlul statistic al calităţii, fiabilitate etc.)
Statistica socială studiază fenomenele sociale, cu aplicaţii în demografie, recensăminte, analize politice etc.
Statistica medicală (biostatistica): aplicaţii în medicină, farmacie şi ştiinţe biologice
Biostatistica – statistică aplicată în medicinăObiectivele biostatisticii:1. Starea sănătăţii populaţiei:
- Reproducerea şi mortalitatea populaţiei;- Morbiditatea şi invaliditatea;- Parametrii dezvoltării fizice.
2. Legătura dintre influenţa mediului ambiant şi factorilor sociali asuprasănătăţii populaţiei.
3. Acumularea şi analiza datelor referitor la activitatea instituţiilor şicadrelor medicale.
4. Evaluarea eficacităţii metodelor de profilaxie şi tratament.
5. Planificarea, economia şi finanţarea ocrotirii sănătăţii.
Pornind de la obiective, deosebim următoarele compartimente alebiostatisticii:
- Statistica sănătăţii populaţiei;- Statistica ocrotirii sănătăţii;- Statistica managementului de profilaxie, tratament şi altor activităţi în medicină.
Scopul statisticii
Scopul statisticii poate fi dedus din clasificarea acesteia:- statistica descriptivă- statistica analitică.
Statistica descriptivă se ocupă de prezentarea, clasificarea şisintetizarea datelor din observaţii. Aceasta prezintă informaţia existentăîn datele respective cu ajutorul indicatorilor statistici - numere ceexprimă caracteristici sau tendinţe ale fenomenului studiat.
Statistica analitică (inferențială) foloseşte teoria probabilităţilorpentru extragerea şi prelucrarea informaţiei statistice; în multe cazuriaceste metode pun în evidenţă legităţi statistice.
Biostatistica – scopuriDescriptiv (statistica descriptivă): evidențierea caracteristicilorimportante ale unui set de date medicale.Metode:• Organizarea• Sumarizarea• Caracterizarea unui set de dateInstrumente:• Grafice:
– Distribuţia de frecvenţe (histograma)– Distribuţia de frecvenţe (histograma diferenţelor pentru date
perechi)– Compararea grafică a distribuţiilor datelor– Identificarea relaţiilor liniare– Compararea relaţiilor liniare
2Facult
atea d
e Farm
acie
Biostatistica – scopuri
Inferenţial (statistica inferenţială):Cum (şi când) generalizăm rezultatele obţinutede la un eşantion la populaţia generală
Populaţia
Eşantionul
Inferenta statistica
Metode de colectare a datelor
Principalele metode de colectare sau de culegere a datelor sunt:
SURSE DE DATE
STATISTICE
OBSERVARE EXPERIMEN-TARE SONDAJ SIMULARE
Metode de colectare a datelor
Observarea directă este cea mai simplă metodă de obţinere a datelor statistice şi constă din observarea şi înregistrarea directă (nemijlocită) a datelor dintr-un anumit eşantion sau populaţie statistică
Experimentele reprezintă o metodă de a obţine date statistice prin proiectarea şi planificarea modalităţii de obţinere a datelor statistice respective
Sondajele statistice reprezintă o metodă de culegere a datelor statistice, ce constă în obţinerea de informaţii de la diferite categorii de populaţii
Metode de colectare a datelor
Tehnicile de sondaj utilizează: interviuri (directe, telefonice) chestionare (directe, prin poştă, e-mail, internet)
Pentru analiza datelor statistice şi pentru decizie se utilizează şi date obţinute prin metode de simulare
Indiferent de metoda de colectare a datelor, pentru inferenţa statistică este importantă eşantionarea datelor
3Facult
atea d
e Farm
acie
Populaţie statistică şi eşantion statistic Definiţie: O populaţie statistică este o mulţime sau o
colecţie de obiecte despre care observăm şi înregistrăm date, în scopul unei analize statistice.
De obicei, prin populaţie statistică, în mod empiric, înţelegem o mulţime de persoane umane:
persoanele din Judeţul Constanța care suferă de hipertensiunea arterială esenţială (HTA)persoanele din judeţul Constanța de sex feminin care suferă de HTApersoanele din România care suferă de o afecțiune şi care au fost operate, etc.
Populaţie statistică şi eşantion statistic
Definiţie: Măsurile numerice ce caracterizează o populaţie statistică se numesc parametri statistici.
Parametrii unei populaţii se notează cu litere greceşti
De exemplu, media unei populaţii se notează cu , iar abaterea standard cu .
Definiţie: Măsurile numerice ce caracterizează un eşantion statistic se numesc statistici sau indicatori statistici.
De exemplu, media unui eşantion se notează cu , iar abaterea standard cu s.
Populaţie statistică şi eşantion statistic
Definiţie: Un eşantion statistic este o submulţime de obiecte extrase dintr-o populaţie statistică.
Populaţie statistică şi eşantion statistic
Populaţie şi eşantion
EŞANTIONAREPOPULAŢIE
EŞANTION
INFERENŢĂ
4Facult
atea d
e Farm
acie
Metode de eşantionare
Metodele de eşantionare sunt de două tipuri: aleatoare (sau probabiliste) nealeatoare (sau deterministe)
Eşantionarea aleatoare se bazează pe tehnica numerelor aleatoare (întâmplătoare) şi pe teoria probabilităţilor
Eşantionarea nealeatoare se bazează, în general pe raţionament şi pe modul în care datele sunt disponibile
Metode de eşantionare EŞANTIONARE
NEALEATOARE
RAŢIONAMENT
COTĂ PARTE
ALEATOARE
SIMPLĂ
SISTEMATICĂ
STRATIFICATĂ
PE GRUPURI
Un eşantion aleator simplu de efectiv n este un eşantion selectat întâmplător dintr-o populaţie astfel încât orice eşantion diferit să aibă aceeaşi probabilitate de prelevare sau de extragere.
Un eşantion aleator sistematic de efectiv k se obţine prin divizarea populaţiei cu efectivul N în keşantioane cu efectivul n şi apoi extragerea elementului de acelaşi rang (ales întâmplător) din fiecare eşantion format
5Facult
atea d
e Farm
acie
Un eşantion aleator stratificat de efectiv n se obţine prin separarea populaţiei cu efectivul N în nsubpopulaţii sau straturi şi apoi extragerea de eşantioane aleatoare simple din fiecare strat.
Un eşantion aleator pe grupuri (pe clustere) de efectiv n se obţine prin separarea populaţiei cu efectivul N în n grupuri sau clustere şi apoi extragerea aleatoare a unui anumit grup.
Tipuri de date statistice Unitatea statistică reprezintă elementul component al unei
colectivitțăi statistice (de ex. în cazul populației unei țări, unitățile statistice sunt indivizii). Unitățile statistice sunt elementele de observare, măsurare şi înregistrare; prin ele se observă, măsoară şi înregistrează o populație.
O variabilă statistică este o anumită caracteristică înregistrată la nivelul unităților statistice ale unei populaţii sau ale unui eşantion
Valorile unei variabile statistice sunt valorile observate şi posibile ale variabilei respective
Datele statistice sunt valorile observate şi înregistrate ale unei variabile statistice
Informaţiile statistice rezultă din prelucrarea şi analiza datelor statistice
Datele statistice pot fi clasificate după:Modul de exprimare:
A. CALITATIVE
1. nominale - exprimate în cuvinte: profesie, culoarea părului, culoarea tegumentelor, starea la externare a unui bolnav, grupa de acțiune farmacologică (antiinflamator, antipiretic, antireumatic), etc.;
2. ordinale - sunt date calitative nominale, în care caracteristicile sau categoriile sunt ordonate: Graduarea uneiafectiuni (Incipient, Moderat, Sever, Stare critică)
Tipuri de date statistice
6Facult
atea d
e Farm
acie
B. CANTITATIVE (numerice), exprimate în cifre:înălţime, greutate, tensiune arterială, puls, temperatură, etc.
1. continue (măsurabile)- pot lua orice valoare din scara lor de variaţie: greutatea unei persoane, înălţimea, temperatura, etc.;
2. discrete (numărabile)- pot lua numai valori întregi: numărul de copii, număr de vizite, flux de pacienți / ziîntr-o farmacie, etc;
Modul de obţinere:- primare, obţinute în etapa de colectare a datelor;- derivate, obţinute în procesul prelucrării datelor statistice
Tipuri de date statistice Variabila calitativă Tip Valori / UM
Clasificarea hotelurilor
Ordinală *, **, ***, ****, *****
Satisfacţia clientului (calitatea produsului)
Nominală Foarte redusă, Redusă, Satisfăcătoare, Bună,
Foarte bună
Clasificarea funcţiilor didactice
Nominală Preparator, Asistent, Lector, Conferenţiar,
Profesor
Variabila cantitativă Tip Valori / UM
Faţa apărută la aruncare unui zar
Discretă 1, 2, 3, 4, 5, 6
Nota obţinută la un examen
Discretă 4, 5, ..., 9, 10
Înălţimea Continuă cm
Greutatea Continuă kg
Poate fi:• Alternativă
• Simetrică
• Asimetrica (pe dreapta)
Distribuţia datelor în colectivitatea selectivă
• Asimetrică (pe stânga)
• Asimetrică (bimodală)
Sistematizarea datelor statistice Gruparea statistică reprezintă o operaţie de sistematizare a datelor
primare, prin care pentru caracteristicile înregistrate, evidenţiază tipurile calitative existente în cadrul populaţiei cercetate.
Prin grupare se omogenizează unităţile colectivităţii din punct de vedereal variaţiei uneia sau mai multor caracteristici.Grupările pot fi clasificate astfel:1. după obiectivul urmărit:
- grupări destinate prezentării sistematice a datelor culese;- grupări destinate analizei statistice.
2. după forma de exprimare a caracteristicilor:- grupări după caracteristici numerice sau cantitative;- grupări după caracteristici nenumerice sau calitative.
7Facult
atea d
e Farm
acie
Gruparea statistică3. după numărul de caracteristici în funcţie de care se face gruparea:
- grupări simple – făcute după o singură caracteristică;- grupări combinate – făcute după două sau mai multe
caracteristici.4. după conţinutul caracteristicilor:
- grupări după caracteristici de spaţiu;- grupări după caracteristici de timp;- grupări după caracteristice atributive.
5. după mărimea intervalelor de grupare:- grupări cu intervale egale;- grupări cu intervale neegale (inegale).
Prezentarea datelor statisticeTabele statisticeUn tabel statistic trebuie să cuprindă următoarele elemente: titlul general al tabelului şi titlurile interioare, unitatea de măsură utilizată, notele explicative, sursa datelor.Tabelele pot fi:- simple (ce nu cuprind grupări)- de grupare (o singură caracteristică de grupare)- combinate (grupări după două caracteristici)- de corelație (grupări după două sau mai multe caracteristici,legate între ele cauzal)
Prezentarea datelor statisticeGrafice Elementele specifice ale unui grafic sunt următoarele: axele
de coordonate, scara, rețeaua graficului, legenda.
Reprezentarea în coordonate rectangulare (I, II) şi coordonate polare (III)
Scările utilizate în reprezentările grafice pot fi scări uniforme (scara aritmetică în care diviziunile sunt echidistante) sau scări neuniforme (de tipul gaussiană, respectiv logaritmică).
Prezentarea datelor statistice
Distribuții statistice unidimensionale
Tabele de frecvențăSerii unidimensionale cu variabila exprimată numeric (cantitativ)
Considerăm o colectivitate P pentru care definim o variabilăstatistică X ale cărei valori (variante) sunt:
{x1, ... ,xn} Aceste valori pot fi grupate:
- pe variante xi, cărora asociem frecvența de apariție corespunzătoare ni, unde i=1,k în cazul unei variabile discrete- pe intervale Ji=(xi-1, xi), la care asociem frecvența de apariție corespunzătoare ni, unde i=1,k în cazul unei variabile continue
8Facult
atea d
e Farm
acie
Tabelul de frecvențe – variabile discrete
Varianta Frecvenţa absolută
(
Frecvenţa relativă
(
Frecvenţa absolută cumulată
(
Frecvenţa relativă cumulată
(
x1 n1 N1= n1 F1= f1
x2 n2 N2= N1 + n2 F2=F 1 + f2
... ... ... ...
xi ni Ni= Ni-1 + ni Fi=Fi-1 + fi
... ... ... ...
xk nk Nk= Nk-1 + nk= n Fk= Fk-1 + fk= 1
Total n 1 - -
Prezentarea datelor statistice
Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)
Variabile discrete
Realizarea tabelelor de frecvență utilizând programul ExcelAplicație: Considerăm o colectivitate statistică (P) formata din 19 pacienti (nou nascuți) pentru care definim si urmărim experimental variabila scor apgar:VSA = Variabila scor Apgar = {1,2,...,10}
Funcția COUNTIF(Range, Criteria)
Reprezentări grafice folosind Excel
Prezentarea datelor statistice
Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)
Variabile discrete
0 0 0 0 0
1 1
6 6
5
0
1
2
3
4
5
6
7
1 2 3 4 5 6 7 8 9 10
0.00%5.26%
5.26%
31.58%31.58%
26.32%
1 2 3 4 5 6 7 8 9 10
0 0 0 0 0
1 1
6 6
5
0
1
2
3
4
5
6
7
1 2 3 4 5 6 7 8 9 10
Scor
PoligonulFrecvențelor
Grafic Coloană
Grafic Pie
00000
11
66
5
0 2 4 6 8
123456789
10
Scor
Grafic Bar
Tabelul de frecvențe – variabile continue
Intervale Frecvenţa absolută
(
Frecvenţa relativă
(
Frecvenţa absolută cumulată
(
Frecvenţa relativă cumulată
(
(x0-x1] n1 N1= n1 F1= f1
(x1-x2] n2 N2= N1 + n2 F2=F 1 + f2
... ... ... ...
(xi-1-xi] ni Ni= Ni-1 + ni Fi=Fi-1 + fi
... ... ... ...
(xk-1-xk] nk Nk= Nk-1 + nk= n Fk= Fk-1 + fk= 1
Total n 1 - -
Prezentarea datelor statistice
Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)
Variabile continue
9Facult
atea d
e Farm
acie
Prezentarea datelor statistice
Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)
Variabile continue
Realizarea tabelelor de frecvență utilizând programul ExcelAplicație: Considerăm o colectivitate statistică (P) formata din 19 pacienti (nou nascuți) pentru care definim si urmărim experimental variabila greutate:VG = Variabila greutate (Kg)
Funcția FREQUENCY(data_array, bins_array)
Reprezentări grafice folosind Excel
Prezentarea datelor statistice
Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)
Variabile continue
Histograma și PoligonulFrecvențelor
Histograma permite să se cunoască zonele de concentrare şi de dispersie a distribuției, precum şi compararea efectivelor unei grupe cu alta.
Grafic Pie
10%
21%
32%
21%
11% 5%(3,3-3,7]
(3,7-4,1]
(4,1-4,5]
(4,5-4,9]
(4,9-5,3]
(5,3-5,7]
2
4
6
4
2
1
0
1
2
3
4
5
6
7
(3,3-3,7]
(3,7-4,1]
(4,1-4,5]
(4,5-4,9]
(4,9-5,3]
(5,3-5,7]0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
0
1
2
3
4
5
6
7
Freq
uency
Bin
Histogramă
Frequency
Cumulative %
Prezentarea datelor statistice
Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)
Variabile continue
Gruparea pe intervale neegale (gruparea tipologică) - se poate realiza fie pornind de la intervalele egale stabilite anterior şi regruparea acestora pentru a diminua fluctuaţia excesivă a frecvenţelor de la o grupă la alta, sau pentru a acoperi una sau mai multe grupe vide (fără unităţi), fie pe baza particulari-tăţilor caracteristicii cercetate, sau a necesităţilor analizei.Dacă ⋯ , efectivele nu se pot compara de la o clasă la alta, fiind necesar calculul frecvențele reduse ( .Înălțimea dreptunghiului corespunzător intervalului este proporțională cu frecvența redusă ( calculată cu formula:
ki = coeficientul de reducere a frecvențelorni = efectivul corespunzător intervalului Ji=(xi-1, xi)Li, Lmin = mărimea intervalului Ji, Jmin
10Facult
atea d
e Farm
acie
Prezentarea datelor statistice
Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată numeric (cantitativ)
Variabile continue
2
6
5
0
1
2
3
4
5
6
7
(10-30] (30-40] (40-60]
hi
Cifra de afaceri
Prezentarea datelor statistice
Distribuții statistice unidimensionaleSerii unidimensionale cu variabila exprimată calitativ (nenumeric)
Gruparea în funcţie de o caracteristică nominativă (calitativă sau nenumerică)seamănă cu gruparea unităţilor colectivităţii cercetate după valorile (variantele) distincte ale unei caracteristici numerice (variabile discrete). De astă dată, se începe cu listarea stărilor calitative distincte ale caracteristicii de grupare care pot fi identificate în colectivitatea cercetată. Aceste stări calitative distincte se mai numesc şi atribute (variante calitative).
Cele mai uzuale metode de descriere şi reprezentare grafică a mulţimilor de date calitative sunt:
graficul (diagrama) cu bare (coloană, bar)graficul circular (pie)
11Facult
atea d
e Farm
acie
• Serii cronologice• Serii de spațiu
• Distribuții bidimensionale
Biostatistică
Curs 4
Sistematizarea și reprezentarea distribuțiilor statistice unidimensionale (Tabele de frecvență, Reprezentare grafică)Date cantitative
o Continueo Discrete
Date calitative (nenumerice)
Serii de timp (cronologice) Serii de spațiu Sistematizarea și reprezentarea distribuțiilor statistice
unidimensionale
Curs 4
Curs 3
Serii de timp (Serii cronologice)Variabila
timp tiNumărul unităților
yit1
t2…tk
y1
y2
...yk
Total yk
Macheta tabelului cronologic
Seria cronologică prezintă variația unei caracteristici în funcție de timp (yt = f(t)), unde: yt = variația caracteristicii studiate; ti = variația de timp.După timpul la care se referă pot fi:o Serii cronologice de fluxuri (intervale) sunt acele serii în care valorile caracteristicii studiate se înregistrează pe luni, trimestre, ani etc. Valoarea centralizată se poate obține prin cumularea unităților înregistrate.o Serii cronologice de stocuri sau de momente sunt valorile caracteristicii obținute la diferite momente de timp
Reprezentarea grafică seriilor de timp (seriilor cronologice)Reprezentarea grafică a seriilor de timp (cronologice) se realizează cu ajutorul cronogramei si a diagramelor polare. Cronograma se foloseste pentru a desprinde tendința de
dezvoltare a fenomenelor pe fiecare etapă analizată. Se construieste în cadranul I; pe axa absciselor (OX) se construieste scara timpului, iar pe axa ordonatelor (OY), scara valorilor seriei cronologice.
La stabilirea scării timpului si nivelurilor trebuie să se respecte proporționalitatea, pentru că raportul dintre scări are o importanță mare asupra formei curbei si poate da o imagine denaturată asupra dezvoltării fenomenului.
12Facult
atea d
e Farm
acie
Cronogramele – prin benzi, coloane şi liniare Reprezentarea grafică seriilor de timp (seriilor cronologice)
Diagrama polară (radială) ajută la interpretarea gradului şi formei de variație sezonieră. În statistica social-economică se întâlnesc frecvent fenomene care prezintă variații sezoniere săptămânale, trimestriale etc., ca de exemplu, consumul antibiotice, consumul de bere şi băuturi răcoritoare ş.a. Fenomenele cu caracter sezonier sunt specifice îndeosebi activităților din turism, comerț şi agricultură.
La construirea graficului se foloseşte o rețea de cercuri concentrice, iar raza este proporțională cu nivelul mediu al indicatorilor; cercul se împarte în atâtea părți câți indicatori sunt. Drept abscisă serveşte circumferința cercului pe care se notează timpul, iar ca ordonată raza sau poziția razei, pe care se notează cantitățile.
Trimestrul I II III IV Mediatrimestrială
Producția (nr. cutii) 250 350 700 300 400
Producția trimestrială a fabricii „X”.
Serii de spațiuUnități
teritorialeValoarea
caracteristiciiyi
A
B…T
yA
yB
...yT
Total yT
Macheta tabelului cronologic
Seria teritorială prezintă variația teritorială a caracteristicii analizate. În aceste serii, valorile caracteristicii se referă la unitățile teritoriale din care fac parte. Aceste serii se obțin după criterii administrativ-teritoriale, ceea ce înseamnă că spațiul este variabil, timpul și structura organizatorică fiind considerate constante.
13Facult
atea d
e Farm
acie
Reprezentări grafice pentru seriile de spațiuSeriile de spațiu (teritoriale) se pot reprezenta grafic prin cartograme și cartodiagrame. Cartograma prezintă distribuția în spațiu a intensității de
manifestare a unui fenomen. Construirea graficuluipresupune: gruparea unităților teritoriale după o variabilă considerată; construirea unei hărți în care se delimitează unitățile teritoriale; hașurarea suprafețelor unităților teritoriale în funcție de
intensitatea de manifestare a fenomenului studiat.
Reprezentări grafice pentru seriile de spațiu Cartodiagramele reprezintă un tip special de cartogramă, care
constă dintr-o combinație a cartogramei cu diagramele (cerc, pătrat, coloane etc.) care se aplică pe cartogramă. Pe hartă se vor construi figurile geometrice amintite mai sus, pentru a reda volumul sau structura diferiților indicatori distribuiți din punct de vedere teritorial. La întocmirea graficului se va ține seama de obiectivul urmărit.
La reprezentarea grafică a distribuțiilor teritoriale ale diferiților indicatori se mai pot folosi si figuri naturale sau simbolice, care sunt proporționale cu valoareaindicatorilor de reprezentat.
Distribuțiilor statistice bidimensionaleO distribuție bidimensională prezintă variația unităților unei colectivități simultan după două caracteristici de grupare.
Considerăm o colectivitate C cu n elemente la nivelul căreia definimdouă variabile:
- X cu valorile xi, i=1,… ,- Y cu valorile yj, j=1,...,p
Dacă notăm cu nij elementele colectivității care au simultan valoarea xi şi valoarea yj, atunci o distribuție bidimensională este definită prinansamblul de triplete:
(xi, yj, nij)
Distribuțiilor statistice bidimensionale
În funcție de modul de exprimare a variabilelor x, y se pot trata următoarele tipuri de distribuții bidimensionale: distribuții cu ambele variabile exprimate numeric;
distribuții cu o variabilă exprimată numeric și o variabilă
exprimată nenumeric;
distribuții cu ambele variabile exprimate nenumeric.
14Facult
atea d
e Farm
acie
Distribuțiilor statistice bidimensionaleA. distribuții cu ambele variabile exprimate numeric
În cadrul unei distribuții bidimensionale se disting două distribuții marginale, în X, respectiv în Y și (m+p) distribuții condiționate.
Prezentarea tabelară a unei distribuții bidimensionale (grupare pe variante)Tabel de contingență
YX
y1 y2 ... yj ... yp ni•
x1 n11 n12 ... n1j ... n1p n1•
x2 n21 n22 ... n2j ... n2p n2•
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nip ni•
... ... ... ... ... ... ...
xm nm1 nm2 ... nmj ... nmp nm•
n•j n•1 n•2 ... n•j ... n•p n=∑ ∑ ∑ ∙ ∑ ⋅
Distribuțiilor statistice bidimensionaleA. Distribuții cu ambele variabile exprimate numeric
Exemplu: Considerăm un eşantion format din 30 de reprezentanţi medicali aiunei firme de medicamente, pe care îl analizăm din punct de vedere alnumărului produselor vândute (variabila X), respectiv al salariului obţinut defiecare în parte (variabila Y) timp de o luna.
1.Legătura dintre produsele vândute şi salariul lunar – diagramanor de puncte.2.Distribuţia eşantionului de reprezentanţi medicali în funcţie de produsele vândute şi salariul lunar – diagramaparalelipipedelor.3.Distribuţia eşantionului de reprezentanţi medicali în funcţie de produsele vândute şi salariul lunar – suprafaţă poliedrală.
Distribuțiilor statistice bidimensionaleA. Distribuții cu ambele variabile exprimate numericReprezentare grafică
Corelograma (Diagrama nor de puncte)• Reprezentarea grafică se realizează cu corelograma cunoscută sub
denumirea „diagrama nor de puncte”. Se construieste în cadranul I alsistemului de axe rectangulare. Pe axa OX (axa absciselor) se ia o scară a valorilor caracteristicii factoriale (x), iar pe OY (axa ordonatelor) valorile caracteristicii rezultative. Pe fiecare axă se va face întrerupere în origine cu două liniuțe paralele, pentru ca cele două scări de reprezentare să înceapă cu valorile cele mai apropiate de limitele inferioare înregistrate pentru cele două caracteristici.
0
200
400
600
800
1000
1200
0 20 40 60 8015Fac
ultate
a de F
armac
ie
Fiecare unitate purtătoare a celor două caracteristici (xi, yj), se reprezintă pe grafic printr-un punct. Acest tip de grafic stabileste existența, direcția legăturii șiforma de legătură dintre cele două variabile.
Pentru interpretarea legăturii putem folosi următoarele variante de grafice care se referă la funcțiile liniare:
Legătură liniară directă Legătură liniară inversă Lipsă de legătură
Legătura directă între cele două variabile poate fi și neliniară, în acest caz, pe grafic, apărând o linie curbă.
Hiperbolă Parabolă Funcție exponențială
OBSERVAȚIE: Graficul prezintă avantajul că pe baza lui se poateconstata nu numai existența legăturii și sensul ei, dar mai ales forma către care tinde să se realizeze, deci se poate elabora o ipoteză statistică care să fie utilizată la aplicarea metodelor analitice de corelație.
Diagrama paralelipipedelor Reprezintă o transpunere a histogramei într-un spațiu cu trei
dimensiuni; această diagramă se trasează ridicând pefiecare suprafață luată ca bază, un paralelipipedproporțional cu frecvența nij corespunzătoare fiecăreiperechi de valori (xi, yi).
Distribuțiilor statistice bidimensionaleA. Distribuții cu ambele variabile exprimate numericReprezentare grafică
(200-400](400-600]
(600-800](800-1000]
(1000-1200]
0
1
2
3
4
5
6
7
(20-30](30-40](40-50](50-60](60-70]
Y
n ij
X
Suprafața poliedrală Reprezintă o transpunere a
poligonului sau curbei frecvențelorîntr-un spațiu cu trei dimensiuni; acesta se construieşte astfel: se ridică din centrul fiecărei suprafețe luate ca bază, o linie verticală de lungime proporțională cu frecvența nij, apoi se unesc capetele acestorverticale (pentru fiecare grupă şisubgrupă) fie printr-o linie frântă(varianta poligonului frecvențelor), fie printr-o curbă (varianta curbeifrecvențelor)
Distribuțiilor statistice bidimensionaleA. Distribuții cu ambele variabile exprimate numericReprezentare grafică
(200-400](400-600]
(600-800](800-1000](1000-…
0
1
2
3
4
5
6
7
(20-30](30-40](40-50](50-60](60-70]
2 2
0 0 0
0
5
2
0 0
01
7
12
0 0
2 2 2
0 0 0 0
2
Y
n ij
X
16Facult
atea d
e Farm
acie
Pentru acest tip de distribuție datele sunt prezentate într-un tabel decontingență şi sunt reprezentate grafic prin diagrame de structură construiteîn acelaşi plan.Pentru un tabel de contingență, xi reprezintă categorii ale variabilei X degrupare, yi reprezintă categorii ale variabilei Y de grupare, iar nij reprezintăefectivul care posedă simultan categoria „i” şi „j” ale celor două variabile.
Distribuțiilor statistice bidimensionaleB. Serii cu ambele caracteristici exprimate atributivReprezentare grafică
O situaţie aparte o întâlnim în cazul variabilelor alternative, cânddatele se pot prezenta într-un tabel de asociere de forma
.
Distribuțiilor statistice bidimensionaleB. Serii cu ambele caracteristici exprimate atributivReprezentare grafică
Situația vaccinării pe sexe din mediul rural şi urban
0
500
1000
1500
2000
2500
3000
3500
RuralUrban
200 800
1950
2500Feminin
Masculin
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
RuralUrban
9% 24%
91% 76%
Feminin
Masculin
Reprezentarea grafică a distribuțiilor bidimensionale cu o variabilă exprimată cantitativ şi una atributiv se face prindiagrame de tip piramida vârstelor. Construirea acestui tip de diagramă constă în ridicarea în acelaşi plan a două histograme răsturnate.
Distribuțiilor statistice bidimensionaleC. Serii cu o caracteristică exprimată atributiv şi una numericReprezentare grafică
Reprezentarea grafică a distribuției unei populații după vârstă, corelatăcu distribuția după sex, utilizând diagrama de tip piramida vârstelor
17Facult
atea d
e Farm
acie
INDICATORI AI TENDINȚEI CENTRALE, VARIAȚIEI ȘI
FORMEI
METODE NUMERICE PENTRU DESCRIEREA DATELOR STATISTICE
Curs 5
Obiective Cunoaşterea metodelor numerice de
descriere a datelor statistice
Analiza principalelor metode numericepentru descrierea datelor cantitative negrupate
Analiza principalelor metode numericepentru descrierea datelor cantitative grupate
Cuprins Indicatori ai tendinței centrale
Media Modul Mediana
Indicatori ai variației Amplitudinea Varianța Abaterea standard Coeficientul de variaţie
Indicatori ai formei Coeficientul de asimetrie Coeficientul de boltire
Metode numerice pentru descrierea datelor statistice
Indicatorii numerici descriptivi sunt valori numerice calculate dintr-o mulţime de date, care ne permit să ne facem o imagine mentală asupra distribuţiei datelor.
Anterior, metodele grafice pentru descrierea datelor ne-au furnizat o reprezentare vizuală asupra distribuţiei datelor.
18Facult
atea d
e Farm
acie
INDICATORI STATISTICI PRIMARI ŞI DERIVAŢIDEFINIŢIE: Indicatorul statistic — în sens larg — reprezentă expresianumerică a unor fenomene şi procese social-economice, definite în timp,spaţiu şi structură organizatorică.
Indicatorii statistici pot fi primari şi derivaţi. Indicatorii primari se obţin de regulă în etapa de
sistematizare a datelor statistice, prin centralizarea şiagregarea acestora.
Indicatorii derivaţi se obţin prin prelucrarea mărimilor absolute ale indicatorilor primari.
Cele trei proprietăţi majore ale seriilor de date numerice, pe care leputem analiza folosind indicatorii statistici sunt cele privitoare la tendinţa centrală, la variabilitatea şi la forma distribuţiilor.
1. Indicatorii tendinţei centraleO clasificare a indicatorilor tendinţei centrale se poate face în funcţie de modul de determinare a lor, în:
indicatori (mărimi) medii de calcul: media aritmetică, armonică,pătratică, geometrică etc.;
indicatori medii de poziţie: modul, mediana.
Cele mai frecvent utilizate măsuri ale tendinţei centrale sunt: media aritmetică mediana modul.
În definiţiile şi relaţiile ce urmează, vom nota cele n valori ale eşantionului de date negrupate cu:
Valorile ordonate ale eşantionului le vom nota cu:
sau
Media aritmetică a unei populaţii statistice cu un efectiv de N valori este prin definiţie:
1. Indicatorii tendinţei centrale1.1 Media aritmetică
A. Variabile numerice negrupate
Definiţie: Media aritmetică a unui eşantion cu un efectiv de n valorieste prin definiţie:
=AVERAGE(range)Exemplu: =AVERAGE(A2:A20)
Media aritmetică a unei populaţii statistice se notează prin simbolul .
1. Indicatorii tendinţei centrale1.1 Media aritmetică
B. Variabile numerice grupate pe variante (discrete)
Media aritmetică a unui eşantion în care datele au fost sistematizate într-o serie de distribuţie unde valorile (xi ,i = 1, m) apar cu frecvenţele ni este:
Se numește şi medie aritmetică ponderată.19Fac
ultate
a de F
armac
ie
1. Indicatorii tendinţei centrale1.1 Media aritmetică
B. Variabile numerice grupate pe variante
Aplicație: Considerăm o colectivitate statistică formată din 40 de hematii pentru care definim variabila statistică diametru Vd (microni). Datele au fost sistematizate în tabelul de frecvență:
1. Indicatorii tendinţei centrale1.1 Media aritmetică
C. Variabile numerice grupate pe intervale (continue)
Media aritmetică a unui eşantion în care datele suntprezentate pe intervale de tipul Ji=(xi-1,xi), la careasociem frecvența de apariție corespunzătoare ni, cu i=1,m atunci media este:
unde este mijlocul intervalului Ji .
Se numește şi medie aritmetică ponderată.
1. Indicatorii tendinţei centrale1.1 Media aritmetică
C. Variabile numerice grupate pe intervale
Aplicație: Considerăm o colectivitate statistică formată din 19 nou născuți pentru care definim variabila statistică Greutate (Kg).
1. Indicatorii tendinţei centrale1.1 Media aritmetică
D. Variabile nenumerice alternative
20Facult
atea d
e Farm
acie
Media aritmetică este cea mai uzuală măsură a tendinţei centrale, utilizată pentru localizarea “centrului” unei distribuţii statistice.
Media aritmetică este influenţată de prezența valorilor extreme (denumite şi “valori aberante” din punct de vedere statistic).
1. Indicatorii tendinţei centrale1.1 Media aritmetică
Definiţie: Modul (sau dominanta) unui eşantion ordonat crescător cu un efectiv de n valori
este prin definiţie valoarea sau valorile cu cea mai mare frecvenţă de apariţie.
=
1. Indicatorii tendinţei centrale1.2 Modul
A. Variabile numerice negrupate
=MODE(Range)
Exemplu: =MODE(A2:A20)
1. Indicatorii tendinţei centrale1.2 Modul
B. Variabile numerice grupate pe variante (discrete)
Dacă variabila este discretă, pentru determinareamodului se găseşte mai întâi frecvența maximă a seriei(ni = nmax) şi apoi se citeşte valoarea xi corespunzătoarecare este egală practic cu modul (Mo = xi).
Modul
1. Indicatorii tendinţei centrale1.2 Modul
C. Variabile numerice grupate pe intervale (continue) Dacă variabila este continuă, iar datele sunt grupate pe
intervale de variație, pentru determinarea modului se găseşte mai întâi frecvența maximă nmax, iar apoi se citeşte intervalulmodal (xi-1, xi).
Modul se poate obține (prin interpolare în intervalul modal) cu relația:
unde:
d = xi - xi-1 reprezintă mărimea intervalului modal;d1 = ni - ni-1 reprezintă diferența dintre frecvența intervalului modal (ni) şi frecvența intervalului anterior celui modal (ni-1);d2 = ni – ni+1 reprezintă diferența dintre frecvența intervalului modal (ni) şi frecvența intervalului următor celui modal (ni+1);xi-1 reprezintă limita inferioară a intervalului modal.
21Facult
atea d
e Farm
acie
1. Indicatorii tendinţei centrale1.2 Modul
C. Variabile numerice grupate pe intervale (continue)
Modul se poate aproxima grafic cu ajutorul histogramei frecvenţei relative, coborând o perpendiculară pe abscisă, din punctul în care se intersectează dreptele trasate.
Pentru intervale inegale, modul se determină asemănător, fie prininterpolare în intervalul modal, fie pe cale grafică, după ce în prealabils-au făcut corecțiile necesare conform metodei descrise la construcțiahistogramei pe intervale inegale.
O distribuţie cu un singur mod se numeşte unimodală; O distribuţie este bimodală dacă are două valori dominante (moduri) şi
multimodală dacă are mai mult de două moduri.
1. Indicatorii tendinţei centrale1.2 Modul
Distribuţie de frecvenţe: a) unimodală; b) bimodală; c) multimodală
Definiţie: Mediana unui eşantion ordonat crescător cu un efectiv de n valorieste prin definiţie acea valoarea care împartedatele în două grupe egale :
1. Indicatorii tendinţei centrale1.3 Mediana
A. Variabile numerice negrupate
=MEDIAN(Range)
Exemplu: =MEDIAN(A2:A20)
1. Indicatorii tendinţei centrale1.3 Mediana
A. Variabile numerice negrupate
Exemplu: Se consideră eşantionul ordonat cu n = 11 valori:
8,6 8,7 9,2 9,7 9,9 10,1 10,3 10,6 10,7 10,8 11,0
Exemplul: Să se calculeze mediana pentru eşantionul
3,9 4,4 4,5 4,8 4,9 5,1 5,5 5,6 5,6 5,9
Deoarece n = 10 par avem:
22Facult
atea d
e Farm
acie
1. Indicatorii tendinţei centrale1.3 Mediana
B. Variabile numerice grupate pe variante (discrete)
• aflarea frecvențelor cumulate absolute (Ni)
• calcularea unității mediane (m), m=
• localizarea acesteia în şirul frecvențelor cumulate(cu condiția ca Ni ≥ m)
Valoarea xi cecorespunde lui Nireprezintă mediana
1. Indicatorii tendinţei centrale1.3 Mediana
C. Variabile numerice grupate pe intervale (continue)
aflarea frecvențelor cumulate absolute (Ni) calcularea unității mediane (m) localizarea lui m în şirul frecvențelor cumulate (cu condiția ca Ni ≥ m) determinarea intervalului median (IM) (în aceeaşi condiție) calcularea medianei utilizând relația:
unde: d – reprezintă mărimea IM;xi-1 - reprezintă limita inferioară a IM;m - unitatea mediană;Ni-1 – frecvența cumulată anterior IM;ni – frecvența IM.
Pentru o distribuție unimodală simetrică, valorile centrale, medie, mod, mediană, ocupă acelaşi loc, iar între acesteaexistă o relație de egalitate.
Pentru o distribuție unimodală asimetrică, cele trei valori centrale ocupă locuri diferite după cum urmează:
1. Indicatorii tendinţei centrale1.4 Relații între valorile tendinței centrale
a) distribuţie simetrică; b) distribuţie cu asimetrie pozitivă; c) distribuţie cu asimetrie negativă
2. Indicatorii variaţiei În analiza unei serii statistice de date cantitative ne interesează,
pe lângă indicatorii tendinţei centrale şi indicatorii împrăştieriivalorilor.
Astfel, două serii statistice pot diferi prin tendinţa centrală prin împrăştierea datelor sau prin amândouă.
Cele mai frecvent utilizate măsuri ale variaţiei sunt: amplitudinea varianța sau dispersia abaterea standard sau deviația standard coeficientul de variaţie
a) Distribuţii cu tendinţă centrală diferită; b) Distribuţii cu variabilitate diferită; c) Distribuţii cu tendinţă centrală şi variabilitate diferite
23Facult
atea d
e Farm
acie
Definiţie: Amplitudinea unui eşantion cu un efectiv de n valori este prin definiţie diferenţa dintre cea mai mare şi cea mai mică valoare a eşantionului, adică:
unde:
2. Indicatorii variației2.1 Amplitudinea
• Avantajul amplitudinii este reprezentat de simplitatea calculului acesteia.
• Simplitatea este însă şi un dezavantaj, deoarece amplitudinea se determină numai din două valori ale eşantionului (maximă şi minimă), fără a ţine seama de celelalte valori.
• Amplitudinea este o măsură relativ insensibilă la variaţia datelor unui eşantion, ea fiind utilizată în practică pentru eşantioane cu efective reduse.
Definiţie: Dispersia unui eşantion cu un efectiv de nvalori este prin definiţie:
unde este media aritmetică a eşantionului .
=VAR (Range)
2. Indicatorii variației2.2 Varianța sau dispersia
A. Variabile numerice negrupate
Dispersia sau varianţa unei populaţii statistice se notează cu 2
Dispersia unui eşantion cu un efectiv de n valori în care valorile (xi ,i = 1, m) apar cu frecvenţele ni este:
2. Indicatorii variației2.2 Varianța sau dispersia
B. Variabile numerice grupate pe variante (discrete)
C. Variabile numerice grupate pe intervale (continue)
Dispersia unui eşantion cu un efectiv de n valori în care datele sunt prezentate pe intervale de tipul Ji=(xi-1,xi), este:
unde este mijlocul intervalului Ji.
Definiţie: Abaterea standard a unui eşantion cu un efectiv de n valori este prin definiţie:
unde este media aritmetică a eşantionului .
=STDEV(Range)
2. Indicatorii variației2.3 Abaterea standard
A. Variabile numerice negrupate
Abaterea standard a unei populaţii statistice se notează cu
24Facult
atea d
e Farm
acie
Abaterea standard a unui eşantion cu un efectiv de n valori în care valorile (xi ,i = 1, m) apar cu frecvenţele ni este:
2. Indicatorii variației2.3 Abaterea standard
B. Variabile numerice grupate pe variante (discrete)
C. Variabile numerice grupate pe intervale (continue)
Abaterea standard a unui eşantion cu un efectiv de n valori în care datele sunt prezentate pe intervale de tipul Ji=(xi-1,xi), este:
unde este mijlocul intervalului Ji
Regula lui Cebîşev: Pentru k ≥ 1, cel puţin valori ale unui eşantion cu un efectiv de n valori aparţin intervalului
unde: este media aritmetică, iar s este abaterea standard a eşantionului.
Regula lui Cebîşev furnizează o legătură de natură algebrică între media aritmetică şi abaterea standard ale unui eşantion de date
2. Indicatorii variației2.3 Abaterea standard
Regula empirică: Dacă mulţimea de date are distribuţia frecvenţei relative sub formă de "clopot", atunci următoarele reguli empirice pot fi utilizate pentru a descrie mulţimea de date:
[1] Aproximativ 68% din valori vor aparţine intervalului [2] Aproximativ 95% din valori vor aparţine intervalului [3] Aproape toate valorile (99,7% din valori) vor aparţine
intervalului .
Coeficientul de variaţie al unui eşantion cu un efectiv de n valori este prin definiţie raportul dintre abaterea standard şi media eşantionului, respectiv:
2. Indicatorii variației2.4 Coeficientul de variație
Coeficientul de variaţie al unei populații cu un efectiv de N valori este prin definiţie raportul dintre abaterea standard şi media populației, respectiv:
2. Indicatorii variației2.4 Coeficientul de variație
25Facult
atea d
e Farm
acie
2. Indicatorii variațieiVariabile nenumerice alternative
Varianța - este egală cu produsul dintreponderea unităților care poartă caracteristica (p) şi ponderea celor care nu o poartă (q):
Eliminarea valorilor aberante. Testul luiGrubbs
Eliminarea valorilor aberante. Testul luiGrubbs
Etape
Eliminarea valorilor aberante. Testul luiGrubbs
Etape
26Facult
atea d
e Farm
acie
3. Indicatorii formei
Forma unei distribuţii de frecvenţe se analizează,comparativ cu distribuţia ideală, normală, prin:
• Coeficientul de asimetrie (Skewness)• Coeficientul de aplatizare (Kurtosis)
o Coeficientul de asimetrie ne indică simetria sau asimetria distribuţiei frecvenței relative
o Coeficientul de aplatizare ne indică forma mai “boltită” sau mai “ascuţită”, respectiv mai “plată” sau mai “turtită” a distribuţiei frecvenţei relative
3. Indicatorii formei3.1 Coeficientul de asimetrie
Asimetria – reprezintă deviația de la forma simetrică de distribuție.
Interpretare: (+) asimetrie dreapta; (-) asimetrie stanga
Pentru variabile negrupate=SKEW(Rage)
3. Indicatorii formei3.1 Coeficientul de asimetrie
Coeficientul de asimetrie Pearson ( ) – se calculează pe bazamomentelor centrate μ2 şi μ3 de ordin doi, respectiv trei:
unde
(momentul centrat de ordin 2)
(momentul centrat de ordin 3)
Interpretare
3. Indicatorii formei3.2 Coeficientul de boltire
Boltirea (aplatizarea)• curba mezocurtică (coincide cu modelul; curb normală )• curba platicurtică (prezintă o variație puternică a variabilei X
însoțită de variația slabă a frecvenței fi)• curba leptocurtică (prezintă o variație slabă a variabilei X
însoțită de o variație puternică a frecvenței fi)
Interpretare: (+) distributie ascuțită;(-) distributie aplatizată
Pentru variabile negrupate=KURT(Rage)
27Facult
atea d
e Farm
acie
3. Indicatorii formei3.2 Coeficientul de boltire
Coeficientul lui Pearson
unde
Interpretare:
β2=3 (repartiţie mezocurtică)
β 2>3 (repartiţie leptocurtică)
β 2<3 (repartiţie platicurtică)
Coeficientul lui Fischer
Interpretare:
=0 (repartiţie mezocurtică)
>0 (repartiţie leptocurtică)
<0 (repartiţie platicurtică)
Utilizarea funcției Descriptive Statistics (din Data Analysis)
28Facult
atea d
e Farm
acie
ELEMENTE DE TEORIA PROBABILITĂȚILOR
Biostatistică
Curs 6
Introducere În cursurile anterioare am analizat metodele grafice şi
numerice pentru descrierea datelor statistice cu ajutorul cărora am determinat modelul empiric al distribuţiei frecvenţei relative, precum şi statisticile eşantionului.
Pentru inferenţă, respectiv pentru trecerea de la eşantion la populaţie şi de la “modelul empiric” la “modelul teoretic” avem nevoie de probabilităţi
Probabilitatea reprezintă – în mod intuitiv – posibilitatea sau şansa ca un anumit fenomen să se producă.
Experimente, spaţii de eşantionare, evenimente Un experiment statistic aleator este procesul de
observare a unui anumit fenomen, care conduce la apariţia unuia sau a mai multor rezultate posibile. După efectuarea experimentului se obține un rezultat. Acesta îl vom numi probă.
Experimentul Rezultate posibile Aruncarea unei
monedeApariţia “banului” (B)
sau a “coroanei” (C)Aruncarea unui zar Apariţia feţelor
1,2,3,4,5 sau 6 Determinarea grupeisangvine
Rezultate posibile :A,B, AB, 0
Experimente, spaţii de eşantionare, evenimente
Prima caracteristică a unui experiment statistic este caracterul aleator, adică rezultatele sunt întâmplătoare, fără a fi determinate de anumite cauze speciale
Lista rezultatelor unui experiment aleator trebuie să fie exhaustivă, adică să includă toate rezultatele care pot să apară
Rezultatele experimentului trebuie să fie reciproc exclusive, adică nu pot să apară în acelaşi timp două rezultate diferite
29Facult
atea d
e Farm
acie
Experimente, spaţii de eşantionare, evenimenteSpaţiul de eşantionare (Spațiul probelor) al unui experiment aleator este mulţimea tuturor rezultatelor posibile ale acelui experiment. Rezultatele trebuie să fie exhaustive şi reciproce exclusive
Vom nota spaţiul de eşantionare cu şi rezultatele posibile cu R1, R2, ..., Rm, adică:
}
Experimente, spaţii de eşantionare, evenimente Spaţiul de eşantionare al unui experiment aleator se
poate reprezenta grafic prin aşa-numita diagramă Venn.
Diagrama Venn este o curbă închisă, care conţine, reprezentate prin puncte, toate rezultatele posibile ale experimentului
R1R2
R3 R4R5
Rm-1Rm
Diagrama Venn a unui spaţiu de eşantionare
Experimente, spaţii de eşantionare, evenimenteUn eveniment simplu este un rezultat individual al unui spaţiu de eşantionare.
Spaţiul de eşantionare al unui experiment este alcătuit din mulţimea tuturor evenimentelor simple ale acelui experiment
Exemplu: Să se determine mulţimea evenimentelor simple, respectiv spaţiul de eşantionare, pentru experimentul aruncării a două monede.Rezolvare:Notăm cu B apariţia valorii numerice sau a “banului” pe o faţă a monedei şi cu C apariţia “coroanei“ sau a “stemei” pe cealaltă faţă a monedei.Aruncarea celor două monede va conduce la apariţia unui rezultat de forma R1, R2,undeDe exemplu, rezultatul BC înseamnă că la prima monedă a apărut faţa B, iar la a doua monedă a apărut faţa C. Atunci evenimentele simple ale acestui experiment sunt: BB, BC, CB, CCiar spaţiul de eşantionare:
BB, BC, CB, CC}
Experimente, spaţii de eşantionare, evenimenteUn eveniment este o mulţime sau un set de evenimente simple într-un spaţiu de eşantionare.
Exemplu: În experimentul aruncării unui zar să se determine evenimentele:(a) apariţia unui număr par;(b) apariţia unui număr > 3.
Rezolvare: Evenimentele simple sunt apariţia feţelor 1, 2, 3, 4, 5 sau 6, iar spaţiul de eşantionare este:
(a) Evenimentul E1={Apariţia unui număr par}
este alcătuit din evenimentele simple 2, 4, 6 şi avem E1={2, 4, 6}.(b) Evenimentul
E2={Apariţia unui număr > 3}este alcătui din evenimentele simple 4, 5, 6 şi avem E2={4, 5, 6}.
1,2,3,4,5,6}
30Facult
atea d
e Farm
acie
Experimente, spaţii de eşantionare, evenimente
• Vom nota, în continuare:- spațiul probelor cu - mulţimea evenimentelor cu K- evenimentele cu litere mari (A, B, C etc).
• În mulţimea evenimentelor se disting două evenimente cucaracter special:
• evenimentul sigur este evenimentul care se produce cu certitudine;se notează cu . De exemplu, evenimentul “cap sau pajură” laaruncarea unei monede este un eveniment sigur.
• evenimentul imposibil este evenimentul care nu se produceniciodată; se notează cu ∅ . Este evident că evenimentul sigureste evenimentul contrar evenimentului imposibil şi reciproc.
• Se poate astfel spune că evenimentele sunt de trei categorii:sigure, imposibile şi aleatorii.
Experimente, spaţii de eşantionare, evenimente
• Între evenimente se definesc operaţii, inspirate dinteoria mulţimilor: Egalitatea, Negaţia, Reuniunea,Intersecţia, Incluziunea.A ∪ B - evenimentul care constă în realizarea a cel puțin unuia din
cele două evenimente (se realizeazăA sau B)A ∩ B - evenimentul care constă în realizarea ambelor evenimente (se realizeazăA și B)A \ B - evenimentul care constă în realizarea lui A și nerealizarealui B.A= CA - evenimentul “contrar “ lui A care constă în nerealizarea luiA (realizarea lui \ A)
• Două evenimente A şi B se spun incompatibile dacăintersecţia lor este evenimentul imposibil, A ∩ B = ∅ , adică nu este posibil ca evenimentele A şi B să se producă simultan.
În prezentarea şi prelucrarea datelor, măsurate pe diverse scale, noţiunea de frecvenţă relativă este o noţiune unificatoare: se regăseşte la toate scalele, valorileobţinute pot fi utilizate pentru comparaţii etc.
Practica arată că atunci când o experienţă este repetată de unnumăr mare de ori, frecvenţa relativă a apariţiei unui fapt tindesă se stabilizeze.
Acest fenomen este formalizat în teoria probabilităţilorprin introducerea noţiunii de probabilitate.
Probabilitatea unui eveniment
Fie K mulţimea evenimentelor. Se numeşte probabilitate orice funcţie cu valori reale definită pe mulţimeaevenimentelor,P : K şi care satisface:
probabilitatea oricărui eveniment este un număr nenegativ: P(A) 0;
probabilitatea evenimentului sigur este egală cu 1: P() = 1; probabilitatea oricărei reuniuni de evenimente incompatibile
două câte două este egală cu suma probabilităţilorevenimentelor: P(A∪B) = P(A)+P(B) atunci când A și B suntincompatibile (A ∩B = ∅)
Probabilitatea unui eveniment
Se spune că tripleta (, K,P) defineşte un spaţiu de probabilitate.31Fac
ultate
a de F
armac
ie
Probabilitatea unui evenimentDacă rezultatele sau evenimentele simple ale unui spaţiu de eşantionare au aceeaşi “şansă” sau probabilitate de apariţie (evenimentele sunt “echiprobabile”), atunci probabilitatea de apariţie a fiecărui eveniment simplu va fi:
De exemplu, în experimentul aruncării unui zar, probabilitatea de apariţie a unei feţe va fi (ţinând cont că rezultatele de bază, respectiv una din feţele 1, 2, 3, 4, 5 sau 6, au aceeaşi şansă de apariţie):
Probabilitatea unui eveniment Considerăm evenimentele simple care alcătuiesc un
eveniment ca fiind “cazuri favorabile” producerii acelui eveniment, iar evenimentele simple care alcătuiesc spaţiul de eşantionare ca fiind “cazuri posibile” producerii acelui eveniment.
Probabilitatea unui eveniment A este:
denumită şi “formula clasică” a probabilităţilorExemplul Să se determine probabilitatea extragerii unei “figuri” (J, Q, R) dintr-un pachet de 52 de cărţi, utilizând formula clasică a probabilităţilor.Rezolvare: Numărul cazurilor favorabile, respectiv figurile roşii şi negre (♥ ♦ ♠ ♣) este . .Numărul cazurilor posibile este 52, egal cu numărul de cărţi din pachet. Atunci probabilitatea extragerii unei “figuri” este:
• Atunci când dispunem de informaţii privind legătura între evenimente, informaţii care ar putea condiţiona rezultatul unui experiment, vom determina probabilităţi condiţionate
Se numește probabilitatea evenimentului A, condiționată de evenimentul B raportul dintre probabilitatea intersecției celor două evenimente și probabilitateaevenimentului care condiționează:
probabilitatea evenimentului B, condiționată de evenimentul A
Formule fundamentaleProbabilitatea condiționată
Formule fundamentaleProbabilitatea condiționată
Două evenimente A şi B se numesc evenimente independente dacă
sau
Din relaţiile de mai sus rezultă că două evenimente sunt independente dacă probabilitatea unui eveniment nu este afectată de apariţia celuilalt eveniment
32Facult
atea d
e Farm
acie
Formule fundamentaleRegula multiplicativă pentru evenimente independente
Probabilitatea intersecţiei a două evenimente independente A şi B este
Probabilitatea reuniunii a două evenimente A şi B esteRegula aditivă
Regula aditivă pentru evenimente reciproc exclusive
• Probabilitatea reuniunii a două evenimente reciproc exclusive A şi B este
Formule fundamentaleRegula lui Bayes
• Probabilităţile condiţionate iau în considerare informaţia despre probabilitatea unui eveniment pentru a face predicţia asupra probabilităţii unui alt eveniment.
• Conceptul poate fi extins pentru a “revizui” probabilităţile, pe baza unor informaţii suplimentare, pentru a determina probabilitatea ca un anumit efect să fie datorat unei cauze speciale.
• Această procedură este dată de regula sau teorema lui Bayes.
Fie dat evenimentul B şi evenimentele reciproc exclusive pentru care se cunosc valorile probabilităţilor asociate.
Probabilităţile se numesc probabilităţi anterioare
Probabilităţilese numesc probabilităţi verosimile
Probabilităţilese numesc probabilităţi posterioare
Formule fundamentaleRegula lui Bayes
Formule fundamentaleRegula lui Bayes
Regula (teorema) lui Bayes Probabilitatea evenimentelor reciproc exclusive
condiţionate de evenimentul B este
33Facult
atea d
e Farm
acie
Aplicații1. Masa, rezistența și înălțimea sunt caracteristici independente ale unuicomprimat. Probabilitățile ca un comprimat să nu corespundă din aceste puncte de vedere sunt: 0,03; 0,05 si 0,02. Care este probabilitatea ca tableta să corespundă în raport cu cele trei caracteristici? Soluție: Fie E1, E2, E3 evenimentele care se realizează când produsul corespunde în raport cu fiecare dintre caracteristici.
Aplicații2. Un produs farmaceutic este prelucrat în două etape A si B. În prima etapă are loc comprimarea propriu-zisa, iar în a doua etapă are loc ambalarea produsuluiintermediar obținut. După etapa A, comprimatele vrac sunt controlate obținându-se un randament de 97%. Comprimatele vrac corespunzătoare vor fi prelucrate în etapa B obținându-se un randament de 95%. Care este probabilitatea ca produsulfinit să corespundă?
SoluțieP(A)=P(comprimat vrac corespunzător)= 0,97PA(B)=P( comprimat ambalat corespunzător)=0,95
Aplicații3. Se consideră două recipiente cu reactivii B1 si B2. In recipientul B1 se află pastile de KOH, iar în recipientul B2 pastile de KOH și de NaOH în număr egal. O pastilă scoasă la întamplare din unul din recipienti se dovedeste a fi KOH. Care este probabilitatea ca această pastilă să provină din B1? În algoritmul pentru calculul probabilităţii unui
eveniment unul din paşii dificili îl constituie determinarea numărului evenimentelor simple ale spaţiului de eşantionare
Pentru rezolvarea acestei probleme vom analiza în continuare aşa-numitele reguli de numărare, cunoscute în matematică sub denumirea de elemente de combinatorică
Reguli de numărare
34Facult
atea d
e Farm
acie
Regula multiplicativă Fie k mulţimi care conţin respectiv n1, n2,..., nk elemente. Numărul de mulţimi cu câte k elemente formate prin alegerea a câte unui singur element din fiecare mulţime este
Reguli de numărare
Exemplu Să se determine numărul tripletelor care se pot forma din mulţimile
luând câte un element din fiecare mulţime.
Rezolvare: Avem şi rezultă
Obţinem din primele două mulţimi A şi B perechile (a,c), (a,d), (a,e), (b,c), (b,d), (b,e) la care adăugăm al treilea element din mulţimea C, adică(a,c,f), (a,d,f), (a,e,f),..., (b,c,i), (b,d,i), (b,e,i)
Reguli de numărare
Reguli de numărare
Se numesc permutări ale unei mulţimi A cu nelemente toate mulţimile ordonate de n elementecare se pot forma cu elementele lui A.
Regula permutărilor Numărul permutărilor a nelemente, , este
Prin definiţie şi
Exemplu Să se determine numărul permutărilor mulţimii
Rezolvare: Avem n = 3 şi
Mulţimile ordonate cu câte 3 elemente vor fi:(a,b,c), (b,c,a), (a,c,b), (c,a,b), (b,a,c), (c,b,a)
Simbolul n! se citeşte “n factorial”
Reguli de numărare
35Facult
atea d
e Farm
acie
Numărul permutărilor cu repetiţie a n elemente, în care fiecare element se poate repeta până la n ori este:
Exemplu Să se determine numărul permutărilor cu repetiţie ale mulţimii
Rezolvare: Avem n = 3 şi
Mulţimile ordonate cu câte 3 elemente şi repetiţie vor fi de forma:
(a,a,a), (a,a,b), ..., (c,c,b), (c,c,c)
Reguli de numărare
Se numesc aranjamente a n elemente luate câte k, k ≤ n, ale unei mulţimi A cu n elemente, toate submulţimile ordonate cu câte k elemente care se pot forma cu elementele lui A.
Regula aranjamentelor Numărul aranjamentelor a n elemente, luate câte k, este
Reguli de numărare
Numărul aranjamentelor cu repetiţie a n elemente, luate câte k, în care fiecare element se poate repeta până la kori este:
Exemplu (a) Să se determine numărul aranjamentelor a 3 elemente luate câte 2.
(b) Să se determine numărul aranjamentelor cu repetiţie a 3 elemente luate câte 2.
Rezolvare: (a)
(b)
Reguli de numărare
Se numesc combinări a n elemente luate câte k, k ≤ n, ale unei mulţimi A cu n elemente, toate submulţimile cu câte k elemente care se pot forma cu elementele lui A.
Regula combinărilor Numărul combinărilor a nelemente, luate câte k, este
Reguli de numărare
36Facult
atea d
e Farm
acie
Numărul combinărilor cu repetiţie a n elemente, luate câte k, în care fiecare element se poate repeta până la kori este:
Exemplu (a) Să se determine numărul combinărilor a 3 elemente luate câte 2.
(b) Să se determine numărul combinărilor cu repetiţie a 3 elemente luate câte 2.
Rezolvare: (a)
(b)
Reguli de numărare
Regula partiţionărilorFie o mulţime cu n elemente distincte. Numărul partiţiilor mulţimii date în k submulţimi, fiecare conţinând respectiv n1, n2,..., nk elemente este
unde
Reguli de numărare
Exemplu La un concurs cu premii se atribuie 12 obiecte diferite primilor trei clasaţi, astfel: Locul 1: 5 obiecte Locul 2: 4 obiecte Locul 3: 3 obiecte
În câte moduri se pot atribui aceste obiecte?Rezolvare: Conform regulii partiţionărilor avem k = 3,n = 12, n1 = 5, n2 = 4, n3 = 3 şi rezultă:
Reguli de numărare Exemple aplicații lucrare LP-uriDistribuţia farmaciștilor în funcţie de numărul de zile de concediu de
odihnă dintr-un an se prezintă astfel:
Se cere:•să se reprezinte grafic seria;•să se calculeze indicatorii tendinţei centrale;•să se caracterizeze gradul de boltire
SauSe cere•să se calculeze indicatorii variaţiei;•să se caracterizeze gradul de asimetrie;•să se reprezinte grafic poligonul frecvențelor;
37Facult
atea d
e Farm
acie
Notele obtținute de 40 de studentți sunt următoarele:8; 10; 4; 9; 6; 8; 10; 7; 8; 3;9; 6; 5; 4; 8; 7; 10; 9; 6; 5;4; 3; 6; 9; 10; 8; 7; 7; 7; 6;5; 5; 6; 7; 9; 10; 7; 6; 3; 4;
Să se prezinte datele sub forma unui tabel statistic; Să se reprezinte grafic datele; Să se grupeze datele pe 4 intervale; Să se calculeze frecventțele cumulate crescător; Să se reprezinte seria de date.
Exemple aplicații lucrare LP-uri
Au fost înregistrate numărul de ore petrecute de studentți cu învățatul:
• Să se calculeze numărul mediu de ore petrecut de un student cu învățatul
• Să se calculeze coeficientul de variație. Discuții• Să se realizeze histograma
Exemple aplicații lucrare LP-uri
38Facult
atea d
e Farm
acie
Curs 7
Obiective
Cunoaşterea principalelor concepte de teoria distribuţiilor statistice
Analiza principalelor repartiții de probabilitate discrete.
• Repartiția Binomială• Repartiția Poisson
Variabile aleatoare
Atunci când efectuăm un experiment, ne interesează evenimente pe care le cuantificăm prin valori numerice, adică realizăm experimentul şi înregistrăm valorile numerice ale uneia sau mai multor variabile statistice.
Dacă repetăm experimentul aleator de n ori şi “numărăm” evenimentele apărute pentru o anumită variabilă statistică, obţinem o mulţime de date cantitative discrete, iar variabila statistică va fi o variabilă aleatoare.
Variabile aleatoare
Definiție: O funcţie reală X: , se numeşte variabilă aleatoare dacă mulțimea | X() xa evenimentelor elementare pentru care v.a. X are valori mai mici sau egale cu x, oricare ar fi x, este tot un eveniment.
Variabilele aleatoare pot fi:- discrete, definite pe o mulţime cel mult numărabilă;- continue, definite pe o mulţime măsurabilă;
39Facult
atea d
e Farm
acie
Variabile aleatoare discrete. Exemple Numărul de internări într-un spital într-un interval
de timp dat X={0,1,…,n,…}Variabilă aleatoare infinită
Numărul de bacterii într-un mililitru de apă X={0,1,…,n,…}
Variabilă aleatoare infinită
Numărul de indivizi cu RH-negativ dintr-un grup de n persoane luate la întâmplare X={0,1,…,n}
Variabilă aleatoare finită
Variabile aleatoare discrete
Variabile aleatoare discrete Variabile aleatoare discrete
40Facult
atea d
e Farm
acie
Variabile aleatoare discrete Variabile aleatoare discrete
Variabile aleatoare discreteExempluFie următoarea variabilă aleatoare:
Să se determine funcția sa de repartiție. Soluție:
Variabile aleatoare discrete
Distribuţia de probabilitate a unei variabile aleatoare discrete X furnizează un model pentru populaţia de valori a lui X şi pentru distribuţia frecvenţei relative a populaţiei descrisă de variabila aleatoare X.
Vom putea descrie atunci distribuţia de probabilitate a unei variabile aleatoare discrete Xprin măsuri numerice, cum sunt media, dispersia sau abaterea standard.
41Facult
atea d
e Farm
acie
Variabile aleatoare discreteCaracteristici numerice MediaSe numeşte valoare medie (sau speranţă matematică) a unei valori aleatoare X, numărul
Proprietăţi ale valorii medii:
Variabile aleatoare discreteCaracteristici numerice Dispersia (sau varianța)
Rădăcina pătrată a dispersiei, σ, se numeşte abaterea medie pătratică (sau abaterea standard) a variabilei X
Proprietăţi ale dispersiei
Repartiția Binomială-B(n,p) Multe experimente reale sunt analoge experimentului
aruncării monedelor.
Sondajele opiniei publice sau ale preferinţelor consumatorilor, atunci când acestea sunt de tipul DA / NU, sunt similare experimentului aruncării unei monede.
Acest tip de experimente sunt particularizări ale variabilelor aleatoare binomiale
Repartiția Binomială-B(n,p)Caracteristici ce definesc o variabilă aleatoare binomială
Experimentul constă în n încercări identice Sunt posibile numai două rezultate ale fiecărei
încercări: S – succes F - insucces
Probabilitatea lui S este p şi rămâne aceeaşi la fiecare încercare. Probabilitatea lui F este q şi avem p + q = 1.
Încercările sunt independente Variabila aleatoare binomială X este numărul de
succese (S) în n încercări
42Facult
atea d
e Farm
acie
Repartiția Binomială-B(n,p) Probabilitatea de a avea de k ori succes în n încercări
este dată de formula:
unde: p = probabilitatea de succes într-o singură încercare q = 1 – p n = numărul de încercări k = numărul de succese S în n încercări
Reprezentare sub formă matricială
Repartiția Binomială-B(n,p)Caracteristici numerice Media pentru o variabilă aleatoare binomială X este:
Dispersia pentru o variabilă aleatoare binomială Xeste:
Reprezentarea grafică a repartiției binomiale, se realizează prin diagrama în batoane şi depinde de valoarea parametrilor săi n şi p. Astfel:
- diagrama este simetrică dacă p = q = 0.5;- diagrama este asimetrică dacă p > q sau p < q; - o distribuţie asimetrică devine tot mai simetrică pe măsură ce ncreşte.
Repartiția Binomială-B(n,p)Pentru calculul valorilor repartiției binomiale se poate folosi funcţia statistică din Excel
BINOM.DIST(number_s,trials, probability_s, cumulative) nuber_s (X) Este numărul de succese din experimente
trials(n) Este numărul de experimente independente
Probability_s (p) Este probabilitatea de succes la fiecare experiment
Cumulative Este o valoare logică ce determină forma repartiției de
probabilitate returnată. Dacă cumulativ este TRUE, BINOM.DIST întoarce probabilitatea Binomială cumulativă că numărul de evenimente întâmplătoare care vor apărea va fi cuprins între 0 și x inclusiv , P{X ≤x} ; în cazul FALSE, va returna probabilitatea că numărul de evenimente apărute va fi exact x, P{X = x}
Repartiția Binomială-B(n,p)ExempluTestele pentru calitatea apei potabile într-un anumit Judeţ au pus în evidenţă faptul că 30% din sursele individuale conţin o anumită substanţă A, care nu este bună pentru consum.Dacă sunt alese în mod aleator 5 surse din Judeţul respectiv, care este probabilitatea ca:
(a) Exact 3 surse să conţină substanţa A;(b) Cel puţin 3 surse să conţină substanţa A;(c) Mai puţin de 3 surse să conţină substanţa A.
Soluție: Să confirmăm mai întâi că avem un experiment binomial. Experimentul constă în n = 5 încercări, fiecare corespunzătoare unei surse alese în mod aleator. Rezultatele fiecărei încercări constau dintr-un succes S (sursa conţine substanţa A) sau dintr-un insucces F (sursa nu conţine A). Deoarece numărul de surse de apă individuale este relativ mare, probabilitatea alegerii unei surse care conţine substanţa A o considerăm egală cu 0,3 pentru toate cele 5 surse selectate aleator.
43Facult
atea d
e Farm
acie
Repartiția Binomială-B(n,p)ExempluEşantionarea fiind aleatoare, încercările sunt independente. Ne interesează numărul X de surse care conţin substanţa A, dintr-un eşantion de n = 5.Suntem deci în condiţiile unui experiment binomial, cu n = 5 şi p = 0.3, q = 1 – 0,3 = 0,7.Probabilitatea ca exact 3 surse să conţină substanţa A este:
=BINOM.DIST(3, 5, 0.3, 0) = 0,1323(b) Probabilitatea ca cel puţin 3 surse să conţină substanţa A este:
=1-BINOM.DIST(2, 5, 0.3, 1)
Repartiția Binomială-B(n,p)Exemplu(c) Probabilitatea ca mai puţin de 3 surse să conţină substanţa A
este:
BINOM.DIST(2, 5, 0.3, 1) = 0,83692această probabilitate se poate calcula mai uşor cu ajutorul relaţiei de complementaritate:
Repartiția Poisson – P(
Repartiția Poisson oferă un model pentru frecvenţa relativă a numărului de “evenimente rare” care apar într-o unitate de timp, arie, volum etc.
Repartiția Poisson se utilizează mai ales în modelarea fenomenelor de aşteptare, denumite “cozi” sau “şiruri” de aşteptare (“aşteptarea” la case de marcat, la un service auto, la urgenţă, la semafor etc.)
De asemenea, repartiția Poisson este folosită pentru a aproxima o distribuţie binomială în cazul în care p(sau q) are o valoare foarte mică şi n este mare.
Repartiția Poisson – P(Caracteristici ce definesc o variabilă aleatoare Poisson Experimentul constă în înregistrarea numărului x de
apariţii ale unui eveniment într-o unitate dată de timp (de volum, de arie, de greutate, de distanţă sau orice altă unitate de măsură).
Probabilitatea ca evenimentul să apară într-o unitate dată de timp (de volum, de arie etc.) este aceeaşi pentru toate unităţile.
Numărul de evenimente care apar într-o unitate dată de timp (de volum, de arie etc.) este independent de numărul de evenimente care apar în celelalte unităţi.
44Facult
atea d
e Farm
acie
Repartiția Poisson – P(Distribuția de probabilitate Distribuţia Poisson este determinată de un singur parametru:
(media variabilei). Fie o variabilă X ce ia valori discrete 0, 1, 2, ..., n, într-un interval continuu. Se spune că variabila X urmează o lege Poisson atunci când probabilitatea pentru care X = k este dată de:
= media numărului de evenimente într-o anumită perioadă de timp;
e = 2,71828... Reprezentare sub formă matricială
Repartiția Poisson – P(Caracteristici numerice Media pentru o variabilă aleatoare Poisson X este:
Dispersia pentru o variabilă aleatoare Poisson X este:
Aproximarea legii binomiale printr-o lege Poisson: Când p este mic şi n este mare, legea Poisson
constituie o bună aproximare a legii binomiale. În acest caz se foloseşte ca parametru al legii
Poisson speranţa matematică a legii binomiale:
Repartiția Poisson – P(Pentru calculul valorilor repartiției Poisson se poate folosi funcţia statistică din Excel:
POISSON.DIST(X,mean,cumulative) X Este numărul de evenimente; mean (Media) Este valoarea numerică așteptată. cumulative Este o valoare logică ce determină forma
repartiției de probabilitate returnată. Dacă cumulativ este TRUE, POISSON.DIST întoarce probabilitatea Poisson cumulativă că numărul de evenimente întâmplătoare care vor apărea va fi cuprins între 0 și x inclusiv, P{X ≤x}. În cazul FALSE, va returna probabilitatea Poisson că numărul de evenimente apărute va fi exact x, P{X = x}
Repartiția Poisson – P(Repartiția Poisson apare în multiple situații, ca de exemplu:
dă probabilitățile unui număr specificat de chemări telefoniceîntr-un anumit timp;
dă probabilitățile unui număr specificat de defecte pe o unitatede lungime a unui fir;
dă probabilitățile unui număr specificat de defecte pe o unitatede arie a unei țesături;
dă probabilitățile unui număr specificat de bacterii pe unitatea de volum într-o soluțe;
dă probabilitățile unui număr specificat de accidente pe unitateade timp.
45Facult
atea d
e Farm
acie
Repartiția Poisson – P(Exemplu8% din recipientele cu materie primă sunt rebutate. Care este probabilitatea ca din 20 de recipiente 2 să fie rebutate?Soluțiep=0.08, n=20. Folosind repartiția Poisson pentru
=POISSON.DIST(2,1.6,FALSE)
46Facult
atea d
e Farm
acie
REPARTIȚII CONTINUE
Curs 8
Obiective
Cunoaşterea principalelor proprietăţi ale variabilelor aleatoare şi distribuţiilor continue
Analiza principalelor distribuţii • Repartiția Normală• Repartiția Fisher-Snedecor• Repartiția Hi-pătrat ( )• Repartiția Student
Variabile aleatoare continue
• Multe dintre variabilele aleatoare întâlnite în practică nu sunt variabile aleatoare discrete, nefiind rezultatul unui proces de numărare şi neavând deci valori într-o mulţime numărabilă
• Variabilele aleatoare rezultate în urma unui proces de măsurare, care iau valori în mulţimea numerelor reale R (care are puterea continuului) sunt variabile aleatoare continue
Variabile aleatoare continue• Diferenţa dintre variabilele aleatoare discrete şi
variabilele aleatoare continue este cel mai bine sugerată de diferenţa dintre funcţiile de distribuţie cumulativă ale celor două tipuri de variabile
Definiţie: Funcţia de repartiție F(x) a unei variabile aleatoare x este egală cu probabilitatea
F(x0) = Prob{x ≤ x0}
47Facult
atea d
e Farm
acie
Variabile aleatoare continue• Pentru o variabilă aleatoare discretă, funcţia de
repartiție este suma probabilităţilor de la cea mai mică valoare pe care o poate lua x şi până la x0.
• Funcţia de repartiție pentru o variabilă aleatoare discretă este o funcţie discontinuă, “în scară”, aşa cum am văzut anterior
• Funcţia de repartiție a unei variabile aleatoare continue este o funcţie continuă, monoton crescătoare
Variabile aleatoare continue f(x) reprezintã densitatea de repartiție, care poate fi
definitã ca primã derivatã (dacã existã) a funcţiei de repartiţie F(x) adicã:
Graficul densitãţii de probabilitate Reprezentarea elementului de probabilitate.
Mãrimea f(x)dx se numeşte element de probabilitate şi reprezintã probabilitatea ca valoarea variabilei aleatoare sã se gãseascã înintervalul ds. Aceastã probabilitate este egalã cu aria dreptunghiuluielementar cu baza egalã cu ds.
Variabile aleatoare continue Expresia P(X<x) se citeşte probabilitatea ca X sã fie cel
mult egal cu x. Dacã ds→0, aria dreptunghiului tinde spre zero, cea ce ne
duce la concluzia cã probabilitatea obţinerii unei valori x este egalã cu zero, deci ar fi un eveniment imposibil.
Deoarece o astfel de concluzie este paradoxalã trebuie, evidenţiatã definiţia probabilitãţii care ne conduce la o interpretare care evidenţeazã faptul cã frecvenţa unuiastfel de eveniment este zero şi nu faptul cã un astfel deeveniment nu poate avea loc
f(x) nu are semnificaţia unei probabillităţi aşa cum se prezintă expresia , pentru variabila aleatoare discretă. În consecinţă, semnul sau folosit la variabila aleatoare discretă va fi înlocuit, în general, prin < sau > pentru variabila aleatoare continuă (probabilitatea egalităţii fiind nulă)
Variabile aleatoare continueProprietăţile funcţiei de repartiţie
Fie intervalul [a, b], probabilitatea ca o valoare x sã aparţinã acestui interval, respectiv P(a≤X<b) este
Probabilitatea ca o variabilã sã aparţinã intervalului [a,b] esteegalã cu aria trapezului curbiliniu mărginit de axa x, curba densitãţii de repartiție f(x) şi dreptele x=a şi x=b.
48Facult
atea d
e Farm
acie
Variabile aleatoare continueCaracteristici numerice
MediaValoarea medie (sau valoarea aşteptată) a lui x este
Varianța sau dispersia
Abaterea standard
Repartiția Normală~N( )• Repartiția normală (cunoscută şi sub numele de
Repartiția Gauss-Laplace sau popular sub numele de “clopotul lui Gauss”) este una din cele mai răspândite şi utilizate repartiții
• Numeroase fenomene şi procese naturale, economice, sociale sau medicale pot fi modelate de repartiția normală
• Repartiția normală este o funcţie parametrică simetrică, definită pe mulţimea R
Repartiția Normală~N( )Fie o variabilă X ={x1, ..., xn} care urmează o lege normală : μ, V =
Densitatea de repartiție
Funcția de repartiție
Media:Varianța:
f(xi) se calculeaza cu functia: =NORM.DIST(xi, μ, σ, FALSE)F(xi) = P(x < xi) se calculeaza cu functia: =NORM.DIST(xi, μ, σ, TRUE)xi se calculeaza cu functia: =NORM.INV(F(xi), μ, σ)
Repartiția Normală~N( )Proprietăţi ale distribuţiei normale: o distribuţie normală este simetrică în raport cu ordonata
valorii x = μ; de asemenea, μ = Me = Mo pentru o distribuţie normală, când x tinde la ±∞, funcţia f(x)
tinde la zero (amplitudinea variabilei este infinită) f(x) este maximă pentru x = μ şi se diminuează pe măsură
ce valorile variabilei se depărtează de medie curba densităţii de repartiție f(x) are puncte de inflexiune
când x = μ ± σ. o distribuţie normală este unic determinată de medie şi de
varianţă: X ~ N(μ; σ2) suma (sau diferenţa) a două variabile aleatoare
independente X1 şi X2 ce urmează legi normale N(μ1, σ21)
şi N(μ2, σ22), urmează tot o lege normală:
X~N(μ1±μ2,σ21+σ2
2)
49Facult
atea d
e Farm
acie
Repartiția Normală Standard~N(0 )
• O variabilă aleatoare, X, normal repartizatăcu media şi deviaţia standard diferite de 0respectiv 1, poate fi transformată într-orepartiție normală standard, Z, astfel:
Repartiţia normală standardizată, cu media 0 şi abaterea standard 1.
Repartiția Normală Standard~N(0 )Fie o variabilă Z ={z1, ..., zn} – variabilă centrată redusă
Densitatea de repartiție
Funcția de repartiție
Media: 0Varianța:1
f(zi) se calculeaza cu functia: =NORM.S.DIST(zi,FALSE)F(zi) = P(z < zi) se calculeaza cu functia: =NORM.S.DIST(zi, TRUE)zi se calculeaza cu functia: =NORM.S.INV(F(zi))
Repartiția Normală Standard~N(0 )Repartiția Normală Standard~N(0 )
50Facult
atea d
e Farm
acie
Repartiția Normală Standard~N(0 ) Pentru calculul unor probabilităţi pe baza funcţiei de repartiţie, se
utilizează funcţia Laplace, ale cărei valori calculate se pot obţine din tabelele Gauss-Laplace.
Funcţia Laplace este definită de relaţia:
- Φ (0) = 0
- Φ(-z) = - Φ(z)
---
Proprietăţile funcţiei lui Laplace:
-
Densitatea de repartiție a variabilei z.
P(-z ≤ Z ≤z) = 2 Φ(z).
Repartiția Normală Standard~N(0 )
Repartiția hi-pătrat ( 2) Repartiția hi-pătrat ( 2)
51Facult
atea d
e Farm
acie
Repartiția hi-pătrat ( 2)=CHISQ.DIST.RT(x,deg_freedom)sau=CHIDIST(x,deg_freedom)
Returnează probabilitatea pentru hi-pătrat , unde o valoare numerică (x) este o valoare calculată a lui 2 pentru care se vor calcula probabilitățile.
Repartiția hi-pătrat ( 2)=CHISQ.INV(probability, deg_freedom)sau=CHIINV(probability, deg_freedom)
Returnează inversa funcției de repartiție F (alungită la dreapta). Dacă p = CHIDIST(x,...), atunci CHIINV(p,...) = x
Repartiția hi-pătrat ( 2) Repartiția Fisher-Snedecor F( 1, 2)
52Facult
atea d
e Farm
acie
Repartiția Fisher-Snedecor F( 1, 2) Repartiția Fisher-Snedecor F( 1, 2)
=F.DIST(x,deg_freedom1, deg_freedom2)
X Valoarea la care să se evalueze funcțiadeg_freedom1 Gradele de libertate pentru numărătordeg_freedom 2 Gradele de libertate pentru numitor
Densitatea de repartiție pentru diferite valori ale lui 1, 2
Repartiția Fisher-Snedecor F( 1, 2)
=F.INV(probability,deg_freedom1,deg_freedom2)probability Probabilitatea asociată cu funcția de repartiție Fdeg_freedom1 Gradele de libertate ale numărătorului.deg_freedom2 Gradele de libertate ale numitorului.
F.INV(0.05,3,60) Fcr = 2,758
Repartiția Student – distribuţia t
53Facult
atea d
e Farm
acie
Repartiția Student – distribuţia t Repartiția Student – distribuţia t
=TDIST(x,deg_freedom,tails)x este valoarea numerică la care va fi evaluată repartiția.deg_freedom numărul gradelor de libertate.Tails
Dacă tails = 1, TDIST întoarce o repartiție unilaterală. Dacă tails = 2, TDIST întoarce repartiția bilaterală.
TDIST(x, ,1) = aria haşurată TDIST(x, ,2) = aria haşurată
Repartiția Student – distribuţia t
O valoare t unilaterală poate fi întoarsă înlocuind probabilitatea cu 2*probabilitate. Pentru o probabilitate de 0,05 și grade de libertate 10, valoarea bilaterală este calculată cu T.INV(0,05;10), care întoarce 2,28139. Valoarea unilaterală pentru aceeași probabilitate și grade de libertate poate fi calculată cu T.INV(2*0,05;10), care întoarce 1,812462.
=T.INV(probability,deg_freedom)
Aplicații. Verificarea normalității unei distribuții
54Facult
atea d
e Farm
acie
Aplicații. Verificarea normalității unei distribuții Aplicații. Verificarea normalității unei distribuții
55Facult
atea d
e Farm
acie
EstimațiiTestarea ipotezelor statistice
Teste statistice:Testul Student, Testul
Biostatistică
Curs 9
Eşantionare . Probleme ale Eşantionării
EȘANTIONARE: selecția unei porțiuni din populație care e reprezentativă pentru caracteristica de interes a populației.
• Nu se poate investiga întreaga populaţie; (nepractic: timpîndelungat, costuri mari, populații care nu pot fi numărate)
• Se consideră un eşantion: se calculează media eşantionului. Ne aşteptăm ca media eşantionului să fie rezonabil de aproape de media populaţiei.
• Repartiția de eșantionare ne permite să evaluăm cât de aproape este valoarea statisticii eşantionului de valoareaparametrului populaţiei.
Eşantionare. Probleme ale Eşantionării
Populaţia ţintă - populaţia pentru care vremsă facem inferenţe
Populaţia eşantionată - populaţia din care extragem de fapt eşantioane
Problema eşantionării:
Este populaţia ţintă aceeaşi cu populaţiaeşantionată?
Eşantionare . Probleme ale Eşantionării
Eșantionarea aleatorie simplă Un eşantion aleatoriu simplu este un eşantion în care
fiecare membru al populaţiei este la fel de probabil de a fi inclus.
Metoda presupune identificarea fiecărui membru al populaţiei şi alegerea aleatorie a acestora.
Eșantionarea aleatorie stratificată Un eşantion aleatoriu stratificat se obţine prin separarea
populaţiei în seturi reciproc exclusive (sau straturi) şiapoi extrăgând eşantioane aleatorii simple din fiecareset (strat).
Eșantionarea de grupuri Un eşantion de grupuri este un eşantion aleatoriu simplu
a unor grupuri de elemente.
56Facult
atea d
e Farm
acie
Eşantionarea aleatorie simplă in Excel
Pentru extragerea unui întreg situat între a si b:RANDBETWEEN(bottom, top)
Pentru extragerea unui număr situat în intervalul [0, 1]:
RAND ()
Pentru extragerea unei serii de N numere din una dintremai multe variante de distribuții,
DATA >> DATA ANALYSIS >> Random Number Generation
Pentru extragerea unui eșantion dintr-o populatie:DATA >> DATA ANALYSIS >> Sampling
LA FIECARE RECALCULARE A FOII DE CALCUL, VALORILE SUNT GENERATE DIN NOU !
Inferență Statistică
Obiectivul (problema)
Descrierea unei singurepopulaţii
Compararea a douăpopulaţii
Compararea a două saumai multor populaţii
Analiza relaţiei între douăsau mai multor variabile
Tipul de date
• cantitative
• calitative
• ordinale.
ESANTION POPULAȚIA STATISTICĂ(STATISTICĂ) (PARAMETRU)
MEDIA:
DISPERSIA
ABATEREASTANDARD
COEFICIENTULDE VARIATIE
Inferență StatisticăInferență Statistică. Repartiția de sondaj a mediei Se consideră o populaţie statistică şi o caracteristică continuă X. Fie M(X) = şi D2(X) = . Repartiţia variabilei X este
necunoscută (deci nu sunt cunoscute , , forma distribuţiei sau numai unele dintre aceste atribute).
Din populaţia respectivă se extrage un eşantion de volum n, fie acesta x1, x2, …, xn, şi se calculează media aritmetică x . Este evident că se doreşte ca această valoare să fie utilizată drept estimaţie a mediei populaţiei, .
Repartiţia de sondaj a mediei este caracterizată de
57Facult
atea d
e Farm
acie
Inferență Statistică. Repartiția de sondaj a medieiForma repartiţiei de sondaj a mediei este determinată de rezultatele:
dacă X este repartizată normal, atunci media de sondaj este repartizată de asemenea normal, cu parametriiprecizaţi mai sus, indiferent de volumul eşantionului
dacă nu se cunoaşte repartiţia lui X, atunci teorema limită centrală afirmă că repartiţia de sondaj a mediei devine normală la limită, pentru un volum mare al eşantionului.
Practic, se poate accepta o repartiţie , pentru n > 10, dacă repartiţia lui X este aproape simetrică,
sau pentru n > 30, în repartiţii cu asimetrie pronunţată sau
necunoscută.
Inferență Statistică• Estimarea Determinarea parametrului unei
populații pe baza statisticii unuieșantion
• Testarea ipotezelor statistice Scop: a determina dacă există
suficientă evidență statistică pentru a susține o anumită afirmație făcutădespre un parametru al populațieistatistice
Inferență Statistică Estimare şi estimator
Estimarea este calcularea unei valori specifice a estimatorului.
Exemplu: Media eşantionului este un estimator al medieipopulaţiei. Când calculăm valoarea mediei eşantionului, acea valoare reprezintă o estimare a mediei populaţiei.
Estimator punctual - realizează inferenţe despre o populaţieprin estimarea valorii unui parametru necunoscut utilizând o singură valoare sau un punct.
Estimator al unui interval - realizează inferenţe despre o populaţie prin estimarea unui interval de variaţie în care esteprobabil ca valoarea parametrului să se afle.
Numim eroare de estimare valoarea absolută a diferenţei dintre estimaţia punctuală şi valoarea parametrului.
Estimații Deoarece aprecierea erorilor de estimare posibile, în cazul
estimaţiile punctuale, este suficient de laborioasă, s-a încercatdezvoltarea unei metode care să pună accentul pe probabilităţile de apariţie ale erorilor. Această metodă genericăeste metoda determinării intervalelor de încredere sau metodade estimare sub formă de interval.
Fie o populaţie statistică, caracterizată de o v.a. continuă X a cărei repartiţie depinde de un parametru , necunoscut. Problema este ca, pornind de la datele de sondaj ale unui eşantion de volum n, să se determine două limite între care valoarea parametrului să se afle cu o probabilitate fixată. Adică să se determine două statistici, 1 şi 2, astfel încât
P(1 2 ) punde p este o probabilitate independentă de parametrul .
58Facult
atea d
e Farm
acie
Estimații
Prin definiţie, dacă se pot determina 1 şi 2
astfel încât pentru o valoare prestabilită(0<< 1) să aibă loc:
P( 1 2) 1
atunci intervalul (1, 2) se numeşte interval de încredere pentru parametrul necunoscut cu un coeficient (sau nivel) de încredere egal cu , sau cu o siguranţă statistică S = 1–.
Valoarea se numeşte nivel (sau prag) de semnificaţie.
Estimații Dacă se repetă procedeul pentru eşantioane diferite,
atunci 100(1–)% dintre intervalele determinate vorconţine valoarea necunoscută a parametrului (evident că nu se va şti care sunt acele intervale).
Apare atunci necesitatea ca să fie cât mai mic, dar o dată cu micşorarea lui se măreşte lungimea intervalului, deci erorile de estimare sunt mai mari.
Uzual se alege = 0,05 sau = 0,01. Dacă atât 1 cât şi 2 sunt finite, atunci intervalul de încredere este
bilateral. În cazul când 1 este - sau 2 este +, ceea ce revine, în fapt, la
determinarea unei singure limite, intervalul este unilateral.
EstimațiiIntervale de încredere pentru valoarea medie Fie o populaţie statistică caracterizată de o v.a. X repartizată
normal, cu parametrii şi 2, X ~ N(, 2 ). Presupunem că s-au obţinut dintr-un eşantion de volum n, media
de sondaj ̅ și dispersia de sondaj s2.Fixăm pragul de semnificatie .
Limitele unui interval de încredere depind atât de eşantion, cât şide cunoașterea sau nu, a dispersiei populaţiei.
Dacă dispersia, 2, este cunoscută, intervalul de încredere:̅ μ ̅ Dacă dispersia, 2 nu este cunoscută și <30:̅ , μ ̅ ,Dacă numărul de grade de libertate este > 30, atunci poate
fi aproximat cu .
EstimațiiIntervale de încredere pentru valoarea medie
59Facult
atea d
e Farm
acie
EstimațiiIntervale de încredere pentru dispersie
Fie o populaţie normală sau aproximativ normală, cu parametrii şi 2 necunoscuţi. Se demonstrează că intervalul de încredere bilateral pentru dispersia populaţiei, cu încrederea statistică de 1–, este dat de
unde n este volumul eşantionului, s2 este dispersia de sondaj, iar / 2; şi 1 / 2; sunt valorile repartiţiei 2 de ordin /2, respectiv 1– cu = n–1 grade de libertate.
Estimații Este frecventă situaţia în care, pornind de la un eşantion de
volum n, cercetătorul este interesat de frecvenţa relativă(exprimată eventual procentual) a cazurilor care prezintă oanumită caracteristică.
Situaţia poate fi formalizată prin considerarea unei v.a. X,repartizată binomial, Bi(n; p), pentru care se consideră“succes” prezenţa caracteristicii dorite.
Pentru cazul eşantioanelor mari, sau mai precis cazul în carese poate aproxima repartiţia binomială prin repartiţia normală,se demonstrează că intervalul de încredere cu siguranţastatistică S = 1– este dat de
⁄ < ⁄unde fn este frecvenţa relativă a cazurilor “succes” din eşantionul de volum n, iar z/2 este valoarea critică a repartiţiei normale standardpentru ales.
Testarea ipotezelor statistice Testarea ipotezelor statistice este procedeul prin care
se poate respinge sau accepta o ipoteză făcută asupra unui parametru sau asupra unei distribuţii, ţinând cont de anumite reguli de decizie.
Ipoteza pe care dorim să o testăm se numeşte ipoteza nulă şi este notată H0.H0 nu există nici o diferenţă între valorile comparate.
Ipoteza pe care dorim să o testăm în opoziţie cu ipoteza nulă se numeşte ipoteza alternativă şi se notează cu H1.
H1: există diferenţe între valorile comparate.
Ipoteza alternativă este ipoteza care o acceptăm dacă, prin regula de decizie, se respinge ipoteza nulă.
Testarea ipotezelor statisticeErori de testare: Eroarea de tip I - este eroarea care se face când se
decide respingerea ipotezei nule H0 când în realitate aceasta este adevărată. Probabilitatea asociată erorii de tip I se notează cu α şi este numită prag de semnificaţie, sau riscul acceptat în luarea deciziei de respingere a H0 când H0 este adevărată.
Eroarea de tip II - este eroarea care se face când se decide acceptarea ipotezei nule H0 atunci când acesta este falsă. Probabilitatea asociată erorii de tip II este notată cu β şi reprezintă riscul acceptat în luarea deciziei că H0 este adevărată când H0 este falsă.
60Facult
atea d
e Farm
acie
Testarea ipotezelor statistice Regiunea de respingere – sau regiunea critică este intervalul în
care se respinge ipoteza nulă H0, considerând ipoteza alternativă H1 adevărată. Se defineşte în acest context, un prag critic (inferior Li superior Ls), de la care o estimaţie tinde să confirme ipoteza H1 şi să respingă H0. Regiunii critice i se asociază o probabilitate α, cuprinsă în general între 0.01 şi 0.1.
Regiunea de acceptare – sau intervalul de încredere este un interval în care, pe baza unui test, nu se respinge ipoteza H0. Regiunii de acceptare a ipotezei H0 i se asociază o probabilitate 1 – α, numită şi coeficient de încredere.
H0: θ = θ0H1: θ ≠ θ0
H0: θ = θ0H1: θ > θ0
H0: θ = θ0H1: θ < θ0
Testarea ipotezelor statisticea) Stabilirea eșantionului (eșantioanelor) de lucrub) Formularea ipotezelor alternative (H0, H1)c) Alegerea testului statisticd) Specificarea pragului de semnificație = 0.01, 0.05 , 0.1e) Definirea regiunii critice (RC)f) Calcularea valorii statistice a testului (Zcalc, tcalc)g) Compararea valorii statistice a testului Zcalc sau tcalc, cu valoarea critică Zcr, respectiv tcr cu (n–1) grade de libertate pentru pragul de semnificație alesh) Luarea deciziei
Testarea ipotezelor statisticee) Definirea regiunii critice (RC)A. Statistica Z (n > 30, = 0.05)
Test unilateral dreaptazcr=NORM.S.INV(0.95)=1.645, RC=(1.645,+∞
Test unilateral stângazcr=NORM.S.INV(0.05)= -1.645, RC=(-∞,-1.645
Test bilateralzcr=NORM.S.INV(0.975)= 1.96, RC = (-∞, -1.96)U(1.96, +∞)
B. Statistica T (n < 30, = 0.05)- Valorile critice ale repartiției Student cu grade de libertate (= n-1), n=15
Test unilateraltcr=TINV(2*0.05,14)=1.761, RC=(1.761,+∞ , RC=(-∞,-1.761
Test bilateraltcr=TINV(0.05,14)= 2144, RC = (-∞, -2.144)U(2.144, +∞)
Testarea ipotezelor statistice. Teste parametricef) Calcularea valorii statistice a testului (Zcalc, tcalc)Ipoteza H0 este strict legată de un parametru al populaţiei, iar statistica testului are o repartiţie cunoscută tocmai din această ipoteză.
61Facult
atea d
e Farm
acie
Testarea ipotezelor statistice. Teste parametriceTestarea ipotezelor privind compararea a două mediiA. Grupuri independente
H0: NU există diferențe semnificative între valoarea medie a variabilei X dineșantionul E1 și valoarea medie a variabilei X din eșantionul E2. ( = .H1: Există diferențe semnificative între valoarea medie a variabilei X dineșantionul E1 și valoarea medie a variabilei X din eșantionul E2. ( ≠ . pentru eşantioane de volum mare (n1 ≥ 30, n2 ≥ 30) se foloseşte
statistica Z (ce urmează o distribuţie de probabilitate normală):
- când şi sunt cunoscute, statistica Z este:
- când şi sunt necunoscute, statistica Z este:
Testarea ipotezelor statistice. Teste parametriceTestarea ipotezelor privind compararea a două mediiA. Grupuri independente
Testarea ipotezelor statistice. Teste parametriceTestarea ipotezelor privind compararea a două mediiB. Grupuri dependente
Testarea ipotezelor statistice. Teste parametriceTestarea ipotezelor privind compararea a două mediiLuarea deciziei dacă valoarea numerică calculată a statisticii (Zcalc sau tcalc) cade
în RC (Zcalc > Zcr sau tcalc>tcr ), respingem ipoteza nulă H0 înfavoarea ipotezei alternative H1
dacă valoarea statisticii (Zcalc sau tcalc) NU cade în RC (Zcalc < Zcrsau tcalc<tcr ), acceptăm ipoteza nulă H0 cu o încredere de 1-
Observație: O serie de programe de prelucrare statistică furnizează valoarea p-value (probabilitatea asociata valorii statistice a testului). Astfel: (1) dacă p < atunci se poate afirma că există o diferență
semnificativă între valoarea ipotetică a parametrului şi valoareaobținută pe baza datelor observate (se respinge H0 și se acceptă H1 ).
(2) dacă p > atunci nu se poate spune că există o diferențăsemnificativă între valoarea ipotetică şi valoarea rezultată dindatele observate (se acceptă H0).
62Facult
atea d
e Farm
acie
Testarea ipotezelor statistice. Testul StudentCalcularea probabilitatii (p) asociate valorii statistice a testului=T.TEST(array1,array2,tails,type)
Funcția T.TEST se introduce într-o celulă oarecare specificând în ordine:
a) zonele care conțin datele celor două serii de valorib) valoarea: 1 sau 2 – pentru a indica dacă testul este cu un capăt (unilateral) sau cu două capete (bilateral)c) tipul testului: 1, 2 sau 3
1 - dacă grupurile sunt dependente2 - dacă grupurile sunt independente şi se presupune că populațiile au aceeaşi dispersie3 - dacă grupurile sunt independente şi se presupune că populațiile au dispersii diferite
Testarea ipotezelor statistice. Testul StudentGrupuri independente Grupuri dependente (perechi)
Luarea deciziei(1) dacă p < atunci se repinge ipoteza nulă H0 şi se acceptă ipoteza alternativăH1. Prin urmare există o diferență semnificativă între mediile caracteristicii în celedouă populații.(2) dacă p > atunci se acceptă ipoteza nulă H0. Prin urmare nu există o diferență semnificativă între mediile caracteristicii în cele două populații.
Obs. Dacă testul este cu două capete, atunci în cazul respingerii ipotezei H0 se considerăcă există diferențe între mediile celor două caracteristici fără a se specifica care dintre celedouă medii este mai mare.Dacă testul este cu un capăt, atunci în cazul respingerii ipotezei H0 este clar care dintre mediile celor două populații este mai mare.
=T.TEST(A3:A12,B3:B12,2,2) =T.TEST(A3:A14,B3:B14,2,1)
Testarea ipotezelor statistice. Testul StudentGrupuri independente Grupuri dependente (perechi)
Utilizarea testului t în analiza comparativă a medicamentelor La compararea efectului a două medicamente, la
compararea rezultatului determinărilor analitice cu valoare impusă de standardul de control asupra medicamentului precum şi în multe alte situaţii, apar rezultate diferite acolo unde ne aşteptăm ca acestea să fie egale.
Ne punem întotdeauna problema dacă, diferenţele constatate în practică sunt “semnificative” sau nu. Deoarece rezultatele provin din testarea unor eşantioane reduse, nu putem fi niciodată siguri în ceea ce priveşte parametrii întregii populaţii. Totuşi, asumându-ne un risc mai mare sau mai mic, trebuie să luăm decizii.
63Facult
atea d
e Farm
acie
Dacă, de exemplu, dozăm cantitatea de substanţă activă din 10 comprimate care provin dintr-o şarjă de 1.000.000 de comprimate, alegerea celor 10 comprimate se presupune că s-a făcut aleator şi ele reprezintă un eşantion reprezentativ pentru întreaga şarjă. Problema este dacă, în funcţie de valoarea medie a conţinutului pentru cele 10 comprimate şi variabilitatea celor 10 valori, putem spune, asumându-ne un anumit risc, că valoarea medie a concentraţiei în substanţa activă pentru tot lotul este cea declarată. În acest caz aplicarea testului t în verificarea ipotezei asupra mediei, este imediată.
La compararea mediilor a două selecţii independente, numite în experimentele cu medicamente “grupuri paralele”, o atenţia deosebită trebuie acordată verificării independenţei efective a acestora. De exemplu la testarea efectelor unui medicament asupra unui grup de pacienţi în comparaţie cu un alt grup ce se numeşte placebo, trebuie avut în vedere că pacienţii să nu se influențeze ca urmare a discuţiilor între ei. Dacă loturile sunt de animale ce trăiesc în aceiaşi cuşcă, medicamentul poate favoriza sau din contră, defavoriza un grup în lupta animalelor pentru hrană şi adaugă efecte suplimentare asupra rezultatelor finale ale testului.
Un caz foarte frecvent în testările comparative ale efectelor sau nivelelor plasmatice ale medicamentelor, este acela al observaţiilor pereche, când lotul de subiecţi trataţi se constituie ca propriul martor. Acestea oferă unele avantaje asupra experimentului pe grupuri paralele.
În primul rând, în experimentul pe grupe paralele, variabilitatea rezultă din diferenţele de răspuns la medicament între cele două grupuri, aşa numita “intervariabilitate”. În experimentul pereche apare “intravariabilitatea”, variabilitatea în răspunsul aceluiaşi subiect la două tratamente diferite şi avem motive să presupunem că aceasta este mai mică, de regulă decât intervariabilitatea. Teoretic, intervariabilitatea include şi intravariabilitatea şi deci nu poate fi mai mică decât aceasta. Din aceste motive, testul pereche oferă avantajul unei variabilităţi mai mici.
Testul pereche oferă avantajul că lotul poate fi mai mic. În experimentul pe grupe paralele, de exemplu două loturi de 10 subiecţi primesc două medicamente diferite. În experimentul pereche numai 10 subiecţi pot primi în prima administrare un medicament şi în a doua perioadă al doilea medicament.
Desigur că acestă cuplare nu este întotdeauna posibilă. Când dozăm cantitatea de substanţăactivă din comprimate sau determinăm timpul de dizolvare, acestea sunt consumate în timpultestării.
Testul pereche prezintă dezavantajul că între cele două tratamente trebuie să existe o perioadadestul de lungă pentru ca primul medicament administrat să se elimine din organism care, încazul medicamentelor cu timp de înjumătăţire mare cum ar fi de exemplu piroxicamul, depăşeşte30 de zile, in cazul clomifenului sau al penicilinei retard fiind nevoie de perioada între cele douaadministrari, de mai multe luni. În aceste situaţii se prelungeşte destul de mult timpul pentrudefinitivarea studiului.
Deasemenea, efectul primului medicament, în cazul că experimentele se fac pe pacienţi, poateduce la o îmbunătăţire a stării de sănătate a acestora şi la o modificare considerabilă a răspunsului la al doilea tratament.
Testarea ipotezelor statistice. Teste neparametriceTestul Testul CHI este un test neparametric ce poate compara două sau mai multe repartiții de frecvențe, dintre care unase consideră lot martor și alta lot experimental, provenitedin aceeași populație, dar având o caracteristică diferită, de exemplu:- copii vaccinati și nevaccinati antigripal, îmbolnăviți sau nu;- bolnavi tratați sau netratați cu medicamentul X,
nevindecați sau vindecați;- copii decedați sau vindecați de tuse convulsivă, tratați la
domiciliu sau la spital; etc.Testul CHI se aplică numai în acele situații cândevenimentele așteptate se exclud unul pe celălalt, în sensulcă nu este posibil să se producă decât unul dintre ele.
64Facult
atea d
e Farm
acie
Testarea ipotezelor statistice. Teste neparametrice. Testul
Etapele aplicării testului CHI:1. Culegerea și înregistrarea datelor studiului:
Subiecții sunt clasificați ca bolnavi sau nu, expuși la un anumitfactor de risc sau nu, etc.
se stabilește numărul de subiecți care fac parte din fiecare clasă
2. Formularea ipotezelor alternative (H0, H1)H0: Între cele două caracteristici studiate NU există o asociere(o legatură).H1: Există o asociere (o legătură) între cele două caracteristicistudiate.
3. Specificarea pragului de semnificație = 0.01, 0.05, 0.14. Stabilirea numărului gradelor de libertate (gl) a testului *
gl = (Nr.Rânduri -1)*(Nr.Coloane -1)5. Calcularea valorii statistice a testului ( calc) *
Testarea ipotezelor statistice. Teste neparametrice Testul 6. Calcularea probabilității asociate valorii statistice a testului (p)
=CHISQ .TEST(actual_range, expected_range) sau=CHITEST(actual_range, expected_range)
Valoarea unei celule din matricea valorilor estimate este egală cu produsul dintre suma valorilor de pe linia și suma valorilor de pe coloana matricei datelor test, totul împărțit la suma tuturor
Luarea deciziei(1) dacă p < atunci se respinge ipoteza nulă H0 şi se acceptă
ipoteza alternativă H1, (2) dacă p > atunci se acceptă ipoteza nulă H0,
Testarea ipotezelor statistice. Teste neparametrice Testul * Stabilirea numărului gradelor de libertate (gl) a testului
gl = (Nr.Randuri -1)*(Nr.Coloane -1)* Calcularea valorii statistice a testului ( calc)
=CHIINV(probability=p, degrees_freedom)* Stabilirea valorii critice a testului ( cr) pentru considerat
1. =CHIINV(probability=, degrees_freedom)2. Din tabelul valorilor critice ale testului cu pragul de
semnificație și gradele de libertate (gl)
Varianta 2
Luarea deciziei(1) dacă calc > cr atunci se repinge ipoteza nulă H0 şi se
acceptă ipoteza alternativă H1, (2) dacă calc < cr atunci se acceptă ipoteza nulă H0,
Testarea ipotezelor statistice. Teste neparametrice Testul Aplicație. Mortalitatea postoperatorie la bolnavii de ulcer gastric, în cazul utilizării mai multor tehnici de rezecție gastrică.
H0: NU există o asociere (o legătură) între mortalitatea postoperatorieși tehnicile chirurgicale utilizate.H1: Există o asociere (o legătură) între mortalitatea postoperatorie șitehnicile chirurgicale utilizate.
Deoarece p = 0,47 > 0,05 se acceptă ipoteza nulă H0. Prin urmare, nu există o asociere între numărul de decese și tehnica chirurgicală folosită.
Se poate face o asociere între numărulpersoanelor decedate și tehnica derezecție utilizată?
65Facult
atea d
e Farm
acie
Regresie și corelație
Curs 10
Context Statistica dispune de o seamă de metode de
studiere a dependenţelor (legăturilor) dintre două sau mai multe variabile. Printre acestea sunt şi cele cuprinse în "analiza de regresie şi corelaţie".
În cadrul acesteia se studiază dependenţa dintre o variabilă (caracteristică) rezultativă (y) şi una sau mai multe variabile (caracteristici) independente (x).
Caracteristica rezultativă se mai numeşte caracteristica dependentă, endogenă sau efect, iar caracteristica independentă se mai numeşte caracteristica factorială, exogenă sau cauză.
Regresia ne arată cum (ca formă analitică) o variabilă este dependentă de altă variabilă (sau de alte variabile), iar corelaţia ne arată gradul în care o variabilă este dependentă de o altă variabilă (sau alte variabile).
Clasificăria) după numărul caracteristicilor independente luate în studiu:- legături simple - legături multiple b) după direcţia legăturilor:- legături directe - legături inverse c) după expresia analitică a legăturilor:- legături liniare- legături neliniare (curbilinii) d) după metodele de abordare:- metode simple (elementare)- metode analitice
IntroducereMetode de regresie şi corelație pentru variabile cantitative de tip interval
Metoda de regresie şi corelaţie se bazează pe determinarea unei ecuaţii matematice ce descrie relaţia dintre variabila care va fi prognozată, denumită variabilă dependentă (notată cu y) şi variabilele care sunt legate de această variabilă, denumite variabile independente (notate cu x1, x2,..., xk).
Relaţia funcţională estey = f (x1, x2,..., xk)
66Facult
atea d
e Farm
acie
Modelul de regresie
Modelul de regresie este un model probabilist (saustohastic) deoarece variabilele modelului sunt variabile aleatoare (sau variabile stohastice).
Pentru a crea însă un model probabilist trebuie mai întâi să creăm un model determinist, care să stabilească, cu ajutorul unei relaţii funcţionale, legăturile dintre variabilele modelului.
Modelul de regresie
Modelul de regresie liniar (de ordinul I) va avea forma:
unde: y = variabila dependentă x = variabila independentă = intersecţia cu axa Oy (intercept) = panta (coeficientul unghiular) = variabila de eroare
Modelul de regresie
Pentru estimarea coeficienţilor şi ai modelului de regresie liniar se utilizează următorul algoritm:
[1]: Se extrage un eşantion de valori (xi, yi) din populaţia analizată;
[2]: Se calculează coeficienţii şi [3]: Se reprezintă dreapta de regresie. Coeficienţii şi ai modelului de regresie
liniar se determină cu ajutorul metodei celor mai mici pătrate.
Modelul de regresie
Am menţionat anterior şi am analizat modelul de regresie liniar.
În practică, există numeroase situaţii când modelul liniar nu este adecvat, utilizându-se modele de regresie neliniare.
Acestea pot fi modelate fie prin funcţii polinomiale de grad ≥ 2 sau prin funcţii exponenţiale sau logaritmice.
67Facult
atea d
e Farm
acie
Metoda celor mai mici pătrate
Metoda celor mai mici pătrate determină dreapta care minimizează suma
unde: yi sunt valorile observate sunt valorile calculate pe baza ecuaţiei dreptei
de regresie
Metoda celor mai mici pătrate
Metoda celor mai mici pătrate
Metoda celor mai mici pătrate
Coeficienţii şi se determină cu relaţiile
unde:
Metoda celor mai mici pătrate. Dreapta de regresie
R2 = coeficient de determinare (ia valori între 0 si 1)R2 arată cât de apropiate se află punctele de dreapta determinată
41,14% din variația (împrăștierea) uneia din cele două variabile estedeterminată de variația celeilalte variabilesau:cele două variabile au în comun 41,14% din variația ce le caracterizează, restul până la 100% din variabilitatea lor 58,86% provine din alte surse68Fac
ultate
a de F
armac
ie
Măsurile numerice ale dependenţei liniare Am descris anterior în mod grafic, cu ajutorul
diagramei de împrăştiere, legătura sau dependenţa dintre două variabile.
Dacă valorile reprezentate se situau aproximativ în apropierea unei drepte ce putea fi trasată aveam o dependenţă liniară.
Vom determina în continuare măsurile numerice ale dependenţei liniare, şi anume: covarianţa corelaţia
Definiţie Covarianţa unei populaţii statistice este prin definiţie:
Covarianţa unui eşantion statistic este prin definiţie:
Măsurile numerice ale dependenţei liniare
Dacă cov(x,y) > 0, atunci avem o dependenţă liniară pozitivă între variabilele analizate
Dacă cov(x,y) < 0, atunci avem o dependenţă liniară negativă între variabilele analizate
Dacă cov(x,y) = 0, atunci nu avem o dependenţă liniară între variabilele analizate
Măsurile numerice ale dependenţei liniare
c) cov(x,y) = 0b) cov(x,y) < 0a) cov(x,y) > 0
y
x
y
x
y
x
Definiţia: Coeficientul de corelaţie al unei populaţii statistice este prin definiţie:
unde x şi y sunt abaterile standard.Coeficientul de corelaţie al unui eşantion statistic
este prin definiţie:
unde sx şi sy sunt abaterile standard.
Măsurile numerice ale dependenţei liniare. Coeficientul de corelație
69Facult
atea d
e Farm
acie
Coeficientul de corelaţie al eşantionului(coeficientul Pearson) poate fi determinat şi cu o relaţie de calcul prescurtat:
Măsurile numerice ale dependenţei liniare. Coeficientul de corelație
Măsurile numerice ale dependenţei liniare. Coeficientul de corelație
Corelaţia şi dependenţa liniară
y
x
y
x
y
x
a) r(x,y) → 1 b) r(x,y) → 1 c) r(x,y) → 0
Măsurile numerice ale dependenţei liniare. Coeficientul de corelație
Măsurile numerice ale dependenţei liniare. Coeficientul de corelație
Pentru a afla dacă două variabile studiate sunt corelate sau nu,formulăm următoarele ipoteze statistice:- ipoteza nulă (H0): cele două variabile nu sunt corelate- ipoteza alternativă (H1): cele două variabile sunt corelate
Procedeu de lucru:• Se calculează coeficientul de corelație r• Se calculează numărul gradelor de libertate (gl):
gl = nr. perechilor de date – 2• Se alege un nivel de semnificație: 0.10, 0.05, 0.02, 0.01.• Pentru nivelul ales se citeşte din tabel valoarea critică (rcr)corespunzătoare numărului de grade de libertate.
Interpretare:• Dacă r > rcr se respinge ipoteza H0 şi se acceptă ipoteza H1 cu nivelul de semnificație respectiv (p < alfa).• Dacă r < rcr atunci cele două variabile sunt considerate necorelateşi se acceptă ipoteza H0 (p > alfa). 70Fac
ultate
a de F
armac
ie
Măsurile numerice ale dependenţei liniare. Coeficientul de corelație
Tabelul 1. Valoarea critică a coeficientului decorelație pentru nivele diferite de semnificație:0,10; 0,05; 0,02; 0,01
Interpretare: = 0.05gl = 17rcr = 0.4555r = 0,6414 > rcrse respinge H0 şi se acceptă H1.Cele două variabile studiate sunt corelate.
Coeficientul de corelație în EXCEL=CORREL(Array1, Array2)
Evaluarea modelului de regresie Variabila de eroare , care apare în modelul de
regresie trebuie să satisfacă următoarele condiţii:
[1] Distribuţia lui este normală;[2] Valoarea medie a lui este 0, adică
M[]=0;[3] Abaterea standard a lui respectiv , este
constantă faţă de valorile lui x;[4] Valoarea lui asociată unei valori y este
independentă de altă valoare a lui y.
În modelul de regresie, abaterile valorilor observate de la dreapta de regresie
se numesc valori reziduale. Suma pătratelor acestor valori reziduale este:
Evaluarea modelului de regresie
Estimatorul nedeplasat al dispersiei variabilei de eroare
este dat de relaţia:
Rădăcina pătrată a lui s se numeşte eroarea standard a estimării, adică
Evaluarea modelului de regresie
71Facult
atea d
e Farm
acie
Coeficientul de determinare R2 măsoară intensitatea dependenţei liniare dintre două variabile şi este dat de relaţia:
Coeficientul de determinare este pătratul coeficientului de corelaţie, adică
Evaluarea modelului de regresie O altă metodă de evaluare a modelului de
regresie este analiza reziduală.
O primă abordare este reprezentarea grafică, cu ajutorul histogramei frecvenţei relative a valorilor reziduale.
Cerinţa este ca histograma valorilor reziduale să pună în evidenţă normalitatea, ceea ce ne arată faptul că eroarea este distribuită normal.
Evaluarea modelului de regresie
Cerinţa ca dispersia variabilei de eroare să fie
constantă se numeşte homoscedasticitate.
Nerespectarea acestei cerinţe privind constanţa dispersiei se numeşte heteroscedasticitate.
Alte elemente de evaluare ale modelului de regresie se referă la independenţa saudependenţa variabilelor şi la prezenţa sau nu a valorilor extreme.
Evaluarea modelului de regresie
Dacă modelul de regresie este adecvat, putem să îl utilizăm pentru a face o prognoză sau o predicţie asupra valorilor variabilei dependente.
Pentru valoarea x0 dată, valoarea de predicţie punctuală este
obţinută prin înlocuirea valorii date în ecuaţie de regresie.
Evaluarea modelului de regresie
72Facult
atea d
e Farm
acie
Pentru predicţia asupra unei valori individuale ale variabilei dependente, dată fiind o valoare specificată x0 a variabilei independente se utilizează intervalul de predicţie de forma:
unde:
Evaluarea modelului de regresie
Pentru estimarea valorii medii a variabilei dependente, dată fiind o valoare specificată x0a variabilei independente se utilizează intervalul de încredere de forma:
unde:
Evaluarea modelului de regresie
Evaluarea modelului de regresieDeterminarea coeficienților drepteide regresie utilizând Regressiondin modulul Data Analysis.
Evaluarea modelului de regresie
Intervalul de încredere pentru coeficientul lui x (greutate) din funcția de regresie nu conține pe 0, deci se poate afirma ca există o corelațiesemnificativă între cele două variabile.
73Facult
atea d
e Farm
acie
Regresie Multiplă
Biostatistică
Curs 11
În foarte multe cazuri, modelul de regresie simplă nu explicăsuficient de bine legatura variabilei dependente de variabilaindependentă. R2 este prea mic si ε este prea mare pentru a da veridicitate modelului.
Situația se datorează de cele mai multe ori neglijării unorfactori suplimentari de influență.
Luarea în considerare corectă a acestora aduce o creștereconsiderabilă a preciziei modelului.
Se poate cuantifica astfel contribuția fiecarui factor la explicarea variabilei dependente
Factorii suplimentari de influență semnificativi (alte variabileindependente) trebuie identificați cu atenție și validați ca atareprin construcția modelului.
LIMITĂRILE REGRESIEI SIMPLE
Într-un lanț de farmacii, remunerarea personalului estede așteptat sa fie proporționalăcu experiența fiecărui angajat(nr de ani în meserie). Dorindsa verifice acest lucru, managerul unității colecteazădatele referitoare la 12 farmaciști aleși aleator (tabelulalăturat) și construiește un model de regresie liniarăsimplă.
Exemplu
Angajat#
Venit lunar(lei)
Experienta(ani)
1 1650 32 1280 13 2420 184 3180 155 1920 66 1500 27 3430 128 2220 129 4210 22
10 2240 711 1860 512 1940 4
Modelul obținut nu este satisfăcător (coeficientul de determinare R2 este destul de redus iar depărtareapunctelor de dreapta-model este cam mare). Nivelulsalariului nu este explicat suficient de vechimea în meserie. Managerul încearca să gasească explicații pentruaceasta în influența altor factori asupra retribuției.
Exemplu-rezolvare
y = 112.13x + 1321R² = 0.7689
0
500
1000
1500
2000
2500
3000
3500
4000
4500
0 5 10 15 20 25
Venit lunar (lei)
Venit lunar (lei)
Linear (Venit lunar (lei))
74Facult
atea d
e Farm
acie
Este o generalizare a modelului de regresie simplă. Modelul construit în acest fel conține mai multe variabileindependente (predictori, variabile explicative). Pentruvariabila dependenta Y și un număr de k variabileindependente X1, X2,…, Xk, modelul de bază este:
Y=β0+ β1*X1+ β2*X2+…..+ βk*Xk+ε Putem astfel evalua influențele mai multor factori asupra
variabilei dependente (variabila de răspuns) care ne interesează.
Modelul poate fi utilizat pentru: Confirmarea si explicarea dependențelor Previzionare Identificarea factorilor de control cei mai eficienți
REGRESIA MULTIPLĂ
Pentru modelul :Y=β0+ β1*X1+ β2*X2+…..+ βk*Xk+ε
ordonăm eșantionul de n seturi de valori de care dispunem[Yi, X1i, X2i,…, Xki,] unde i=1,…,n
calculăm coeficienții ecuației unei suprafete într-un spațiu cu k dimensiuni de forma:
Y(X1,X2,…,Xk)=b0+ b1*X1+ b2*X2+…..+ bk* Xk
care indeplinește condiția∑|Yi, Y(X1i,X2i,…,Xki)| = min unde i=1,…,n
REGRESIA MULTIPLĂ modelul
Pentru modelul :Y(X1,X2,…,Xk)=b0+ b1*X1+ b2*X2+…..+ bk* Xk
calculul algebric manual al coeficienților b0,b1,….. bk esteextrem de laborios și expus erorilor. Se utilizeaza rutine de calcul furnizate de produse de software adecvate.
În Excel se folosesc functia LINEST și rutina REGRESSION. Aceasta din urmă folosete ea insăși functia LINEST, darintroducerea datelor nu cere manipulări vectoriale, iarrezultatele analizei sunt explicitate mult mai accesibil, sub forma tabelului ANOVA (Analysis of Variance).
CALCULUL COEFICIENȚILORNesatisfăcut de modelul de
regresie simplă construit, managerul unitătii identifică altăvariabila independentă care arputea influența salariulangajaților: nivelul de expertiză, exprimat în clasele 1-40 în care este încadrat fiecare angajat din eșantionul colectat. Dateleculese sunt în tabelul alăturat. Cu aceste date el construieșteun model de regresie multiplăcu 2 factori (vechimea în meserie si nivelul de expertiză).
Exemplu
Angajat #
Venitlunar
(lei)Experienta
(ani)
Nivelexpertiza
(1-40)1 1650 3 122 1280 1 83 2420 18 254 3180 15 325 1920 6 176 1500 2 157 3430 12 358 2220 12 209 4210 22 38
10 2240 7 2211 1860 5 1612 1940 4 19
75Facult
atea d
e Farm
acie
Exemplu - comentarii rezultate
SUMMARY OUTPUT
Regression StatisticsMultiple R 0.978071814R Square 0.956624473Adjusted R Square 0.946985467Standard Error 199.8732147Observations 12
ANOVA
df SS MS FSignifican
ce FRegression 2 7929547.9 3964773.97 99.245 7.37E-07Residual 9 359543.72 39949.302Total 11 8289091.7
CoefficientsStandard
Error t Stat P-valueLower 95% Upper 95%
Lower 95.0% Upper 95.0%
Intercept 426.5046954 173.60374 2.45677134 0.0364 33.78575 819.22364 33.78575 819.2236407Experienta (ani) 15.32418547 17.872374 0.85742304 0.4135 -25.1059 55.754305 -25.105934 55.75430463Nivel expertiza (1-40) 81.43728112 13.049062 6.24085313 0.0002 51.91825 110.95631 51.918251 110.9563107
Coeficientii b0,b1,b2
Coeficientul de determinare R2
(Trebuie sa fie cat mai apropiat de 1)
Variabila statistica F(Trebuie sa fie cat mai mare)
Modelul obținut este satisfăcător: coeficientul de determinare R2 a crescutde la 0.769 în modelul simplu la 0.957 în modelul multiplu. Aceastaînseamna că Experiența explică doar 77% din valoara venitului, întimp ce Experiență si Nivel expertiză explică 96%. F este foartemare iar p este mult mai mic decat α=1-Nivelul de incredere=1-0.95=0.05
Modelul este semnificativ statistic.
Nivelul observat de semnificatie p(Trebuie sa fie mai mic decat αales initial, adica 0.05)
Exemplu - comentarii rezultate
SUMMARY OUTPUT
Regression StatisticsMultiple R 0.978071814R Square 0.956624473Adjusted R Square 0.946985467Standard Error 199.8732147Observations 12
ANOVA
df SS MS FSignificanc
e FRegression 2 7929547.9 3964773.97 99.245 7.37E-07Residual 9 359543.72 39949.302Total 11 8289091.7
CoefficientsStandard
Error t Stat P-value Lower 95% Upper 95%Lower 95.0% Upper 95.0%
Intercept 426.5046954 173.60374 2.45677134 0.0364 33.78575 819.22364 33.78575 819.2236407Experienta (ani) 15.32418547 17.872374 0.85742304 0.4135 -25.1059 55.754305 -25.105934 55.75430463Nivel expertiza (1-40) 81.43728112 13.049062 6.24085313 0.0002 51.91825 110.95631 51.918251 110.9563107
Oferă informații despre valorile estimate ale coeficienților modelului de regresie în coloana Coefficients, erorile standard ale coeficientilor în coloana Standard Error, elemente pentru aplicarea testului de semnificație t-Student pentru fiecare coeficient (coloanele t Stat si P-value.). Tot aici avem informații despre intervalele de încredere calculate pentru fiecare parametru din modelul de regresie.
Modelul de regresie simplăV=1321+112*E
sugerează ca un începător la angajare (E=0) ar trebui săcastige 1321 lei/lună, iar în fiecare an veniturile ar trebui să-icrească cu 112 lei/lună. Puțin probabil.
Modelul de regresie multiplă cu 2 factoriV=427+15.3*E+81.44*N
sugerează că un începator la angajare (E=0, N=0) ar trebui săcastige 427 lei/lună, în fiecare an veniturile ar trebui să-icrească cu 15.3 lei/lună dacă nu iși crește nivelul de expertiză, iar la fiecare creștere cu o clasă (din cele 40) a nivelului de expertiză, veniturile ar trebui să-i crească cu 81.44 lei/lună
INTERPRETAREA MODELULUI
În cele mai multe cazuri variabilele independente suntmărimi măsurabile cantitativ. Dacă toate componentele eșantionului pe care îl modelăm au
același ordin de mărime, folosim valorile ca atare. Dacă avem de-a face cu cazuri semnificativ diferite ca ordine de
marime, folosim valori relative. (Ex: modelul care stabileste o legatură intreprofitul unei companii farmaceutice și factori precum cifra de afaceri, numărul de farmacii, numarul de personal, datorii, etc, este abordabil doar dacă toate mărimilesunt raportate la un indicator de scală, de ex mărimea activelor. În acest mod puteminclude în eșantion companii mari și companii mici)
Unii factori sunt mai degrabă calitativi (ex: supervizor sau nu, barbat/femeie, studii superioare sau nu, etc) sunt incluși în model sub forma binară (Ex: X3 =0 daca angajatul nu este supervizor, X3 =1 dacă angajatul este supervizor)
ALEGERA FORMEI VARIABILELOR INDEPENDENTE
76Facult
atea d
e Farm
acie
Modelul cu 2 variabileindependente pare destul de precis, totuși managerul unitătiimai caută să identifice și altevariabile care ar puteainfluența veniturile. E convinscă poziția de supervizor are o influență semnificativă, șibanuiește că barbații și femeileprimesc tratamente diferite, acestea din urmă fiinddiscriminate. Pentru extindereaanalizei, completează datelebinare respective.
Exemplu
Angajat#
Venitlunar
(lei)Experienta
(ani)
Nivelexpertiza
(1-40)Supervizor
(da/nu)Barbat(da/nu)
1 1650 3 12 0 12 1280 1 8 0 13 2420 18 25 0 14 3180 15 32 1 15 1920 6 17 0 06 1500 2 15 0 17 3430 12 35 1 08 2220 12 20 0 19 4210 22 38 1 1
10 2240 7 22 0 011 1860 5 16 0 112 1940 4 19 0 0
Exemplu - comentarii rezultate
Coeficientii b0,b1, b2,b3,b4
Coeficientul de determinare ajustat R2
A
(Trebuie sa creasca la adaugarea unor factori semnificativi)
Variabila statistica F(Trebuie sa fie cat mai mare)
Modelul obținut este MAI BUN: coeficientul de determinare R2 a crescutde la 0.957 pentru 2 factori la 0.973 la 4 factori . F este foarte mare iarp este mic. Coeficientul de determinare ajustat R2
A a crescut de la 0.947 pentru 2 factori la 0.957 la 4 factori.
Modelul cu 4 factori este semnificativ statistic și superior modelului cu 2 factori.
Nivelul observat de semnificatie p(Trebuie sa fie mai mic decat αales initial, adica 0.05)
Regression StatisticsMultiple R 0.986261311R Square 0.972711374Adjusted R Square 0.957117874Standard Error 179.7609209Observations 12
ANOVA
df SS MS FSignifican
ce FRegression 4 8062893.7 2015723.44 62.379 1.48E-05Residual 7 226197.92 32313.9887Total 11 8289091.7
CoefficientsStandard
Error t Stat P-valueLower 95% Upper 95%
Lower 95.0% Upper 95.0%
Intercept 1054.995654 476.83388 2.21250146 0.0626 -72.5373 2182.5286 -72.537303 2182.528611Experienta (ani) 40.76562985 27.813553 1.46567503 0.1862 -25.003 106.53423 -25.002972 106.5342313Nivel expertiza (1-40) 37.4977339 31.238109 1.20038424 0.269 -36.3687 111.36412 -36.368657 111.3641244Supervizor (da/nu) 640.524865 345.89451 1.85179254 0.1065 -177.386 1458.4354 -177.38567 1458.435403Barbat (da/nu) -100.6697399 181.76215 -0.5538543 0.5969 -530.469 329.12944 -530.46892 329.1294362
Modelul de regresie multiplă cu 2 factoriV=427+15.3*E+81.44*N
sugerează că un începator la angajare (E=0, N=0) ar trebui sa castige 427 lei/lună, în fiecare an veniturile ar trebui să-i creasca cu 15.3 lei/lună dacănu își crește nivelul de expertiză, iar la fiecare creștere cu o clasă (din cele40) a nivelului de expertiză veniturile ar trebui să-i crească cu 81.44 lei/luna.
Modelul de regresie multiplă cu 4 factoriV=1055+40.8*E+37.5*N+640.5*S-101*B
sugerează că un incepator la angajare (E=0, N=0) ar trebui să castige 1055 lei/luna, în fiecare an veniturile ar trebui să-i crească cu 40.8 lei/lună dacănu iși crește nivelul de expertiză, iar la fiecare creștere cu o clasă (din cele40) a nivelului de expertiză veniturile ar trebui să-i crească cu 37.5 lei/lună. Când ar deveni supervizor, ar trebui să câstige în plus 670.5lei/lună. Dacă e barbat, castigă mai putin cu 101 lei/lună decât dacăar fi femeie.
INTERPRETAREA MODELULUI
Managerul care a construit modelul poate să-și facă o păreredacă sistemul de salarizare este echitabil și motivant: Abaterile individuale (erorile) față de model ar trebui minimizate, pentru
obținerea unei echităti acceptabile. Creșterea coeficientilor b2 si b3 ar aduce o stimulare pentru cresterea în
expertiză si dobândirea statutului de supervizor. Scăderea coeficientului b4, arelimina diferențele de tratament între sexe.
Pentru un nou angajat, introducerea în ecuația modelului a datelor sale personale conduce la stabilirea unui nivel de venituri în concordanță cu cele ale personalului existent.
Pentru evoluția în timp a veniturilor individuale, oricemodificare pentru un angajat ar trebui sa îl aducă maiaproape de valoarea furnizată de model.
Exemplu -UTILIZARI POSIBILE ALE MODELULUI
77Facult
atea d
e Farm
acie
Sunt recomandate două tipuri de abordări ale modelării prinregresie multiplă:
Regresie cu pași înainte: se construiește un model de regresie simplă, apoi se introduc succesiv factorisuplimentari de regresie multiplă, supraveghind crestereasemnificației statistice și creșterea la fiecare pas a coeficientului de determinare ajustat R2
A. Când acestaîncepe să scadă cu creșterea numărului de factori, ultimulfactor introdus este eliminat ăi modelul ramâne în aceastăformî.
Regresie cu pași înapoi: se construiește cel mai complex model posibil și se elimină succesiv factorii care prindispariție fac să crească R2
A.
REGRESIA ÎN PAȘI
Câteva tipuri de cercetare utilizând regresia multiplă: Prețul unor produse legat de caracteristicile acestora Efectul timpului și duratei reclamelor asupra vânzarilor Consumul specific al unor vehicule în funcție de
caracteristicile lor Rezultatele școlare ale unor studenți funcție de diverse
caracteristici ale muncii depuse Costurile de mentenanță ale sftware-ului farmaceutic în
funcție de versiunea instalată și configurația sa Prețurile locuințelor în funcție de mai mulți factori Cheltuielile pentru o vacanță în funcție de mai mulți factori
EXEMPLE DE TIPURI DE PROBLEME DE REGRESIE MULTIPLĂ
ELEMENTE DE ANALIZĂ DISPERSIONALĂ (ANOVA)
(ANOVA)
ANALIZA DISPERSIONALĂ (ANOVA)
ANOVA unifactorială permite compararea mediilor a trei sau maimultor eşantioane (grupe) sau populații în vederea verificării dacăexistă sau nu diferențe semnificative între ele ca urmare a acțiuniiunui factor cauză (de exemplu tratament).Aplicarea analizei dispersionale impune:• condiția de independență (eşantioanele de efective n1, ..., nk sunt
selectate aleator şi independent din populațiile respective)• condiția de normalitate (populațiile din care se extrag
eşantioanele sunt distribuite normal)• condiția de homoscedasticitate (varianțele celor k populații sunt
egale între ele)
78Facult
atea d
e Farm
acie
Analiza dispersională unifactorială Ipoteza nulă susţine egalitatea între mediile grupelor din colectivitatea
generală, alcătuite după variabila X:
Ipoteza alternativă susţine că cel puţin două medii ale grupelor nu sunt egale:
Se testează, deci, dacă diferentele intre mediile de grupă nu sunt prea mari pentru a fi puse doar pe seama întâmplării (a factorilor aleatori), iar dacă există cel puţin două medii semnificativ diferite, înseamnă că factorul de grupare X are o influenţă semnificativă asupra variabilei Y.
Mediile grupelor din colectivitatea generală sunt aproximate prin mediile grupelor din eşantion ( , ),
Analiza dispersională unifactorialăProcedeul presupune descompunerea varianței totale (VT) în două componente: varianța intergrupe (VE) şi varianța intragrupe (VR).
Analiza dispersională unifactorială
Varianţa dintre grupe (varianţa factorială, sistematică) arată influenţa factorului cauzal asupra variaţiei lui Y:
Varianţa din interiorul grupelor (varianța reziduală) exprimă influenţa factorilor aleatori asupra lui Y:
Varianţa totală reflectă influenţa tuturor factorilor (sistematici – X şi reziduali) asupra lui Y:
Analiza dispersională unifactorială
Pentru a asigura comparabilitatea varianţelor, ele sunt raportate la numărul gradelor de libertate, obţinându-se dispersii corectate: Dispersia corectată factorială (intergrupe)
Dispersia corectată reziduală (intragrupe)
79Facult
atea d
e Farm
acie
Analiza dispersională unifactorială
Testul F (Fisher) este raportul între dispersia corectată factorială și cea reziduală
Presupuneri pentru aplicarea testului F: cele “r” grupe din eşantion sunt extrase aleator din cele “r”
grupe ale colectivităţii totale; Fiecare grupă din colectivitatea generală are o distribuţie
normală, iar abaterile medii pătratice ale acestora sunt egale:
Analiza dispersională unifactorială
Valoarea calculată a testului F se compară cu valoarea critică, corespunzătoare nivelului de semnificaţie α şi gradelor de libertate (r-1) şi (n-r): F α; r-1; n-r.
Regula de decizie este: Dacă Fcalc≤ F α; r-1; n-r , atunci se acceptă H0, deci mediile de grupă
nu diferă semnificativ unele de altele, iar eventualele diferenţe ce pot apare pot fi puse pe seama întâmplării. În acest caz, variabila Y este independentă de factorul de grupare X şi analiza dispersională este punctul final al analizei.
Dacă Fcalc> F α; r-1; n-r , atunci se acceptă H1, deci între mediile de grupă există o diferenţă semnificativă, care nu poate fi pusă pe seama acţiunii factorilor aleatori. În acest caz, variabila Y depinde semnificativ de factorul de grupare X şi trebuie aplicate în continuare metodele de analiză a legăturilor dintre variabile.
Aplicație
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups Ve 6.3705 ν1=r-1 2 3.185256 0.315492 0.732083 3.354131
Within Groups Vr 272.6 ν2=n-r 27 10.09615
Total Vt 278.97 ν=n-1 29
Nivel minim de semnificaţie ->prob. maximă cu care garantăm că H1 adev.
Varianța intergrupe
Varianța intragrupe
Varianța totală
Grade de libertate
Dispersie corec-tată sistematică
Dispersie corec-tată reziduală
Val. calc. a test F
Val. critică a test F
80Facult
atea d
e Farm
acie
Concluzii
Modelele de analiză dispersională nu explică relaţia dintre variabile Verifică doar măsura în care valorile reale ale unei caracteristici se
abat de la valorile teoretice, precum şi măsura în care aceste variaţiisunt sau nu dependente de factorul/factorii de grupare.
Metoda analizei dispersionale poate fi utilizată atât înaintea, cât şidupă aplicarea metodelor corelaţiei şi regresiei statistice.
Testul F se poate utiliza şi pentru testarea validităţii modelului deregresie.
În general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt niveluriale unei variabile categoriale (numite şi tratamente), dar, cum ceea ceeste valabil pentru o scală inferioară (nominală) este valabil şi pentruorice altă scală superioară (ordinală, de intervale, de rapoarte), analizase poate extinde.
81Facult
atea d
e Farm
acie