METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ … de curs/Facultatea de Medicina... · 23 Interogări...

METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ A DATELOR MEDICALE

EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS

LUCIAN V. BOICULESE GABRIEL DIMITRIU ADRIAN DOLOCA MIHAELA MOSCALU CRISTINA DASCALU

EDITURA PERFORMANTICA

Lucian Vasile BOICULESE Cristina DASCĂLU Gabriel DIMITRIU Mihaela MOSCALU Adrian DOLOCA

METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ

A DATELOR MEDICALE


Referent ştiinţific: Prof. Univ. Dr. Doina Azoicăi Universitatea de Medicină şi Farmacie „Grigore T. Popa” Iaşi DESRIEREA CIP A Bibliotecii Naţionale a României

Lucian Vasile BOICULESE Cristina DASCĂLU Gabriel DIMITRIU Mihaela MOSCALU Adrian DOLOCA

METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ

A DATELOR MEDICALE


PERFORMANTICA

Contribuţia pe capitole a autorilor: Capitole Autori 1-6, 14-16 Lucian V. Boiculese, Adrian Doloca, Cristina Dascălu 7-8, 13, 20 Mihaela Moscalu, Lucian V. Boiculese, Adrian Doloca 9-12 Gabriel Dimitriu, Mihaela Moscalu, Lucian V. Boiculese 17-19, 23 Cristina Dascălu, Gabriel Dimitriu, Mihaela Moscalu 21-22, 24 Adrian Doloca, Cristina Dascălu, Gabriel Dimitriu Lucian Vasile BOICULESE [email protected] Cristina DASCĂLU cdascalu@ infbst.umfiasi.ro Gabriel DIMITRIU gdimitriu@ mail.umfiasi.ro Mihaela MOSCALU mmoscalu@ mail.umfiasi.ro Adrian DOLOCA adoloca@ mail.umfiasi.ro

CUPRINS Introducere ............................................................................................................ 9 1 Formatarea celulelor..................................................................................... 11

Formatare condiţionată .............................................................................. 13 Utilizarea comenzii Paste Special ............................................................ 14

2 Modul de adresare a celulelor. Crearea formulelor de calcul .............. 19

Reguli de adresare a celulelor ................................................................... 19 Crearea formulelor de calcul .................................................................... 20 Tehnica automată de încărcare a celulelor (autoîncărcare - autofill) .. 22

3 Modul de adresare absolută a celulelor ................................................... 26

Adresarea absolută ..................................................................................... 26 Ataşarea unui nume pentru un bloc de calcul ........................................ 27 Stilul de referire R1C1 ................................................................................ 28

4 Introducerea seriilor de date în foaia de calcul ...................................... 31

Mai multe despre încărcarea seriilor de date .......................................... 31 Generator de valori aleatoare .................................................................... 34 Contorizarea datelor ................................................................................... 34

5 Transformarea unei variabile numerice în formă categorială ............. 38

Funcţia if() .................................................................................................... 38 Funcţia Lookup() ........................................................................................ 39

6 Extragerea de informaţii din tabele de date ............................................ 45

Tabele Pivot ................................................................................................. 45 Totalizarea datelor ...................................................................................... 47 Filtre .............................................................................................................. 49

7 Reprezentarea grafică a datelor ................................................................. 54

Tipuri de grafice .......................................................................................... 54 Crearea şi editarea graficelor .................................................................... 62

8 Reprezentarea grafică a funcțiilor ............................................................. 66

Reprezentarea grafică a funcţiilor utilizând grafice de tip Scatter ....... 66 Reprezentarea grafică a funcţiilor utilizând grafice de tip Surface ...... 70

Cuprins | 5

9 Elemente de teoria probabilităților (I) ...................................................... 73 Experienţă. Probă. Eveniment ................................................................... 73 Evenimente compatibile. Evenimente incompatibile ............................ 74 Evenimente dependente. Evenimente independente (I) ....................... 74 Operaţii cu evenimente .............................................................................. 74

10 Elemente de teoria probabilităților (II) .................................................. 78

Definiția clasică a probabilității. Proprietăți ............................................ 78 Regula adunării probabilităților evenimentelor incompatibile ............ 82 Probabilitatea evenimentelor contrare (complementare) ..................... 82 Sistem complet de evenimente ................................................................. 83 Evenimente independente și dependente (II). ........................................ 83 Probabilitate condiționată. Teorema înmulțirii probabilităților evenimentelor independente și dependente ........................................... 84

11 Elemente de teoria probabilităților (III) ................................................. 89

Evenimente independente. Evenimente independente în totalitatea lor (III) ................................................................................... 89 Teorema adunării probabilităților evenimentelor compatibile ............ 91 Formula probabilității totale ..................................................................... 92

12 Elemente de teoria probabilităților (IV) ................................................. 96

Analiza unor exemple de aplicare a Teoremei lui Bayes ...................... 96 13 Statistică descriptivă (I) ........................................................................... 100

Calculul indicatorilor statistici ................................................................ 100 14 Statistică descriptivă (II) ......................................................................... 110

Distribuţia de frecvenţă, realizarea histogramei, curba Gauss-Laplace ................................................................................ 110

15 Intervale de încredere (confidenţă) ....................................................... 117

Intervale de confidenţă pentru estimarea mediei ................................ 117 16 Dimensiunea eşantionului ..................................................................... 124

Volumul eşantionului de lucru ............................................................... 125 17 Compararea seturilor de date (I) ............................................................ 130

Compararea a două seturi de date – testul t (Student) ........................ 130 18 Compararea seturilor de date (II) .......................................................... 140

Compararea seturilor de date prin metoda ANOVA .......................... 140

6 | Cuprins

19 Regresie. Corelaţie.................................................................................... 146 Regresie liniară şi corelaţie ...................................................................... 146

20 Analiza supravieţuirii ............................................................................. 155

Analiza supravieţuirii – Kaplan Meier .................................................. 155 21 Baze de date Microsoft Access. Noţiuni generale .............................. 160

Elemente introductive .............................................................................. 160 Deschiderea şi crearea unei baze de date .............................................. 161 Sortarea şi filtrarea datelor ...................................................................... 174

22 Baze de date Microsoft Access. Relaţionarea tabelelor ..................... 180

Relaţii între tabele ..................................................................................... 180 23 Interogări SQL în Microsoft Access ...................................................... 187 24 Formuri şi rapoarte în Microsoft Access .............................................. 198 Bibliografie ....................................................................................................... 203

Cuprins | 7

INTRODUCERE

Această carte reprezintă o suită de teme de calcule statistice utilizate în prelucrarea datelor biologice (medicale, farmaceutice) prezentate şi aplicate la cursurile şi lucrările de laborator de Informatică Medicală şi Biostatistică şi de Matematică Informatică din cadrul Universităţii de Medicină şi Farmacie „Grigore T. Popa” din Iaşi.

În formarea profesională medicală este imperios necesară însuşirea elementelor descriptive și de analiză de bază în domeniul biostatistic. Acestea constituie instrumente de neînlocuit în cercetarea științifică, statistica reprezentând modalitatea principală de extragere si prelucrare a informațiilor relevante din datele clinice si de laborator.

Biostatistica este o ştiinţă cu arie mare de desfăşurare, este vastă prin tehnicile şi subdomeniile de utilizare. Ne-am propus să realizăm o iniţiere solidă în domeniu dar este evident că îmbogăţirea cunoştinţelor va depinde în cele din urmă de interesul personal pentru o anumită temă și de specializarea şi traseul profesional ales în viaţă. Ne-am concentrat atenţia asupra unui software foarte popular dar valoros şi potrivit pentru iniţiere în această sferă a ştiinţei, și anume Microsoft Excel 2010 (compatibil cu versiunile anterioare). Mai mult chiar prin popularitatea, compatibilitatea cu multe alte programe şi prin uşurinţa în utilizare, reprezintă o variantă bună de început în calculul tabelar şi statistic. Primele teme descriu metode de formatare, calcul de funcţii, contorizare, filtrare şi de transformare a datelor, tehnici dedicate softului studiat.

O prezentare succintă a teoriei probabilităţilor am realizat-o pe parcursul a patru teme, ca o introducere și pentru o înţelegere mai clară a noţiunilor analizate în capitolele următoare.

Am continuat în cadrul elementelor descriptive cu prezentarea indicatorilor statistici, a histogramelor, a curbei de distribuţie Gauss-Laplace şi a intervalelor de confidenţă. În cadrul analizei am început cu determinarea dimensiunii eşantionului de lucru, apoi testul student (t) cât şi metoda ANOVA pentru compararea mediilor, regresia liniară, corelaţia şi pentru studiul supravieţuirii am descris tehnica Kaplan Meier (ca să deschidem apetitul pentru studiul statistic).

Introducere | 9

În final am prezentat patru teme pentru lucrul cu baze de date într-un software larg răspândit dedicat gestiunii informaţiei, și anume Microsoft Access 2010. Este o iniţiere ce prezintă o alternativă la Microsoft Excel, ca gestiune a datelor într-o primă etapă. Din experienţa noastră de predare în cadrul acestei frumoase ştiinţe interdisciplinare, Informatica Medicală, considerăm aceste teme ca fiind necesare în formarea viitorului specialist dedicat domeniului sănătăţii şi sperăm că informaţiile descrise vor ajuta în înţelegerea teoretică cât şi în aplicarea practică a noţiunilor prezentate. Întrucât orice demers educațional este perfectibil, pentru sugestii, observaţii, comentarii şi discuţii pe aceste teme, aşteptăm să ne contactați la adresele de e-mail prezentate de autori.

Autorii

10 | Introducere

1 FORMATAREA CELULELOR Noţiuni prezentate: Formatarea celulelor. Formatare condiţionată Utilizarea comenzii Paste Special

Aplicaţiile de calcul tabelar folosesc seturi de date ce pot fi

prelucrate printr-o multitudine de tehnici matematice. Extragerea de informaţii se poate realiza prin folosirea filtrelor, prin ordonare, prin utilizarea de metode de validare, consolidare prin creare de rezumate asupra selecţiilor de date prin diferite analize printre care, de importanță majoră analiza statistică [1]. Informaţia este introdusă în celule ce determină tabelul. Celula este identificată după coloana şi rândul a căror intersecţie o definesc (asemănător tablei de şah).

Pentru a putea lucra cu date, acestea sunt definite în forme proprii şi astfel permit aplicarea de operatori şi funcţii specifice.

Tipuri principale de date: Text, Numeric, Data calendaristică. Din acestea pot deriva subtipuri funcţie de interes şi de cerinţele necesare.

În Excel, se foloseşte implicit, formatul General. Practic, acesta acceptă orice tip de dată. Prin introducerea unor valori, se caută să se determine automat tipul de dată introdus (exemplu numeric, dată calendaristică) [1, 2]. Practic prima valoare introdusă într-o celulă este foarte importantă deoarece defineşte tipul datei. Avem evident şi posibilitatea schimbării tipului dacă dorim.

Formatarea înseamnă definirea elementelor ce descriu afişarea unei date. Aceste elemente definesc alinierea datelor, tipul de caracter folosit, tipul de chenar dar şi caracteristici speciale, cum ar fi de exemplu, pentru valorile numerice, precizia de afişare cu zecimale semnificative şi nesemnificative, forma de afişare a valorilor negative, formele compactă, ştiinţifică şi altele.

Pentru a defini sau modifica prezentarea unei date se deschide fereastra de formatare a celulelor (Format Cells) prin Home apoi Number (se face clic pe săgeata din colţul din dreapta jos). Se obţine fereastra reprezentată în figura următoare unde se poate defini forma de afişare dorită.

Avem posibilitatea de alegere din formatele predefinite dar putem crea şi formate personalizate (custom).

Formatarea celulelor | 11

Figura 1-1. Formatarea celulelor

Formatul numeric este de importanţă majoră. Definirea formatului se face folosind caracterele speciale: #, 0, ?. # - Caracter folosit pentru afişare de numere. Se afişează valorile

numerice calculate fără a impune un număr de zerouri nesemnificative.

0 (zero) - Impune afişarea valorilor numerice nesemnificative. ? - Caracter folosit pentru alinierea datelor la punctul zecimal sau la

semnul de fracţie. Iată mai jos câteva exemple de folosire a formatului numeric.

Tabelul 1-1. Caractere speciale şi efectul în formatarea valorilor numerice.

valoare cod folosit afişare descriere

1234.567 #.# 1234.6 Se impune afişarea unei singure zecimale. Aceasta va fi aproximată.

1234.567 ###,###.#### 1,234.567 Se impun 4 zecimale semnificative – dacă există. De asemenea se va folosi caracterul virgulă (,) pentru delimitarea miilor.

1234.567 # 1235 Fără zecimale. Observaţi aproximarea prin rotunjire.

1234.567 #, 1 Afişare număr ca multiplu de 1000. 1234.567

23.2 .00 1234.57

23.20 Afişare a două zecimale nesemnificative. A doua zecimală nesemnificativă este afişată chiar dacă este 0.

1234.567 .0000 1234.5670 Afişare a 4 zecimale nesemnificative. 23.56 .? 23.6 Aliniere la punctul zecimal.

23 .? 23.0 Aliniere la punctul zecimal. 1.25 # 00/00 1 01/04 Fracţie cu precizie până la 1/100 (sutime).

1.25 # 000/000 1 001/004 Fracţie cu precizie 1/1000.

12 | Formatarea celulelor

Se poate folosi şi un spectru de culori elementare: Negru – [Black], Bleu – [Cyan], Violet – [Magenta], Alb – [White], Albastru – [Blue], Verde – [Green], Roşu – [Red], Galben – [Yellow].

Pentru scrierea codului ce defineşte formatul se respectă ordinea: se defineşte mai întâi culoarea urmată de formatul pentru valori pozitive apoi se defineşte culoarea şi formatul pentru valori negative. Aceste coduri se separă prin simbolul „;”. Culoarea este încadrată între paranteze pătrate.

Tabelul 1-2. Formate pentru valori negative şi culori posibile.

valoare cod folosit efect în afişare

10.25 [Blue]#,##0;[Red](#,##0) 10 -10.25 [Blue]#,##0;[Red](#,##0) (10)

Există un bogat sortiment de formate predefinite (prezente în

biblioteca Excel) pentru dată calendaristică, pentru timp, pentru valori monetare etc. În mare parte aceste formate satisfac cerinţele utilizatorilor, astfel încât forma personalizată este doar în cazuri deosebite, particulare folosită.

Formatarea condiţionată Cu ajutorul acestei tehnici se vor scoate în evidenţă celulele a căror

valori îndeplinesc o anumită condiţie. Pentru aceasta se activează formatare condiţionată (Conditional Formatting) din grupul Home. Formatarea în acest caz poate consta în schimbarea culorii de scriere, sau în aplicarea unei culori de fundal sau a unui gradient de colorare, sau se pot ataşa pictograme (de ex.: săgeată, cerc, romb, triunghi) [3].

Figura 1-2 prezintă pictogramele ce se pot folosi la formatarea condiţionată a celulelor.

Regulile de formatare prezintă următoarele variante de definire a condiţiilor pentru selecţia: • datelor mai mari decât o valoare critică (prag); • datelor mai mici decât o valoare de referinţă; • datelor cuprinse într-un domeniu (min, max);

Figura 1-2. Formatare condiţionată


• datelor egale cu o valoare de interes; • celulelor ce conţin un anumit text; • datelor de tip calendaristic într-un anumit domeniu; • valorilor duplicate; • primelor n cele mai mari valori sau n% (exprimare procentuală); • celor mai mici n sau n% valori; • valorilor mai mari sau mai mici decât media. Există, cum era de aşteptat, posibilitatea definirii regulilor personalizate de selecție.

Exemplu de lucru: Se doreşte marcarea (prin scriere cu roşu) a celulelor a căror valori se

află într-un domeniu de 15% apropiere de valoarea maximă (altfel spus primele 15% cele mai mari valori).

Realizare: Se marchează blocul de date de studiu. Se lansează Conditional Formatting, se alege opţiunea a doua Top/Bottom Rules se alege apoi Top 10% (acest 10% este sugestiv, se poate schimba după dorinţă în etapa următoare).

Figura 1-3. Formatare condiţionată

În fereastra nou apărută se defineşte procentul dorit (15% pentru cazul de faţă) şi în final formatul (conform cerinţei de scriere cu roşu). Astfel, efectul va fi ca în exemplul prezentat în figura alăturată.

Comanda Paste Special Copierea datelor dintr-un program în altul sau în cadrul aceluiaşi

program este o operaţie des întâlnită. În softurile de calcul tabelar putem folosi formule, valori efective, formatări specifice. Ca urmare am fi îndreptăţiţi să ne punem problema existenţei metodelor de copiere a întregului conţinut sau doar a formulelor de calcul sau poate doar a formatelor folosite. Chiar mai mult, deoarece folosim tabele cu date, este posibil să realizăm o copiere cu transpunerea datelor (ca şi transpusa unei matrice – transformarea liniilor în coloane) [3].

Realizarea celor prezentate mai sus se poate înfăptui folosind comanda Paste Special. Se copie sursa iar pentru destinaţie se aplică Home apoi se activează meniul Paste (sau combinaţia Ctrl+Alt+V).


Putem copia în destinaţie: tot conţinutul deci şi formatarea; doar formulele; doar valorile, practic funcţiile nu se copie (este o formă statică de

copiere); doar formatarea; doar comentariile ataşate unei celule; doar regulile de validare; copierea conţinutului şi a formatării folosind temele ce s-au aplicat; tot conţinutul şi formatul cu excepţia liniilor ce definesc conturul

celulei; doar dimensiunea coloanelor; doar formulele şi formatul; doar valorile şi formatul. Dacă destinaţia conţine deja valori atunci se pot efectua anumite operaţii

cu datele din sursă şi cu cele din destinaţie. Implicit se aplică doar suprapunerea deci, se pierde conţinutul destinaţiei.

Dacă se foloseşte Paste Special atunci datele din destinaţie pot fi adunate, împărţite, înmulţite sau se pot scădea datele din sursă.

O operaţie importantă este transpunerea ce permite transformarea liniilor tabelului în coloane.

EXERCIŢII

1. Definiţi formatul celulelor următoare astfel încât să aveţi afişarea conformă cu cele prezentate în tabelul de mai jos.

Figura 1-4. Definiţi formatul


Observaţii: Veţi introduce valorile în coloana A, apoi le veţi copia în coloana C.

Vă veţi poziţiona pe fiecare valoare din coloana C şi prin Home + Number (activaţi definirea formatului) veţi căuta mai întâi prin tipurile predefinite forma de prezentare cerută. După ce aţi setat această formatare în cazul predefinit veţi redeschide fereastra de formatare şi veţi accesa formatul „predefinit” (custom). Acolo veţi găsi codurile de formatare.

În celula C5 pentru exemplul care are valoarea 1.2E+07 s-a folosit formatul ştiinţific. Practic este 1.2 *107. Această formatare există ca opţiune explicită.

Aceste formatări, exista explicit şi pentru datele calendaristice. Ca exerciţiu completaţi coloana B cu formatarea de tip personalizat ce defineşte fiecare tip de dată calendaristică. Puteţi deduce anumite reguli ce rezultă din formele diferite de afişare ?

2. În cadrul benzii de comenzi Home aveţi grupul de formatare numit Number (considerăm acest nume impersonal, poate mai potrivit era Format). Puteţi prin citirea Help-ului sau prin încercarea aplicării efectului asupra unor valori să determinaţi rolul fiecărui buton?

Figura 1-5. Butoanele din grupul Number

Pentru o rapidă înţelegere puteți să luaţi ca exemple diferite valori

numerice şi să le formataţi folosind butoanele analizate (învăţare prin exemple).

3. Formataţi condiţionat următoarele valori astfel încât să obţineţi destinaţiile identice cu exemplele de mai jos.

Observaţie: Coloanele definite Ex.1 şi Ex.2 sunt formatate folosind prima grupă de

formatări condiţionate (Highlight Cells Rules), Ex.3 se încadrează în grupa a 3-a (Data Bars), Ex. 4 este o scară bicoloră iar ultimul exemplu cu numărul 5 este realizat folosind setul de pictograme (Icon Set).

Butoanele din acest grup: $, %, ....


Figura 1-6. Formatări condiţionate Figura 1-7. Formatare

condiţionată dedicată.

4. Butonul Format Painter care se poate vedea şi în figura 1-6 (încercuit în stânga sus), este folosit pentru a copia formatul dintr-o celulă iniţială şi a-l aplica în celula destinaţie. Facem următoarea experienţă: introducem în celula A1 într-o foaie de calcul nouă, data calendaristică 11/23/2011 (observaţi formatul implicit, lună/zi/an). Verificaţi că tipul setat este dată calendaristică (vedeţi la formatarea celulei ce este definit). Acum introducem peste această valoare din A1 o nouă valoare de tip numeric, să zicem 2.3 apoi Enter. Observaţi ce se întâmplă: apare o dată calendaristică şi anume, 1/2/1900. Puteţi explica? Acum vom copia formatul celulei B1 în celula A1 folosind Format Painter: Click pe B1 apoi pe Format Painter apoi pe A1. Abia acum va apărea corect valoarea 2.3. Reţineţi! Prin introducerea unei date calendaristice celula respectivă a fost formatată corespunzător. În concluzie, formatul trebuie redefinit pentru a accepta date numerice şi nu calendaristice. Metoda de redefinire este la alegerea noastră.

5. Introduceţi un număr de 20 valori, reprezentând notele la un examen.

Formataţi condiţionat astfel încât: a. Valorile mai mari ca media să fie scoase în evidenţă; b. Primele 3 valori cele mai mari să fie marcate; c. Formataţi notele conform cu exemplul din figura 1-7. Datele nu

trebuie să fie ordonate. Observaţi regula: sub 5 inacceptabil, peste 9 inclusiv este foarte bine, între 5 şi 8 inclusiv valori normale marcate cu semnul mirării pe fundal galben.


6. Copiaţi doar valorile fără format de la exerciţiul 1 coloana C folosind

Paste special, în coloana E. Observaţi că datele calendaristice s-au distrus. Corectaţi astfel încât forma să fie identică cu cea din coloana A.

Variante: a) - puteţi să formataţi folosind Numbers sau b) - puteţi să copiaţi doar formatul iniţial din coloana A.

7. Copiaţi doar formatul de la exerciţiul 3 coloana G peste coloana D

(folosiţi Paste special + all merging conditional formats). Observaţi cele două formate cum aglomerează afişarea datelor. Pentru a şterge un format folosiţi Conditional Formatting apoi Manage Rules. Puteţi astfel şterge din regulile de formatare existente. Exersaţi prin realizarea de copii multiple de formatări. Cum am putea şterge altfel toate formatele aplicate (puteţi găsi şi altă metodă)?


2 ADRESAREA CELULELOR. CREAREA FORMULELOR DE CALCUL.

Noţiuni prezentate: Adresarea relativă a celulelor şi a blocurilor ca argumente pentru

calcul. Crearea formulelor de calcul. Tehnica automată de încărcare a celulelor (autoîncărcare, autofill).

Reguli de adresare a celulelor Aplicaţiile de calcul tabelar folosesc foi de calcul (numite spreadsheet sau

sheet) ce conţin date prezentate sub formă de tabele. Informaţia este astfel organizată pe linii şi coloane.

Elementele tabelului se numesc celule şi sunt unic determinate de identificatorul de coloană (implicit de tip caracter A, B,...) şi identificatorul de linie (un număr) [3]. Adresarea este asemănătoare tablei de şah.

Originea tabelului este considerată colţul din stânga sus. O celulă este identificată prin elementele coloana şi rând

corespunzătoare. Exemple: A1 este prima celulă , B7 defineşte celula ce se află la intersecţia coloanei a 2-a (B) cu rândul 7.

Un bloc de date (celule alăturate, consecutive) este identificat prin celula de start din colţul stânga sus respectiv celula de sfârşit din colţul din dreapta jos legate de caracterul special „:” [1].

Exemplu În figura alăturată s-a definit blocul

B1:C7 format din cele două coloane respectiv şapte rânduri (în total 14 celule). Putem folosi mai multe blocuri sau celule neconsecutive ca argument al unei funcţii (de exemplu în calculul mediei). Acestea se vor despărţi prin virgulă. Exemplu: B3:C8,F4,H3:H5 (observaţi folosirea caracterului ”:” dedicat definirii blocurilor şi caracterul ”,” folosit pentru a enumera blocurile). Figura 2-1. Bloc de calcul

Modul de adresare al celulelor. Crearea formulelor de calcul | 19

Pentru a defini o întreagă coloană vom ignora indicatorul de rând. De exemplu blocul B:B , reprezintă întreaga coloană a doua. Practic vom elimina rândul din definirea blocului.

O regulă similară se aplică pentru a defini un rând întreg. Ex.: pentru a indica blocul format din rândul trei vom scrie 3:3. Prin lipsa rândului se înţelege că toate rândurile aparţin selecţiei iar prin lipsa coloanei se înţelege că toate coloanele aparţin selecţiei.

O formulă începe cu „=” astfel se va calcula valoarea cerută. Pentru calculul mediei a două valori vom scrie în celula destinaţie: =(A1+A2)/2 sau folosim funcţia average() astfel: =average(A1:A2).

Biblioteca din Excel conţine un arsenal bogat de funcţii de calcul matematic, statistic, de lucru cu variabile text, financiare, inginereşti, logice ce ne ajută în rezolvarea problemelor de tip medical [1, 3].

Operatori şi câteva funcţii strict necesare în calculul formulelor

matematice.

Tabelul 2-1. Operatori aritmetici Nr. operaţie operator exemplu

1. Grupare () =5*(2+3) 2. Adunare + =A2+21 3. Scădere sau negaţie - =5-2 4. Înmulţire * =6*8 5. Împărţire / =9/3 6. Ridicare la putere ^ =6^2 7. Procent % =10%*25 (rezultat=2.5)

Tabelul 2-2. Funcţii elementare Nr. Funcţie Sintaxă Exemplu

1. Radical Sqrt() =sqrt(4) 2. Minim Min() =min(a2:a29) 3. Maxim Max() =max(a2:a29) 4. Suma Sum() =sum(a2:a29) 5. Media Average() =average(a2:a29) 6. Mediana (valoarea de

mijloc din şirul ordonat) Median() =median(a2:a129)

7. Valoarea modală (valoarea din şir cel mai des întâlnită) Mode() =mode(b2:b219)

20 | Modul de adresare al celulelor. Crearea formulelor de calcul

Tabelul 2-3. Operatori pentru compararea datelor (relaţionali – rezultatul va fi de tip logic)

Nr. operaţie operator exemplu 1. Egalitate = =a2=c2 2. Mai mare > =a5>b5 3. Mai mare egal cu >= =c1>=7 4. Mai mic < =d2<c2 5. Mai mic egal cu <= =d3>=6 6. Diferit de <> =d2<>c2

Tabelul 2-4. Operatori pentru referirea celulelor

Nr. operaţie operator exemplu 1. Definire bloc calcul : B2:B5 2. Unirea blocurilor de calcul , MIN(B5:B25,D3:D5) 3. Intersecţia blocurilor de calcul spaţiu MIN(B5:B25 A1:D15)

Pentru concatenarea (unirea sau adunarea) a două şiruri avem

operatorul &. Exemplu: =”Informatică“ & ” “ &”Medicală” va avea ca efect crearea

şirului ”Informatică Medicală”. Operatorii au o anumită prioritate. Astfel în interpretarea unei

expresii matematice ordinea de execuţie a calculelor este definită de prioritatea operatorilor folosiţi.

Tabelul 2-5. Prioritatea operatorilor

prioritate operator scop

1.

Operatori de referinţă: : (două puncte) spaţiu , (virgulă)

Definirea blocurilor de calcul

2. - (negaţia) -1 3. % Procent 4. ^ Ridicare la putere 5. * şi / Înmulţiri şi împărţiri 6. + şi - Adunări şi scăderi 7. & Concatenare şiruri

8.

= < sau > <= >= <>

Operatori relaţionali


Autoîncărcarea (autofill) blocurilor de date este o tehnică de necesitate şi utilitate maximă. Aceasta prezintă diferite forme: A – copierea unei formule cu ajustarea relativă a identificării celulelor ce definesc argumentele funcţiilor; B – crearea unei serii de date.

A - Metodă pentru copiere automată Se selectează prima celulă (pentru copiere), se poziţionează

prompterul pe colţul din dreapta jos al selecţiei (acesta se transformă în cruce neagră), se defineşte destinaţia prin apăsarea butonului de mouse şi se deplasează prompterul (drag and drop) până la ultima celulă dorită.

a-Se selectează celula de copiat

b-Se poziţionează prompterul de mouse în colţul din dreapta jos al selecţiei (formă de cruce).

c-Se defineşte destinaţia prin tragere (pe coloană în cazul nostru).

Figura 2-2. Paşii de urmat pentru încărcarea automată a destinaţiei

Încărcarea realizata este cu adresare de tip relativ. Presupunem că avem ca exemplu calculul produsul a două celule (în D3 avem: ”=B3*C3” – figura 2-2). La fiecare schimbare de rând se vor schimba corespunzător coeficienţii indicatori ai rândului (adresare relativă). Dacă vom citi formula scrisă automat în celula D5 aceasta va fi: ”=B5*C5”. Practic în formula din celula destinaţie corespunzător rândului se vor modifica valorile numerelor ce definesc celulele ce sunt argumente de calcul (pentru funcţia produs x*y în cazul prezentat).

B - Metodă pentru încărcarea unei serii Pentru încărcarea unei serii de date (numerice, calendaristice,

alfabetice si numerice) se vor selecta primele 2 celule ce definesc relaţia de încărcare a destinaţiei. Apoi se continuă urmând paşii descrişi mai sus la

+

Prompterul de mouse în formă de cruce - indică posibilitatea încărcării automate.


autoîncărcare. Valorile ce urmează se calculează după regula: se face diferenţa dintre primele două valori (aceasta este raţia) şi se adaugă ultimei valori pentru a defini o nouă valoare.

Tabelul 2-6. Exemple de încărcări automate.

Valori iniţiale 1 2 A3 6/28/2011 2 4 A5 6/29/2011

Valori obţinute prin autoîncărcare

3 6 A7 6/30/2011 4 8 A9 7/1/2011 5 10 A11 7/2/2011 6 12 A13 7/3/2011

Menţionăm că raţia poate fi şi negativă sau subunitară nu neapărat

întreagă pozitivă. Mai multe despre încărcarea seriilor (liniare/neliniare, adresare absolută) de date se vor prezenta într-un laborator următor.

EXERCIŢII

1. Introduceţi în coloana B, 20 de valori reprezentând temperatura unor pacienţi aleşi generic (valori cuprinse în domeniul 36.4-42⁰C). În coloana C veţi introduce frecvenţa de apariţie a fiecărei temperaturi (valori ce se pot repeta). Coloana A va cuprinde numărul de ordine. Nu uitaţi capul de tabel, trebuie să conţină etichetele corespunzătoare. Exemplu:

Figura 2-3. Calculul unei funcţii

2. Calculaţi în coloana D rândul 2, media temperaturilor din coloana B

scriind formula explicit =(B2+B3+...+B21)/20, apoi folosind funcţia average() – observaţi avantajul folosirii funcţiilor ce lucrează cu blocuri de date. Puteţi scrie direct în celulă sau în bara de formule: =average(b2:b21) , sau puteţi accesa biblioteca de funcţii Home + Editing şi activaţi meniul AutoSum.

3. Calculaţi în coloana E media ponderată a temperaturilor din coloana B (trebuie să ţineţi cont de frecvenţe deci numărul de cazuri din coloana C: 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = ∑(𝑇𝑇𝑇𝑇𝑇𝑇𝑝𝑝∙𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶)

∑ 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶. Este de fapt media întregului set de

date.


4. Calculaţi numărul total de cazuri din coloana C folosind funcţia sum().

5. Calculaţi valorile minimă respectiv maximă a temperaturii (puteţi folosi funcţiile min() , max() sau puteţi ordona datele şi apoi alegeţi extremele).

6. Calculaţi mediana temperaturii. Este valoarea de mijloc a şirului de date ordonat, (median()) apoi valoarea modală (valoarea ce se repetă de cele mai multe ori, mode()) a numărului de cazuri din coloana C.

7. Calculaţi pentru datele următoare indicele de masă corporală (IMC). Aflaţi apoi valoarea medie a IMC-ului pe întreg lotul şi separat calculaţi mediile obţinute pentru sex=F respectiv sex=M

𝐼𝐼𝑀𝑀𝐼𝐼 =𝐺𝐺𝑀𝑀𝑀𝑀𝐺𝐺𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀(𝐾𝐾𝐾𝐾)

(𝐼𝐼𝑀𝑀𝑀𝑀𝐼𝐼𝑀𝑀𝐼𝐼𝐼𝐼𝑀𝑀𝑀𝑀(𝐼𝐼))2

Tabelul 2-7.

A B C D 1 nr Sex Greutate(Kg) Inălţime(m) 2 1 F 56 1.67 3 2 M 66 1.72 4 3 M 72 1.77 5 4 M 65 1.69 6 5 F 45 1.64 7 6 M 81 1.87 8 7 F 56 1.71 9 8 F 61 1.72 10 9 F 47 1.56

A B C D 11 10 M 67 1.67 12 11 F 45 1.62 13 12 M 80 1.90 14 13 M 76 1.79 15 14 F 45 1.75 16 15 M 66 1.70 17 16 F 49 1.60 18 17 F 52 1.65

Practic veţi scrie în coloana E pe rândul 2 corespunzător numărului 1 din coloana A: =C2/D2^2. Apoi folosind tehnica Autofill veţi completa automat restul celulelor. Priviţi formula din celula E7 – observaţi schimbarea automată a indicilor corespunzători definirii rândurilor ce adresează celula în formula de calcul.

8. Introduceţi într-o foaie de calcul valorile prezentate în tabelul de mai jos:

Tabelul 2-8.

1 A2 0 Test1 5:30 10.05.2009 3 Monday 1abc 2 Test 3 A5 1.5 Test2 5:40 15.05.2009 1.5 Tuesday 2abc 4

Descrieţi pentru fiecare coloană valorile următoare ce vor fi încărcate automat de soft prin AutoFill.


Completaţi următoarele 20 de valori. Veţi selecta primele două valori de pe coloană după care poziţionaţi prompterul pe colţul din dreapta jos veţi ţine butonul din stânga al mous-ului apăsat şi prin tragere veţi defini destinaţia.

Căutaţi şi altă metodă de completare automată a seriilor cu valorile iniţiale prezentate în tabel.

Dacă deja coloana adiacentă din stânga este încărcată puteţi aplica Autofill prin dublu click pe colţul din dreapta a selecţiei primelor două celule. Observaţi că destinaţia încărcată conţine o valoare nu o funcţie.

9. Se consideră setul de date normalizate pe domeniul [0,1]. Acestea trebuie convertite în domeniul [36.2, 42] şi vor reprezenta valori ale temperaturii. Realizaţi această conversie în coloana Temp. Formula de calcul: Temp = Date1 ∗ (42 − 36.2) + 36.2

Tabelul 2-9.

A B C

1 Nr. Date1 Temp 2 1 0.57 39.506 3 2 0.80

4 3 0.58 5 4 0.18 6 5 0.64 7 6 0.63 8 7 0.82 9 8 0.24 10 9 0.37 11 10 0.55

A B C 12 11 0.84

13 12 0.75 14 13 0.42 15 14 0.38 16 15 0.83 17 16 0.65 18 17 0.23 19 18 0.34 20 19 0.45 21 20 0.89

10. Calculaţi media, mediana, minimul, maximul, valoarea modală

pentru temperatura din coloana C de la exerciţiul 9. Creaţi o nouă coloană cu abaterea individuală a temperaturii pentru tabelul precedent (AbatereaTi=Ti-Tmediu). Calculaţi suma abaterilor individuale. Ce obţineţi ? Puteţi explica ? (se va obţine o valoare foarte mică aproape 0 – datorită preciziei ce este finită).

Observaţie: 𝑆𝑆𝐺𝐺𝐼𝐼𝑀𝑀 𝑀𝑀𝑎𝑎𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝐼𝐼𝐼𝐼𝑀𝑀𝑀𝑀 = ∑ (𝑇𝑇𝐼𝐼 − 𝑇𝑇𝐼𝐼𝑀𝑀𝑀𝑀𝐼𝐼𝐺𝐺) =𝑛𝑛

𝐶𝐶=1 ∑ 𝑇𝑇𝐼𝐼𝑛𝑛𝐶𝐶=1 − ∑ 𝑇𝑇𝐼𝐼𝑀𝑀𝑀𝑀𝐼𝐼𝐺𝐺𝑛𝑛

𝐶𝐶=1 =

= 𝑀𝑀 ∙∑ 𝑇𝑇𝐼𝐼𝑛𝑛

𝐶𝐶=1𝑀𝑀

− 𝑀𝑀 ∙ 𝑇𝑇𝐼𝐼𝑀𝑀𝑀𝑀𝐼𝐼𝐺𝐺 = 𝑀𝑀 ∙ 𝑇𝑇𝐼𝐼𝑀𝑀𝑀𝑀𝐼𝐼𝐺𝐺 − 𝑀𝑀 ∙ 𝑇𝑇𝐼𝐼𝑀𝑀𝑀𝑀𝐼𝐼𝐺𝐺 = 0


3 METODE DE ADRESARE A CELULELOR Noţiuni prezentate: Adresarea absolută; Ataşarea unui nume pentru un bloc de calcul; Stilul de referire R1C1.

Adresarea absolută Sunt situaţii în care este necesar să folosim în cadrul unei formule o

valoare gen parametru pe lângă variabila de facto (variabila x). Ca exemplu ar fi funcţia densitate de probabilitate Gauss-Laplace ce depinde de parametrii medie şi dispersie pe lângă variabila x ce se studiază. Alt exemplu mai simplu, constă în calculul mediei ponderate ţinând cont de creditele fiecărei discipline (valoarea creditelor ar reprezenta parametrii).

Putem matematic scrie F(p1,x) – parametrul p1 fiind constant pentru un element din familia de funcţii astfel definită. În această situaţie pentru o întreagă coloană de calcul x vom avea parametrii p constanţi. Aceştia pot fi introduşi prin metoda adresării absolute.

Adresarea absolută este definită prin folosirea caracterului special „$” ce poate precede indicatorul de coloană sau indicatorul de rând [1, 3, 6]. Astfel prin tehnica Autofill nu se va mai schimba automat indicatorul de rând dacă am precedat rândul folosind „$”, respectiv indicatorul de coloană dacă precedăm coloana folosind caracterul „$”.

Figura 3-1. Adresare absolută

26 | Modul de adresare absolută a celulelor

Exemplu: Avem două variabile V1, V2 şi dorim să calculăm funcţia F(V1,V2,p1,p2)=p1*V1+p2*V2, unde p1 şi p2 sunt ponderile variabilelor (p1 şi p2 sunt fixate pentru orice valoare V1 sau V2). Dacă avem două coloane cu valorile V1 şi V2 şi cunoaştem ponderile p1 şi p2 putem folosi adresarea absolută pentru a calcula funcţia F. Vom scrie în rândul 5 coloana D: =B5*B$3+C5*C$3

Am folosit semnul $ înaintea lui 3 pentru a bloca incrementarea automată a rândului prin tehnica AutoFill. Pentru rândul 7 de exemplu funcţia automat completată va fi: =B7*B$3+C7*C$3

Ataşarea unui nume pentru un bloc de date Putem ataşa un nume unui set de date de calcul, format dintr-unul

sau mai multe blocuri şi/sau celule independente folosind identificări sugestive. În loc să selectăm de fiecare dată blocurile respective putem astfel folosi numele definit ca argument în funcţia pe care dorim să o calculăm.

Sunt două metode de definire: 1. Din meniul Formulas se alege grupul Define Names. Se completează

numele şi blocul sau blocurile componente. 2. Se selectează datele dorite (blocuri şi celule) şi apoi se scrie numele

în căsuţa text Name Box din stânga barei de formule.

Figura 3-2. Metode de definire a blocurilor de date

Exemplu: aflarea mediei average(c5:c7,c10:c14) poate fi uşor înlocuită

cu average(date1), în continuare putem calcula maximul, deviaţia standard şi orice formulă care necesită blocurile definite de numele date1.

Prin butonul Name Manager se pot crea, edita, şterge deci se gestionează blocurile definite prin nume.

Metoda 2 Definirea folosind căsuţa name box.

Metoda 1 Definirea setului de date folosind meniul.

Modul de adresare absolută a celulelor | 27

Observaţie: Numirea unui bloc de date sau a cel puţin unei celule poate reprezenta o variantă echivalentă adresării absolute. Astfel ponderile pot fi identificate cu nume predefinite.

Stilul de referire R1C1 Până acum am identificat celulele din cadrul tabelului prin scrierea

indicatorului alfabetic de coloană urmat de indicatorul numeric de rând. Acest stil este setat implicit în Excel şi se numeşte stilul de adresare A1.

Există un al doilea stil de identificare a celulelor, numit stilul R1C1 pentru care mai întâi numim rândul şi apoi coloana celulei la care facem referire. Atât rândurile cât şi coloanele sunt identificate numeric [1, 3, 4].

Trecerea la stilul R1C1 se face urmând paşii: 1. pentru Excel 2010: File + Options +Formulas apoi se bifează opţiunea

R1C1 Reference Style. 2. pentru Excel 2007: Office Button + Excel Options +Formulas apoi se

bifează opţiunea R1C1 Reference Style.

Referirea relativă în stilul R1C1 – pentru aceasta se folosesc parantezele pătrate în definirea numărul rândului, respectiv a coloanei. Poziţia destinaţie actuală devine centrul de referire. Astfel avem şi valori numerice negative dacă facem apel la celule care se află deasupra, respectiv la stânga celulei de calcul [3].

Exemplu: R[-1]C[4] implică o referire relativă cu un rând mai sus, respectiv cu 4 coloane mai la dreapta poziţiei curente (poziţia curentă este destinaţia).

RC[-1], este o referire relativă pe acelaşi rând, dar o coloană la stânga faţă de poziţia curentă. Este acelaşi lucru cu a scrie R[0]C[-1].

C[2], reprezintă o referire la o întreagă coloană. Este a doua coloană spre dreapta poziţiei curente. Având în vedere faptul că toate rândurile sunt implicate, acestea vor fi ignorate în definirea blocului, asemănător stilului de referire A1.

Referirea absolută în stilul R1C1 – nu se folosesc paranteze pătrate

iar numerele se scriu imediat după R sau C (indicator de rând sau coloană) [3, 4]. Originea sistemului este colţul din stânga sus. Astfel R1C7 defineşte o referire absolută la celula din rândul 1 coloana a şaptea. R5 defineşte tot rândul al cincilea; C1 defineşte prima coloană. Exemple echivalente de adresare a blocurilor şi a celulelor în cele două stiluri de lucru:


Tabelul 3-1. Formule echivalente în cele două stiluri de referire. Nr Destinaţie (celula în care suntem

poziţionaţi pentru scrierea formulei)

Stilul A1 formula

Stilul R1C1 formula

1 C1 A1*B1 RC[-2]*RC[-1] 2 C3 A3*A$1 RC[-2]*R1C[-2] 3 B1 A:A C[-1] 4 B1 A1:A7 RC[-1]:R[6]C[-1] 5 C7 $A$3 R3C1

EXERCIŢII

1. Calculaţi media şi media ponderată folosind datele din tabelul de mai jos.

Figura 3-3. Calculul mediei ponderate

2. Dacă în cadrul formulei aplicăm adresarea pentru ponderi (credite)

de forma $C$2, $D$2 respectiv $E$2, se schimbă valoarea rezultatului? Este utilă această adresare? Este greşită? Este prea restrictivă?

3. Calculaţi Media, Mediana şi Modul pentru coloanele Medie, respectiv

Medie ponderată. Dacă valorile calculate pentru medie sunt mai mari comparativ cu media ponderată ce concluzie puteţi trage?

Modul de adresare absolută a celulelor | 29

Tabelul 3-2.

Medie Medie ponderată Biblioteca de funcţii

Media 7.155556 6.907936508 Average() Mediana 7 6.714285714 Median() Modul 7 6.523809524 Mode()

4. Într-o clinică privată se achiziţionează medicamente conform

următorului tabel. Cunoscând numărul de produse cumpărate pentru fiecare tip în parte, preţul pe bucată şi valoarea TVA (21%) aplicată, să se calculeze:

Figura 3-4. Tabelul Excel cu datele de calcul

a. Pentru fiecare medicament pe bucată valoarea cu TVA inclus; b. Pentru fiecare medicament (produs) valoarea TVA plătită (pe

bucată) şi preţul întreg (cu TVA) pentru fiecare produs ( întreaga cantitate pe produs);

c. Valoarea totală (toate produsele) plătită fără TVA şi valoarea totală a TVA;

d. Se modifică valoarea TVA la 19%. Cu cât (în valoare absolută) se plăteşte mai puţin pentru întreg consumul de medicamente? (evident este de aşteptat să folosiţi adresarea absolută a valorii TVA şi astfel, pentru noul calcul aveţi de modificat doar celula C2).

Observaţie: Pentru formatul monetar (Preţ/buc fără TVA) s-au utilizat codurile: #,##0.00 [$lei-418]

5. Folosind metoda ataşării unui nume blocului de calcul să se rezolve problema 1. Se va denumi creditul la anatomie c_anat, respectiv c_biochim şi c_infomed.

Rezolvare: veţi scrie formula pe rândul 4: =(C4*c_anat+D4*c_biochim+E4*c_info)/(c_anat+c_biochim+c_info)

6. Calculaţi valoarea produsului cu TVA de la exerciţiul 4 folosind ataşarea de nume blocurilor de calcul.

7. Folosind stilul de referire R1C1 rezolvaţi problemele 1 şi 3.


4 INTRUDUCEREA SERIILOR DE DATE ÎN FOAIA DE CALCUL. CONTORIZAREA DATELOR

Noţiuni prezentate: Mai multe despre încărcarea seriilor de date; Generator de valori aleatoare; Contorizarea datelor.

Mai multe despre încărcarea seriilor de date Am folosit tehnica Autofill şi am încărcat automat celulele destinaţie

după o formă liniară (progresie aritmetică, ak=a1+(k-1)*r , unde ak este termenul k , r este raţia).

Am introdus de exemplu, valorile 1 apoi 2 şi computerul a decis (motivat prin relaţia liniară căutată) că următoarea valoare aşteptată este 3 apoi 4 şi aşa mai departe, practic o serie aritmetică cu raţia de valoare 1.

Putem evident gândi şi altfel valoarea aşteptată plecând de la iniţierea cu 1 şi 2. Dacă 2 este obţinut prin înmulţirea lui 1 cu 2, atunci valorile aşteptate sunt 4 apoi 8 etc. Este clar o altă formă, este o progresie geometrică (forma generală: ak=a1*q(k-1) , unde q este raţia) cu raţia 2.

Putem realiza progresii geometrice folosind Home + Editing+Fill.

Figura 4-1. Alegerea opţiunii de încărcare.

Primele 4 variante din meniul ce se deschide ne permite încărcarea celulelor adiacente cu date pe cele 4 direcţii: sus, jos dreapta, stânga. Aceasta este forma rapidă de încărcare şi este echivalentă cu copierea (deci nu foarte utilă). Trebuie ca celula de start (sau sursă) să conţină valoarea de copiat.

Introducerea seriilor de date în foaia de calcul | 31

Metoda de lucru constă în aplicarea paşilor: 1. Pentru încărcarea unei celule adiacente: se selectează celula

adiacentă unei valori de referinţă şi se alege direcţia de încărcare. Menţionăm că doar o celulă va fi încărcată în acest mod.

2. Pentru încărcarea unui set de celule: se vor selecta celula sursă cât şi celulele destinaţie (ce pot începe sau nu adiacent şi pot fi sau nu consecutive) şi apoi se va defini direcţia de încărcare(din cele 4 posibile).

Observaţie: pentru selectarea celulelor neconsecutive se va aplica Ctrl + tragere cu mouse-ul (mausul).

În cadrul meniului de încărcare (Fill) avem şi opţiunea pentru serii (Series) ce permite lucrul şi cu progresii geometrice.

Forma liniară o cunoaştem deja, dar iată că aici putem introduce explicit raţia şi eventual valoarea maximă acceptată ca o limitare, ca un punct de oprire. Forma geometrică ca şi cea aritmetică (numită şi liniară) se descriu în mod asemănător prin raţie (Step value) şi prin valoarea maximă acceptată (Stop value).

Figura 4-2. Încărcarea seriei de valori

Există şi opţiunea de deducere a tendinţei, deci trendul seriei. Prin aceasta Excel calculează automat raţia ce se obţine din diferenţa respectiv împărţirea primelor două numere pentru progresia aritmetică, respectiv geometrică.

Putem completa şi date calendaristice definind şi unitatea de măsură: zile, zile lucrătoare din săptămână, luni şi ani (forme destul de utile).

De asemenea, trebuie definită direcţia de completare şi anume pe rânduri sau coloane.

Metodă de lucru: Metoda 1 – Se selectează celula de start care se încarcă cu valoarea iniţială a

seriei. Se alege apoi Series din grupul Editing şi se completează fereastra cu valorile şi opţiunile dorite.

Metoda 2 – Se selectează atât sursa cât şi destinaţia (celulele nu trebuie să fie neapărat consecutive deci vom folosi tasta Ctrl). Apoi se procedează ca la metoda 1 prin definirea seriei dorite.

32 | Introducerea seriilor de date în foaia de calcul

Exemplul 1. Dorim să încărcăm automat pe coloană o serie geometrică cu raţia 2

începând cu valoarea 4. 1. Vom introduce valoarea de start în celula sursă (figura 4-3). 2. Alegem Home + Fill , astfel deschidem fereastra de definire a seriei. 3. Completăm valoarea raţiei 2 (Step value) , valoarea de oprire 64 (Stop

value), tipul geometric (Grouth) şi seria se va completa pe coloană deci bifăm Columns.

Observăm că destinaţia nu a fost selectată fiind încărcată automat prin celule consecutive, conform cerinţelor setate.

Figura 4-3. Setarea valorilor seriei

Figura 4-4. Rezultatul obţinut

Exemplul 2. Dorim să încărcăm automat 4 valori a unei serii geometrice. Iniţial

avem două valori (2 şi 6) iar destinaţie este formată din celule neconsecutive. Vom cere ca raţia să fie automat calculată prin opţiunea tendinţă (Trend).

Figura 4-5. Selectarea celulelor şi definirea

seriei geometrice

Figura 4-6. Rezultatul obţinut


1. Se introduc cele 2 valori. 2. Se selectează atât valorile de start cât şi destinaţia (deoarece nu sunt

consecutive se va folosi CTRL). 3. Se setează în fereastra de serii (Series) opţiunea tendinţă cât şi tipul

de serie geometrică.

Generator de valori aleatoare Există două funcţii care generează aleator date (după o distribuţie uniformă) [2].

Rand() – această funcţie generează aleator un număr în domeniul [0,1). Nu admite argumente.

Se va regenera un nou număr de fiecare dată când are loc o modificare în foaia de calcul. Pentru a avea un set static de valori se va copia blocul ce conţine funcţia rand() cu paste special – value în destinaţie (se va copia doar valoarea nu şi funcţia). O metodă similară constă în scrierea funcţiei =rand() într-o celulă destinaţie şi apoi se apasă F9 (tasta funcţională).

Dacă dorim să generăm aleator valori în domeniul [a,b) vom folosi formula: rand()*(b-a)+a.

Randbetween(min,max) – generează aleator o valoare întreagă în domeniul menţionat [min,max].

Dacă dorim să generăm valori reale cu o precizie de p zecimale în domeniul [a,b] folosind randbetween atunci putem proceda astfel: Se generează valori în domeniul [a*10p , b*10p]; Se împart aceste valori în final la 10p.

Contorizarea datelor Există mai multe funcţii care au rolul de numărare a datelor. Acestea

diferă prin caracteristicile specifice fiecăreia [1, 4]. Count(domeniu) – contorizează valorile numerice dintr-un domeniu. Data

calendaristică şi valorile text ce pot fi convertite în numere sunt contorizate.

Counta(domeniu) – contorizează celulele care conţin informaţie. Celulele goale nu sunt contorizate.

Countblank(domeniu) – contorizează celulele goale din domeniu (empty cells). Countif(domeniu, criteriu) – contorizează celulele din domeniu care

îndeplinesc condiţia din criteriu. Criteriul reprezintă o condiţie simplă de genul: „25” (egal cu valoarea 25); “>45”; “<>35” (diferit de 35); putem căuta un anumit cuvânt de exemplu “fasconal” (în această situaţie se contorizează doar celulele care conţin cuvântul fasconal şi doar atât).

Sunt multe situaţiile în care celulele conţin mai multe cuvinte (de exemplu medicaţia folosită). Apare astfel necesitatea căutării unui cuvânt într-un şir de caractere. Pentru a căuta un cuvânt în interiorul unei celule,


putem folosi caracterele speciale * şi ?. Dacă dorim totuşi să căutăm aceste două caractere atunci trebuie prefixate de ~ (tilda). Aceste caractere permit crearea de filtre pentru căutare.

În cadrul creării filtrului, semnul întrebării (?) înlocuieşte doar o singură poziţie a unui posibil caracter. Semnul * va înlocui oricât de multe caractere posibile.

Exemple: dacă introducem filtrul “test?” atunci se vor căuta toate celulele ce încep cu ”test” şi conţin încă un caracter sau număr sau semn. Deci vor fi contorizate şi celule ce conţin de exemplu: test1 ; testA; test#. Dacă am fi introdus “*test*” atunci se contorizau toate celulele ce conţin cuvântul “test” indiferent de poziţie. Intră, de asemenea, în numărare: “ primul test” ; “prea multe teste”. Countifs(domeniu1, criteriu1[domeniu2, criteriu2....]) – contorizează celulele ce

îndeplinesc toate criteriile ce se aplică corespunzător domeniilor. Conţine cel puţin un domeniu şi un criteriu (maxim 127 perechi domeniu-criteriu). Dacă domeniile sunt pe coloane atunci se contorizează toate rândurile care îndeplinesc toate criteriile.

Domeniile au aceeaşi dimensiune şi sunt aceleaşi parţi din coloane sau rânduri decalate. Se pot folosi şi aici caracterele speciale * şi ? cu semnificaţia descrisă.

EXERCIŢII 1. Folosind tehnica de încărcare automată şi plecând de la primele 2

valori, să se genereze seriile de numere prezentate în tabelul de mai jos. Determinaţi tipul seriei şi raţia.

Figura 4-6. Serii de date


Observaţie: Pentru seriile 2 şi 3 va trebui să selectaţi domeniul de celule neconsecutive. Aceasta se realizează cu ajutorul tastei Ctrl. Apoi apelaţi Fill +Series şi veţi completa, practic veţi defini seriile.

2. Folosind funcţiile RAND(), respectiv RANDBETWEEN() să se

genereze următoarele seturi a câte 150 date definite pe domeniile: • 10 – 125, valori întregi; • 0.32 – 2,1 valori reale cu o zecimală; • 15,34 – 28,45 valori reale cu 2 zecimale precizie.

Puteţi genera aceste valori doar cu funcţia RANDBETWEEN() ?

3. Folosind funcţiile RAND(), respectiv RANDBETWEEN() să se genereze următoarele două seturi a câte 100 date reprezentând: • Temperaturi (36-41 ⁰C), valori cu o zecimala:

Folosind numai RAND(); Folosind numai RANDBETWEEN(); Folosind în combinaţie atât RAND() cât şi

RANDBETWEEN(). • CL-CR (10-120 valori întregi):

Folosind obligatoriu RAND() dar în combinaţie şi cu altă funcţie (INT() extrage partea întreagă rotunjită la cel mai apropiat întreg mai mic decât valoarea cu zecimale);

Folosind RANDBETWEEN().

4. Determinaţi înregistrările de la exerciţiul 2 care respectă condiţia de a se afla în vecinătatea de 20% faţă de valoarea maximă determinată.

5. Câte valori şi care sunt acelea, care se află în jurul mediei pe un

interval format din: medie ±25% din domeniul total de lucru. Domeniul de lucru este diferenţa Max-Min. Folosiţi datele generate la exerciţiul 2.

6. Generaţi un set de 100 date (valori întregi) ce reprezintă notele

studenţilor la examenul notat X. Ţinând cont de corespondenţa NOTĂ – CALIFICATIV prezentată în tabelul 1 să se determine câte persoane au fost evaluate cu F.BINE, câte cu BINE... INSUFICIENT (pentru fiecare calificativ în parte). Tabelul 4-1.

Tabel de corespondenţă notă – calificativ NR. NOTĂ CALIFICATIV

1 9 -10 F. BINE 2 7-8 BINE 3 5 – 6 SUFICIENT 4 < 5 INSUFICIENT


7. Aveţi setul de date medicale prezentat parţial mai jos. Scrieţi comenzile necesare (funcţiile) pentru determinarea :

a. Numărului de persoane care au avut mastodinie ca efect secundar;

b. Numărului de persoane pentru care tratamentul nu a generat efecte secundare;

c. Numărului de persoane care au avut în tratament orgametril; d. Numărului de persoane care nu au avut tratament înainte şi

nu au avut efecte secundare.

Figura 4-7. Set de date medicale

8. Creaţi o coloană încărcată cu 15 numere întregi consecutive de la 1

la 15. În următoarea coloană generaţi aleator 15 numere folosind rand(). Selectaţi cele 2 coloane şi ordonaţi-le după coloana generată aleator (pentru ordonare: Data+Sort). Explicaţi ce obţineţi. La ce ar fi utilă această tehnică?


5 TRANSFORMAREA UNEI VARIABILE NUMERICE ÎN FORMĂ CATEGORIALĂ

Noţiuni prezentate: Transformarea unei variabile numerice în formă categorială. Funcţia if() - de un ajutor incomensurabil. Funcţia Lookup() - dedicată conversiilor în formă categorială.

Există multe cazuri în care suntem nevoiţi să transformăm o variabilă

numerică într-o formă categorială. Ca exemple putem menţiona: transformarea notei din sistemul zecimal în calificativ de genul foarte bine, bine, suficient, insuficient; crearea grupelor de vârstă din 5 în 5 ani; evaluarea stării de funcţionare a rinichiului prin valoarea clearance-ului de creatinină (90-120 - normal, 50-90 este stadiul 1 etc.).

Avem astfel nevoie de o metodă de comparare a valorii studiate cu un anumit prag şi în final vom lua decizia de clasificare.

Funcţia if() este special creată pentru a realiza o astfel de comparaţie şi ajută la luarea unei decizii prin evaluarea unei expresii logice [1, 3]. Sintaxă: IF(expresie logică , [dacă este adevărată expresia atunci acţiune1],[ dacă este falsă – acţiune2])

Se evaluează expresia logică. Dacă este adevărată se va lansa acţiunea1, iar în caz contrar acţiunea2. Prin acţiune se înţelege calculul unei funcţii cu răspuns de tip numeric sau text, dată calendaristică, sau rezultat logic sau poate fi chiar un nou if(). Acţiunile sunt opţionale (aceasta este marcată prin parantezele pătrate, este o convenţie, nu se folosesc în scrierea efectivă). Dacă nu se scriu acţiunile dar se pun virgulele atunci funcţia if întoarce 0.

Observaţie: Dacă setările regionale sunt pentru limba română, atunci virgulele sunt înlocuite cu punct şi virgulă în definirea funcţiei if() (această observaţie este valabilă pentru funcţiile care acceptă mai multe argumente). Putem folosi ca acţiune un nou if (aceasta se numeşte imbricare). Numărul maxim acceptat de imbricări este 64. Dacă dorim mai multe grupări există funcţia Lookup care permite utilizarea vectorilor în definirea limitelor categoriilor.

Se poate deduce uşor numărul de funcţii if imbricate pentru conversia unei variabile într-un număr de forme categoriale. Dacă notăm numărul de categorii cu C atunci numărul de funcţii if necesare este C-1 (deoarece ultima funcţie va putea avea 2 decizii).

38 | Transformarea unei variabile numerice în formă categorială

Exemple: Dorim să creăm o coloană adiacentă coloanei nota (valori întregi) în

care să scriem promovat pentru notă mai mare sau egală cu 5, respectiv, restanţă pentru notă mai mică decât 5. Dacă nota este în coloana A atunci în celula B1 vom scrie: =if(A1>=5,”promovat”,”restanţă”). Observăm că avem 2 valori categoriale şi folosim doar o funcţie if (C=2, deci numărul de funcţii este 2-1=1).

Complicăm problema şi introducem noţiunea ”calificat” dacă nota este 9 sau 10. Astfel funcţia de conversie se modifică după cum urmează: =if(A2>8,"calificat",if(A2>=5,"promovat","restanţă")). Observăm că am avut 3 categorii şi am folosit 2 funcţii if().

Funcţia Lookup() Dacă avem un număr de 6 categorii deja lucrul cu funcţii if()

imbricate devine greoi. Pentru a rezolva această cerinţă s-a creat o nouă funcţie numită Lookup().

Sintaxă: LOOKUP(valoare căutată, vector(sau set celule) ce prezintă limitele numerice ale grupelor, [vector (sau set celule) cu atribute]) – este de aşteptat ca tipul (linie sau coloană) şi dimensiunea vectorului sau setului de celule ce prezintă grupele să fie identice cu tipul şi dimensiunea vectorului sau matricei ce prezintă atributele (numele categoriilor) [1, 2, 3].

Funcţia Lookup() încadrează valoarea numerică căutată în grupa corespunzătoare din prima coloană a vectorului (sau setul de celule) de definiţie şi afişează atributul corespunzător grupei din coloana a doua a vectorului de definiţie (sau setului de celule de definiţie a categoriei).

Vectorul este format dintr-o înşiruire de valori de forma: "E","D","C","B","A" sau 5,8,2 de exemplu. Elementele sunt despărțite prin virgulă şi întreg vectorul este încadrat între acolade. Se poate folosi în loc de un vector un set de celule definit pe coloană sau rând.

Clasificarea se face după limitele în care se încadrează valoarea studiată. Dacă valoarea căutată este mai mică decât limita minimă menţionată atunci se întoarce mesajul de eroare #N/A. Astfel trebuie să cunoaştem valoarea minimă. Orice grupă este definită de valoarea minimă posibil de atins respectiv valoarea maximă ce nu poate fi atinsă. Aceasta se explică tocmai prin faptul că grupele nu au puncte comune, neexistând varianta de indecizie în clasificare. O valoare nu poate aparţine decât unui singur interval. Astfel valoarea maximă neatinsă în prima grupă va fi cuprinsă în grupa a doua ca valoare minimă de început.

Exemplu: Dorim să realizăm o conversie a notei în calificativ după cum este

prezentat în tabelul de mai jos. Avem 5 calificative. Considerăm că nota minimă este 1.

Transformarea unei variabile numerice în formă categorială | 39

Ţinând cont de regula de încadrare (valoarea căutată trebuie să fie mai mare sau egală cu minimul grupei şi mai mică ca maximul grupei) va trebui să definim corespondenţa conform coloanelor A şi B din figura alăturată.

Tabelul 5-1. Corespondenţă calificative nota calificativ

< 5 E 5 D 6 C

7-8 B 9-10 A

Figura 5-1. Funcţia Lookup()

Astfel calificativul E va fi alocat valorilor mai mari sau egale cu 1 dar

mai mici ca 5 (aşa cum este prezentat în primul tabel). Dorim să transformăm coloana numerică C în formă categorială

reprezentând calificative folosind destinaţia în coloana F. Accesând setul de corespondenţe creat în celule din coloanele A şi B, în F2 vom scrie =LOOKUP(C2,A$2:A$6,B$2:B$6) sau mai potrivit ar fi, mai întâi, să verificăm tipul de dată din celulă: =IF(ISNUMBER(C2), LOOKUP(C2,A$2:A$6,B$2:B$6), "absent"). Astfel, nu va apare mesajul #N/A în cazul întâlnirii unei valori text (ex. abs).

Funcţia ISNUMBER(valoare), verifică tipul valorii (valoarea poate fi o celulă, sau funcţie) şi întoarce True pentru tip numeric respectiv False în caz contrar.

Observaţi utilizarea adresării absolute pentru a bloca vectorul coloană la aplicarea metodei Autofill. Să luăm prima valoare, care este 7. Este mai mare sau egală cu 7 şi mai mică decât 9 – astfel, i se va atribui prin


funcţia Lookup() atributul ”B”. Oricărei valori mai mari sau egale cu 9 îi va corespunde calificativul A. Deci iată maximul nu este neapărat cunoscut. Puteam utiliza scrierea folosind vectori (forma prezentată mai jos): =LOOKUP(C2,1,5,6,7,9,"E","D","C","B","A") sau folosind o singură matrice:

=LOOKUP(C2,1,5,6,7,9;"E","D","C","B","A") În cadrul matricei virgula marchează trecerea la următoarea coloană iar punct şi virgulă marchează trecerea la următorul rând. Este la alegerea utilizatorului forma de scriere a comenzii (vector, matrice, set de celule) – Avantajul utilizării setului de celule constă în faptul că schimbarea unei valori din celula de definiţie a clasificării va avea efect global asupra întregului set de date convertit. Se va schimba practic întreaga conversie prin modificarea setului de definiţie a categoriilor.

EXERCIŢII

1. Generaţi un set de 100 valori numerice întregi reprezentând note de la 1 la 10 inclusiv. Creaţi o nouă coloană în care să aveţi echivalentul în calificativ al fiecărei note, conform cu valorile atribuite corespunzător, prezentate mai jos:

Tabelul 5-2. Corespondenţe

Rezolvaţi exerciţiul folosind funcţia if() apoi folosind funcţia Lookup().

În caz real există şi absenţe în cadrul unui examen. Înseraţi, la întâmplare, 10 absenţe în setul creat anterior. Observaţi codul de eroare apărut (#N/A) pentru funcţia Lookup() respectiv categoria greşit asociată în cazul folosirii funcţiei If(). Cum putem rezolva problema, astfel încât, acolo unde persoana este absentă, să apară scris, absent?

Observaţie: veţi folosi funcţia ISNUMBER(valoare) ce verifică tipul datei. Puteţi folosi un nou if() care să verifice dacă informaţia din celulă este de tip numeric. Dacă este număr, se va face conversia, în caz contrar, se va scrie absent.

2. Introduceţi valorile prezentate în tabelul alăturat şi calculaţi valoarea IMC (IMC=Greutate/Inălţine^2). Creaţi o nouă coloană cu statusul ponderal, conform tabelei de echivalenţă (tabelul 5-4), prin cele două metode folosind: if() şi lookup().

nota calificativ < 5 Insuficient 5-6 Suficient 7-8 Bine 9-10 FBine


Tabelul 5-3. Date antropometrice

nr. Greutate(Kg) Inalţime(m)

1 67 1.8

2 35 1.5

3 67 1.8

4 108 2

5 89 1.7 6 105 1.9 7 90 1.5

8 84 1.7

9 47 1.4 10 106 1.9 11 76 1.7

12 65 1.9 13 111 2 14 53 1.9 15 120 1.6 16 35 1.4 17 95 1.5 18 104 1.7 19 70 2.1 20 97 1.8 21 101 1.8 22 40 1.4 23 77 2.1

Tabelul 5-4. Tabelul de echivalenţă Calculaţi de asemenea numărul de cazuri pe fiecare grupă ce exprimă statusul ponderal.

3. În evaluarea funcţiei renale se foloseşte valoarea clearance-ului de

creatinină. În tabelul de mai jos sunt 29 de pacienţi. Completaţi în Excel (prin cele 2 metode cunoscute) o nouă coloană, în care să prezentaţi pentru fiecare pacient evaluarea funcţiei renale, conform tabelului de echivalenţă.

Tabelul 5-5. Echivalenţe

Cl-Cr Evaluare [90-120] Normal [50-90) Stadiu 1 [30-50) Stadiu 2 [15-30) Stadiu 3

< 15 IRT- insuficienţă renală terminală

IMC < 18,5 (subponderal) IMC = 18,5 – 24,9 (normoponderal) IMC = 25 – 29,9 (supraponderal) IMC 30 – 34,9 (obez grad 1) IMC 35 – 39,9 (obez grad 2) IMC ≥ 40 (obez grad 3)


Tabelul 5-6.

Pacient ClCr Stadiu 1 118

2 82 3 92 4 95 5 7 6 64 7 39 8 106 9 58 10 92 11 30 12 116 13 76 14 26 15 23

16 104 17 13 18 34 19 9 20 22 21 114 22 1 23 39 24 51 25 9 26 58 27 30 28 12 29 40

Aflaţi numărul de pacienţi, pentru fiecare grupă definită de coloana evaluare.

4. Presupunem că avem următorul set de date (15 date pe care le introduceţi în foaia de calcul, conform coloanei C), în care este prezentată tensiunea arterială (cu cele 2 componente TAS respectiv TAD). Acestea sunt introduse în aceeaşi celulă, despărţite de „/”. Găsiţi o metodă de creare a două coloane cu valorile TAS respectiv TAD.

Figura 5-2. Set de date


Observaţie: Puteţi folosi următoarele funcţii specifice lucrului cu şiruri de caractere:

Left(celulă,număr caractere) – extrage începând din stânga un anumit număr de caractere specificat.

Find(caracter căutat, celulă) – se caută poziţia unui caracter din celula specificată. Funcţia va întoarce un număr ce exprimă poziţia pe care se află caracterul specificat (poziţia 1 defineşte primul caracter din stânga).

Mid(celulă, start poziţie, lungime) – se extrage un şir de caractere, de o anumită lungime, începând cu caracterul de pe poziţia definită de start poziţie, din celula definită.

În coloana D veţi folosi funcţiile: =LEFT(C2,FIND("/",C2)-1) , sau =MID(C2,1,FIND("/",C2)-1).

În coloana E veţi folosi funcţiile: =MID(C2,FIND("/",C2)+1,3).


6 EXTRAGEREA DE INFORMAŢII DIN TABELE DE DATE

Noţiuni prezentate: Tabele Pivot Totalizarea datelor Filtre

Tabelele pivot sunt folosite pentru crearea unui rezumat din datele

cuprinse într-o foaie de calcul. Ca idee, putem număra datele care îndeplinesc anumite criterii, putem calcula medii sau dispersii în general putem măsura anumiţi indicatori statistici pentru grupele definite. Dacă spre exemplu avem pacienţii grupaţi după localitatea de rezidenţă cât şi după mediul urban sau rural şi dorim un raport asupra numărului de pacienţi astfel distribuiţi, metoda cea mai avantajoasă şi rapidă constă în utilizarea tabelelor de tip pivot.

O variantă de lucru pentru orice situaţie ce implică contorizări de date constă în folosirea funcţiilor countif() sau countifs(), dar să determinăm de câte ori vom lansa numărarea datelor apelând la countif() dacă avem 10 localităţi şi evident 2 medii de rezidenţă. Este clar vom folosi funcţia de 20 de ori. Pare puţin ? Putem deduce că această variantă nu este tocmai eficientă. Sensul tehnicii tabelelor pivot este tocmai minimizarea muncii depuse pentru rezumarea datelor din foile de calcul.

Pentru folosirea acestei metode se va selecta tabelul de lucru sau cel puţin se va poziţiona prompterul indicator pe o celulă din interiorul tabelului cu date (astfel Excel va selecta apoi întreg tabelul cu date). Prin alegerea Insert + Pivot Table se deschide fereastra de setare a opţiunilor ce definesc specificul tabelului rezumat [2, 5].

Această fereastră (figura 6-1) prezintă câmpurile deci coloanele datelor de lucru. Suntem practic obligaţi să definim un cap de tabel în foaia de calcul - primul rând este considerat numele coloanelor. Aceste nume sunt folosite ca indicatoare ce definesc tabelul rezumat. Cele 4 căsuţe prezentate în figura alăturată sunt folosite pentru definirea criteriilor de grupare cât şi pentru calculul unei funcţiei la intersecţia fiecărui rând cu fiecare coloană.

Este necesară introducerea unui nume de coloană în căsuţa din dreapta jos. Acesteia i se va aplica funcţia de contorizare sau calcul de medie, min, max, deviaţia standard (definită de utilizator) etc.

Rapoarte PivotTable | 45

Cel mai simplu tabel pivot conţine

cel puţin această informaţie (celula din dreapta jos trebuie să conţină minim o cerinţă).

Pentru grupări după mai multe criterii se introduc în căsuțele stânga jos, respectiv dreapta sus coloanele ce definesc clasificările urmărite.

Prin definirea unui filtru (celula stânga sus) tot tabelul rezultat va fi dependent de filtrul indicat. Astfel se poate particulariza tot conţinutul tabelului la doar un subset de date pentru o singură categorie din cadrul filtrului (de ex.: doar pacienţii cu status ponderal normal).

Se pot defini mai multe criterii de grupare pe rânduri sau coloane, evident tabelul rezultat prezentând astfel forme din ce în ce mai complexe. Pentru mai mult de 3-4 coloane implicate, tabelul rezumat rezultat devine greu de citit şi urmărit.

Figura 6-1. Definirea tabelului pivot

Pentru exemplul prezentat în figura de mai sus s-a obţinut tabelul

rezumat următor. Practic am ales ca pe rânduri să fie prezentată starea civilă şi corespunzător să se calculeze numărul de persoane.

Tabelul 6-1. Tabelul rezultat Count of StareCivila Column Labels Row Labels F M Grand Total căsătorit 82 43 125 concubin 3 1 4 divorţat 2 2 4 necăsătorit 40 26 66 văduv 19 2 21 Grand Total 146 74 220

46 | Rapoarte PivotTable

Iată mai jos un exemplu în care am modificat cerinţa de pe coloană. În partea dreaptă este prezentat rezultatul deci tabelul rezumat.

Tabelul rezultat în urma definirii folosind câmpurile înserate conform figurii din stânga.

Figura 6-2.

Aşa cum este indicat în figura 6-2, se poate defini funcţia de calcul pentru fiecare celulă din tabelul rezumat (click pe săgeată şi alegerea opţiunii Value Field Settings).

Funcţiile posibile utilizate sunt: sumă, contorizare, medie, min, max, produs, deviaţia standard, varianţa. Ultimele două prezintă variantele de calcul pentru eşantion (se împarte la n-1) respectiv pentru populaţie.

De asemenea se pot calcula şi procentele pe coloana, pe linie sau pe întreg setul de date, a proporţiilor definite prin grupare (prin alegerea Show Values As).

Figura 6-3. Calcule posibile în tabele pivot

Totalizarea datelor este o metodă de calcul a anumitor funcţii gen indicatori statistici (identici celor folosiţi la tabele pivot), pentru subseturile

Săgeată indicatoare a meniului de definire a funcţiei de calcul.


de date create prin grupare. Crearea subunităţilor se face funcţie de schimbarea unei valori într-o coloană sau coloane definite drept criterii de grupare. Rezultatele sunt asemănătoare celor obţinute prin tabele pivot. Pentru fiecare criteriu definit se va introduce un nou rând cu informaţia calculată. Astfel prin subseturile create tabelul poate fi prezentat total sau parţial funcţie de nivelul de grupare ales [1, 2, 5].

Coloana aleasă drept criteriu de subgrupare trebuie să fie ordonată – aceasta deoarece în crearea grupurilor se recalculează funcţia definită pentru fiecare schimbare a valorii celulei din coloana criteriu.

Exemplu Dorim să aflăm numărul de persoane funcţie de starea civilă dintr-o

foaie de calcul medicală. În prima etapă se vor ordona datele după coloana stare civilă (selecţie tabel + Data + Sort), apoi din Data se alege Subtotal.

Vom obţine o nouă fereastră de definire a opţiunilor din cadrul subtotalizării. Am selectat în prima căsuţă text coloana Stare Civilă, funcţia folosită a fost Count iar subtotalul va fi adăugat la Starea Civilă prin suprascrierea subtotalului curent existent. Informaţia adăugată poate fi înserată la sfârşitul sau începutul categoriei din cadrul coloanei criteriu. În partea din stânga a foii de calcul apar subgrupurile numerotate 1,2,3 (figura 6-5). Pentru o singură coloană criteriu sunt 3 subgrupuri posibile.

Figura 6-4. Subtotal

La fiecare criteriu adăugat va apare un nou număr (deci se continuă cu 4) ceea ce indică noi calcule realizate şi înserate în foaia de date.

Prin alegerea subgrupului 2 din cadrul exemplului creat se afişează practic numărul de cazuri după starea civilă (prezentat mai jos).

Se pot adăuga noi informaţii de calcul prin debifarea opţiunii de înlocuire a subtotalului curent (Replace current subtotals).


Figura 6-5. Nivelul al doilea al tabelului creat prin subtotal

Tabelul nou creat poate fi copiat şi utilizat în altă foaie de calcul.

Atenţie - această copiere trebuie făcută doar asupra celulelor vizibile. Pentru ceasta se vor selecta celulele prezentate în figura de mai sus, apoi din Home+Find &Select se alege Go to special şi se bifează Visible cells only. Apoi cu Copy vor fi copiate numai celulele vizibile nu întreg tabelul.

Această tehnică este o alternativă pentru metoda tabelelor pivotante. Funcţiile ce se utilizează în calcul sunt identice în cele două metode prezentate până acum.

Filtrele sunt metode de prezentare a datelor funcţie de criteriile selectate. Filtrele nu sunt folosite pentru calcule ci doar pentru a prezenta anumite rânduri ce îndeplinesc criteriile stabilite [1]. Totuşi în bara de stare în colţul din stânga jos se afişează numărul de date contorizate în cadrul unei selecţii.

Filtrele sunt folosite pentru selecţie dar şi pentru verificarea datelor şi apoi corectarea lor. Crearea unui filtru înseamnă transformarea primului rând, deci a capului de tabel, într-o listă derulantă ce prezintă toate variantele distincte existente în fiecare coloană. Astfel, se pot selecta categoriile de interes [1, 2, 3].

Pentru o condiţie multiplă se vor alege din mai multe coloane categoriile de selecţie. Operatorul logic de combinare a criteriilor dintre coloane este “şi”. Vor fi afişate rândurile ce îndeplinesc toate criteriile definite simultan.

Activarea filtrului: Home + Sort&Filter + Filter sau Data + Sort&Filter + Filter.

Exemplu – crearea unui filtru cu selecţia doar a celor ce sunt căsătoriţi şi sunt salariaţi.

Cele 3 nivele create cu subtotal.


Figura 6-6. Crearea unui filtru

Figura 6-7. Opţiunile de filtrare – filtru asupra unei coloane numerice Poate era şi de aşteptat ca în cadrul realizării unui filtru să avem

posibilităţi diferite de selecţie.


Iată variantele de selecţie posibile pentru o coloană de tip numeric: egalitate cu o valoare de referinţă, diferit de o valoare anume, mai mare ca o valoare anume, mai mic faţă de o referinţă, valori dintr-un interval, primele n valori (ex. 10), valori peste sau sub medie (poate fi realizat ca valori peste /sub un

prag), posibilitatea de personalizare scriind o expresie logică.

EXERCIŢII

Fișierul Excel de lucru conține un număr de date generic definite.

1. Folosind tehnica tabelelor pivot răspundeți la următoarele întrebări: a. Creaţi un tabel cu numărul de persoane grupate după mediu

rezidenţă şi stare civilă, b. Aflați numărul de persoane pentru fiecare nivel de instruire şi

ocupaţie, c. Calculaţi media IMC funcţie de mediul de rezidenţă , d. Calculaţi media şi deviaţia standard a IMC-ului pentru fiecare

element ce definește starea civilă, e. Pentru întrebările de la punctele a şi b calculaţi procentul pe

orizontală (pe rând). Tabelul de date are forma:

Figura 6-8.


Observaţie: Pentru ultima întrebare veţi folosi la definirea funcţiei de calcul Value Field Settings opţiunea de calcul a procentului pe rând aşa cum este prezentat în figura alăturată. Figura 6-9.

2. Aveţi următorul set de date:

Figura 6-10.

a. Folosind tehnica filtrării verificaţi corectitudinea codificării pentru

coloanele Dg1 şi Dg2. Aici puteţi întâlni greşit introdus codul diagnosticului în sensul folosirii literelor mici sau mari, spaţii suplimentar introduse sau chiar scrieri întregi necodificate. Corectaţi şi păstraţi forma de codificare prezentată în tabelul din dreapta.

b. Folosind metoda tabelelor pivot dar şi tehnica totalizării determinaţi distribuţia datelor funcţie de coloana diagnostic 1.

c. Calculaţi media, minimul şi maximul ClCr pentru fiecare tip de diagnostic din Dg1 prin cele 2 metode (tabele pivot şi totalizare).


d. Determinaţi distribuţia datelor după diagnosticul al doilea prin metodele cunoscute (frecvenţă).

3. Aveţi tabelul cu datele medicale prezentat parţial mai jos.

Figura 8-11.

Răspundeţi la următoarele întrebări:

a. Verificaţi şi corectaţi prin metoda filtrării eventualele greşeli prezente în tabel.

b. Aflaţi numărul de persoane în formă absolută cât şi procentuală pe judeţ şi pe tip post/premenopauză,

c. Determinaţi distribuţia pacienţilor pe judeţ şi mediu urban/rural,

d. Calculaţi numărul de subiecţi pentru fiecare tip de leziune şi stadiu preoperator (valori absolute şi procentuale),

e. Aflaţi numărul de persoane (valori absolute şi procentuale) ce au prezentat leziune multicentrică, apoi cele cu invazie vasculară şi în final cele cu invazie perineurală,

f. Pentru fiecare stadiu preoperator determinaţi numărul de metastaze (absolut şi procentual),

g. Răspundeţi la punctele b şi c prin metoda filtrării. Copiaţi apoi datele rezumate într-o nouă foaie de calcul.

Observaţi şi reţineţi avantajul folosirii tehnicilor descrise comparativ cu alternativa utilizării funcţiilor countif() sau averageif().


7 REPREZENTAREA GRAFICĂ A DATELOR Noţiuni prezentate:

Prezentare generală; Tipuri de grafice; Crearea şi editarea graficelor.

Graficele sunt reprezentări vizuale a datelor, ce ajută la evidențierea caracteristicilor seturilor analizate prin asocieri, tendințe, generare de structuri, sunt utile în comparații și poate transmite informația de bază în mod clar și lesne de înțeles prin imaginea creată.

Microsoft Excel oferă o larga varietate de grafice (diagrame), ce permit afişarea datelor în moduri dedicate, cum ar fi cele de tip: Linie (Line), Coloană (Column), Suprafață (Area), Bară (Bar), Puncte (Scatter) sau Cerc (Pie) [6]. Se pot combina de asemenea mai multe tipuri de diagrame pe aceeași reprezentare prin atribuirea acestora unor serii de date diferite. Acestea sunt graficele combinate (Combo Charts).

TIPURI DE GRAFICE (DIAGRAME): Grafice coloană Grafice linie Grafice cu structură radială sau cerc. Grafice bară Grafice zonă Grafice prin puncte Grafice bursiere Grafice suprafaţă Grafice de structură inelară Grafice cu bule Grafice radar Pentru realizarea unei diagrame se selectează acele blocuri de

celule din foaia de calcul care vor fi reprezentate grafic (inclusiv celulele corespunzătoare etichetelor de rând şi/sau coloană). Datele trebuie aranjate în rânduri și coloane, cu etichetele de rând la stânga și etichetele de coloană deasupra datelor. Pentru a vedea toate tipurile de diagrame disponibile, faceți clic pe caseta de dialog Insert Charts, apoi faceți clic pe săgeți pentru a defila în tipurile de diagrame.

54 | Reprezentarea grafică a datelor

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMcolumncharts%23BMcolumncharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMlinecharts%23BMlinecharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMpiecharts%23BMpiecharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMbarcharts%23BMbarcharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMareacharts%23BMareacharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMscattercharts%23BMscattercharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMstockcharts%23BMstockcharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMsurfacecharts%23BMsurfacecharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMdoughnutcharts%23BMdoughnutcharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMbubblecharts%23BMbubblecharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMradarcharts%23BMradarcharts

Graficul creat poate fi inserat în foaia curentă de calcul, în altă foaie de calcul a aceluiaşi fişier sau într-un fişier diferit utilizând comanda (Move Chart).

Figura 7-1. Tipuri de grafice

Grafice coloană (column) Pentru realizarea graficului de tip coloană datele vor fi aranjate în

coloane sau rânduri într-o foaie de calcul (spreadsheet). Diagramele coloană sunt utile pentru afişarea modificărilor datelor într-o perioadă de timp sau pentru ilustrarea unor comparaţii între elemente. În diagramele coloană, categoriile sunt de obicei organizate pe axa orizontală iar valorile pe axa verticală.

Figura 7-2. Grafic coloană

Reprezentarea grafică a datelor | 55

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMcolumncharts%23BMcolumncharts

Datele sursă ale graficului se pot verifica şi eventual se modifică dacă este cazul apelând meniul Select Data ce deschide caseta de dialog Select Data Source. În caseta Zonă de date (Chart data range) sunt prezentate blocurile de celule selectate ce stau la baza diagramei, acestea putându-se modifica ulterior. Grafice linie (line) Graficele tip linie pot afişa date continue în timp, în funcţie de o scală

comună şi, de aceea, sunt ideale pentru afişarea tendinţelor datelor măsurate la intervale egale. Într-o diagramă linie, datele din categorii sunt distribuite egal pe axa orizontală iar valorile corespunzătoare categoriilor sunt distribuite proporțional pe axa verticală.

Se utilizează un grafic de tip linie dacă categoriile de date ce se doresc a fi reprezentate sunt valori spaţiate egal cum ar fi luni, trimestre etc. Practic axa XX’ este tratată ca o axă categorială. Acest tip de grafic se utilizează şi în cazul în care există mai multe serii.

Figura 7-3. Grafic tip linie cu două seturi de valori Pentru o serie, se ia în considerare utilizarea unei diagrame de categorii.

De asemenea, ar trebui să se utilizeze un grafic linie dacă sunt puţine etichete chiar valori numerice spaţiate egal, de exemplu anii de studiu. Dacă există mai mult de zece categorii, se va utiliza în schimb un grafic prin puncte.

Grafice cu structură radială sau cerc (pie)

Graficele cu structură radială arată dimensiunea elementelor dintr-o serie de date proporţional cu suma elementelor. Acestea acceptă numai o serie de date. Într-un grafic cu structură radială valorile sunt afişate ca procent din întregul cerc. Sunt des întâlnite în reprezentarea compoziției unei populații de studiu.

Figura 7-4. Grafic cerc


http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMlinecharts%23BMlinecharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMpiecharts%23BMpiecharts

Graficele de structură radială au următoarele subtipuri de diagrame: structură radială din structură radială (cerc din cerc) şi bară din structură radială (bară din cerc). Graficele cu structură radială din radială şi bară din radială afişează

diagrame de structură radială cu valori definite de utilizator extrase din diagrama principală şi combinate într-o a doua diagramă de structură radială sau într-o diagramă bară stratificată. Aceste tipuri de diagrame sunt utile când se doreşte extragerea sectoarelor mici din structura radială principală pentru a fi mai uşor de distins.

Figura 7-5. Scoaterea în evidență din graficele cerc a anumitor subcategorii

Grafice bară

Graficele de tip bară evidenţiază comparaţii între elemente individuale.

Figura 7-6. Grafic bară

Acestea prezintă o serie de subtipuri de diagrame: bară grupată ce compară valorile după categorii. Într-un grafic bară

grupată, categoriile sunt de obicei organizate pe axa verticală, iar valorile pe axa orizontală.

bară stratificată. Graficul bară stratificată arată relația elementelor individuale cu întregul.

bară stratificată 100%. Acest tip de grafic compară procentul avut de fiecare categorie din total.

Toate subtipurile prezentate pot fi reprezentate şi 3D fiind vorba doar de forma dreptunghiului şi nu de afişarea datelor în 3 axe. Aceste


http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMbarcharts%23BMbarcharts

grafice sunt de asemenea disponibile şi sub formă de cilindru, con sau piramidă orizontală, singura diferență este că aceste tipuri de grafice afișează forme de cilindru, con și piramidă în locul dreptunghiurilor orizontale.

Grafice zonă, domeniu sau arie (area) Graficele tip zonă accentuează magnitudinea schimbării în timp şi pot fi utilizate pentru a atrage atenţia asupra valorii totale în funcţie de o tendinţă. De exemplu, datele care reprezintă evoluţia în timp pot fi reprezentate într-o diagramă zonă pentru a accentua frecvenţa totală.

Figura 7-7. Grafic zonă (domeniu, arie) Afişând suma valorilor reprezentate, o diagramă zonă arată şi relaţia

părţilor cu întregul.

Grafice prin puncte (scatter) Acest tip de grafic este caracterizat de faptul că atât axa XX’ cât și axa

YY’ sunt de tip numeric. Astfel valorile de pe abscisă vor fi proporțional reprezentate cu magnitudinea lor și corespunzător vor fi independente de poziția lor în șirul de date (diferență esențială față de tipurile linie, coloană sau bară în care ordinea conta).

Ca urmare a acestei proporții în redare, diagramele prin puncte sunt folosite pentru a afişa posibile relaţii între valorile numerice de pe axa XX’ și valorile numerice de pe axa YY’.

Se pot folosi spre reprezentare mai multe serii de date Y1, Y2… Yn dar aceste valori vor fi raportate la singurul set de valori de pe XX’. Altfel spus, vom avea serii de genul (x,y1) apoi (x,y2) și așa mai departe. Valorile de pe Y vor fi citite în cadrul seriilor în aceleași puncte ce definesc valorile corespunzătoare de pe X. Vom avea astfel o coloană X și seturile corespunzătoare Y1, Y2, …Yn (n este numărul de serii de reprezentat).

Având valori numerice atât pe X cât și pe Y putem folosi acest grafic în situațiile următoare: Se doresc anumite modificări ale scalei axei orizontale. De exemplu

o reprezentare logaritmică. Valorile pentru axa orizontală nu sunt spaţiate egal.


http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMareacharts%23BMareacharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMscattercharts%23BMscattercharts

Se doreşte afişarea în mod eficace a datele din foaia de calcul, care include seturi de valori perechi sau grupate şi reglarea scalelor independente ale unei diagrame prin puncte pentru a dezvălui mai multe informaţii despre valorile grupate.

Pentru evidenţierea unor asemănări între seturi mari de date în schimbul diferenţelor dintre punctele de date.

În cazul în care se doreşte compararea mai multor puncte (date) fără implicarea timpului; cu cât se vor include mai multe date într-o diagramă prin puncte cu atât mai precise vor fi comparaţiile care se pot face.

Figura 7-8. Grafic în puncte. Posibilă relație între înălțime și greutate.

Grafice bursiere (stock)

Sunt situații în care avem de reprezentat mai multe valori numerice ce sunt caracteristice pentru fiecare grup de pe axa XX’. De exemplu variația unui parametru medical în forma: valoare minimă, maximă și valoare finală. După cum implică şi numele dar și folosind puțină imaginație, putem aprecia că o diagramă bursieră se utilizează cel mai des pentru a ilustra fluctuaţia anumitor parametri. Cu toate acestea, diagrama bursieră poate fi utilizată şi pentru date de altă natură. De exemplu, se poate utiliza acest grafic pentru a indica variația temperaturii zilnice. Datele trebuie introduse într-o ordine predefinită pentru a crea diagrame bursiere.

Modul în care sunt organizate datele unei diagrame bursiere în foaia de calcul este foarte important. De exemplu, pentru a crea o diagramă bursieră de tip maxim-minim-medie (valoare finală), ar trebui să aranjaţi datele respectând chiar ordinea cerută (des folosite Max-Min-Media).

ziua max min media

ziua 1 39.2 38.2 38.7

ziua 2 39.1 38 38.6

ziua 3 38.5 37.6 38.1

ziua 4 38.2 37.4 37.8

ziua 5 38 37.1 37.6

ziua 6 37.6 36.8 37.2

ziua 7 37.1 36.5 36.8

Figura 7-9. Diagrama bursieră

36

37

38

39

40

ziua1

ziua2

ziua3

ziua4

ziua5

ziua6

ziua7

maxminmedia


http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMstockcharts%23BMstockcharts

Grafice suprafaţă În general acest tip de grafic permite reprezentarea pe o suprafața a

valorilor unei variabile în funcție de doi parametrii. Reprezentarea grafică tip suprafaţă se utilizează de obicei pentru a

arăta relațiile între volume mari de date, care altfel pot fi dificil de văzut. De asemenea această reprezentare este utilă când se doreşte găsirea unor combinaţii optime între diferite serii de date. Ca într-o hartă topografică, culorile şi modelele indică zone care se află în acelaşi plaje de valori.

Corespunzător unui grafic de tip suprafaţă culoarea pentru fiecare zonă este determinata de coordonata z iar harta de culori (o harta de culori este o lista ordonata de culori) va fi specificată adăugându-se o bară de culori (legenda) pentru a arata modul în care acestea sunt atribuite datelor.

Se poate utiliza o diagramă suprafaţă şi când atât categoriile cât şi seriile de date sunt valori numerice.

Un alt scop al acestui tip de grafic este reprezentarea grafică a unor funcţii. Astfel, în foaia de calcul sunt dispuse ca într-o matrice valorile funcţiei ce se doreşte a se reprezenta grafic.

Figura 7-10. Grafic suprafață

Grafice cu structură inelară Asemenea unei diagrame cu structură radială, o diagramă cu structură inelară arată relaţia părţilor cu întregul și poate conţine mai multe serii de date. Fiecare serie de date este reprezentată ca un nou inel în cadrul graficului. Comparativ amintim că diagramele de structură radială au numai o serie de date.

Figura 7-11. Grafic inelar


http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMsurfacecharts%23BMsurfacecharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMdoughnutcharts%23BMdoughnutcharts

Grafice tip „nor de puncte” (Bubble) Pentru realizarea acestui grafic datele sunt aranjate în coloane într-o

foaie de calcul astfel încât valorile x sunt plasate în prima coloană iar valorile y corespondente şi valorile ce vor da dimensiunea sferelor (bule) sunt listate în coloanele adiacente.

De exemplu, se pot organiza datele aşa cum se afişează în următorul exemplu.

Figura 7-12. Grafic tip bule

Graficele tip “nor de puncte” (Bubble), sunt similare cu graficele Scatter, cu deosebirea că marcatorul “bulină” indică valoarea celei de-a treia valori studiate sub forma mărimii acesteia.

Grafice radar (polare) Este singurul grafic ce folosește coordonate polare (unghi si distanta fata de centru de coordinate). Poziția de start este, daca ne imaginam un ceas, ora 12.00. Cele 3600 sunt împărțite la numărul de categorii de reprezentat si astfel se deduce unghiul de avans pentru fiecare pas. Figura 7-13. Grafic tip radar

În concluzie, o astfel de diagramă poate reprezenta grafic una sau mai

multe serii de date. Cu sau fără marcaje pentru punctele de date individuale, graficele de tip

radar afişează modificările valorilor relativ la centrul de coordonate (punct central.

Nr. cazuriValoare maxima

parametru Frecventa relativa12 9.5 9.2%23 12.3 17.7%31 10.5 23.8%

8 8.4 6.2%2 7.1 1.5%


http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMbubblecharts%23BMbubblecharts

http://office.microsoft.com/ro-ro/excel-help/tipuri-disponibile-de-diagrame-HA010342187.aspx?CTT=3%23BMradarcharts%23BMradarcharts

Crearea şi editarea graficelor După cum s-a observat şi din prezentarea anterioară datele din

coloanele şi rândurile unei foi de calcul pot fi reprezentate grafic, utilizând majoritatea tipurilor de diagramă. Însă unele tipuri de grafice (cum ar fi diagramele cu structură radială sau diagramele tip bubble) necesită un aranjament specific al datelor [5].

Astfel, pentru a realiza o reprezentare grafică se vor introduce în foaia de calcul datele corespunzătoare. Excel poate determina automat cel mai bun mod de a reprezenta date în diagramă. Ulterior se vor parcurge următorii paşi: Se vor selecta celulele care conţin datele pe care doriţi să le reprezentaţi. Dacă se va selecta numai o celulă, Excel va reprezenta grafic automat

toate celulele care conţin date adiacente acelei celule într-o diagramă. Dacă celulele care doriţi să le reprezentaţi într-o diagramă nu se află într-o zonă continuă, aveţi posibilitatea să selectaţi celule neadiacente sau zone de celule, condiţia fiind ca selecţia să formeze un dreptunghi. De asemenea, aveţi posibilitatea să ascundeţi rândurile sau coloanele pe care nu doriţi să le reprezentaţi în diagramă.

În setul de comenzi Inserare (Insert), în grupul Grafice (Chart), efectuaţi: Faceţi clic pe tipul de diagramă, apoi pe subtipul de diagramă pe

care doriţi să-l utilizaţi. Pentru a vedea toate tipurile de diagrame disponibile, faceţi clic pe

butonul săgeată pentru a lansa caseta de dialog Inserare diagramă, apoi faceţi clic pe săgeţi pentru a defila în tipurile de diagrame.

Figura 7-14. Inserarea graficelor

Graficul va fi creat şi poziţionat în mod implicit lângă tabelul de

date. După crearea unui grafic, se pot adăuga cu uşurinţă noi elemente.

De exemplu, se pot adăuga titluri pentru a oferi un acces mai clar la informaţie, sau se poate schimba poziţia elementelor.

Atunci când se creează un grafic, va apare caseta Chart Tools, (unelte grafice), care include grupurile Design, Layout şi Format. În aceste grupuri se găsesc comenzile necesare pentru a formata (modifica, completa) graficul realizat.


Figura 7-15. Meniul corespunzător comenzilor de editare a graficelor

După ce a fost creat graficul, există posibilitatea modificării aspectului

acestuia. În loc să se adauge sau să se modifice manual elementele din grafic sau să se formateze graficul, există posibilitatea să se aplice intr-un mod facil un aspect şi un stil predefinit graficului existent. Excel furnizează o varietate de aspecte şi stiluri predefinite utile (sau aspecte rapide şi stiluri rapide) din care se poate selecta. Există însă şi posibilitatea să se particularizeze un aspect sau un stil după preferinţă, modificând manual aspectul deci formatul elementelor individuale din grafic.

Pentru a schimba tipul de grafic se selectează zona diagramei, apoi se face clic-dreapta (cu butonul din dreapta al mouse-ului) pe ea, după care se va selecta opţiunea Change Chart Type sau Change Series Chart Type.

Figura 7-16. Lista comenzilor corespunzătoare editării unui grafic

Modificarea manuală a aspectului elementelor diagramei Faceţi clic-dreapta (cu butonul din dreapta al mouse-ului) pe elementul

din grafic pentru care doriţi să modificaţi aspectul. Pentru a formata seria de date, se selectează seria de date din diagrama,

se punctează cu butonul din dreapta al mouse-ului pe ea, după care se selectează meniul Format Data Series (formatare serii de date).


Figura 7-17. Formatarea seriei de date Figura 7-18. Formatarea axelor Pentru modificarea formatului axelor se selectează axa verticală a

valorilor, apoi se face clic-dreapta pe meniul Format Axis. Pentru a formata legenda, se va face clic-dreapta pe ea apoi se va selecta

opţiunea Format Legend (formatare legendă) din meniu.

Figura 7-19. Formatarea legendei

În concluzie, opţiunile de aspect care se vor selecta sunt aplicate

elementului corespunzător din grafic. De exemplu, dacă se va selecta întreaga diagramă, etichetele de date se vor aplica la toate seriile de date. Dacă se va selecta un singur punct de date, etichetele de date se vor aplica doar la seriile de date selectate sau la un punct de date.


Figura 7-20. Adăugarea etichetelor Figura 7-21. Adăugarea datelor în grafic

Adăugarea de noi date în grafic. Se punctează pe Chart, apoi Select Data. În zona de editare Chart data range se va introduce zona care conţine datele ce trebuiesc reprezentate pe vechea diagramă. Se apasă butonul ok. EXERCIŢII

1. Reprezentaţi grafic valorile frecventei scorurilor din tabel printr-un grafic de tip COLUMN.

2. Reprezentaţi grafic vârsta, pe grupe de vârstă (10-19, 20-29, 30-39, 40-49, peste 50), printr-un grafic de tip BAR.

3. Reprezentaţi structura pe sexe a lotului din tabel printr-un grafic de tip PIE.

4. Reprezentaţi ponderea în funcţie de mediul de provenienţă printr-un grafic de tip DOUGHNUT.

5. Reprezentaţi structura lotului în funcţie de scorul GCS printr-un grafic de tip RADAR.

6. Reprezentaţi frecvenţa scorurilor GCS comparativ pe sexe printr-un grafic de tip COLUMN.

7. Reprezentaţi modul de variaţie a greutăţii în funcţie de înălţime printr-un grafic de tip SCATTER.

8. Reprezentaţi modul de variaţie a glicemiei în funcţie de greutate printr-un grafic de tip SCATTER.


8 REPREZENTAREA GRAFICĂ A FUNCŢIILOR Noţiuni prezentate: Reprezentarea grafică a funcţiilor utilizând grafice de tip SCATTER; Reprezentarea grafică a funcţiilor utilizând grafice de tip SURFACE;

Reprezentarea grafică în Microsoft Excel 2010 permite evidenţierea unor modele sau tendinţe care pot duce la decizii informate şi la îmbunătăţirea capacitaţii de a analiza mari seturi de date.

Dacă o linie (coloană) reprezintă valorile unei funcţii pentru o variabilă dată, Excel permite reprezentarea grafică a acestei funcţii. Pe acelaşi sistem de axe pot fi reprezentate mai multe grafice. Utilizând uneltele de editare a graficelor se poate însera titlul graficului, se pot defini axele (nume, unitate de măsură), se poate reprezenta o legendă și chiar se pot atașa valorile numerice fiecărui punct din grafic [5].

Graficele de tip XY (Scatter) permit reprezentarea funcţiilor matematice în Microsoft Excel. Caracteristica principală constă în utilizarea valorilor numeric atât pe XX’ cât și pe YY’ [5].

Posibilităţile de reprezentare grafică ale programului Microsoft Excel permit vizualizarea comparativă a doua sau mai multe grafice ale unor funcţii reprezentate în acelaşi reper cartezian. Singura condiţie este ca domeniile de definiţie ale funcţiilor să coincidă (setul de valori pe XX’ în care se calculează funcțiile). Este necesar ca diviziunile de puncte alese să fie aceleaşi (ex.: atât funcția 𝑓𝑓(𝑥𝑥) = sin 𝑥𝑥, cât și 𝐾𝐾(𝑥𝑥) = cos 𝑥𝑥 vor fi calculate în aceleași puncte x1, x2…xn).

Practic pentru a reprezenta grafic o funcție cunoscută ca formă analitică (de ex. f(x)=2*x^2+5*x+1) vom defini un set de puncte pe axa XX’ pentru care vom calcula valorile f(x). Este de așteptat să avem o reprezentare într-o formă cât mai continuă cu cât numărul de puncte generate pe axa XX’ este mai mare. Vom crea astfel două coloane reprezentând datele perechi de forma (xi, f(xi)). Prin selecția celulelor și alegerea tipului de grafic Scatter vom obține o primă formă a diagramei funcției generate. Exemplul 1. Să se reprezinte grafic funcţia 𝑓𝑓(𝑥𝑥) = 𝑥𝑥2 − 2𝑥𝑥 + 1 pentru valori ale lui x∈[-0.2, 1.2].

66 | Reprezentarea grafică a funcţiilor sub formă analitică

Rezolvare: Etapele realizării acestui grafic: 1. Alegem domeniul de definiţie al funcţiei intervalul [-0.2, 1.6] 2. Folosind comanda Auto Fill generaţi o serie de valori de la -0.2

până la 1.6 cu pasul 0.1 (diviziune echidistantă). 3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi

valorile funcţiei pentru fiecare punct al intervalului. 4. Din meniul Insert selectaţi Charts 5. Selectaţi tipul de grafic XY (Scatter). 6. Daca doriţi să mai adăugaţi şi anumite comentarii la grafic sau să

faceţi modificări asupra legendei graficului sau alte modificări de natură explicativă puteţi realiza toate aceste modificări în urma realizării graficului.

Recomandări: În celulele A2:A16 se introduc valorile lui x, iar celula B2 se

introduce expresia matematică a funcţiei: 𝑓𝑓(𝑥𝑥) = 𝑥𝑥2 − 2𝑥𝑥 + 1→ = 𝐴𝐴2 ∗ 𝐴𝐴2 − 2 ∗ 𝐴𝐴2 + 1 Valorile argumentului funcţiei va fi o progresie aritmetică având

primul termen -0.2 şi raţia de 0.1. Se selectează zona B2:B16, apoi se selectează Charts din sub-meniul

Insert ce permite afişarea ferestrei Insert Charts necesară pentru selectarea tipului de grafic dorit. Pentru acest exemplu se alege graficul de tip X Y (Scatter) prezentat în figura de mai jos.

Acest tip de grafic se poate utiliza şi în cazul în care trebuie să se afişeze conectarea punctelor corespunzătoare datelor. Această conectare se realizează prin puncte cu linii fine şi prin puncte cu linii fine şi marcaje. Prin trasarea liniei se ataşează graficului o curbă care leagă punctele de date. Liniile pot fi afişate cu sau fără marcaje. Ca şi recomandare, se propune utilizarea unei linii netede fără marcatori dacă există multe puncte de date.

Figura 8-1. Datele şi reprezentarea grafică a funcţiei 𝑓𝑓(𝑥𝑥) = 𝑥𝑥2 − 2𝑥𝑥 + 1

Reprezentarea grafică a funcţiilor sub formă analitică | 67

Exemplul 2. Să se reprezinte grafic funcţia 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 𝑠𝑠𝐼𝐼𝑀𝑀 2𝑥𝑥 − 1, pentru valori ale

lui x∈[-0.4, 7.4]. Rezolvare Etapele realizării acestui grafic:

1. Alegem domeniul de definiţie al funcţiei intervalul [-0.4, 7.4] 2. Folosind comanda Auto Fill se va genera o serie de valori de

la -0.4 până la 7.4 cu pasul 0.2 (diviziune echidistantă). 3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi

valorile funcţiei pentru fiecare punct al intervalului. 4. Din meniul Insert selectaţi Charts 5. Selectaţi tipul de grafic XY (Scatter).

Recomandări: În celulele A23:A62 se introduc 40 valori pentru x, iar celula B23 se

introduce expresia matematică a funcţiei: 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 𝑠𝑠𝐼𝐼𝑀𝑀 2𝑥𝑥 − 1 → = 𝐴𝐴23 ∗ sin(2 ∗ 𝐴𝐴23) − 1. Valorile argumentului funcţiei va fi o progresie aritmetică având

primul termen -0.4 şi raţia de 0.2. Pentru calculul valorilor funcţiei (B23:B62) corespunzătoare valorilor x din celulele A23:A62, se foloseşte tehnica AutoFill prin completarea celulelor cu date deduse din informaţia conţinută în celula sursă (celula B23 → = 𝐴𝐴23 ∗ 𝑠𝑠𝐼𝐼𝑀𝑀(2 ∗ 𝐴𝐴23) − 1).

Se selectează zona B23:B62, apoi se selectează tipul de grafic dorit. Pentru acest exemplu se alege graficul de tip XY (Scatter) prezentat în figura de mai jos.

Figura 8-2. Datele şi reprezentarea grafică a funcţiei 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 𝑠𝑠𝐼𝐼𝑀𝑀 2𝑥𝑥 − 1


Exemplul 3.

Să se reprezinte grafic funcţia Gauss-Laplace 𝑓𝑓(𝑥𝑥) = 1𝜎𝜎√2∙𝜋𝜋

∙ 𝑀𝑀−(𝑥𝑥−𝜇𝜇)2

2∙𝜎𝜎2 . Rezolvare

1. Alegem domeniul de definiţie al funcţiei intervalul [2.1, 7.9]. 2. Folosind comanda Auto Fill se va genera o serie de valori de

la 2.1 până la 7.9 cu pasul 0.2 (diviziune echidistantă). 3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi

valorile funcţiei pentru fiecare punct al intervalului. 4. Din meniul Insert selectaţi Charts. 5. Selectaţi tipul de grafic XY (Scatter).

Recomandări: Se va calcula iniţial media aritmetică a seriei generate (µ) şi deviaţia

standard (σ). În celulele A2:A31 se introduc 30 valori pentru x, iar celula E3 şi E4

se vor calcula valorile mediei (µ→utilizând funcţia AVERAGE) şi a deviaţiei standard (σ→utilizând funcţia STDEV).

Pentru calculul valorilor funcţiei (B2:B31) corespunzătoare valorilor x din celulele A2:A31, se foloseşte tehnica AutoFill prin completarea celulelor cu date deduse din informaţia conţinută în celula sursă: (celula B2→f(x)=1/(E$3*SQRT(2*PI()))*EXP(-POWER((A5-E$2),2)/2*POWER(E$3,2)).

Se selectează zona B2:B31, apoi se selectează tipul de grafic dorit. Pentru acest exemplu se alege graficul de tip XY (Scatter) prezentat în figura următoare.

Figura 8-3. Datele şi reprezentarea grafică a funcţiei Gauss-Laplace


Exemplul 4. Să se reprezinte grafic funcţia 𝑓𝑓(𝑥𝑥, 𝑦𝑦) = 𝑥𝑥2

16+ 𝑦𝑦2

25 , pentru x∈[-4, 4] şi y∈[-5, 5].

Rezolvare: 1. Folosind comanda Auto Fill se vor genera 2 serii de valori în

intervalul [-4, 4] respectiv [-5, 5] cu pasul 0.2 (diviziune echidistantă).

2. Folosind operatori aritmetici şi comanda Auto Fill calculaţi valorile funcţiei pentru fiecare punct al intervalului.

3. Din meniul Insert selectaţi Charts 4. Selectaţi tipul de grafic XY (Scatter). Recomandări: În celulele A4:A44 se introduce seria de valori pentru x , x∈[-4, 4], cu

pasul 0.2, iar în celulele B4:AZ4, seria de valori pentru y∈[-5, 5], cu pasul 0.2. Valorile x ale argumentului funcţiei va fi o progresie aritmetică având primul termen ˗4 şi raţia de 0.2 iar pentru y se va genera o progresie aritmetică având primul termen ˗5 şi raţia de 0.2.

În celulele B5:AZ44 se introduc formulele corespunzătoare pentru calculul valorilor punctelor de pe suprafaţă în punctele de la intersecţia liniei cu coloana respectivă. Se selectează zona B5:AZ44 şi se creează graficul de tip suprafaţă ce reprezintă un paraboloid eliptic.

Obs. O diagramă suprafață este utilă când doriți să găsiți combinații optime între două seturi de date.

Figura 8-4. Datele şi reprezentarea grafică a funcţiei f(x, y)


Exemplul 5. Utilizând tipul de diagramă Stock (volume-high-low-close) să se

reprezinte grafic volumul eşantionului studiat, media şi intervalul de confidenţă pentru vârstă, greutate, înălțime, glicemie.

Rezolvare: 1. Folosind comanda Auto Fill se vor genera cele 4 serii de

valori (vârsta, greutate, înălţime, glicemie). 2. Se vor calcula valorile medii şi variaţia acestora pentru un

interval de confidenţă de 95%. 3. Se vor aranja valorile reprezentate corespunzător tipul de

grafic Stock (volume-high-low-close). 4. Datele rezultate se vor selecta apoi din meniul Insert –Charts

selectaţi tipul de grafic corespunzător. Recomandări: După cum sugerează şi numele, o diagramă Stock este cel mai adesea

folosită pentru a ilustra fluctuaţia unor variabile (date ştiinţifice). De exemplu, aveţi posibilitatea să utilizaţi o diagramă stoc pentru a indica fluctuaţia temperaturilor zilnice şi volumul eşantionului studiat.

Modul în care sunt organizate datele pentru un grafic tip Stock este foarte important. Este necesară existenţa a patru serii de valori în ordinea corectă (volum, valoare minimă, valoare maximă, valoare medie). Acest tip de grafic evidenţiază volumul eşantionului studiat corespunzător fiecărei serii analizate utilizând două axe valori: una pentru coloanele pe care este indicat volumul eşantionului şi cealaltă axă pentru valorile min, max, medie.

Figura 8-5. Datele şi reprezentarea grafică (diagramă tip Stock)


EXERCIŢII

1. Să se reprezinte grafic funcţiile

a. 𝑓𝑓(𝑥𝑥) = 𝑇𝑇−2𝑥𝑥

𝑥𝑥2+1+ 3𝑥𝑥 − 𝑥𝑥2

b. 𝐾𝐾(𝑥𝑥) = 2 𝑠𝑠𝐼𝐼𝑀𝑀(3𝑥𝑥) − 𝑥𝑥𝑥𝑥𝑀𝑀𝑠𝑠(3𝑥𝑥)

2. Să se reprezinte grafic 2 forme ale funcţiei Gauss-Laplace utilizând funcţia NORMDIST.


9 ELEMENTE DE TEORIA PROBABILITĂŢILOR (I) Noţiuni prezentate: Experiență. Probă. Eveniment Evenimente compatibile. Evenimente incompatibile Evenimente dependente. Evenimente independente (I) Operații cu evenimente

Experiență. Probă. Eveniment Definiție. Prin experiență (experiment) se înțelege realizarea practică a

unui complex de condiții, corespunzător unui criteriu dat de cercetare a colectivităților statistice omogene.

Definiție. Prin probă înțelegem realizarea (producerea) o singură dată a experienței.

Exemplu. Se poate considera drept experiență, aruncarea unui zar perfect construit din punct de vedere geometric și omogen din punct de vedere fizic; în acest caz proba constă în aruncarea o singură dată a zarului. Prin intermediul exemplului de mai sus se poate defini noțiunea de colectivitate statistică prin mulțimea punctelor care apar pe fețele zarului.

Definiție. Prin eveniment se înțelege rezultatul unei probe. Evenimentele pot fi clasificate în trei mari categorii: evenimente sigure, evenimente imposibile și evenimente întâmplătoare (aleatoare).

Definiție. Prin eveniment sigur se înțelege evenimentul care se produce în mod obligatoriu la efectuarea unei probe a unei experiențe.

Definiție. Evenimentul imposibil este acela care nu se produce la efectuarea nici unei probe.

Definiție. Se numește eveniment întâmplător (aleator), un eveniment care poate, fie să se producă, fie să nu se producă la efectuarea unei singure probe.

Exemple: 1. Extragerea unei bile albe dintr-o urnă care conține numai bile albe

este un eveniment sigur. 2. La aruncarea unui zar, evenimentul care constă în apariția oricărei

fețe, de la 1 la 6 , constituie evenimentul sigur. 3. Evenimentul constând în apariția unui număr de 7 puncte la o probă

a aruncării unui zar este un eveniment imposibil.

Elemente de teoria probabilităţilor (I) | 73

4. Extragerea unei bile negre dintr-o urnă care conține numai bile albe este un eveniment imposibil.

5. Apariția feței 1 la aruncarea unui zar este un eveniment întâmplător. Evenimentele întâmplătoare (aleatoare) se supun unor legități

numite legități statistice. În acest sens, nu se poate prevedea dacă într-o singură aruncare a unui zar se obține fața cu numărul 6 ; dacă însă se efectuează un număr suficient de mare de aruncări, se poate calcula cu suficientă precizie numărul de apariții ale acestei fețe.

Evenimente compatibile. Evenimente incompatibile Evenimentele întâmplătoare pot fi compatibile şi incompatibile. Definiție. Două evenimente se numesc incompatibile, dacă realizarea

unuia exclude realizarea celuilalt. Exemple:

1. Evenimentele: apariția feței 2 la aruncarea unui zar și respectiv, apariția feței 6 la aruncarea unui zar sunt incompatibile.

2. Apariția feței cu numărul 5 la aruncarea unui zar și respectiv, apariția unei fețe cu un număr impar de puncte la aruncarea unui zar reprezintă două evenimente compatibile.

Evenimente dependente. Evenimente independente Evenimentele pot fi dependente sau independente. Definiție. Două evenimente se numesc independente, dacă realizarea

unuia nu influențează probabilitatea realizării celuilalt, și dependente în caz contrar.

Exemple: 1. Evenimentele: apariția feței 1 la aruncarea unui zar și respectiv,

apariția feței 3 la o altă aruncare a zarului sunt independente. 2. Evenimentele: obținerea unui număr de 10 puncte la aruncarea a

două zaruri și apariția feței cu numărul 6 pe unul din cele două zaruri, știind că acestea au suma punctelor de pe fețele de deasupra 10 , constituie două evenimente dependente [7, 8].

Operații cu evenimente Notațiile folosite în operațiile cu evenimente sunt cele cunoscute din

teoria mulțimilor. Mulțimile vor fi evenimentele aleatoare și vor fi notate cu: A , B , C , …. .

Fie Ω evenimentul sigur și Φ evenimentul imposibil. Acestea corespund mulțimii totale considerate și respectiv, mulțimii vide.

Definiție. Se spune că evenimentul A implică evenimentul B , dacă realizarea lui A atrage după sine realizarea lui B . Notația folosită: BA ⊂ .

Observație. Implicația evenimentelor este echivalentă cu incluziunea mulțimilor.

74 | Elemente de teoria probabilităţilor (I)

Definiție. Se spune că un eveniment este contrar (opus, complementar) evenimentului A , dacă realizarea sa constă în nerealizarea lui A . Notația folosită este A . Observație.

a) Evenimentul contrar evenimentului A este echivalent cu complementara lui A din teoria mulțimilor.

b) Evenimentele A și A sunt complementare (opuse, contrare), adică, dacă se realizează A , atunci nu se realizează A și reciproc. Definiție. Reuniunea (sau adunarea) evenimentelor A şi B este

evenimentul S , care constă în realizarea a cel puțin unuia dintre evenimentele A sau B .

Notația utilizată este cea din teoria mulțimilor: BAS ∪= . Prin introducerea noțiunilor reuniune și intersecție, unele noțiuni din

teoria probabilităților pot fi definite în mod mai precis. Astfel, pentru evenimentele opuse se pot formula în acest moment următoarele definiții:

Definiții. i) evenimentele A și A se numesc opuse (contrare, complementare),

dacă au loc relațiile: Ω=∪ AA și Φ=∩ AA . ii) Evenimentele A şi B sunt incompatibile dacă: Φ=∩ BA .

În caz contrar ( Φ≠∩ BA ), evenimentele se numesc compatibile.

Exemplul 1. (Relațiile lui De Morgan). Fie A și B două evenimente din același câmp de evenimente (a se

vedea Cap. 10, pag. 80). Să se arate că: BABA ∩=∪ , BABA ∪=∩ .

Soluție. În teoria mulțimilor aceste două relații se numesc relațiile lui De Morgan. Interpretarea acestora este realizată în limbajul evenimentelor.

Considerăm mai întâi prima relație. BA ∪ este prin definiție, evenimentul a cărui realizare înseamnă realizarea a cel puțin unuia din evenimentele A sau B . Contrarul său, BA ∪ este evenimentul a cărui realizare presupune nerealizarea, atât a evenimentului A , cât și a evenimentului B . Dar nerealizarea evenimentului A înseamnă realizarea evenimentului A și invers, nerealizarea evenimentului B înseamnă realizarea evenimentului B . Deci, dacă BA ∪ se realizează, atunci se realizează și evenimentul A și evenimentul B , adică evenimentul BA ∩ . Concluzionăm că realizarea evenimentului BA ∪ implică realizarea evenimentului BA ∩ , ceea ce se scrie :

BABA ∩⊂∪ . (1)


Invers, dacă BA ∩ are loc, adică se realizează A și B , atunci nu se realizează nici unul din evenimentele A , B , deci nu se realizează evenimentul BA ∪ . Dar nerealizarea lui BA ∪ înseamnă de fapt, realizarea lui BA ∪ .

Conchidem că realizarea evenimentului BA ∩ implică realizarea evenimentului BA ∪ , adică:

BABA ∪⊂∩ . (2) Din relațiile (1) și (2) rezultă: BABA ∩=∪ .

Considerăm acum a doua relație, BABA ∪=∩ . Evenimentul BA ∩ este evenimentul a cărui producere înseamnă realizarea atât a lui A ,

cât și a lui B . Contrariul său, BA ∩ , este evenimentul a cărui realizare înseamnă nerealizarea a cel puțin unuia din evenimentele A , B . Aşadar, dacă BA ∩ se realizează, atunci se realizează cel puțin unul din evenimentele A , B , adică se realizează evenimentul BA ∪ . Prin urmare:

BABA ∪⊂∩ . Invers, dacă are loc BA ∪ , atunci cel puțin unul din evenimentele A , B nu s-a realizat, deci nu s-a realizat BA ∩ ; rezultă că s-a realizat BA ∩ . Avem aşadar implicația:

BABA ∩⊂∪ , de unde rezultă egalitatea:

BABA ∪=∩ . Observație. În general, se spune că evenimentele A și B sunt egale

(şi utilizăm notaţia BA = ), dacă BA ⊂ și AB ⊂ . Exemplul 2. Să se demonstreze echivalența următoarelor relații:

BA ⊂ , AB ⊂ , BBA =∪ , ABA =∩ . Se va arăta că dacă una din cele patru relații este satisfăcută, atunci şi celelalte trei sunt adevărate. Soluție. Fie BA ⊂ este adevărată. Această înseamnă că dacă A se realizează, atunci se realizează și B . Relația AB ⊂ arată că dacă nu s-a produs B , atunci nu s-a produs nici A , ceea ce este adevărat; daca nu ar fi valabilă această afirmație, ar fi contrazisă relația BA ⊂ . Pentru a arăta că BBA =∪ (dacă BA ⊂ ) este suficient să se arate că:

BBA ⊂∪ , (3) deoarece relația BAB ∪⊂ este evidentă, ea însemnând că dacă se realizează B , atunci se realizează unul din evenimentele A , B .

76 | Elemente de teoria probabilităţilor (I)

Pentru a demonstra relația (3), trebuie arătat că de câte ori se produce BA ∪ se produce şi B . Dacă BA ∪ s-a realizat, atunci sau s-a realizat evenimentul B (şi relația este demonstrată), sau s-a realizat evenimentul A și atunci, conform ipotezei BA ⊂ , s-a realizat și evenimentul B . Pentru a arăta că ABA =∩ (în aceeași ipoteză BA ⊂ ), remarcăm că dacă are loc A , atunci conform ipotezei are loc și B , deci se realizează

BA ∩ . Aşadar, BAA ∩⊂ . Relația ABA ⊂∩ este evidentă, ea însemnând că dacă se realizează A și B , atunci se realizează A (relația ABA ⊂∩ este adevărată fără

ipoteza BA ⊂ ). Deci ABA =∩ . Prin raționamente asemănătoare, se arată că dacă se va lua ca

ipoteză, oricare alta din cele patru relații din enunț, atunci prima relație va rezulta ca fiind adevărată.

Exemplul 3. Relațiile următoare sunt echivalente: Φ=∩ BA , BA ⊂ , AB ⊂ . Soluție. Presupunem că Φ=∩ BA , adică evenimentele A și B sunt incompatibile. Rezultă aşadar, că dacă A se realizează, atunci B nu se realizează, deci se realizează B , adică BA ⊂ . Invers, dacă BA ⊂ , atunci dacă evenimentul A are loc, se realizează în mod cert şi B , cu alte cuvinte B nu se realizează. Aceasta înseamnă că evenimentele A și B sunt incompatibile, deci Φ=∩ BA . Am arătat că primele două relații din enunț sunt echivalente. Echivalenţa primei relaţii cu cea de-a treia relație rezultă acum imediat din simetria relației Φ=∩ BA .


10 ELEMENTE DE TEORIA PROBABILITĂŢILOR (II) Noţiuni prezentate: Definiția clasică a probabilității. Proprietăți. Regula adunării probabilităților evenimentelor incompatibile. Probabilitatea evenimentelor contrare (complementare). Sistem complet de evenimente. Evenimente independente și dependente (II). Probabilitate condiționată. Teorema înmulțirii probabilităților

evenimentelor independente și dependente.

Definiția clasică a probabilității Definiție. Se numește probabilitatea unui eveniment A și se notează cu

)(AP , raportul dintre numărul m de rezultate favorabile producerii lui A și numărul total n de rezultate posibile ale experienței, cu condiția ca toate rezultatele să fie egal posibile.

nmAP =)( . (1)

Exemplu. Pe baza definiției de mai sus, se observă imediat că probabilitatea de apariție – la o singură aruncare – a uneia din fețele unui

zar omogen și perfect construit este 61 , sau probabilitatea de apariție a

uneia din fețele monedei este 21 , etc.

Exemplu. Numerele 1, 2, 3, …, 𝑀𝑀 se așează la întâmplare. Să se calculeze probabilitatea ca numerele 1 și 2 să fie așezate în șir, în ordine crescătoare, consecutive.

Soluție: Cele 𝑀𝑀 numere se pot scrie în 𝑀𝑀! moduri. Grupul de numere 1, 2 se poate scrie în 𝑀𝑀 − 1 locuri, în șirul celor 𝑀𝑀 numere. Alături de cele două numere 1, 2, celelalte 𝑀𝑀 − 2 numere se pot scrie în (𝑀𝑀 − 2)! moduri. Numărul cazurilor posibile este 𝑀𝑀!, iar acela al cazurilor favorabile este (𝑀𝑀 − 2)! (𝑀𝑀 − 1). Probabilitatea cerută este deci

𝑀𝑀 =(𝑀𝑀 − 2)! (𝑀𝑀 − 1)

𝑀𝑀!=

1𝑀𝑀

78 | Elemente de teoria probabilităţilor (II)

Deoarece nm ≤ în relația (1), rezultă că probabilitatea oricărui eveniment întâmplător A satisface dubla inegalitate :

1)(0 ≤≤ AP (2) Cu cât )(AP este mai apropiată de 1, cu atât evenimentul A are loc mai des. Dacă 0)( =AP , evenimentul sau nu are loc niciodată, sau se realizează foarte rar, încât practic îl considerăm ca fiind evenimentul imposibil. Dacă 1)( =AP , evenimentul are loc de fiecare dată la efectuarea experimentului, deci este un eveniment sigur.

Din definiția clasică a probabilității - formula (1) - rezultă următoarele: Proprietăți:

1. Probabilitatea evenimentului sigur este 1, întrucât în acest caz nm = ; 2. Probabilitatea evenimentului imposibil este 0 , deoarece în acest caz

0=m ; 3. Probabilitatea unui eveniment întâmplător (aleator) este cuprinsă între

0 şi 1, întrucât în acest caz 10 << m .

Introducem acum noţiunea de frecvență relativă, o altă noțiune fundamentală în teoria probabilităților legată de noțiunea de probabilitate.

Definiție. Prin frecvență relativă a evenimentului A se înțelege raportul dintre numărul probelor m în care evenimentul A s-a produs și numărul total n de probe efectuate.

Dintr-o îndelungată observație a fenomenelor și proceselor de masă s-a putut constata că dacă un experiment se repetă, în aceleași condiții, de un număr suficient de mare de ori, atunci frecvența relativă prezintă o anumită stabilitate, oscilând în jurul probabilității de realizare a acestuia [9, 17].

Tocmai de aceea, drept măsură cantitativă de apreciere a posibilității obiective de a se produce evenimentul întâmplător A , poate fi luată frecvența relativă Af , rezultată după un număr mare N de experiențe, efectuate în aceleași condiții.

Așadar, noțiunea de probabilitate a unui eveniment este legată (chiar la originea formării ei) de o noțiune experimentală, practică – frecvența de producere a evenimentului –, rezultând din legile obiective ale fenomenelor reale de masă. Aceasta a condus la constatarea că evenimentele corespunzătoare diferitelor probe experimentale formează o anumită structură, cu numeroase proprietăți care pot fi formulate matematic. Matematicianul rus A. N. Kolmogorov a numit-o câmp de evenimente și pe această bază a formulat cunoscutele axiome privind teoria probabilităților.

Elemente de teoria probabilităţilor (II) | 79

Schema lui Kolmogorov Obiectele de bază folosite în axiomatizarea teoriei probabilităților

sunt evenimentele și probabilitățile respective. Constatăm că evenimentele corespunzătoare diferitelor experiențe posedă unele proprietăți ce pot fi formulate matematic.

Exemplu. Se consideră experiența clasică a aruncării unui zar. Apariția celor șase fețe conduce la evenimentele: )6( , ),2( ),1( 2 . În mod analog, apariția uneia din două fețe ne conduce la

evenimentele: )6 ,5( , ),3 ,1( ),2 ,1( 2 . Apariția uneia din trei fețe dă naștere evenimentelor:

)6 ,5 ,4( , ),4 ,2 ,1( ),3 ,2 ,1( 2 . Apariția uneia din patru fețe va genera evenimentele:

2 ),5 3, ,2 ,1( ),4 ,3 ,2 ,1( . Apariția uneia din cinci fețe va conduce la evenimente de forma:

2 ),6 4, 3, ,2 ,1( ),5 ,4 ,3 ,2 ,1( . În total vor fi: 62615201565

646

36

26

16 =++++=++++ CCCCC

evenimente. Adăugând la aceasta evenimentul sigur, care constă în faptul că la o

aruncare a zarului, va apărea în mod sigur una din cele șase fețe, precum și evenimentul imposibil, constând din faptul imposibil că la aruncarea cu zarul să nu apară nici una din fețe, se obțin în total 64 evenimente, care formează câmpul de evenimente generat de experiența aruncării unui zar.

AXIOMA 1: Unei experiențe îi corespunde întotdeauna un câmp de evenimente.

Evenimentele )6( , ),2( ),1( 2 rezultate direct din experiență (descrisă în exemplul anterior), vor fi numite evenimente elementare. Prin urmare, sunt:

656

46

36

26

16 211 =++++++ CCCCC

evenimente elementare. În general, numărul evenimentelor unui câmp finit de evenimente este egal cu 2 la o putere egală cu numărul evenimentelor elementare.

Exemplu. Astfel, dacă se consideră un lot de 25 cutii, cu medicamente de același fel, și se extrag la întâmplare două cutii, numărul evenimentelor câmpului generat de această experiență va fi egal cu 252 .

Revenind la exemplul cu zarul, se observă că evenimentul )2 ,1( constă fie în apariția feței 1, fie din apariția feței 2 . Se spune că evenimentul

)2 ,1( este reuniunea (adunarea) evenimentelor )1( și )2( , adică: 2) ,1()2()1( =∪ .


În mod analog, realizarea simultană a evenimentelor 3) 2, ,1( și 3) ,1( este evenimentul 3) ,1( . Se spune că evenimentul 3) ,1( este intersecția

(produsul) evenimentelor 3) 2, ,1( și 3) ,1( , adică : 3) (1,3) (1,3) 2, ,1( =∩ .

Dacă evenimentele intersectate se exclud reciproc, se obține evenimentul imposibil, notat cu Φ . De exemplu :

Φ=∩ 6) (5,2) ,1( . Din cele arătate până acum, rezultă că orice eveniment al câmpului

de evenimente care nu este un eveniment elementar, sau nu este evenimentul imposibil, este o reuniune de evenimente elementare.

În particular, reuniunea (adunarea) tuturor evenimentelor elementare conduce la evenimentul sigur, care va fi notat cu Ω .

Se consideră evenimentul )1( . Evenimentul 6) 5, 4, 3, ,2( se bucură de proprietățile:

Ω=∪ 6) 5, 4, 3, ,2()1( , Φ=∩ 6) 5, 4, 3, ,2()1( . Evenimentul )1( este complementul (opusul sau complementarul)

evenimentului 6) 5, 4, 3, ,2( . În general, un câmp de evenimente este caracterizat prin următoarele

proprietăți : i) Daca notăm cu kA , nk ≤≤1 evenimente ale câmpului de

evenimente, k

n

kA∪

=1, k

n

kA∩

=1 sunt de asemenea evenimente ;

ii) Notând prin kA , complementul lui kA , kA este de asemenea un eveniment.

iii) Evenimentul sigur Ω şi evenimentul imposibil Φ aparțin de asemenea câmpului de evenimente.

Pentru un câmp infinit (având un număr infinit de evenimente) trebuie

să se admită că și kk

A∪∞

=1, k

kA∩

∞

=1 sunt evenimente.

AXIOMA 2: Fiecărui eveniment A al câmpului de evenimente îi

corespunde un număr real, nenegativ, )(AP , numit probabilitatea lui.

AXIOMA 3: Probabilitatea evenimentului sigur este egală cu 1.

AXIOMA 4: Probabilitatea reuniunii a două evenimente incompatibile între ele este egală cu suma probabilităților evenimentelor.


După cum se știe, evenimentele incompatibile sunt acelea care se exclud reciproc. Conform definiției, se poate scrie Φ=∩ BA . Astfel, a patra axiomă se poate scrie :

)()()( BPAPBAP +=∪ , unde Φ=∩ BA .

Teoreme și reguli fundamentale ale teoriei probabilităților. Regula adunării probabilităților evenimentelor incompatibile.

Se consideră evenimentele 1A , 2A ,..., nA , aparținând unui același câmp de evenimente Ω , incompatibile două câte două, adică: Φ=∩ ji AA ,

,,2 ,1, , )( njiji 2∈≠∀ . Atunci : )()()()( 2121 nn APAPAPAAAP +++=∪∪∪ 22 .

Demonstrația este imediată, aplicând inducția matematică după Nn ∈ (numărul de evenimente considerat), folosind regula de adunare a

probabilității evenimentelor incompatibile dată de cea de a patra axiomă, și anume : )()()( BPAPBAP +=∪ , atunci când Φ=∩ BA .

Observație. Pentru demonstrație se pot considera următoarele ipoteze : evenimentul 1A se poate realiza în 1m cazuri, evenimentul 2A se poate realiza în 2m cazuri,…, evenimentul nA se poate realiza în nm cazuri, iar evenimentul sigur Ω se poate realiza în S cazuri. Atunci :

SmAP 1

1)( = , S

mAP 22 )( = , … ,

SmAP n

n =)( .

Incompatibilitatea evenimentelor 1A , 2A ,..., nA , conduce la separarea completă a cazurilor 1m , 2m , ..., nm , adică, numărul de cazuri în care se realizează evenimentul nAAA ∪∪∪ 221 este nmmm +++ 221 . Rezultă aşadar

SmmmAAAP n

n+++

=∪∪∪...)( 21

21 2

încât obținem:

)()()()( 2121 nn APAPAPAAAP +++=∪∪∪ 22 .

Probabilitatea evenimentelor contrare (complementare) Ne reamintim definiţia dată în capitolul anterior pentru

evenimentele contrare: două evenimente A şi A sunt contrare sau complementare, dacă:

Ω=∪ AA și Φ=∩ AA . Aceste relații arată că evenimentele sunt incompatibile, și că în

fiecare probă (rezultat al unei experienţe) se realizează doar unul dintre ele. Știind că evenimentul A se realizează de m ori în n experienţe


individuale, iar A de mn − ori, probabilitățile acestor evenimente se calculează astfel:

nmAP =)( ,

nm

nmnAP −=

−= 1)( .

Efectuând suma probabilităților acestor evenimente, se obține: 1)()( =+ APAP , adică suma probabilităților a două evenimente contrare

(opuse, complementare) este egală cu 1.

Sistem complet de evenimente Definiție. Considerăm un număr oarecare de S evenimente

incompatibile, în așa fel încât în fiecare experienţă individuală să se producă neapărat unul din ele și numai unul. Un astfel de sistem de evenimente se numește sistem complet de evenimente.

Din definiția dată mai sus rezultă: Ω=∪∪∪ sAAA 221 , Φ=∩ ji AA , pentru orice , 2, ,1 , sji 2∈

cu probabilitatea: )()( 21 Ω=∪∪∪ PAAAP s2 , sau 1)()()( 21 =+++ sAPAPAP 2 , adică suma probabilităților unor evenimente care formează un sistem complet de evenimente este egală cu 1.

Observație. Evenimentele opuse (contrare, complementare), fiind incompatibile, și în fiecare operație de masă producându-se unul dintre ele, acestea formează un sistem complet.

Evenimente independente și dependente (II) Definiție. Două sau mai multe evenimente se numesc independente,

dacă probabilitatea efectuării unuia dintre ele nu este influențată de faptul că celelalte evenimente s-au produs sau nu. În aplicaţiile practice, noţiunea de independență o întâlnim în două sensuri. În primul rând, putem considera evenimente a căror dependenţă sau independentă nu este cunoscută a priori, ci trebuie stabilită. De exemplu, dacă vrem să aflăm dacă există sau nu o dependenţă între obiceiul de a fuma şi incidența cancerului pulmonar, vom efectua un număr mare de observații, organizând atent experienţa şi vom compara frecvenţa îmbolnăvirilor de cancer pulmonar printre fumători, cu frecvenţa îmbolnăvirilor de cancer pulmonar printre nefumători (sau cu frecvența acestor îmbolnăviri pe totalul populaţiei studiate). Dacă aceste frecvenţe ar coincide (ceea ce nu este cazul!) am trage concluzia că evenimentele “fumător” şi “bolnav de cancer pulmonar” sunt independente. Dacă însă vom constata că există o diferenţă sensibilă între frecvenţele îmbolnăvirilor de cancer pulmonar printre fumători şi printre nefumători, vom trage concluzia că cele două evenimente sunt dependente.


Celălalt sens în care întâlnim noţiunea de independenţă apare mult mai frecvent şi anume, în cazul în care operăm cu evenimente a căror independenţă este cunoscută, rezultă din context şi nu avem nici o îndoială asupra ei.

Exemple. a) Dacă dintr-un lot conținând atât piese standard, cât și piese rebut

se extrage câte o piesă care revine la lot după fiecare extracție, evenimentele care constau în extragerea unei piese standard la fiecare extragere sunt independente.

b) Dacă se aruncă o monedă de două ori, probabilitatea apariției stemei (evenimentul A ) în a doua aruncare nu depinde de faptul că, în prima aruncare s-a produs sau nu apariția valorii (evenimentul B ).

Definiție. Două sau mai multe evenimente se numesc dependente, dacă probabilitatea unuia dintre ele este influențată de evenimentele anterioare (depinde de faptul că evenimentele anterioare s-au produs sau nu).

Exemplu. Într-o urnă se găsesc a bile albe și b bile negre. Se notează cu A , evenimentul de a extrage o bilă albă și cu B , evenimentul constând în extragerea unei bile negre, după ce a fost extrasă o bilă (care nu se reintroduce în urnă înaintea celei de-a doua extrageri). Se fac deci două extrageri succesive:

i) Dacă prima bila extrasă a fost albă, adică s-a produs evenimentul A , atunci în urnă au rămas b bile negre și probabilitatea

evenimentului B este 1−+ ba

b ;

ii) Dacă prima bilă extrasă a fost neagră, realizându-se evenimentul A , atunci în urnă au rămas 1−b bile negre și probabilitatea

evenimentului B este 1

1−+

−ba

b .

Se observă că probabilitatea evenimentului B depinde de faptul că evenimentul A s-a produs sau nu.

Probabilitate condiționată. Teorema înmulțirii probabilităților evenimentelor independente și dependente Fie 1A şi 2A două evenimente dependente. Vom calcula în

continuare probabilitatea producerii simultane a acestor evenimente, adică )( 21 AAP ∩ .

Într-o operație de masă se pot întâmpla următoarele situații: 1. se produce evenimentul 21 AA ∩ în 1m cazuri favorabile ; 2. se produce evenimentul 21 AA ∩ în 2m cazuri favorabile ; 3. se produce evenimentul 21 AA ∩ în 3m cazuri favorabile ;


4. se produce evenimentul 21 AA ∩ în 4m cazuri favorabile. Rezultă că sunt în total 4321 mmmmn +++= cazuri posibile. Aşadar

nmAAP 1

21 )( =∩ . (3)

Probabilitatea evenimentului 1A se calculează astfel: Numărul cazurilor favorabile realizării evenimentului 1A este 21 mm + , încât avem:

nmmAP 21

1)( += . (4)

Evenimentele 1A și 2A fiind dependente, înseamnă că probabilitatea lui 2A va fi influențată de realizarea lui 1A , deci se va calcula )( 21

APA , notaţie care se citește ,,probabilitatea lui 2A condiționată de 1A ’’ sau ,,probabilitatea lui 2A după ce s-a realizat 1A ’’ . Cazurile favorabile realizării evenimentului 2A , după ce s-a produs evenimentul 1A , sunt în număr de

1m , iar numărul cazurilor posibile 21 mm + . Deci:

.)(21

121 mm

mAPA += (5)

Înmulțind relațiile (4) și (5), membru cu membru, se obține :

nm

mmm

nmmAPAP A

1

21

12121 )()(

1=

+⋅

+=⋅ ,

adică rezultatul din formula (3). Deci, )()()( 2121 1

APAPAAP A⋅=∩ , (6) relație care constituie regula de înmulțire a probabilităților a două evenimente dependente.

Din formula (6) se deduce că

⋅∩

=)(

)()(1

2121 AP

AAPAPA (7)

În mod analog, probabilitatea evenimentului 1A condiționată de 2A este :

⋅∩

=)(

)()(2

2112 AP

AAPAPA (8)

Formulele (7) și (8) indică faptul că probabilitatea unui eveniment, condiționată de realizarea unui alt eveniment este egală cu raportul dintre probabilitatea intersecției (producerii simultane) a celor două evenimente și probabilitatea evenimentului ce condiționează.

Exemplu. Dintr-un lot de 500 cutii de medicamente , dintre care 493 corespund standardului și 7 nu corespund, un cumpărător cumpără două cutii. Să se calculeze probabilitatea ca aceste două cutii să fie corespunzătoare.


Soluție. Fie 1A evenimentul ca prima cutie extrasă din lot (cumpărată de client) să fie corespunzătoare și 2A , evenimentul ca a doua cutie să fie corespunzătoare. Probabilitatea evenimentului 1A este

500493)( 1 =AP . Când cutia a doua a fost luată, după ce în prima extragere am

obținut o cutie care corespunde standardului, n-au mai rămas decât 499 de cutii, dintre care 492 standard și 7 rebut. Probabilitatea producerii evenimentului 2A condiționată de 1A va fi:

499492)( 21

=APA .

Așadar, probabilitatea ca cele două cutii să fie corespunzătoare este :

972168337,0499492

500493)()()( 2121 1

≈⋅=⋅=∩ APAPAAP A .

În general, fie evenimentele kAAA ,, , 21 2 . Probabilitatea producerii simultane a acestora se calculează pe baza formulei:

)()()()()(121211 32121 kAAAAAAk APAPAPAPAAAP

k−∩∩∩∩ ⋅⋅⋅⋅=∩∩∩ 222 (9) Demonstrarea acestei formule se face prin metoda inducției matematice.

Evenimentele A , B și C sunt independente în totalitatea lor, dacă sunt independente evenimentele: A și B , A și C , B și C , A și CB ∩ , B și

CA ∩ , C și BA ∩ . Se poate vedea că independența în totalitate nu poate fi asigurată de independența evenimentelor luate două câte două.

Exemplu. Într-un spaţiu de depozitare s-au adus 11 cutii de medicamente: 6 cutii conţin medicamentul Diazepam, iar celelalte cutii au medicamentul antihipertensiv Nifedipin. Se scot succesiv din depozit 3 cutii (fără întoarcerea cutiilor extrase). Care este probabilitatea ca prima cutie să conţină medicamentul Diazepam, iar celelalte două să conţină medicamentul Nifedipin?

Soluţie: Notăm următoarele evenimente: D : prima cutie extrasă conţine medicamentul Diazepam,

2N : a doua cutie extrasă conţine medicamentul Nifedipin,

3N : a treia cutie extrasă conţine medicamentul Nifedipin.

.94

105

116)()()()( 3232 2

⋅⋅=⋅⋅=∩∩ ∩ NPNPDPNNDP NDD

Exemplu. O urnă conține 𝑁𝑁 bile dintre care 𝑀𝑀 sunt albe. Se extrag

succesiv trei bile. Se cere să se determine probabilitatea ca cele trei bile să fie albe.


Soluție: Probabilitatea ca prima bilă extrasă să fie albă este 𝐶𝐶𝑁𝑁

;

probabilitatea ca a două bilă extrasă să fie albă este 𝐶𝐶−1𝑁𝑁−1

, iar probabilitatea

ca a treia bilă estrasă să fie albă este 𝐶𝐶−2𝑁𝑁−2

. Extragerile fiind independente între ele, rezultă că probabilitatea cerută este:

𝑀𝑀 =𝑀𝑀(𝑀𝑀 − 1)(𝑀𝑀 − 2)

𝑁𝑁(𝑁𝑁 − 1)(𝑁𝑁 − 2)

Exemplu. Se aruncă două zaruri de 25 de ori. Să se calculeze

probabilitatea ca dubla patru să apară cel puțin odată. Soluție: Vom calcula probabilitatea contrară, deci probabilitatea ca

dubla patru să nu apară niciodată în cele 25 de aruncări. Aceasta este data

de 𝑞𝑞25 = 3536

25

, deoarece 𝑞𝑞1 = 1 − 136

= 3536

, și aruncările sunt independente între ele. Probabilitatea cerută este deci 𝑀𝑀25 = 1 − 𝑞𝑞25 = 1 −

3536

25

.

Exemplu. Două clase 𝐴𝐴 și 𝐵𝐵 cu câte 20 elevi au, respectiv, 10 elevi buni, 5 mediocri, 5 slabi şi 5 elevi buni, 5 mediocri și 10 slabi. Un profesor ascultă la întâmplare câte un elev din fiecare clasă și constată că elevul din clasa 𝐴𝐴 este mai bun decât elevul din clasa 𝐵𝐵. Care este probabilitatea ca clasa 𝐴𝐴 să fie prima?

Soluție: Situația celor două clase este următoarea: elevi buni elevi mediocri elevi slabi

10 5 5 5 5 10

Întrebând la întâmplare, un elev din prima clasă și unul din clasa 𝐵𝐵,

avem: 10 ∙ 15 + 5 ∙ 10 = 200 combinații în care elevul din prima clasă este mai bun și 5 ∙ 10 + 5 ∙ 5 = 75 combinații în care elevul din a doua clasă este mai bun. Probabilitatea ca un elev să fie dintr-o clasă sau alta este 1

2.

Probabilitatea ca clasa 𝐴𝐴 să fie prima este:

𝑃𝑃 =12 ∙ 200

12 ∙ 200 + 1

2 ∙ 75=

811

Exemplu. Într-un spital sunt rezidenți în primul an, în al doilea an

sau în al treilea an de stagiu. Se iau la întâmplare doi rezidenți și unul dintre ei declară că perioada de stagiu parcursă este mai mare decât a celuilalt. Care este probabilitatea ca el să fie din al treilea an de stagiu?


Soluţie: Fie 𝑀𝑀1, 𝑀𝑀2, 𝑀𝑀3 numărul rezidenţilor, respectiv din primul, al doilea și al treilea an de stagiu. Luându-se un rezident din anul al doilea și unul oarecare, probabilitatea ca primul să aibă o perioadă de stagiu parcursă mai mare este

𝑀𝑀1

𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3 − 1

De asemenea, probabilitatea ca un rezident din al treilea an să fie mai vechi în stagiu, ca altul luat la întâmplare este:

𝑀𝑀1 + 𝑀𝑀2

𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3 − 1

Pe de altă parte, probabilitățile ca un rezident să fie în al doilea,

respectiv în al treilea an sunt: 𝑀𝑀2

𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3 și

𝑀𝑀3

𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3

Probabilitatea ca rezidentul cel mai vechi în stagiu dintre cei doi să

fie din al treilea an este

𝑃𝑃 =

𝑀𝑀3𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3

∙ 𝑀𝑀1 + 𝑀𝑀2𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3 − 1

𝑀𝑀3𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3

∙ 𝑀𝑀1 + 𝑀𝑀2𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3 − 1 + 𝑀𝑀2

𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3∙ 𝑀𝑀1

𝑀𝑀1 + 𝑀𝑀2 + 𝑀𝑀3 − 1

=𝑀𝑀3(𝑀𝑀1 + 𝑀𝑀2)

𝑀𝑀3(𝑀𝑀1 + 𝑀𝑀2) + 𝑀𝑀1𝑀𝑀2=

1𝑀𝑀1

+ 1𝑀𝑀3

1𝑀𝑀1

+ 1𝑀𝑀2

+ 1𝑀𝑀3

Observație. Menţionăm câteva cazuri particulare: a) Dacă 𝑀𝑀1 = 𝑀𝑀2 = 𝑀𝑀3 , atunci probabilitatea 𝑃𝑃 = 2

3.

b) Dacă 𝑀𝑀1 = 2𝑀𝑀2 = 4𝑀𝑀3 , atunci probabilitatea 𝑃𝑃 = 57 .

c) Dacă 𝑀𝑀1 = 3𝑀𝑀2 = 6𝑀𝑀3 , atunci probabilitatea 𝑃𝑃 = 710

.

Probleme propuse spre rezolvare 1. Să se arate că evenimentele 𝐴𝐴, 𝐴 ∩ 𝐵𝐵, 𝐴𝐴 ∪ 𝐵𝐵 formează un sistem

complet de evenimente. 2. Într-un spital doi bolnavi urmează aceeaşi schemă de tratament în

acelaşi timp. Probabilitatea ca primul bolnav să se însănătoşească este 𝑀𝑀1 = 0.7, iar pentru cel de-al doilea este 𝑀𝑀2 = 0.6 . Să se calculeze probabilitatea ca doar primul bolnav să devină sănătos în urma administrării tratamentului.


11 ELEMENTE DE TEORIA PROBABILITĂŢILOR (III) Noţiuni prezentate: Evenimente independente. Evenimente independente în totalitatea lor

(III). Teorema adunării probabilităților evenimentelor compatibile. Formula probabilității totale.

Revenim la definiţia independenţei a două evenimente pentru a

extinde această noţiune la un număr mai mare de evenimente. Aşa cum am precizat, dacă )()()( 2121 APAPAAP ⋅=∩ , se va spune

că evenimentele A și B sunt independente între ele. Se observă că două evenimente sunt independente dacă

probabilitatea unuia dintre ele nu depinde de faptul că celălalt eveniment s-a produs sau nu.

Un exemplu de evenimente independente îl găsim în cazul unei

urne cu bile de două culori, din care se fac extrageri în următoarele condiții: în urnă se găsesc 6 bile albe și 4 negre. Dacă A este evenimentul care constă în extragerea unei bile albe, atunci :

106)( =AP .

După extragere, bila se reintroduce în urnă și se face o nouă extragere. Fie B , evenimentul ca să fie extrasă o bilă neagră în această a

doua extragere. Atunci 104)( =BP , probabilitate care nu depinde de faptul

că evenimentul A s-a produs sau nu. Așadar, conform definiției amintite mai sus, are loc relația :

)()()( 2121 APAPAAP ⋅=∩ Ținând cont de relația de mai sus obținem:

)()(

)()()(

)()( 21

21

1

2121

APAP

APAPAP

AAPAPA =⋅

=∩

= ,

)()(

)()()(

)()( 11

21

1

2112

APAP

APAPAP

AAPAPA =⋅

=∩

=

Elemente de teoria probabilităţilor (III) | 89

Egalitățile: )()( 221

APAPA = și )()( 112APAPA =

arată că a condiționa pe 2A de 1A , și pe 1A de 2A nu influențează probabilitățile )( 1AP și )( 2AP . Evenimentele 1A și 2A sunt independente.

În cazul în care avem k evenimente independente, formula (9) din capitolul 10, formulă pe care o scriem mai jos:

)()()()()(121211 32121 kAAAAAAk APAPAPAPAAAP

k−∩∩∩∩ ⋅⋅⋅⋅=∩∩∩ 222 devine:

)()()()( 2111 kk APAPAPAAAP ⋅⋅⋅=∩∩∩ 22 Prin urmare, probabilitatea producerii simultane a unui număr

oarecare de evenimente independente este egală cu produsul probabilităților acestor evenimente.

Exemplu. Două fabrici de medicamente produc același tip de medicament. Probabilitățile ca medicamentul să corespundă standardului sunt 98,0 , respectiv 96,0 . Se ia pentru încercare, câte o cutie de medicamente de la fiecare fabrică și se cere să se calculeze probabilitatea ca ambele cutii să fie corespunzătoare.

Soluție. Evenimentele considerate fiind independente, rezultă: 9408,096,098,0)()()( 2121 =⋅=⋅=∩ APAPAAP .

Este important să se precizeze că cele arătate mai înainte nu pot fi extinse la un număr oarecare de evenimente, fără a defini în prealabil, ce se înțelege prin evenimente independente în totalitatea lor.

Definiție. Mai multe evenimente se numesc evenimente independente în totalitatea lor, dacă fiecare dintre ele și orice intersecție a celorlalte (conținând fie pe toate, fie o parte a lor) sunt evenimente independente.

Exemplu. O farmacie se aprovizionează de la 3 depozite de medicamente. Fiecare depozit conţine aceleaşi 100 de tipuri de medicamente. Care este probabilitatea ca primele 3 transporturi făcute de la fiecare dintre aceste depozite să aprovizioneze farmacia cu acelaşi tip de medicament?

Soluţie: Notăm următoarele evenimente independente:

1A : transportul realizat de la depozitul 1 să aducă medicamentul X ;



.10

1100

1100

1100

1)( 6321 =⋅⋅=∩∩ AAAP

90 | Elemente de teoria probabilităţilor (III)

Teorema adunării probabilităților evenimentelor compatibile Fie 1A şi 2A două evenimente compatibile. Să se calculeze

)( 21 AAP ∪ . Evenimentele fiind compatibile, evenimentul 21 AA ∪ se poate realiza în următoarele moduri:

21 AA ∩ : se realizează 1A împreună cu opusul 2A ;

21 AA ∩ : nu se realizează 1A , dar se realizează 2A ;

21 AA ∩ : se realizează simultan 1A și 2A . Rezultă:

)()()( 21212121 AAAAAAAA ∩∪∩∪∩=∪ Deoarece evenimentele intersecției sunt incompatibile două câte două, se poate scrie :

)()()()( 21212121 AAPAAPAAPAAP ∩+∩+∩=∪ (1) Se vor calcula probabilitățile evenimentelor 1A și 2A :

)()()( 21211 AAPAAPAP ∩+∩= , (2) )()()( 21212 AAPAAPAP ∩+∩= (3)

Însumând ultimele două relații și ținând seama de (1), se obține: )()()()()()( 2121212121 AAPAAPAAPAAPAPAP ∩+∩+∩+∩=+

de unde rezultă : )()()()( 212121 AAPAPAPAAP ∩−+=∪ (4)

Pentru trei evenimente, 1A , 2A și 3A această relație devine : )()()()( 321321 APAPAPAAAP ++=∪∪

)()()()( 321323121 AAAPAAPAAPAAP ∩∩+∩−∩−∩− (5) În general, pentru S evenimente are loc următoarea relație :

−++∩−=

=

−

=≠

=∑ ∑ 2

s

kk

ss

khk

hkhkk

s

kk APAAPAPAP

1

1

1 ,1

)1()()( (6)

Cu această formulă, numită formula lui Poincaré, se calculează probabilitatea ca cel puțin unul din cele S evenimente compatibile și în număr finit 1A , 2A , ...., SA să se realizeze.

Exemplu. Un medic lucrează în 3 saloane de bolnavi. Probabilitățile ca în decursul unei gărzi să nu se facă noi internări sunt: pentru primul salon de 90,0 , pentru al doilea salon de 94,0 și pentru al treilea salon de

86,0 . Să se calculeze probabilitatea ca cel puțin unul din cele trei saloane ale medicului, să nu primească noi internări în timpul unei gărzi.


Această probabilitate se calculează astfel:

99916,086,094,090,086,094,086,090,094,090,086,094,090,0)()()()()()()()()()()()(

)()()()()()()()(

321323121111

321323121

321321

=⋅⋅+⋅−⋅−⋅−++=⋅⋅+⋅−⋅−⋅−++=

∩∩+∩−∩−∩−++=∪∪

APAPAPAPAPAPAPAPAPAPAPAPAAAPAAPAAPAAP

APAPAPAAAP

Formula probabilității totale Se presupune că o operație dată, conduce la rezultatele 1A , 2A , …,

sA , care formează un sistem complet de evenimente. Fie un eveniment X care

nu se poate realiza singur, ci împreună cu unul din evenimentele 1A , 2A , …, sA . Deci: )()()( 21 XAXAXAX s ∩∪∪∩∪∩= 2 . Deoarece evenimentele )( 1 XA ∩ , )( 2 XA ∩ , ..., )( XAs ∩ sunt incompatibile două câte două, rezultă :

)()()()( 21 XAPXAPXAPXP s ∩++∩+∩= 2 , sau, dezvoltând mai departe membrul drept, obținem:

)()()()()()()(21 21 XPAPXPAPXPAPXP

sAsAA ⋅++⋅+⋅= 2 , rezultat care constituie formula probabilității totale exprimând următoarea:

Teoremă. Probabilitatea evenimentului X care poate să se producă, condiționat de unul din evenimentele 1A , 2A , …, sA și care împreună formează un sistem complet de evenimente, este egală cu suma produselor dintre probabilitățile acestor evenimente și probabilitățile condiționate corespunzătoare ale evenimentului X .

Demonstrație. Teorema se demonstrează foarte simplu. În condițiile teoremei, producerea evenimentului X revine la producerea unuia din următoarele evenimente incompatibile )( 1 XA ∩ , )( 2 XA ∩ , ..., )( XAs ∩ , adică :

)()()( 21 XAXAXAX s ∩∪∪∩∪∩= 2 . Aplicând o consecință a teoremei de adunare a probabilităților evenimentelor incompatibile, se obține :

)()()()( 21 XAPXAPXAPXP s ∩++∩+∩= 2 . Însă, după regula înmulțirii probabilităților evenimentelor dependente, atunci avem succesiv:

)()()(111 XPAPXAP A⋅=∩ , )()()(

222 XPAPXAP A⋅=∩ , ...,

)()()( XPAPXAPsAss ⋅=∩ .

Prin urmare,


)()()()()()()(21 21 XPAPXPAPXPAPXP

sAsAA ⋅++⋅+⋅= 2 . Exemplu. Într-o farmacie se găsesc medicamente de același fel,

provenite de la trei depozite de medicamente. Se știe că %25 din totalul medicamentelor sunt din primul depozit, %35 din al doilea depozit, iar

%40 din cel de-al treilea depozit, și că rebuturile sunt de %2 , %3 și respectiv, %1 pentru fiecare din ele. Să se calculeze probabilitatea ca luând un medicament la întâmplare din farmacie, acesta să fie necorespunzător din punct de vedere calitativ.

Soluție. Fie 1A , 2A , 3A evenimentele ca medicamentul să aparțină unuia din cele trei depozite și fie X , evenimentul ca medicamentul să fie necorespunzător. Medicamentul necorespunzător calitativ, putând proveni numai de la unul din cele trei depozite, înseamnă că evenimentul X nu se poate realiza singur, ci împreună sau cu 1A , sau cu 2A , sau cu 3A ; adică au

loc intersecțiile )( 1 XA ∩ , )( 2 XA ∩ , )( 3 XA ∩ .

Probabilitățile evenimentelor 1A , 2A , 3A și a evenimentului X condiționat de realizarea evenimentelor 1A , 2A , 3A sunt :

10025)( 1 =AP ,

10035)( 2 =AP ,

10040)( 3 =AP ,

1002)(

1=XPA ,

1003)(

2=XPA ,

1001)(

3=XPA .

Deci, )()()()()()()(

21 21 XPAPXPAPXPAPXPsAsAA ⋅++⋅+⋅= 2

0195,010000

195100

110040

1003

10035

1002

10025

==⋅+⋅+⋅= .

Se vede de aici că la fiecare 10000 de medicamente, în medie, 195 sunt necorespunzătoare.

Probleme rezolvate și probleme propuse spre rezolvare: 1. Notăm cu A evenimentul naşterii unui băiat şi cu B evenimentul ca la

naştere copilul să aibă peste 3 Kg. Presupunem că avem n naşteri, dintre care p sunt băieţi, m au peste 3 Kg şi q băieţi au peste 3 Kg. Dacă ştim că cel născut este băiat, care este probabilitatea evenimentului ca acesta să aibă peste 3 Kg?

Soluție:

Probabilitatea naşterii unui băiat va fi:npAP =)( .


Probabilitatea naşterii unui copil de peste 3 Kg va fi:nmBP =)( .

Probabilitatea naşterii unui băiat de peste 3 Kg va fi: nqBAP =∩ )( .

Dacă este băiat, atunci toate cazurile favorabile sunt p . Ca să aibă peste 3 Kg, doar q respectă condiţia. În concluzie, probabilitatea este:

)()(

//)/(

APBAP

npnq

pqABP ∩

=== .

2. Într-o urnă avem 5 bile albe şi 6 bile negre. Din cele 5 albe două sunt

numerotate cu 1 şi restul de trei cu 2 . Din cele 6 bile negre două sunt numerotate cu 1 şi patru cu 2 . Se extrage la întâmplare o bilă. Dacă se cunoaşte că bila extrasă este albă, care este probabilitatea ca ea să fie notată cu 1?

Soluție: Notăm evenimentele: A – bila este albă. B – bila are numărul 1.

Probabilitatea căutată este )(

)()/(AP

BAPABP ∩= .

În total avem : 1165 =+ bile (cazuri în total).

Probabilitatea evenimentului A este: 115)( =AP .

Probabilitatea intersecţiei evenimentelor A şi B este: 112)( =∩ BAP .

În final obţinem: 52

11/511/2

)()()/( ==

∩=

APBAPABP .

Putem gândi şi astfel: Dacă s-a extras o bilă albă, înseamnă că nu poate fi decât una din cele 5 . Dacă numărul este 1, atunci nu sunt decât 2 cazuri

din cele 5 albe. Astfel, probabilitatea căutată este 52

=P .

3. Analizând calitatea tabletelor dintr-un lot de medicamente, acestea pot

fi considerate acceptabile sau inacceptabile. Dacă probabilitatea ca o tabletă sa fie acceptabilă este 95,0 , care este probabilitatea ca tableta sa fie inacceptabilă?


4. Tabletele dintr-un lot de medicamente sunt considerate inacceptabile

dacă ele sunt deteriorate )(A , prezintă pete de culoare )(B , sau sunt decolorate )(C . La inspecția unui lot de 100 de tablete, 5 prezentau defectul A , 3 prezentau defectul B și 4 tablete aveau defectul C . Considerând că tabletele nu conțin defecte multiple, să se afle probabilitatea de selecție a unei tablete inacceptabile?

Indicație: Se va calcula )( CBAP ∪∪ . 5. Au fost inspectate 100 de tablete dintr-un al doilea lot: 6 tablete erau

deteriorate )(A , 3 tablete prezentau pete de culoare )(B , iar 2 tablete erau deteriorate și aveau și pete de culoare. Care este probabilitatea de selecție a unei tablete inacceptabile?

Indicație: Se va calcula )( BAP ∪ . 6. Un lot de 100 de cutii de medicamente este supus controlului de calitate.

Condiţia ca acest lot să fie respins este găsirea cel puţin a unui rebut în cinci verificări consecutive. Care este probabilitatea ca lotul dat să fie respins, dacă el conţine 5% cutii rebut?

Indicație: Se va calcula probabilitatea evenimentului contrar, adică a evenimentului ca lotul, în urma controlului să fie acceptat.


12 ELEMENTE DE TEORIA PROBABILITĂŢILOR (IV) Noţiuni prezentate:

Analiza unor exemple de aplicare a Teoremei lui Bayes. Teorema lui Bayes. Dacă nDDD , , , 21 2 este o familie completă de evenimente ale căror probabilități a priori )( , ),( ),( 21 nDPDPDP 2 sunt cunoscute, iar S este un alt eveniment, pentru care toate probabilitățile condiționate )/( , ),/( ),/( 21 nDSPDSPDSP 2 sunt cunoscute, atunci probabilitățile condiționate inverse )/( SDP i sunt obținute cu formula:

)/()( )/()()/()()/()()/(

2211 nn

iii DSPDPDSPDPDSPDP

DSPDPSDP×++×+×

×=

2.

Teorema lui Bayes este un instrument ce poate fi folosit pentru a reevalua probabilitățile diferitelor ipoteze-diagnostic posibile. Notațiile

nDDD , , , 21 2 de mai sus se pot referi la aceste ipoteze-diagnostic posibile. Probabilitățile a priori )( iDP pot fi estimate prin diverse metode, de exemplu, prin folosirea datelor statistice sau de recensământ la nivel național. Evenimentul S poate fi un semn (indiciu) al manifestării unei boli sau un simptom. În contextul prezenței acestui semn/simptom, probabilitățile ipotezelor-diagnostic trebuie să fie reevaluate. Teorema lui Bayes enunțată mai sus ne prezintă o formulă prin care putem calcula aceste probabilități a posteriori.

Exemplul 1. Presupunem că avem un lot format din 10000 persoane de sex

feminin, participante la un test screening pentru determinarea prezenţei cancerului de sân. Dintre acestea, la un număr de 120 de persoane a fost depistată şi confirmată prezenţa maladiei. Prin a doua metodă – numită mamografie (cunoscută ca nefiind o metodă perfectă) – s-au obţinut 95 de persoane pozitive din cele 120. Dintre femeile sănătoase, deci în număr de 9880, au avut mamografie pozitivă 880 (falşi pozitivi). Care este probabilitatea ca o persoană la care mamografia a ieşit pozitivă să aibă într-adevăr cancer de sân [9]?

96 | Elemente de teoria probabilităţilor (IV)

Soluție: Răspunsul greşit şi frecvent întâlnit este „95/120, ceea ce reprezintă aproximativ 80%”. Aici trebuie atent interpretată întrebarea la care se cere, în mod evident, un rezultat corect. Răspunsul dat reflectă probabilitatea ca o persoană care are cancer de sân să prezinte mamografie pozitivă.

Introducem următoarele notaţii: T – reprezintă volumul lotului şi are valoarea de 10000 . CS – numărul de persoane ce au cancer de sân, 120=CS . M – numărul de persoane cu mamografie pozitivă,

97588095 =+=M . Putem defini probabilitatea căutată ca fiind )/( MCSP . Răspunsul 120/95 este pentru probabilitatea condiţionată: )/( CSMP .

Conform formulei lui Bayes avem: )(

)()/()/(MP

CSPCSMPMCSP ⋅= .

Putem acum calcula probabilităţile:

012,010000120)( ==CSP ; 0975,0

10000975)( ==MP .

Putem defini evenimentele elementare CS , care arată prezenţa

cancerului de sân, respectiv ___

CS , care va însemna absenţa acestuia. Aceste două evenimente elementare formează un sistem complet de

evenimente (necesar în aplicarea formulei lui Bayes). Probabilitatea )(MP se va calcula cu formula ( M este evenimentul a cărui realizare înseamnă mamografie pozitivă – nu se face nici o confuzie de notaţie, deoarece reflectă aceeaşi idee):

)/()()/()()(______CSMPCSPCSMPCSPMP ⋅+⋅=

0975,010000

97510000

880959880880

100009880

12095

10000120)( ==

+=⋅+⋅=MP

791,012095)/( ==CSMP .

Probabilitatea căutată este: %7,9)/( =MCSP . Probabilitatea condiţionată depinde şi de procentul de mamografii

pozitive din cadrul persoanelor sănătoase. Iniţial, fără a avea rezultatul mamografiei, puteam spune că pentru

orice persoană există un risc de a avea cancer de sân în proporţie de %2,1012,0)( ==CSP . După realizarea mamografiei, pentru rezultat

pozitiv obţinem %7,9)/( =MCSP , deci o ajustare faţă de starea iniţială, datorită informaţiei noi obţinute.

Elemente de teoria probabilităţilor (IV) | 97

Exemplul 2. Să considerăm următorul exemplu simplu, cu doar două diagnostice

posibile: 1D – pacientul nostru are tuberculoză,

12 DD = – pacientul nostru nu are tuberculoză, S – pacientul „Ion Popescu” testează pozitiv (în radiografia pulmonară). Evident, 1D și 2D este o familie completă de evenimente. Din datele de recensământ la nivel național știm că %3 din populație are tuberculoză. Așadar, putem estima: 03,0%3)( 1 ==DP , și în consecință 97,003,01)(1)( 12 =−=−= DPDP . Trebuie să estimăm și probabilitatea condiționată )/( 1DSP . Din experiența medicală, știm că %90 dintre pacienții suferinzi de tuberculoză testează pozitiv în radiografia pulmonară. Așadar, 90,0)/( 1 =DSP De asemenea, există șanse foarte mici, să spunem de %1 , ca o persoană care nu are tuberculoză să testeze pozitiv. Așadar, estimăm că : 01,0)/( 2 =DSP . Dispunem acum de toate ingredientele pentru a folosi formula lui Bayes:

736,00367,0027,0

01,097,090,003,090,003,0)/( 1 ==

×+××

=SDP .

Prin urmare, probabilitatea ca „Ion Popescu”, care a fost „testat pozitiv” în radiografia pulmonară, să aibă tuberculoză este estimată acum la

%6,73 . (Cu alte cuvinte, din cauza evenimentului S , probabilitatea de a avea tuberculoză crește de la %3 la %6,73 .) Exemplul 3.

Să considerăm acum un exemplu ceva mai sofisticat (preluat din „Introduction to Clinical Informatics” de Degoulet si Fieschi, Springer Verlag, 1999): 1D – Pacienta noastră (dintr-un spital mare) are apendicită, 2D – Pacienta noastră are salpingita, 3D – Pacienta noastră este în orice altă situație. Probabilitățile a priori ar putea fi estimate și din înregistrările spitalului. Să presupunem că în anul care a trecut, din 10000 paciente tratate

98 | Elemente de teoria probabilităţilor (IV)

în spital, 1000 au fost diagnosticate cu apendicită, iar 500 cu salpingită. Prin urmare: 10,0)( 1 =DP ; 05,0)( 2 =DP ; 85,0)( 3 =DP . (Să ne amintim că 321 DDD ∪∪ trebuie să reprezinte evenimentul sigur!) Să considerăm acum următoarele două simptome: R – durere în cadranul inferior drept, L – durere în cadranul inferior stâng. Specialiștii ar putea să ne dea estimări bune ale probabilităților a priori: 80,0)/( 1 =DRP ; 50,0)/( 2 =DRP ; 05,0)/( 3 =DRP ; 10,0)/( 1 =DLP ; 50,0)/( 2 =DLP ; 05,0)/( 3 =DLP . Ca urmare, avem toate datele necesare pentru a calcula – folosind formula lui Bayes – probabilitățile a posteriori: 54,0)/( 1 =RDP ; 17,0)/( 2 =RDP ; 29,0)/( 3 =RDP . Așadar, probabilitatea ca o anumită pacientă, care acuză dureri în cadranul inferior drept, să aibă apendicită sunt estimate la %54 , iar salpingită la doar %17 . Totuși, ce putem spune dacă pacienta acuză dureri în ambele cadrane inferioare? Am putea da un răspuns „probabilistic”, dacă am dispune de estimările necesare din partea specialiștilor. Observație importantă! Chiar dacă este un instrument puternic în medicină, folosirea teoremei lui Bayes este oarecum limitată, din cauza condițiilor impuse, anume:

a) Maladiile trebuie să fie mutual exclusive, b) Diferitele semne și simptome ce intervin în procesul de

diagnoză trebuie să fie independente, condiții care se întâlnesc destul de rar în practica medicală.

Elemente de teoria probabilităţilor (IV) | 99

13 STATISTICĂ DESCRIPTIVĂ (I) Noţiuni prezentate:

Statistică descriptivă Calculul indicatorilor statistici

Statistica matematică este cea mai adecvată şi exactă metodă de interpretare a fenomenelor de masă, cu posibile legături cauzale, multifactoriale, unde legitatea se manifestă şi se poate observa prin rezultanta unui număr mare de fapte luate în studiu.

Într-o primă formă extragerea de informaţii din date constă în prezentarea descriptivă deci calculul indicatorilor statistici cât şi realizarea distribuției de frecvenţă [9].

Există două tipuri de variabile (date) ce definesc natura informaţiei: cantitative şi respectiv, calitative. Datele de tip calitativ mai sunt cunoscute şi cu numele de variabile categoriale sau atributive. Valorile acestora variază ca sortiment, categorie sau clasă, nu după magnitudine sau mărime. Practic, nu putem realiza o ordonare între valorile existente (de ex. culoarea unui produs) [10].

Datele sau variabilele de tip cantitativ se caracterizează prin variaţie în magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât relaţii de genul mai mic sau mai mare au sens în acest context. După fineţea pasului de evaluare a relaţiei mai mare sau mai mic, putem împărţi variabilele cantitative în discrete şi continue.

O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: numărul de note de 10 la examenul de admitere, sau numărul de nou născuţi într-o zi la o maternitate.

O variabilă de tip continuu poate lua orice valoare dintr-un interval definit.

Calculul indicatorilor statistici În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se

observă tendințe cu două aspecte: 1 – de localizare (de poziţie), 2 – de împrăştiere (de variaţie) [5, 9, 11, 12, 13].

100 | Analiză descriptivă (I)

Indicatori de localizare Media aritmetică (simplă) Este indicatorul de bază al tendinţei de localizare. Considerăm şirul

de date x1, x2, … ,xn. Media aritmetică se notează cu X sau M(x):

n

x

nxxx

X

n

ii

n∑

==+++

= 121 ...

Media aritmetică ponderată Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare

valorilor x1, x2, …., xm), atunci media se poate calcula conform formulei:

n

xa

aaaxaxaxa

X

m

jjj

m

mm∑

=

⋅=

+++⋅++⋅+⋅

= 1

21

2211

........

Media aritmetică ajustată În situaţia în care avem posibile valori eronate apropiate de

extremele minimă respectiv maximă, este indicat să se folosească media aritmetică ajustată (trimmean). Aceasta se va calcula folosind din datele iniţiale doar un procent de 90% sau 80% de exemplu. Practic valorile extreme vor fi eliminate în proporţia dorită. Dacă alegem să lucrăm cu 90% din volumul de date, atunci 5% reprezentând valorile cele mai mici respectiv 5% reprezentând valorile cele mai mari vor fi eliminate din calcul.

Media armonică Se utilizează în calculul valorii medii pentru mai multe mărimi

relative (este mai potrivită decât valoarea medie simplă). Valoarea reciprocă (inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.

Formula de calcul este:

∑=

⋅=n

i iH xnM 1

111,

∑=

=+++

= n

i in

H

x

n

nxxx

M

121

11...111 ,

cu condiţia 0≠ix . Considerând frecvenţele absolute notate ai obţinem următoarea

formulă de calcul a mediei armonice ponderate:

∑∑==

==m

j j

jn

i i

H

xa

n

x

nM

11

1.

Analiză descriptivă (I) | 101

Media cronologică Este utilizată pentru seriile care au variaţii în timp (lunare,

semestriale sau anuale). Formula de calcul:

12...2 12

1

−

++++=

−

n

XXXXM

nn

C .

Media geometrică Se utilizează în calculul coeficienţilor de creştere medie a valorilor

unei serii cronologice logaritmice, sau a seriilor cu creştere progresivă (cu raţie crescătoare). De exemplu, se foloseşte în calculul ritmului mediu de creştere anuală sau în dinamica sporului natural al populaţiei.

Media geometrică a unui şir de valori x1, x2, x3, … , xn se notează de obicei cu MG şi se calculează cu formula:

n i

n

i

nnG xxxxxM Π

=

=⋅⋅⋅⋅=1

321 ... .

Media pătratică Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se

calculează cu formula (radical din media pătratelor valorilor):

21

2

Xn

xM

n

ii

P ==∑

= .

Mediana Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir

trebuie să fie ordonat. Valoarea ce ocupă locul central (este independentă de tipul de ordonare crescătoare sau descrescătoare) se numeşte mediană şi se notează cu Me. Dacă şirul are un număr impar de valori, adică n = 2⋅k+1, avem :

211 ++ == nk xxMe . Dacă şirul are un număr par de valori, deci n=2⋅k,

calculăm mediana cu formula: 2/)( 1++= kk xxMe . Mediana este un indicator robust şi este mai puţin influenţată de valorile extreme (asemănător mediei aritmetice ajustate) decât media şi este mai stabilă la fluctuaţiile de selecţie.

Modul (dominanta) Fie şirul format din elementele x1, x2, x3, …, xn. Valoarea xi

corespunzătoare frecvenţei celei mai mari poartă numele de mod. Repartiţia poate avea mai multe maxime, dar de obicei doar unul este global, celelalte fiind locale. Dacă există un singur maxim repartiţia se numeşte unimodală, cu două maxime se va numi bimodală, iar cu mai multe maxime este numită polimodală sau multimodală.


Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul corespunzător frecvenţei maxime se numeşte interval modal sau clasă modală. Modul se notează cu Mo.

Valoarea centrală Reprezintă media extremelor şirului de date studiat:

2minmax XXXc +

= . Dacă valorile din şirul de date sunt grupate pe clase,

formula de calcul devine: 2

.sup.inf clasaclasa XXXc

+= .

Este uşor de observat că valoarea centrală este dependentă de extreme şi nu de valorile tuturor datelor.

Observație: Unitatea de măsură a indicatorilor de localizare este

aceeași cu a elementelor componente a eșantionului sau lotului studiat.

Indicatori de variaţie Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare

numerică a împrăştierii datelor. Variaţia luată în considerare se poate raporta chiar la valoarea medie calculată.

Dispersia (varianţa) Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor

faţă de valoarea medie a şirului de date. Se notează cu 2σ sau D[x]. Are următoarea formulă de calcul (pentru volumul n al eşantionului de valori

mari, n>30): ( ) ( ) ( ) ( )

n

Xx

nXxXxXx

n

ii

n∑

=

−=

−++−+−= 1

222

22

12 .....σ .

Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …, am, atunci formula de calcul devine:

( )( )∑

∑=

= −⋅=−⋅

=m

iii

m

iii

Xxfn

Xxa

1

21

2

2σ .

Făcând apel la noțiunile de statistică observăm că numărul de valori ce compun setul de date, are influență asupra formulelor de calcul a indicatorilor statistici. Dacă volumul eşantionului este mai mic decât 30, atunci se aplică o corecţie asupra numitorului formulei. În acest caz ajustarea este în sensul că nu se împarte la n ci la n-1 (numit şi numărul gradelor de libertate).

( ) ( )111

21

2

1

2

2

−⋅=

−⋅

−=

−

−=

∑∑==

nn

nn

n

Xx

n

Xxn

ii

n

ii

estimat σσ .


Abaterea pătratică medie (deviaţia standard) Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea

pătratică medie. Astfel, deviaţia standard şi indicatorii de localizare se exprimă cu aceleaşi unităţi de măsură. Formula:

( )n

XxxD

n

ii∑

=

−== 1

2

][ σ .

Ţinând cont de frecvenţele absolute avem: ( )∑=

−⋅=m

ii

i Xxna

1

2σ .

Putem exprima şi astfel: 22222 2 XMXXM PP −=+⋅−=σ . Pentru eşantioane mici se aplică formula de estimare prin împărţire

la (n-1) în loc de n.

Abaterea individuală Reprezintă o măsură caracteristică fiecărei valori din setul de date.

Se calculează ca diferență față de valoarea medie. Se poate calcula în formă absolută sau relativă conform formulelor:

Xxd ii −= respectiv %100% ⋅−

=X

Xxd i

i

Amplitudinea Este definită ca diferenţa valorilor extreme ale şirului de date studiat

şi se notează cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin . În cazul grupării datelor pe clase se defineşte şi noţiunea de

amplitudine a clasei, notată cu wi (corespunzător clasei i). Această mărime este egală cu diferenţa dintre valorile extreme ale clasei respective. Cu cât este mai mică valoarea sa cu atât lotul este mai omogen.

Aspecte negative ale amplitudinii: • depinde de eşantion, având variaţii pentru fiecare eşantion în parte, • nu ţine seama de tipul repartiţie.

Intervalul intercuartilic Cuartilele (întâlnit și cu numele quartile sau cvartile) împart datele în

4 clase de frecvenţe egale cu 25%. Astfel, sunt necesare 3 valori Q1, Q2, Q3 care reprezintă cuartilele. Suma frecvenţelor până la limita determinată de Q1 este egală cu suma frecvenţelor dintre Q1 şi Q2, de asemenea egală cu suma frecvenţelor dintre Q2 şi Q3 şi în final, egală cu suma frecvenţelor de după Q3.

Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1 (ultima şi prima cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se numeşte cuartila superioară sau mare. Prin urmare, intervalul intercuartilic va fi: Iq = Q3 – Q1.


Observaţie: Cuartila Q2 este tocmai mediana Me. Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul:

e

q

MI

QQQ

q =−

=2

13 .

Coeficientul de variaţie Abaterea pătratică medie se interpretează prin compararea cu media

valorilor studiate. Dacă avem o medie de 100 şi o abatere pătratică standard 5=σ , atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie

de 10, atunci variaţia este foarte mare. În concluzie, este necesară raportarea abaterii pătratice la valoarea mediei, pentru a exprima corect împrăştierea

datelor. Se defineşte coeficientul de variaţie: Xσ

=Cx .

Acest coeficient este o măsură relativă a variaţiei datelor faţă de medie. Astfel, indiferent de medie, seturile de date, chiar de natură diferită, pot fi comparate folosind coeficientul de variaţie.

Asimetrie (skewness) O distribuţie este considerată simetrică, dacă de o parte şi de alta a

mediei, frecvenţele au aceleaşi valori. Pentru a obţine o măsură a asimetriei, statisticianul englez Karl Pearson a definit în primă etapă indicatorul relativ de asimetrie (acest indicator este adimensional, fiind astfel util pentru a

compara distribuţiile între ele): σ

µ MoSk −= . Formula actuală de calcul (de

estimare deoarece lucrăm cu un eşantion din întreaga populaţie) este:

ns

x

Sk

n

i

i∑=

−

= 1

3X

pentru n mare, respectiv

∑=

−⋅

−⋅−=

n

i

i

sx

nnnSk

1

3X

)2()1(, pentru n de valori mici (s este deviația

standard a eşantionului). Cazuri posibile: 1. Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta,

Mo>X . 2. Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga, Mo<X 3. Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).

În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult de ±1, denotă o diferenţă semnificativă faţă de distribuţia normală.


În limba engleză cuvântul consacrat este skewness, folosit în programele de statistică.

Boltirea (excesul, kurtosis) Acest indicator compară distribuţia dată cu cea normală sau

Gauss’iană. Statisticianul englez Karl Pearson a definit de asemenea

coeficientul de boltire: ( ) 4

42

2

42 σ

βm

mm

== (m4 este momentul centrat de

ordin 4 în raport cu media). Pentru o distribuţie normală 32 =normalβ . Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce

măsoară excesul faţă de distribuţia normală. Acesta se calculează cu

formula: 33 44

22 −=−=σµ

βγ , echivalentă cu: ( )

3X

41

4

2 −⋅

−=

∑=

sn

xn

ii

γ (pentru

eşantion de volum mare). La valori mici ale volumului lotului pentru estimare se foloseşte formula:

)3()2()1(3X

)3()2()1()1( 2

1

4

2 −⋅−−⋅

−

−⋅

−⋅−⋅−+⋅

= ∑= nn

ns

xnnn

nn n

i

iγ .

Avem următoarele modalităţi de caracterizare a distribuţiilor:

Mezocurtică 0,3 22 == γβ .

Leptocurtică 0,3 22 >> γβ .

Platicurtică 0,3 22 << γβ . (Forma distribuţiilor este sugerată de etimologia cuvintelor: ,,platus” în

limba greacă semnifică ,,lat”, ,,leptos” – ,,subţire”, ,,mesos” - ,,mijlociu”, ,,kurtosis” – ,,exces, cocoaşă”).

Tabelul 13-1. Metode de calcul a indicatorilor statistici în Microsoft Excel Nr Indicator statistic Funcţie Excel Descriere / formula 1. Media aritmetică Average()

Averageif() Averageifs()

Media setului selectat Media selecţiei pentru celulele ce îndeplinesc o singură condiţie. Media selecţiei pentru condiţii multiple.

2. Media aritmetică ajustată.

Trimmean(domeniu, procent)

Se calculează media aritmetică eliminând din setul de date procentul specificat din valorile extreme atât minimă cât şi maximă. Vor rămâne : (100% − 2 ∙ 𝑀𝑀𝑀𝑀𝑀𝑀𝑥𝑥𝑀𝑀𝑀𝑀𝑀𝑀) ∙ 𝑁𝑁𝑀𝑀. 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀. 𝐼𝐼𝑀𝑀𝐼𝐼𝑀𝑀


Nr Indicator statistic Funcţie Excel Descriere / formula 3. Media armonică Harmean()

∑=

=n

i i

H

x

nM

1

1

4. Media cronologică

Veţi propune o metodă de calcul.

121...22

1

−

+−+++=

n

nXnXX

X

CM

5. Media geometrică

Geomean() n i

n

iG xM Π

=

=1

6. Media pătratică Veţi propune o metodă de calcul.

21

2

xn

x

M

n

ii

P ==∑

=

7. Mediana Median() Valoarea de mijloc a şirului ordonat 8. Valoarea modală

(modul) Mode() sau Mode.sngl()

Valoarea de frecvenţă maximă

9. Dispersia (pt. populaţie)

Varp() sau Var.p() ( )

n

xxm

ii∑

=

−

= 1

2

2σ

10. Dispersia (pt. eşantion)

Var() sau Var.s() ( )

11

2

2−

−

=∑

=

n

xxm

ii

σ

11. Deviaţia standard (pt. populaţie)

Stdevp() sau Stdev.p() ( )

n

xxm

ii∑

=

−

= 1

2

σ

12. Deviaţia standard (pt. eşantion)

Stdev() sau Stedv.s() ( )

11

2

−

−

=∑

=

n

xxm

ii

σ

13. Calcul cuartile Quartile (domeniu, valoare)

Valoarea indică numărul cuartilei calculate: 0 – minimul ; 1 – Q1 ; 2 – Q2 ; 3 – Q3 ; 4 - maximul

14. Intervalul cuartilic

Veţi calcula diferenţa. IQ = Q3 – Q1

15. Asimetria Skew() ∑

=

−⋅

−⋅−=

n

i

is

xxnn

nSk1

3

)2()1(

16. Boltirea Kurt() ⋅

−⋅−⋅−+⋅

=)3()2()1(

)1(2 nnn

nnγ

)3()2()1(3 2

1

4

−⋅−−⋅

−

−⋅∑

=nn

ns

xxn

i

i


Figura 13-1. Indicatori statistici calculați prin statistica descriptivă.

O metodă rapidă pentru determinarea indicatorilor statistici

principali (lipsesc: media geometrică, armonică, cronologică, pătratică, ajustată, cuartilele) constă în lansarea procedurii statisticii descriptive (Descriptive Statistics) din Analiza datelor – rezultatele sunt prezentate în figura alăturată [5, 9].

EXERCIŢII Fișierul Excel de lucru conține coloanele de date numerice de tip

continuu: inaltime, IMC, greutate. Datele de tip categorial sunt: mediu rezidenta, stare civila, ocupatie.

1. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie indicatorii statistici prezentaţi folosind formulele de calcul şi apoi folosind opţiunea Descriptive Statistics.

2. Aranjaţi în ordine crescătoare valorile mediilor calculate:

PGH MXMM ,,, . 3. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie media

persoanelor din mediul rural, apoi din mediul rural şi căsătorite apoi din mediul urban, căsătorite şi pensionate folosind averageifs().

Observaţii: În calculul mediei geometrice (versiunea Excel 2003) se poate atinge

uşor valoarea maximă admisă pentru tipul numeric. Astfel dacă dorim să înmulţim 200 de numere ce reprezintă înălţimea persoanelor în centimetri se va obţine un mesaj de eroare.


Pentru a împiedica aceasta ne folosim de proprietăţile funcţiei logaritm de a transforma operaţia de înmulţire în adunare.

Vom folosi formula de calcul a mediei geometrice: GEOMEAN = exp(average(ln(X1)+ln(X2)+ln(X3)+...+ln(Xn))). Vom scrie =EXP(AVERAGE(noua coloana ce conține ln(x))). Valoarea maximă admisă este 1.79769313486232E+308, respectiv

valoarea minimă pozitivă este 2.2250738585072E-308.

Relaţia între valorile medii este: PGH MXMM <<< . Sintaxa funcţiilor: Averageif(domeniu de aplicare a criteriului, criteriu de selecţie, domeniul

de calcul a mediei) Averageifs(domeniu de calcul a mediei, domeniu 1 selecţie, criteriu1,

domeniu 2 selecţie, criteriu2, ...perechi domeniu de selecţie - criteriu). Numărul maxim admis pentru definirea criteriilor este 127 (minim este 1).


14 STATISTICĂ DESCRIPTIVĂ (II) Noţiuni prezentate:

Statistică descriptivă Distribuţia de frecvenţă, realizarea histogramei , Curba Gauss-Laplace.

Distribuţia de frecvenţă, histograma Metodele descriptive de extragere a informaţiilor din date constau în

calculul indicatorilor statistici, crearea tabelelor de frecvenţe (absolute, relative, cumulate) şi prezentarea grafică sub formă de diagrame. Distribuţia de frecvenţă este definita de aceste tabele a frecvenţelor. Reprezentarea grafică este practic histograma.

Histograma este un caz special de diagramă, care reprezintă folosind coloane (forma verticală) sau bare (forma orizontală) frecvenţele de apariţie a grupelor (sau claselor) definite pe variabila de interes (introdusă de Karl Pearson 1895). Într-o histogramă suprafaţa coloanei trebuie să fie egală (cel puţin proporţională, păstrând ponderea pe fiecare grupă) cu frecvenţa pe clasa respectivă (absolută sau relativă de obicei, mai rar cumulată). Aceasta deoarece histograma reprezintă o aproximare a densităţii de probabilitate. De obicei intervalele de grupare (pe axa XX’) au aceeaşi dimensiune şi astfel se poate reprezenta înălţimea coloanei egală cu frecvenţa absolută sau relativă. Practic avem o formă grafică cu ajutorul căreia ne facem o primă impresie vizuală asupra distribuţiei datelor [9, 11, 12, 13].

Intervalele vor fi consecutive şi nu se vor suprapune. Suprafaţa totală va fi astfel egală cu 1 pentru lucru cu frecvenţe relative respectiv egală cu volumul eşantionului pentru cazul utilizării frecvenţelor absolute (pentru un coeficient de proporţie egal cu 1).

Numărul de intervale notat k, în care se împarte variabila continuă studiată, se poate determina cu formulele următoare:

Formula Sturges : nk 2log1+= , unde n este volumul eșantionului.

Formula Scott: 3/1

5.3n

k σ⋅= , unde σ este deviația standard.

Formula de calcul H.B. Mann şi A. Wald pentru n > 100:

( ) 51

1414

−⋅⋅= nk .

110 | Analiză descriptivă (II)

Din rezultatele obţinute se ia partea întreagă. Nu există o metodă optimă de determinare a numărului de intervale şi implicit a dimensiunii unui interval. Ca idee generală numărul acestora nu trebuie să fie mai mic ca 15 şi nici mai mare ca 30.

Crearea histogramei în Microsoft Excel 2010. Se alege din grupul de comenzi Data , Data Analysis / Histogram: Tabelul conţine valori categoriale cât şi numerice de tip continuu. Structura datelor este: Sex (M, F), Vârsta (numeric), Glicemia

(numeric), Asigurat CAS (T,F). Comanda funcţionează doar pentru valori numerice – prin urmare,

lângă coloanele Sex, respectiv Asigurat CAS mai adăugăm două coloane cu acelaşi nume, în care codificăm categoriile, dar folosind numere: pentru variabila SEX: masculin = 1, feminin = 2; pentru variabila Asigurat CAS: T = 1, F = 0.

Figura 14-1. Crearea histogramei – opțiuni

Se introduce şirul de celule pentru care dorim să calculăm distribuţia de frecvenţe.

Se introduc valorile distincte, ordonate crescător, pentru care se calculează distribuţia de frecvenţe.

Se bifează atunci când prima celulă din coloana / şirul selectat conţine numele variabilei pentru care se realizează analiza.

Se specifică poziţia în foaia de lucru curentă unde dorim să se afişeze rezultatele.

Eventual, rezultatele se pot afişa pe o foaie de lucru separată, cu numele ales de noi, în acelaşi registru de calcul.

Se indică tipul de distribuţie de frecvenţe care se doreşte: - Dacă nu se bifează nimic: se realizează distribuţia de frecvenţe ce conţine

frecvenţele absolute pentru categoriile specificate (fig. 14-2); - Pareto: tabelul distribuţiei de frecvenţe se afişează în ordinea descrescătoare a

frecvenţelor calculate, şi nu a categoriilor specificate în „Bin Range” (fig. 14-3). - Cumulative Percentage: tabelul va conţine şi frecvenţele procentuale cumulate

(fig. 14-4). - Chart Output: se realizează şi graficul de tip Histogramă corespunzător (fig. 14-5).

Analiză descriptivă (II) | 111

Pentru a calcula distribuţia de frecvenţe, trebuie specificate în mod obligatoriu două informaţii:

- Şirul de celule care conţine valorile efective ale variabilei pentru care dorim să realizăm distribuţia (Input Range);

- O coloană auxiliară de valori (Bin Range) ce conţine valorile distincte din şirul iniţial, aşezate în ordine crescătoare, pentru care se realizează distribuţia de frecvenţe (în cazul variabilelor calitative, acestea reprezintă de fapt categoriile urmărite, aşezate ordonat – ex.1, 2 pentru variabila SEX, iar în cazul variabilelor cantitative reprezintă limitele inferioară şi superioară ale intervalelor de clasă).

Figura 14-2. Distribuţia de frecvenţe pentru variabila SEX

Figura 14-3. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Pareto

(sorted histogram)”

Figura 14-4. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Cumulative

percentage”

Figura 14-5. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Chart

Output”


Figura 14-6. Pentru variabila SEX am realizat distribuţia de frecvenţe fără opţiuni

suplimentare

Pentru variabila Glicemie – mom. 0 am realizat distribuţia de frecvenţe cu opţiunea „Pareto (sorted histogram)”.

Figura 14-7. Distribuţia de frecvenţe pentru variabila Vârstă, cu opţiunea

„Cumulative percentage”

Distribuţia Gauss-Laplace Este utilizată pentru descrierea densității de probabilitate a unei variabile

aleatoare de tip continuu. Este caracterizată de centrarea datelor în jurul mediei (ce coincide cu mediana şi cu valoarea modală) [9, 11, 12, 13].

Formula densităţii de probabilitate: ( )

2

2

2

21)( σ

µ

πσ⋅

−−

⋅⋅⋅

=x

exf , pentru

( )∞+∞−∈ ,x .

La specificarea intervalelor de clasă pentru care se doreşte realizarea unei distribuţii de frecvenţe se indică limitele inferioare şi superioare ale acestora, urmând ca intervalele să fie interpretate sub forma: <= 110, (110, 115], (115, 120], … (140, 145].


Se notează simbolic N(µ, σ2) sau N(x, µ, σ2) arătând astfel dependența de medie µ şi dispersie σ2.

Funcţia de repartiţie se calculează cu formula: ( )

dxedxxfxFx xx

∫∫∞−

⋅

−−

∞−

⋅⋅⋅

== 2

2

2

21)()( σ

µ

πσ . Repartiţia normală redusă se obţine prin schimbarea de variabilă

σµ−

=xz . Astfel aceasta va avea media 0 şi dispersia 1. Densitatea de

probabilitate devine 2

2

21)(

z

ezf−

⋅⋅

=π

iar funcţia de repartiţie

∫∞−

−

⋅⋅

=z x

dxezF 2

2

21)(

π [9, 11].

Graficele densităţii de probabilitate şi a funcţiei de repartiţie pentru repartiţia normală redusă sunt prezentate mai jos.

Figura 14-8. Densitatea de probabilitate.

Figura 14-9. Funcţia de repartiţie (este suprafaţa densităţii de probabilitate).

În Excel avem funcţii implementate pentru calculul atât a densităţii

de probabilitate, a funcţiei de repartiţie cât şi pentru calculul inversei celei din urmă – prezentate în tabelul următor.

Observaţie Dacă cunoaştem media şi dispersia unei repartiţii normale notate µ1

respectiv σ1 şi dorim să determinăm probabilitatea pe un subinterval [a,b], atunci vom folosi diferenţa probabilităţilor: NORMDIST(b, µ1, σ1,1)- NORMDIST(a, µ1, σ1,1).

Mai jos este un exemplu prezentat grafic.


Tabelul 14-1. Funcţii pentru distribuţia Gauss Laplace

Funcţii pentru calculul valorilor unei distribuţii Gauss-Laplace

( )2

2

2

21)( σ

µ

πσ⋅

−−

⋅⋅⋅

=x

exf

Densitatea de probabilitate

NORMDIST(x, µ, σ,0) sau NORM.DIST(x, µ, σ,0) Ultimul parametru poate fi 0

(FALSE) sau 1(TRUE). Valoarea 0 implică calculul densităţii de probabilitate.

( )

dxedxxfxFx xx

∫∫∞−

⋅

−−

∞−

⋅⋅⋅

== 2

2

2

21)()( σ

µ

πσ Funcţia de repartiţie

NORMDIST(x, µ, σ, 1) sau NORM.DIST(x, µ, σ, 1) Diferă ultima valoare (ce este

1) faţă de formula anterioară, astfel se calculează probabilitatea deci suprafaţa densităţii de repartiţie (cumulativ).

2

2

21)(

z

ezf−

⋅⋅

=π

Densitatea de probabilitate – repartiţie normala

redusă sau standardizată.

Pentru µ=0 şi σ=1: NORMDIST(z, 0, 1,0) sau

NORM.S.DIST(z, 0)

∫∞−

−

⋅⋅

=z x

dxezF 2

2

21)(

π Funcţia de probabilitate – repartiţie redusă sau

standardizată.

Pentru µ=0 şi σ=1: NORMDIST(z, 0, 1,1)

Dar există şi funcţiile dedicate: NORMSDIST(z) sau NORM.S.DIST(z, 1)

),,.())(( σµcumulataprobgxFInvx == Calculul inversei deci determinarea abscisei corespunzătoare.

NORMINV(probabilitate, µ, σ), sau

NORM.INV(probabilitate, µ, σ) Este vorba despre

probabilitatea cumulată. ).())(( cumulataprobgzFInvz ==

Calculăm abscisa corespunzătoare unei distribuţii reduse (standardizate). Este inversa funcţiei de repartiţie.

NORMSINV(probabilitate) sau NORM.S.INV(probabilitate) Este acelaşi lucru cu: NORMINV(probabilitate, 0,1)


Figura 14- 10. Calculul probabilităţii pe intervalul 75-100 pentru o distribuţie

normală de medie 90 şi deviaţie standard 12.

EXERCIŢII Fișierul Excel conține coloanele de lucru: Vârstă, Înălţime, Greutate,

IMC, Talia. 1. Realizaţi tabelul cu distribuţia de frecvenţă şi reprezentaţi grafic

histograma pentru frecvenţele absolute dar şi cumulate pentru coloanele Vârstă, Înălţime, Greutate, IMC, Talia. Pentru vârstă veţi alege dimensiunea intervalul pentru crearea claselor de 5 ani, pentru înălţime de 4 cm, pentru greutate 5 kg, pentru IMC 2.5 Kg/m2, pentru talie 4 cm.

2. Care este probabilitatea de a avea o persoană cu IMC-ul peste 30Kg/m2 ? (veţi calcula mai întâi media si deviaţia standard apoi veţi aproxima distribuţia cu forma normală , Gauss-Laplace).

3. Care este probabilitatea, în ideea aproximării cu o distribuţie normală, de a obţine conform datelor din tabel, persoane cu înălțimea mai mică de 150 cm. Comparaţi frecvenţa relativă calculată din eşantion cu probabilitatea obţinută prin aproximarea Gauss-Laplace. Comentaţi rezultatele.

4. Determinaţi cu probabilitate de 0.95 simetrică faţă de medie intervalul de grupare al datelor pentru greutate.

=NORMDIST(B4,B1,B2,1)

=NORMDIST(B7,B1,B2,1)

Probabilitatea (suprafaţa) obţinută prin diferenţa celor două valori calculate.


15 INTERVALE DE ÎNCREDERE (CONFIDENŢĂ) Noţiuni prezentate:

Intervale de încredere (confidenţă) pentru estimarea mediei.

Intervalul de confidenţă este folosit pentru a estima cu o anumită probabilitate, valoarea unui indicator statistic al populaţiei, funcţie de valoarea aceluiaşi indicator exprimat din eşantionul studiat.

În cazuri reale nu se lucrează cu toate datele unei populaţii (deci nu în formă exhaustivă) din motive obiective gen efort financiar, timp îndelungat de culegere a datelor, implicarea unui număr prea mare de persoane în studiu, ineficienţă asupra metodei în sine. Practic, din studiul unui eşantion se poate aproxima valoarea indicatorului statistic (în general, media este de interes major) cu o anumită probabilitate, ceea ce va duce la determinarea unui interval de estimare a valorii căutate [9].

Este de aşteptat ca valoarea calculată cu ajutorul datelor eşantionului să fie diferită de valoarea determinată utilizând întreaga populaţie, tocmai prin faptul că eşantionul nu conţine toate informaţiile. Ca urmare, s-au creat metode statistice de calcul al intervalului de confidenţă (cu 95% probabilitate, ca prag standard de încredere) a indicatorului studiat.

Intervalul de încredere pentru media unei variabile aleatoare de tip continuu repartizată normal Metoda de lucru pleacă generic de la ideea studierii variabilei

aleatoare creată din media eşantioanelor extrase din populaţia ţintă. Teoretic, putem extrage un număr enorm de eşantioane dintr-o populaţie. Aceste eşantioane pot avea dimensiuni diferite, dar media lor va respecta un anumit tip de distribuţie atunci când anumite condiţii sunt îndeplinite [9].

Există în statistică teorema limită centrală (rezultat fundamental), care afirmă că independent de tipul de distribuţie al datelor din populaţie, media eşantioanelor extrase creează un lot de date care urmează o repartiţie de tip Gauss-Laplace (cu observaţia să avem selecţie aleatoare simplă) [11, 12, 13]. Există şi o condiţie de consistenţă în volum a datelor. Numărul minim de date acceptat pentru un eşantion este de 30 (este o limită statistică ce implică erori mici).

Intervale de confidenţă (încredere) | 117

Graficul de mai jos exprimă vizual ideea demonstrată prin teorema

limită centrală.

Figura 15-1. Concluzia „teoremei limită centrală”

Observaţii 1. Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia

mediilor eşantioanelor este normală şi pentru valori mici ale volumului eşantionului.

2. Media valorilor medii ale eşantioanelor este media populaţiei. Aceasta arată că nu există eroare de deplasare. Matematic putem scrie:

µ=),...,( 21 nXXXM . 3. Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai

mică decât deviaţia standard a întregii populaţii. Avem astfel:

nXσσ = , unde n reprezintă volumul eşantionului.

În concluzie lotul format din mediile nXXX ,..., 21 creează o

distribuţie normală de medie µ identică cu media populaţiei, respectiv

deviaţie standard nX

σσ = de n ori mai mică (unde σ este deviaţia

standard a întregii populaţii). Practic avem descrierea statistică a datelor,

deci variabila studiată nXZ

/σµ −

= va avea o distribuţie normală

normalizată (medie 0, respectiv dispersie 1) [9, 11, 12 13].

Populaţia de studiu

L1

Li

Ln

L7

Eşantion (lot) extras

Lot Medie 1 M1 2 M2 3 M3 …. … 45 M45 46 M46 ….. ….

Distribuţia mediilor este de tip (Gauss Laplace)

µ

L2

118 | Intervale de confidenţă (încredere)

Pentru a estima intervalul simetric de variaţie a variabilei aleatoare

Z cu o probabilitate 1-α, avem ααα −=

<<−

−−1

2121ZZZP , conform

figurii alăturate (forma simetrică a intervalului).

Figura 15-2. Forma simetrică a intervalului

Putem scrie în continuare 2121 / αα σ

µ−−

<−

<− ZnXZ

nZX

nZX σµσ

αα ⋅+<<⋅−⇔−− 2121

.

În concluzie, avem următoarea formulă de calcul a intervalului de

confidenţă: n

ZX σµ α ⋅±=− 21

. [10]

Raportul n

σ se numeşte eroare standard.

Observaţie: Literele din alfabetul grecesc sunt folosite pentru a

identifica indicatorii statistici ai populației (media µ, deviaţia standard σ) iar cele din alfabetul latin pentru indicatorii eşantionului sau a lotului (M pentru medie sau X , S pentru deviaţia standard, acestea au valori aproximative).

Toate aceste formule funcţionează pentru eşantioane mari, de peste 30 de valori. De asemenea, în formulă apare deviaţia standard a populaţiei – deci aceasta trebuie cunoscută. Pentru situaţii în care eşantionul este mai mic de 30, valorile distribuţiei normalizate Z se înlocuiesc cu valorile distribuţiei de tip t sau Student (este o aproximare care minimizează erorile pentru volum mic ce apar dacă s-ar folosi distribuţia normală) [11, 12].

0

0.1

0.2

0.3

0.4

0.5

-4 -2 0 2 4

f(Z)

α/2 α/2

Intervalul de încredere Z1-α/2 -Z1-α/2


Avem astfel intervalul de confidenţă: n

Stx ⋅±= − 2/1, αυµ , unde

( )1

1

2

−

−

=∑

=

n

xx

S

n

ii

iar υ este numărul gradelor de libertate 1−= nυ (n este

volumul eşantionului). În Excel pentru calculul valorilor normalizate Gauss se va folosi

funcţia normsinv(probabilitate) [4, 5]. Probabilitatea este măsurată ca suprafaţa cuprinsă între curbă şi axa XX’ de la -∞ spre +∞. Vom avea corespondenţa )2/1(2/1 αα −=− normsinvZ .

Pentru 95% interval simetric avem α=1-0.95=0.05, deci probabilitatea de calcul pentru 2/1 α−Z va fi 1-α/2 egală cu 0.975. Astfel avem: 975.0Z = normsinv(0.975)=1.9599. Funcţia normsinv() foloseşte Gauss-iana normalizată aşadar de medie 0, respectiv dispersie 1.

Putem folosi şi funcţia norminv(probabilitate, medie, dispersie) - ce este forma generală inversă a unei funcţii Gauss. Vom avea astfel norminv(0.975,0,1)=1.9599.

Pentru calculul folosind distribuţia Student avem funcţia tinv(probabilitate, grade libertate) [4, 5]. Şi ca să nu existe o uniformitate în măsura probabilităţii, în cadrul acestei funcţii pentru un interval simetric se va trece chiar valoarea α a întregului interval atât dreapta cât şi stânga. În concluzie, vom avea 𝑀𝑀𝜈𝜈,1−𝛼𝛼/2 = 𝑀𝑀𝐼𝐼𝑀𝑀𝑡𝑡(𝛼𝛼, 𝜐𝜐). Funcţia de distribuţie Student tinde către funcţia Gauss normalizată pentru eşantioane mari. Putem verifica aceasta pentru un eşantion de 100 date, TINV(0.05,99)=1.98, valoare apropiată de 1.9599.

Calculul intervalului de confidenţă pentru estimarea unei proporţii Proporţia poate fi asemănată cu o medie şi ca urmare metodele de

lucru pot fi transpuse în acest context. Notăm: p – proporţia din eşantion, π – proporţia reală a populaţiei,

α – nivelul de semnificaţie, care de obicei este 0.05. Aplicând acelaşi raţionament, definim variabila aleatoare de

repartiţie normală normalizată: σ

π pZ −=

Deviația standard este ( )n

pp −⋅=

1σ , aşadar intervalul de

confidenţă va fi ( )( )n

ppzp −⋅⋅± −

12/1 α .


Aceasta formulă (numită şi intervalul Wald) funcţionează corect pentru volume de peste 30 de unități ale eşantionului şi pentru proporţii în domeniul 0.4-0.6. O condiţie necesară de verificat este 10)1( ≥−⋅⋅ ppn . Statistica Student sau t va da rezultate mai bune pentru eşantioane mai mici de 100.

Există mai multe metode de calcul aproximativ pentru ajustare a intervalului de confidenţă a unei proporţii pentru volume mici şi pentru valori extreme (proporţii mici sau mari). De asemenea, se ţine cont şi de faptul că distribuţia nu este continuă.

Pentru corecţia de continuitate se foloseşte formula:

( )( )

nnppzp 5.01

2/1 ±−⋅

⋅± −α

Metoda Wilson (Edwin Bidwell Wilson - 1927)

Intervalul de confidenţă:

( )

2/12

22/1

2

2/12/12

11

41

21

α

ααα

−

−−−

⋅+

⋅+

−⋅⋅±⋅

⋅+

zn

nz

nppzz

np

.

Calculul intervalului de confidenţă ajută la estimarea indicatorului statistic studiat şi de asemenea ajută la compararea populaţiilor între ele sau cu o valoare de referinţă.

Compararea cu o valoare de referinţă – dacă intervalul de confidenţă cuprinde valoarea de referinţă, atunci putem afirma cu probabilitate de 95% (standard definită) că nu există diferenţă statistic semnificativă între indicatorul studiat şi valoarea de referinţă. În caz contrar, dacă intervalul de confidenţă nu cuprinde valoarea de referinţă, vom accepta existenţa diferenţei semnificative, aşadar avem confirmare statistică.

Compararea a două populaţii prin intervalul de confidenţă a indicatorului studiat – Dacă cele două intervale de confidenţă nu se suprapun atunci sigur vom avea diferenţă semnificativă statistic, ca urmare cele două populaţii diferă din punct de vedere al indicatorului statistic studiat (media este în centrul atenţiei).

Metode de calcul 1. Primă metodă ar consta în implementarea funcţiilor folosind Microsoft

Excel. Practic, vom calcula pas cu pas funcţiile care determină intervalul de confidenţă.

Avem de calculat funcţiile: n

ZX σµ α ⋅±= − 21 iar pentru eşantioane mici

nStx ⋅±= − 2/1, αυµ , unde

( )1

1

2

−

−

=∑

=

n

xx

S

n

ii

.


Pentru proporţii avem: ( )( )

nnppzp 5.01

2/1 ±−⋅

⋅± −α , sau cu o

aproximare mai bună avem expresia: ( )

2/12

22/1

2

2/12/12

11

41

21

α

ααα

−

−−−

⋅+

⋅+

−⋅⋅±⋅

⋅+

zn

nz

nppzz

np

(Wilson). Pentru calcul vom folosi funcţiile Excel prezentate în tabel [4, 5].

Tabelul 15-1. Funcţii pentru calcului intervalului de confidenţă Funcţie de calculat Funcţie Excel

X - media eşantionului

=average() σ se va aproxima cu S

=stdev()

p – este proporţia calculată cu datele din eşantion Probabil count(), sau pivot table

n – numărul de cazuri =count()

2/1 α−Z - abscisa densităţii de probabilitate (Gauss normalizată) corespunzătoare unei probabilităţi de 2/1 α−

)2/1( α−= normsinv

𝑀𝑀𝜈𝜈,1−𝛼𝛼/2 - abscisa densităţii de probabilitate (Student) corespunzătoare unei probabilităţi de

1;2/1 −=− nnα

= 𝑀𝑀𝐼𝐼𝑀𝑀𝑡𝑡(𝛼𝛼, 𝜐𝜐)

2. Putem folosi statistica descriptivă (Descriptive Statistics) pentru calculul

intervalului mediei, din grupul de analiză statistică (Data Analysis) [4, 5]. În ultimul rând, din tabelul creat va fi prezentat nivelul de confidenţă (Confidence Level(95.0%)), reprezentând termenul ce se adaugă/scade pentru a determina limitele intervalului pentru eşantioane mici →

nSt ⋅− 2/1, αυ . Astfel, se foloseşte distribuţia Student pentru calcul. Practic,

va trebui să determinăm limitele intervalului de încredere prin scăderea valorii obținute din medie şi apoi adăugarea acesteia la medie – calcule ce se vor efectua în două celule separate.

3. Tot pentru intervalul mediei se poate folosi funcţia confidence (alpha,

dev.std., dimensiune eşantion), n

Znconfidence σσα α ⋅= − 21),,( . Aceasta

aproximează intervalul prin folosirea unei statistici de tip Z (Gauss normalizată). Valoarea alfa va fi egală cu 0.05 pentru 95% încredere în estimare.


EXERCIŢII

Pentru rezolvarea acestor cerinţe se va utiliza fișierul excel ce conţine datele medicale necesare.

1. Calculaţi pentru coloanele Înălţime, IMC, Greutate şi Talie media şi intervalul de confidenţă pentru medie cu probabilitate de 0.9 respectiv 0.95.

2. Calculaţi şi comparaţi datele după frecvenţa de tip True din coloana NutriţieA cu aceeași categorie din coloana NutriţieB.

3. Comparaţi mediile IMC’ului pentru grupele casnici şi pensionari, folosind cele 3 metode de calcul prezentate.

4. Comparaţi prin intervalele de confidenţă greutatea pentru grupurile create de categoriile coloanei NutriţieA. Exemplu: Iată rezultatele obţinute pentru coloana Înălţime prin cele 3 metode

prezentate.

Figura 15-3. Prezentarea rezultatelor pentru variabila Înălţime


16 DIMENSIUNEA EŞANTIONULUI Noţiuni prezentate: Calculul dimensiunii (volumului) eşantionului de studiu.

În cadrul efectuării unei analize statistice, într-o primă etapă, o

problemă crucială constă în determinarea eşantionului de studiu. Ne interesează în mod imperativ numărul de date necesare pentru ca lotul de studiu să fie reprezentativ statistic, ceea ce înseamnă să avem încredere în rezultatele obţinute prin aplicarea analizei statistice [9, 13].

În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul existenţei unei incertitudini. Se emit mai multe ipoteze şi prin decizie se acceptă doar o ipoteză care se încadrează în probabilitatea stabilită [9, 13].

În enunţarea unei ipoteze există două posibilităţi ce cuprind variantele: Ipoteza nulă notată H0, în care parametrii de comparat se consideră

egali. Spre exemplu, media populaţiei 1 având date în eşantionul 1 este egală cu media populaţiei 2 caracterizată de eşantionul 2.

210 : µµ =H . Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei

unei relaţii. Ipoteza alternativă notată H1, în care se consideră cei doi parametri

diferiţi.

211 : µµ ≠H . Această ipoteză este contrară ipotezei nule şi arată existenţa

diferenţelor sau a relaţiilor posibile între parametri. Lucrând cu aceste ipoteze şi cu o anumită probabilitate decizia finală va

fi supusă erorii. Practic, între realitate şi decizia luată vor exista două tipuri de erori posibile prezentate în tabelul de mai jos.

Sistem decizional cu prag Situaţie adevărată

Ipoteza H0 este adevărată Ipoteza H1 este adevărată

Deci

zie p

rin te

st

Acceptare ipoteză H0

Nu există eroare α−1

Adevărat pozitiv

Eroare tip II β

Fals negativ Respingere ipoteză

H0 Acceptare H1

Eroare tip I α (nivel de semnificaţie)

Fals pozitiv

Nu există eroare β−1 (puterea testului) Adevărat negativ

124 | Dimensiunea eşantionului

Nivelul de semnificaţie (eroarea de tip I) este determinat de valoarea αa probabilităţii şi standard are valori de 0.05 (5%) sau 0.01(1%). Acesta reprezintă eroarea de a accepta ipoteza alternativă în mod eronat, când în realitate ipoteza H0 este adevărată [9, 13].

Eroarea de tip II exprimată prin probabilitatea β , arată acceptarea ipotezei nule deci a lipsei diferenţelor, când în realitate acestea sunt confirmate [9, 13]. Puterea testului se defineşte prin β−1 . Valorile standard sunt de 0.8 sau 0.9 şi corespunzător 2.0=β respectiv 1.0=β .

Funcţie de tipul de studiu aplicat se poate ţine cont de eroarea de tip I în principal sau de ambele tipuri.

Pentru verificarea unei ipoteze se creează o statistică care este practic o funcţie ce depinde de ipoteza H0 respectiv H1. Datele astfel create prin funcţia mai sus amintită respectă o distribuţie cu un anumit specific. De exemplu, în ipoteza H0: definită de 0µµ = putem avea o distribuţie normală ),( 0σµN , iar în cazul alternativ putem avea o distribuţie normală cu alţi parametri ),( 1σµN .

1. Determinarea volumului eşantionului de studiu pentru o variabilă

de tip continuu în care precizia în estimare mediei este luată în calcul Pentru o variabilă de tip continuu, în multe din cazurile de interes,

focalizarea problemei se face asupra valorii medii. Pentru ca evaluarea să fie corectă se stabileşte nivelul de încredere la

95% (de obicei acesta este standardul). Se stabileşte de către

echipa de cercetare care este eroarea maximă admisă, reprezentată grafic d în figura alăturată.

Estimarea cu interval de confidenţă a mediei duce la formula:

nZX σ

α ⋅±

−

21

.

Figura 16-1. Eroarea maximă admisă

Volumului eşantionului se află prin condiţia ca dimensiunea intervalului de confidenţă să fie mai mică ca eroarea admisă: d

nZ ≤⋅

−

σα2

1.

În concluzie, avem dimensiunea 2

22

21 d

Zn σα ⋅

≥

−

.

0

Xmin Xmed Xmax

d

Dimensiunea eşantionului | 125

2. Determinarea volumului eşantionului de studiu pentru estimarea unei proporţii Prin analogie putem determina volumul eşantionului necesar pentru

estimarea unei proporţii [10].

Avem astfel: ( )2

2

21

1d

ppZn −⋅⋅

≥

−

α . Dacă nu cunoaştem proporţia din

literatura de specialitate sau dintr-un studiu pilot, putem profita de faptul ca formula prezintă un maxim pentru p=0.5. Astfel, vom estima prin adaos volumul necesar al eşantionului.

Această formulă de calcul este valabilă pentru o populaţie infinită sau de volum foarte mare (pentru estimarea corectă a proporţiilor). În realitate, populaţiile au volum finit. Este normal să se aplice o corecţie matematică în situaţiile finite. Formula corectată a determinării volumului eşantionului:

popnnncorectat 11 −

+= . Prin notația pop înţelegem dimensiunea

populației de studiu (de ex. populaţia unui judeţ).

3. Determinarea volumului eşantionului de studiu pentru estimarea unei corelaţii În această situaţie pentru determinarea volumului eşantionului

necesar estimării valorii coeficientului de corelaţie într-un mod consistent, se va apela la testele ipotezelor statistice. Este greu să se determine o eroare acceptată a coeficientului de corelaţie, aşa cum s-a făcut de exemplu pentru estimarea proporţiei.

Se vor impune condiţii, atât asupra nivelului de semnificaţie α , cât şi asupra puterii testului, β−1 .

Ipoteza statistică nulă este : H0 – coeficientul de corelaţie este 0, 0=ρ . Ipoteza alternativă este: H1 – coeficientul de corelaţie are valoarea

cunoscută cρ , cρρ = . Valoarea cunoscută a coeficientului se ştie din studii anterioare,

publicaţii recente sau un studiu pilot efectuat special cu acest scop.

Formula de calcul dedusă în acest caz este : ( ) ( )( )

2113

++= −−

cFZZ

nρ

βα .

c

ccF

ρρ

ρ−+

⋅=11

ln21)( este transformata Fisher utilizată şi la formarea

intervalelor de confidenţă.


4. Determinarea volumului eşantionului de studiu pentru verificarea unei diferenţe impuse În cadrul unei cercetări se poate impune condiţia ca diferenţa

existentă între parametrii de interes (medie sau proporţie) să depăşească o anumită valoare critică pentru a fi decisivă.

Faptul că există teste de detectare a diferenţei semnificative nu este suficient. Noutatea constă în dimensiunea impusă diferenţei căutate. De exemplu, determinarea eficienţei unui tratament (se compară cu efectul placebo).

Dacă indicatorul de interes este media, deci măsura se realizează pe o scară de tip continuu, atunci importantă este diferenţa d≥− 21 µµ . Valoarea d este decisă de specialiştii în domeniul de studiu. Indicatorii 1µ , respectiv 2µ , reprezintă mediile populaţiilor de studiu (deci fără eroare). Media calculată din eşantion este notată cu 1X şi aceasta este o estimare a mediei populaţiei (are deci o anumită eroare).

Menţionăm că în cazurile reale se defineşte mai întâi noţiunea de tratament mai bun (în cazul nostru 21 µµ ≥ ).

Pentru determinarea volumului eşantionului se va ţine cont atât de eroarea de tip I cât şi de eroarea de tip II ce exprimă diferenţa impusă ca necesară în verificarea eficienţei tratamentului.

Se determină cu următoarea formula volumul eşantionului:

( ) ( )( ) 2

22

114d

ZZn σβα ⋅+⋅= −− .

Ca şi în cazurile precedente, valoarea dispersiei este de multe ori necunoscută, mai ales în studiile preliminare ale cercetării. Problema trebuie rezolvată prin estimare din studii pilot (evident, tot cu un anumit grad de eroare).

Dacă indicatorul de interes este proporţia, atunci formula de calcul se

deduce în mod asemănător şi rezultă: ( ) ( )( ) ( )2

211

14d

ppZZn −⋅⋅+⋅= −− βα . În

acest caz d = p1 - p2. Observaţie – dacă studiul este bilateral atunci vom transforma

( )

−

− →2

11 αα ZZ şi ( )

−

− →2

11 ββ ZZ

În calculul realizat n reprezintă volumul ambelor eşantioane. Pentru

situaţia în care volumele eşantioanelor sunt egale 221nnn == , avem

221 ppp +

= .


În aceste calcule a dimensiunii eşantionului intervin funcțiile Excel prezentate în tabelul de mai jos:

Valoarea abscisei în cadrul distribuţiei normalizate Echivalentul de calcul în Excel

( )α−1Z =NORMSINV(1-α)

( )β−1Z =NORMSINV(1-β)

−

21 αZ =NORMSINV(1-α/2)

EXERCIŢII

1. Calculaţi dimensiunea eșantionului necesar pentru a estima

greutatea la naştere a copiilor dintr-o anumită comunitate. Dintr-un studiu pilot se cunoaşte deviaţia standard σ=0.7. Nivelul de semnificaţie acceptat este α=0.05 iar eroarea admisă de specialişti este de 0.2 Kg. Dacă scădem nivelul erorii de două ori aşadar d=0.1 la cât va creşte volumul eşantionului de studiu ? Cât devine volumul eşantionului pentru d=0.1 şi α=0.1 ?

Răspuns: 48, 189, 133.

2. Dorim să determinăm prevalenţa (într-un studiu transversal) a unei

anumite afecţiuni prezente într-o populaţie ce conţine un număr de 15000 indivizi. Se cunoaşte din anul anterior valoarea prevalenţei ce a fost 0.17 (17%). Determinaţi volumul necesar al eşantionului de studiu pentru ca eroarea asupra estimării să nu fie mai mare de 4%. Dacă nu se cunoştea prevalenţa afecţiunii din anul anterior care ar fi fost volumul eşantionului de studiu (aproximaţi prin adaos, considerăm prevalenţa 0.5, caz în care volumul eşantionului va fi maxim )?

Răspuns: 347, 626.

3. Se doreşte să se calculeze volumul eşantionului necesar pentru determinarea unui coeficient de corelaţie cu un nivel de semnificaţie 0.05 şi cu o putere a testului de 0.9. Dintr-un studiu anterior s-a dedus valoarea de corelaţie de aproximativ 0.32.

Răspuns: 81.


4. În cercetările pentru validarea unui nou tratament împotriva cancerului, se doreşte ca proporţia celor vindecaţi să fie cu cel puţin 10% mai mare decât procentul obţinut prin metoda clasică de terapie. Pentru a putea sesiza un astfel de procent determinaţi volumul eşantionului pentru semnificaţie de 0.05. Consideraţi cele două volume egale (definite de cele 2 tratamente). Nu ni se dau informaţii despre puterea testului ,astfel vom folosi o formulă dedicată. Numărul total de valori n1+n2=n se va calcula astfel:

( )2

2

21

14d

ppZn −⋅⋅

⋅=

−

α

Produsul p*(1-p) este maxim pentru p=0.5. Deoarece nu ni se dau informaţii despre valorile proporţiilor, vom considera cazul extrem (vom folosi formula de calcul prin adaos, vom obţine un volum mai mare ce ne va asigura consistenta statistică).

Răspuns: 193221 ===nnn .

5. În cadrul unei cercetări se doreşte studiul eficienţei unui tratament nou, prin comparaţie cu subiecţii trataţi prin efect placebo. Presupunem că efectul este măsurat şi se doreşte o scădere a parametrului medical cu 4 unităţi (d=4). Se consideră eşantioane

egale în volum 221nnn == . Se va aplica un nivel de semnificaţie

α=0.05 bilateral, iar puterea testului va fi 1-β=0.9. Se cunoaşte că varianţa are valoarea aproximativă 38.

Răspuns: 50221 ===nnn .


17 COMPARAREA SETURILOR DE DATE (I) Noţiuni prezentate:

Compararea a două seturi de date – testul t (Student)

Unul dintre obiectivele majore ale unui studiu statistic este acela de

a compara între ele seturi de valori aparţinând unor eşantioane diferite, pentru a evidenţia diferenţele între aceste eşantioane. În acest scop se folosesc aşa-numitele „teste de semnificaţie statistică”, sau „teste de ipoteză” [14].

Testele de ipoteză funcţionează conform următorului principiu: se formulează ceea ce se numeşte o „ipoteză statistică” privind comportamentul datelor în eşantioanele analizate, şi se verifică această ipoteză prin metode matematice, care au drept scop confirmarea sau infirmarea ei. În condiţiile în care a fost identificată valoarea de adevăr a ipotezei formulate pentru eşantioanele luate în studiu, marele avantaj al testelor statistice este că această valoare de adevăr a ipotezei poate fi generalizată pentru populaţiile din care provin eşantioanele respective, cu condiţia ca ele să fi fost alese astfel încât să fie reprezentative pentru populaţiile de origine.

Enunţarea unei ipoteze se poate face prin două modalităţi: 1. Ipoteza nulă: parametrii de comparat se consideră egali (de ex.:

media populaţiei 1, caracterizată de eşantionul 1, este egală cu media populaţiei 2, caracterizată de eşantionul 2).

H0: m1 = m2

2. Ipoteza alternativă: parametrii de comparat se consideră diferiţi. H1: m1 ≠ m2

Etapele de parcurs în verificarea unei ipoteze prin test statistic vor fi:

1. Enunţarea ipotezei; 2. Alegerea parametrului de studiu (poate să fie conţinut implicit

în enunţarea ipotezei); 3. Deducerea şi calculul formulei matematice a testului (numită şi

discriminanta statistică) dorită prin regula de decizie; 4. Acceptarea sau respingerea ipotezei, în urma comparării valorii

calculate a testului cu valori tabelate corespunzătoare tipului de repartiţie a datelor în care se încadrează.

130 | Compararea seturilor de date (I)

În funcţie de natura datelor cu care se lucrează, testele de semnificaţie statistică se încadrează în două categorii – teste parametrice, proiectate în general pentru date cantitative, a căror distribuţie de valori respectă legea normală, şi care compară parametri statistici cum ar fi media sau varianţa, şi teste neparametrice, proiectate pentru date calitative sau date cantitative a căror distribuţie de valori nu respectă legea normală, şi care compară mărimi statistice cum ar fi frecvenţele de apariţie a anumitor valori sau rangurile.

Cele mai simple şi mai frecvent utilizate teste de semnificaţie statistică sunt testele parametrice, bazate pe compararea mediilor sau a varianţelor. Alegerea testului de semnificaţie statistică care se va folosi pentru a compara valorile unui parametru între două sau mai multe eşantioane se face strict în funcţie de natura şi de caracteristicile datelor cu care se lucrează [15]. Astfel, în cazul în care se lucrează cu un parametru cantitativ, a cărui distribuţie de valori respectă legea de repartiţie normală (fapt verificat eventual prin aplicarea unui test de fitare a datelor) apar de obicei următoarele posibilităţi:

1. Se doreşte compararea valorilor acestui parametru între două

eşantioane diferite, sau independente – caracterizate prin aceea că valorile parametrului cantitativ care se analizează provin de la subiecţi diferiţi (de exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la bărbaţi şi la femei) – se va folosi testul t de comparare a mediilor;

2. Se doreşte compararea valorilor unui parametru între două eşantioane diferite, dar dependente – caracterizate prin aceea că valorile parametrului cantitativ care se analizează provin de la aceiaşi subiecţi (de exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la momentul 0 şi la momentul 3 luni, cele 2 determinări fiind realizate la aceleaşi persoane) – se va folosi testul t corelat (t-pairs sau pereche);

3. Se doreşte compararea valorilor unui parametru între mai mult de două eşantioane. În acest caz avem următoarele soluţii: să luăm eşantioanele două câte două, şi să comparăm valorile parametrului analizat între acestea folosind testul t (ceea ce ar putea conduce la un număr însemnat de comparaţii atunci când se lucrează cu relativ multe eşantioane – de exemplu, la 5 eşantioane ar însemna 10 combinaţii posibile şi în general, la 𝑀𝑀 eşantioane ar însemna 𝐼𝐼𝑛𝑛

2 combinaţii posibile), sau să realizăm o comparare globală între cele 𝑀𝑀 eşantioane folosind un test de semnificaţie adecvat, respectiv testul ANOVA de analiză a varianţelor.

Compararea seturilor de date (I) | 131

CAZUL 1. Se doreşte compararea valorilor unui parametru între două eşantioane diferite, sau independente – caracterizate prin aceea că valorile parametrului cantitativ care se analizează provin de la subiecţi diferiţi (de exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la bărbaţi şi la femei).

Într-o situaţie de acest tip, pentru a evidenţia eventualele diferenţe

între valorile parametrului urmărit în cele două eşantioane, se foloseşte testul t (Student) de comparare a mediilor. Acest test a fost creat de matematicianul William Gosset, care l-a publicat sub pseudonimul Student, de unde provine şi numele testului.

Presupunem că cele două eşantioane au dimensiunile n1 şi n2 suficient de mari (cel mai bine peste 30 de cazuri, dar în mod obligatoriu mai mult de 10 – 12 cazuri), iar parametrul urmărit are mediile aritmetice corespunzătoare 1x şi 2x . Se pune problema de a decide dacă diferenţa între aceste medii este suficient de mare pentru a se putea afirma că ea nu este întâmplătoare, ci se datorează unor factori externi care acţionează sistematic şi afectează într-un mod semnificativ valorile parametrului în unul dintre eşantioane comparativ cu celălalt. Pentru a soluţiona această problemă, se formulează ipoteza de lucru că mediile aritmetice ale parametrului analizat în cele două eşantioane sunt egale, adică 1x = 2x(IPOTEZA NULĂ) şi se determină valoarea de adevăr a acestei ipoteze calculând valoarea unui parametru statistic, notat cu t, care la rândul său se determină în două moduri [14]: Pe baza formulei următoare, denumită şi „formulă de bază”, şi folosită

în cazul în care pentru cele 2 eşantioane varianţele σ1 şi σ2 sunt egale:

+⋅

−+

+

−=

∑∑2121

22

21

21

112 nnnn

xx

xxt

Pe baza formulei următoare, denumită şi “formulă separate”, şi folosită în cazul în care pentru cele 2 eşantioane varianţele σ1 şi σ2 sunt diferite:

2

22

1

21

21

nn

xxt

σσ+

−=

Această valoare calculată, tcalculat , se compară apoi cu valori teoretice ale parametrului t, determinate anterior de către statisticieni pentru eşantioane de diferite dimensiuni şi anumite intervale de încredere prestabilite P (de obicei 0.95 sau 0.99) – alegându-se dintre acestea valoarea teoretică corespunzătoare intervalului de încredere dorit şi dimensiunii corespunzătoare a celor două eşantioane cu care se lucrează.


Dacă valoarea absolută a lui t calculat, tcalculat > t(P)tabel, urmează că ipoteza nulă este INFIRMATĂ, iar diferenţa mediilor aritmetice nu este întâmplătoare, fiind semnificativă statistic (se datorează unor factori externi care acţionează sistematic). În caz contrar, adică atunci când tcalculat<t(P)tabel, urmează că ipoteza nulă este CONFIRMATĂ şi nu avem motive să considerăm că diferenţa între medii este semnificativă (adică ea poate fi considerată ca o abatere întâmplătoare).

În practică, soft-urile de analiză statistică, deşi calculează şi valoarea parametrului t şi o compară cu valorile teoretice cunoscute, returnează, pentru această valoare, un coeficient de încredere, notat cu p, referitor la confirmarea ipotezei nule cu o probabilitate de 95% sau de 99%. Acest fapt este valabil nu numai pentru testul t, ci pentru orice test de semnificaţie statistică (parametric sau neparametric), valoarea lui p fiind cea mai facilă de utilizat pentru interpretarea testului [16]. Astfel:

- Dacă p≤0.05, urmează că diferenţa între medii nu este întâmplătoare, fiind semnificativă statistic, iar ipoteza nulă este infirmată;

- Dacă p>0.05, urmează că diferenţa între medii este întâmplătoare, fiind nesemnificativă statistic, iar ipoteza nulă este confirmată.

Exemplu: Se foloseşte fişierul LP15.xlsx. Dorim să stabilim dacă există

diferenţe semnificative între valorile Glicemiei la momentul 0 între femei şi bărbaţi. Analog, pentru valorile glicemiei la 3 luni şi la 6 luni, pentru a determina dacă evoluţia pacienţilor este diferenţiată între femei şi bărbaţi.

Având în vedere că se lucrează cu variabile cantitative şi cu două eşantioane, pentru a testa dacă există sau nu diferenţe semnificative statistic între valorile lor se va folosi Testul t.

Se lucrează evident cu eşantioane diferite pentru care se înregistrează valorile Glicemiei (bărbaţii şi femeile din tabel), deci se va folosi testul t: Two-Sample; trebuie însă determinat care dintre cele 2 variante ale acestuia se va folosi: varianta „t-Test: Two-Sample Assuming Equal Variances” sau varianta „t-Test: Two-Sample Assuming Unequal Variances”. Prima variantă se foloseşte în cazul în care ştim că cele două eşantioane provin din populaţii cu varianţe egale (testul t homoscedastic), în timp ce a doua se foloseşte în cazul în care cele două eşantioane provin din populaţii de origine cu varianţe inegale (testul t heteroscedastic).

Având în vedere că valorile Glicemiei sunt în aceeaşi coloană, şi sunt amestecate între ele, mai întâi va trebui să sortăm tabelul după variabila Sex, după care putem aplica testele statistice.


Pentru a putea decide ce variantă de test t se foloseşte în situaţia noastră, vom verifica mai întâi dacă cele două eşantioane au varianţele egale sau nu. Pentru aceasta, se va folosi un alt test statistic, şi anume testul F (Fisher) de egalitate a varianţelor.

Acest test este relativ simplu ca structură; el calculează valorile medii şi varianţele pentru cele două eşantioane luate în discuţie şi apoi determină raportul celor două varianţe calculate, notat cu F; dacă F este foarte apropiat sau chiar egal cu 1, înseamnă că varianţele în cele două eşantioane sunt egale, şi cu cât F este mai mare cu atât eşantioanele sunt mai diferite între ele în ceea ce priveşte acest parametru [15].

Atenție F nu poate fi negativ ! (este un raport de varianțe). Se selectează comanda Data / Data Analysis / F-Test Two Sample for Variances:

Figura 17-1. Fereastra corespunzătoare testului F de egalitate a varianţelor

Rezultatele sunt afişate după cum urmează:

Figura 17-2. Modul de afişare a rezultatelor testului F de egalitate a varianţelor

Se specifică şirul de celule în care se află valorile primei variabile – Glicemia la femei.

Se specifică şirul de celule în care se află valorile primei variabile – Glicemia la bărbaţi.

Nu se bifează, deoarece şirurile de valori au acelaşi nume.

Se precizează locul de afişare a rezultatelor – pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.


Sunt calculaţi următorii indicatori: - Media, varianţa şi numărul de observaţii pentru cele două şiruri de

valori; - Valoarea statisticii calculate F = 1.0204; - P(F<=f) one-tail: probabilitatea de a se observa o valoare f mai mare

ca Fcalculat în ipoteza în care varianţele variabilei Glicemie la femei şi bărbaţi sunt egale. Dacă această probabilitate este mai mică de 0.05 (5%), se poate considera că ipoteza de la care s-a pornit, că varianţele variabilei Glicemie la femei şi bărbaţi, sunt egale, este INFIRMATĂ, diferenţele între ele fiind semnificative statistic. Pentru a aplica logica Fcalculat>Ftabelat (sau Fcritic) trebuie ca primul eșantion să aibă varianța cea mai mare ! Atenție ! Statistica Fisher este un raport al varianțeșor deci nu poate fi negativă. În cazul nostru P(F<=f) one-tail = 0.4669 > 0.05, deci ipoteza nulă

este CONFIRMATĂ, VARIANŢELE SUNT EGALE. În continuare este clar că vom folosi testul t pentru varianţe egale,

adică: Se selectează comanda Data / Data Analysis / t-Test Two-Sample Assuming Equal Variances:

Figura 17-3. Fereastra corespunzătoare testului t pentru varianţe egale

Se specifică şirul de celule în care se află valorile primei variabile – Glicemia la femei.

Se specifică şirul de celule în care se află valorile primei variabile – Glicemia la bărbaţi.

Nu se bifează, deoarece şirurile de valori nu au nume diferite.




Figura 17-4. Modul de afişare a rezultatelor testului t pentru varianţe egale

Pentru valorile Glicemiei la femei, respectiv bărbaţi sunt calculaţi

următorii indicatori: - Media aritmetică, varianţa şi numărul de cazuri; - Hypothesized Mean Difference = 0: formularea ipotezei nule – se

presupune că mediile pentru cele 2 variabile sunt egale, diferenţa între ele fiind 0;

- Valoarea statisticii t calculate, tcalculat = -1.2089; - P(T<=t) one-tail: probabilitatea de a se observa o valoare t mai mare

ca tcalculat atunci când tcalculat este un număr pozitiv respectiv un t mai mic ca tcalculat atunci când tcalculat este un număr negativ (în ipoteza în care mediile variabilei Glicemie la femei şi bărbaţi sunt egale). Dacă această probabilitate este mai mică de 0.05 (5%), se poate considera că ipoteza de la care s-a pornit, că mediile variabilei Glicemie la femei şi bărbaţi sunt egale, este INFIRMATĂ, deci EXISTĂ DIFERENŢE SEMNIFICATIVE STATISTIC ÎNTRE VALORILE MEDIEI LA FEMEI ŞI BĂRBAŢI.

- t Critical one-tail: valoarea limită a statisticii t, pentru care P(t > = tcritic) = 0.05.

- P(T<=t) two-tail: probabilitatea de a se observa o valoare mai mare în valoare absolută decât tcalculat în ipoteza în care mediile variabilei Glicemie la femei şi bărbaţi sunt egale – este dublul valorii P(T<=t) one-tail.


- t Critical two-tail: valoarea limită a statisticii t, pentru care P(t > = tcritic) = 0.05. În cazul nostru, P(T<=t) one-tail = 0.1162, deci este >0.05, deci

ipoteza nulă este CONFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi bărbaţi sunt NESEMNIFICATIVE STATISTIC.

LA MOMENTUL 3 LUNI: Se procedează similar. Testul F (Fisher) de egalitate a varianţelor

indică F=0.8820 și corespunzător P(F<=f) one-tail=0.3983>0.05, deci ipoteza nulă este CONFIRMATĂ, VARIANŢELE SUNT EGALE.

Figura 17-5. Modul de afişare a rezultatelor testului F (la 3 luni)

Prin urmare, se va folosi tot testul t pentru varianţe egale, care furnizează următoarele rezultate:

Figura 17-6. Modul de afişare a rezultatelor testului t de egalitate a varianţelor (la

3 luni)

Valoarea statisticii t calculate, tcalculat = -0.6770, iar P(T<=t) one-tail = 0.2507, deci este mai mare decât 0.05. Așadar, ipoteza nulă este


CONFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi bărbaţi sunt NESEMNIFICATIVE STATISTIC şi la momentul 3 luni.

LA MOMENTUL 6 LUNI: Testul F de egalitate a varianţelor indică F = 0.5335, P(F<=f) one-

tail = 0.0820 > 0.05, deci ipoteza nulă este confirmată, varianţele sunt egale şi se va folosi varianta testului t, corespunzătoare pentru varianţe egale, „t-Test: Two-Sample Assuming Equal Variances”.

Figura 17-7. Modul de afişare a rezultatelor testului F de egalitate a varianţelor

(la 6 luni)

În continuare prezentăm situația pentru varianțe inegale (deoarece cea pentru varianțe egale a fost deja prezentată).

Fereastra de introducere a parametrilor testului este absolut identică cu cea din cazul testului t pentru varianţe egale:

Figura 17-8. Fereastra corespunzătoare testului t pentru varianţe inegale

(la 3 luni)


iar rezultatele urmează şi ele aceeaşi schemă. Prin urmare, şi interpretarea lor va fi similară.

Figura 17-9. Modul de afişare a rezultatelor testului t de inegalitate a varianţelor

(la 6 luni)

Valoarea statisticii t calculate, tcalculat = 8.8039, iar P(T<=t) one-tail = 9.9423 E-12, deci este mult mai mică decât 0.05. Așadar, ipoteza nulă este INFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi bărbaţi sunt SEMNIFICATIVE STATISTIC la momentul 6 luni.

Prin urmare, s-ar putea astfel concluziona că bărbaţii au reacţionat mult mai bine la tratament decât femeile după 6 luni (valoarea medie a glicemiei la bărbaţi a ajuns la 81.3225, în timp ce cea a femeilor a fost de 110.0526), urmând ca medicul să deceleze şi să explice ulterior elementele practice care au condus la acest fenomen.


18 COMPARAREA SETURILOR DE DATE (II) Noţiuni prezentate:

Compararea seturilor de date prin testul t corelat şi metoda ANOVA

CAZUL II. Se doreşte compararea valorilor unui parametru între două eşantioane diferite, dar dependente – caracterizate prin aceea că valorile parametrului cantitativ care se analizează provin de la aceiaşi subiecţi (de exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la momentul 0 şi la momentul 3 luni, cele 2 determinări fiind realizate la aceleaşi persoane):

În această situaţie se foloseşte tot testul t; în notaţiile anterioare, diferă numai formula de calcul a lui t, folosindu-se ceea ce se numeşte testul t corelat (t-pairs, sau t-Test: Paired Two Sample For Means):

2

2

1

1

2

22

1

21

21

2nn

rnn

xxt

σσσσ⋅⋅−+

−=

Testul t în această formă determină dacă valorile variabilei urmărite la cele două momente în timp provin din populaţii cu media aritmetică a variabilei egală [14]. Nu este necesară verificarea unor condiţii privind varianţa parametrului în cele două populaţii. Se selectează comanda Data / Data Analysis / t-Test: Paired Two Sample For Means:

Figura 18-1. Fereastra corespunzătoare testului t pentru varianţe egale

Se specifică şirul de celule în care se află valorile primei variabile (mom. 0).

Se specifică şirul de celule în care se află valorile celei de a doua variabile (la 3 luni).

Se bifează când în prima celulă din şir se află numele variabilei.


140 | Compararea seturilor de date (II)


Figura 18-2. Modul de afişare a rezultatelor testului t de egalitate a varianţelor

În plus faţă de cazul anterior este calculat şi un coeficient de

corelaţie între cele 2 variabile, Glicemia la momentul 0 şi Glicemia la momentul 3 luni, Pearson Correlation, a cărui semnificaţie va fi discutată ulterior şi care are rolul de a măsura intensitatea legăturii între ele – legătura între două variabile fiind cu atât mai puternică cu cât acest coeficient este mai apropiat de 1 (vezi capitolul 19).

Valoarea statisticii t calculate, tcalculat = 10.4554, iar P(T<=t) one-tail = 2.2471 E-14, deci este mai mică decât 0.05. Așadar, ipoteza nulă este INFIRMATĂ, diferenţele între valorile medii ale glicemiei la momentul 0 şi la momentul 3 luni sunt SEMNIFICATIVE STATISTIC, deci tratamentul prescris de medic pentru micşorarea acestui indicator este eficient – glicemia micşorându-se de la o valoare medie iniţială de 127.18 la o valoare medie după 3 luni de 119.86.

Pentru a vedea dacă trend-ul favorabil se menţine, putem compara şi valorile glicemiei la 3 luni cu cele la 6 luni, folosind exact aceeaşi manieră de lucru – respectiv testul t pentru perechi, t-Test: Paired Two Sample For Means. Se procedează similar, rezultatele obţinute fiind cele alăturate:

Figura 18-3. Modul de afişare a rezultatelor testului t de egalitate a varianţelor

Compararea seturilor de date (II) | 141

Aşadar, valoarea statisticii t calculate, tcalculat = 9.7781, iar P(T<=t) one-tail = 2.1082 E-13, deci este o valoare mult mai mică decât 0.05. Așadar, ipoteza nulă este INFIRMATĂ, diferenţele între valorile medii ale glicemiei la momentul 3 luni şi la momentul 6 luni sunt SEMNIFICATIVE STATISTIC, iar tratamentul prescris de medic pentru micşorarea glicemiei este în continuare eficient, aducând acest parametru aproape în limite normale după 6 luni de tratament – glicemia se micşorează în continuare, de la valoarea medie de 119.86 după 3 luni de tratament la o valoare medie după 6 luni de 92.24. CAZUL III. Se doreşte compararea valorilor unui parametru între mai mult de 2 eşantioane. În acest caz avem următoarele soluţii: să luăm eşantioanele două câte două, şi să comparăm valorile parametrului analizat între acestea folosind testul t (ceea ce ar putea conduce la un număr însemnat de comparaţii atunci când se lucrează cu relativ multe eşantioane – de exemplu, la 5 eşantioane ar însemna 10 combinaţii posibile şi în general la 𝑀𝑀 eşantioane ar însemna 𝐼𝐼𝑛𝑛

2 combinaţii posibile), sau să realizăm o comparare globală între cele 𝑀𝑀 eşantioane folosind un test de semnificaţie adecvat, respectiv testul ANOVA.

Testul ANOVA (Analysis of Variance) a fost proiectat pentru a studia diferenţa globală între toate loturile incluse în studiu, determinată prin intermediul analizei varianţei în două moduri: între loturi şi în interiorul fiecărui lot [15].

Ipoteza nulă de la care se porneşte este aceea că mediile pentru fiecare lot în parte sunt egale, iar loturile provin din aceeaşi populaţie de origine. Eventualele diferenţe sunt determinate de fluctuaţiile de eşantionaj. Conform acestei ipoteze, toate loturile provin din aceeaşi populaţie de bază – origine, iar varianţa, la rândul ei, provine din 2 surse:

- varianţa între loturi, V(BL); - varianţa în interiorul fiecărui lot, V(WL). Varianţele specificate se calculează în modul următor:

A) Varianţa între loturi V(BL): Se calculează cu formula [16]: 𝑉𝑉(𝐵𝐵𝐵𝐵) = 1

𝑘𝑘−1∑ 𝑀𝑀𝐶𝐶

𝑘𝑘𝐶𝐶=1 ∙ (𝐼𝐼𝐶𝐶 − 𝑀𝑀)2

unde: - k este numărul de loturi luate în consideraţie, pentru care se calculează valorile medii;

- ni este dimensiunea fiecăruia dintre cele k loturi; - mi este valoarea medie a parametrului urmărit, calculată la nivelul

fiecărui lot; - M este media globală a parametrului.

În fapt, această varianţă este de fapt suma abaterilor pătrate ale mediilor la nivelul fiecărui lot faţă de media generală a parametrului, raportată la numărul de grade de libertate k – 1.


B) Varianţa în interiorul fiecărui lot V(WL): Se calculează cu formula [16]:

𝑉𝑉(𝑊𝑊𝐵𝐵) =1

𝑁𝑁 − 𝑘𝑘(𝑀𝑀𝑗𝑗 − 1) ∙ 𝑆𝑆𝑗𝑗

2𝑘𝑘

𝑗𝑗=1

unde: - N este suma dimensiunilor celor k loturi comparate; - k este numărul de loturi luate în consideraţie; - (nj – 1) este numărul de grade de libertate la nivelul fiecărui lor, astfel încât numărul total de grade de libertate cu care se lucrează va fi calculat cu formula:

γ = (n1 – 1) + (n2 – 1) + … + (nk – 1) = n1 + n2 + …+nk – k = N – k

- 𝑆𝑆𝑗𝑗2 este deviaţia standard calculată la nivelul fiecărui lot, cu

formula: 𝑆𝑆𝑗𝑗2 =

∑ (𝑥𝑥𝑖𝑖𝑗𝑗−𝑇𝑇𝑗𝑗)2𝑛𝑛𝑗𝑗𝑖𝑖𝑗𝑗=1

𝑛𝑛𝑗𝑗−1

După ce au fost calculate aceste varianţe, se defineşte raportul:

𝐹𝐹 =𝑉𝑉(𝐵𝐵𝐵𝐵)𝑉𝑉(𝑊𝑊𝐵𝐵)

şi se compară acest raport cu valorile teoretice obţinute din tabele, pentru care ipoteza nulă este adevărată, pentru un interval de încredere stabilit P = 0.95 sau P = 0.99 – corespunzător pragului de semnificaţie cu un coeficient de securitate de 95% (sau 99%). Apar aşadar două situaţii posibile: - Fcalculat > F(P)tabel ⇒ Ipoteza nulă este respinsă: diferenţa între medii este

semnificativă statistic; - Fcalculat < F(P)tabel ⇒ Ipoteza nulă este acceptată: diferenţa între medii este

aleatoare, şi nu are o semnificaţie specială. Testul ANOVA, la rândul său, se poate folosi în mai multe

variante: - Varianta clasică (cea prezentată anterior); - Varianta multivariată (MANOVA) – în cazul în care există mai

mulţi factori de grupare a variabilelor; - Varianta pentru perechi – atunci când se lucrează cu eşantioane

dependente. Testul ANOVA, însă, se foloseşte numai dacă este verificată

condiţia de egalitate a varianţelor între grupuri – care se verifică prin testul F de omogenitate a varianţelor [15]. ANOVA nu determină însă decât dacă există sau nu diferenţe semnificative statistic între toate mediile valorilor parametrului numeric analizat corespunzătoare grupurilor generate de parametrul calitativ, dar nu indică exact între ce grupuri apar diferenţele semnificative statistic între medii. Pentru a se stabili acest lucru, se poate apela la aşa-numitele „teste post-hoc”, iar în particular la următoarele teste:


- Testele de comparaţie multiplă pairwise LSD şi Bonferroni, care verifică diferenţele între fiecare pereche de medii şi generează o matrice în care sunt marcate cu ∗ mediile semnificativ diferite cu un prag de semnificaţie de 0.05:

Testul LSD realizează comparaţii perechi între mediile grupurilor, fără a ajusta rata de eroare în cazul comparaţiilor multiple.

Testul Bonferroni funcţionează analog, dar controlează rata globală de eroare prin limitarea ratei de eroare a fiecărui test sub o anumită valoare de prag, determinată experimental.

- Testele de rang multiplu – SNK (Student – Newman-Keuls), care identifică grupurile de medii omogene. Testul SNK realizează toate comparaţiile perechi între medii, identifică subgrupurile de medii omogene şi ordonează crescător mediile în cadrul acestora. În cazul în care eşantioanele au dimensiuni egale, compară de asemenea şi perechile de medii din interiorul subgrupurilor omogene.

Exemplu: Pe acelaşi tabel de date ca în cazul anterior (LP15.xlsx) dorim să

stabilim dacă există diferenţe semnificative statistic între valorile glicemiei la momentul 0, la momentul 3 luni şi la momentul 6 luni. Se selectează comanda Data / Data Analysis / ANOVA: Single Factor, care este cea mai simplă dintre metodele de analiză a varianţei puse la dispoziţie de Excel:

Figura 18-4. Fereastra corespunzătoare testului ANOVA

Se specifică şirul de celule în care se află valorile parametrului analizat (glicemia) care, în această situaţie, trebuie să acopere toate cele 3 coloane cu determinările succesive ale parametrului (la momentul 0, la 3 luni şi la 6 luni) .

Se indică modul de grupare a datelor – în cazul nostru pe coloane, deoarece lucrăm cu eşantioane perechi.

Se bifează când în prima celulă din şir se află numele variabilei.



Testul ANOVA furnizează următoarele rezultate:

Figura 18-5. Modul de prezentare a rezultatelor testului ANOVA

- Suma valorilor, valoarea medie şi varianţa pentru parametrul

analizat în fiecare dintre cele 3 eşantioane; - Valoarea varianţei inter-grup şi a varianţei intra-grup, precum şi a

varianţei globale, care este suma acestora; - Valoarea raportului celor două varianţe F, F = 109.6955; - Valoarea critică a raportului celor două varianţe, Fcrit, pentru care

coeficientul de încredere p = 0.05; pentru valori ale statisticii F mai mari decât valoarea critică, coeficientul de încredere p va fi mai mic sau egal decât 0.05, iar când F scade sub această valoare critică coeficientul de încredere p devine mai mare decât 0.05, diferenţele între medii fiind nesemnificative statistic;

- Valoarea coeficientului de încredere p, p = 7.04 E-30 < 0.05, care indică confirmarea ipotezei alternative.

În cazul nostru, deoarece p este mai mic decât 0.05, urmează că

ipoteza nulă este infirmată, deci diferenţele între valorile medii ale glicemiei în cele 3 eşantioane sunt semnificative statistic – fapt verificat de altfel şi prin exemplele anterioare, în care am folosit testul t pentru perechi pentru a compara valorile glicemiei la momentul 0 şi după 3 luni, şi apoi între 3 şi 6 luni.


19 REGRESIE - CORELAŢIE Noţiuni prezentate:

Regresie liniară şi corelaţie

În ştiinţele experimentale şi, în particular, în medicină şi biologie, interesează nu numai variaţia unui singur parametru, ci şi a doi parametri, cantitativi, despre care presupunem că se influenţează unul pe altul. De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie între greutate şi înălţime, între tensiunea arterială şi valoarea colesterolului, etc. Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi joacă un rol important în ştiinţele vieţii, şi în particular în medicină. Cel mai simplu caz de corelaţie este corelaţia liniară, unde una dintre mărimi variază proporţional cu alta, ambele mărimi fiind numerice sau cantitative [16].

Pentru a se determina o expresie precisă a influenţei pe care unul dintre parametri îl exercită asupra celuilalt în cazul unei variaţii proporţionale a acestora, statisticienii folosesc noţiunea de covarianţă.

Astfel, pentru un eşantion dintr-o populaţie dată, se calculează: mediile aritmetice ale celor doi parametri analizaţi, x şi y , precum şi

abaterile de la medie ale valorilor individuale, xx − şi yy − . Variaţia proporţională a celor doi parametri x, y este exprimată din punct de vedere matematic prin faptul că suma produselor abaterilor de la medie ale celor doi parametri este un număr pozitiv:

∑ >−− 0))(( yyxx . Analog, variaţia invers proporţională a celor doi parametri x, y este

exprimată prin faptul că suma produselor abaterilor de la medie ale celor doi parametri este un număr negativ:

0)()( <−⋅−∑ yyxx . iar absenţa oricărei influenţe între cei doi parametri este exprimată prin faptul că această expresie este egală sau tinde spre 0:

∑ →−− 0))(( yyxx . Pentru a se da o semnificaţie mai generală acestei sume, ea se

raportează la numărul de cazuri N, definindu-se astfel noţiunea de covarianţă, COV(x, y) [16]:

Nyyxx

P ∑ −−=

))((.

146 | Regresie. Corelaţie

care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi parametri cantitativi.

Din punct de vedere grafic, această dependenţă proporţională între două variabile este caracterizată printr-o dreaptă, care se numeşte „dreaptă de regresie” şi de asemenea poate fi descrisă precis din punct de vedere matematic.

Ecuaţia generală a dreptei de regresie [16], cu notaţiile de mai sus, va fi:

)( xxayy x −=− , unde ∑

∑−

−−= 2)(

))((

xx

yyxxax =

𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥,𝑦𝑦)𝜎𝜎𝑥𝑥

2 .

ax se numeşte coeficientul liniar de regresie al lui y în raport cu x, care măsoară panta dreptei D pe orizontala Ox. Indică de câte ori în medie y este mai mare sau mai mic decât x. Este pozitiv sau negativ după cum dreapta are o pantă ascendentă sau descendentă de la stânga la dreapta.

În mod simetric (schimbând x cu y şi y cu x) se defineşte dreapta de

regresie a lui x în raport cu y, care corespunde ecuaţiei:

)( yyaxx y −⋅=− , unde ∑

∑−

−−=

2)(

))((

yy

xxyya y =

𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥,𝑦𝑦)𝜎𝜎𝑦𝑦

2 .

ay se numeşte coeficientul liniar de regresie al lui x în y, care măsoară panta dreptei D pe verticala Oy. Indică de câte ori în medie x este mai mare sau mai mic decât y.

Pe baza acestor doi coeficienţi liniari de regresie ai lui y în x,

respectiv x în y, se defineşte produsul yx aar ⋅=2 (media geometrică a celor două pante de regresie); acest parametru se numeşte coeficientul corelaţiei liniare, sau coeficientul de corelaţie Pearson. Formula de calcul a coeficientului de corelaţie liniară va fi [16]:

𝑀𝑀2 = 𝑀𝑀𝑥𝑥 ∙ 𝑀𝑀𝑦𝑦 ⟹ 𝑀𝑀2 =𝐼𝐼𝐶𝐶𝑉𝑉(𝑥𝑥, 𝑦𝑦)

𝜎𝜎𝑥𝑥2 ∙

𝐼𝐼𝐶𝐶𝑉𝑉(𝑥𝑥, 𝑦𝑦)𝜎𝜎𝑦𝑦

2

⟹ 𝑀𝑀 =𝐼𝐼𝐶𝐶𝑉𝑉(𝑥𝑥, 𝑦𝑦)

𝜎𝜎𝑥𝑥 ∙ 𝜎𝜎𝑦𝑦=

∑(𝑥𝑥 − 𝑥𝑥) ∙ (𝑦𝑦 − 𝑦𝑦)∑(𝑥𝑥 − 𝑥𝑥)2 ∙ ∑(𝑦𝑦 − 𝑦𝑦)2

Coeficienţii de corelaţie Pearson reprezintă măsura intensităţii legăturii liniare între două variabile şi au valori cuprinse între -1 şi 1. Valorile apropiate de 0 indică absenţa corelaţiei între variabilele respective, iar valorile apropiate de 1 sau de -1 indică prezenţa unei corelaţii puternice între variabile.

Valorile negative indică prezenţa unei corelaţii invers proporţionale (atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile scad corespunzător), iar valorile pozitive indică prezenţa unei corelaţii

Regresie. Corelaţie | 147

direct proporţionale (atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile cresc şi ele).

Colton (1974) a indicat următoarele reguli empirice pentru

interpretarea coeficienţilor de corelaţie: Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă

sau foarte slabă, Un coeficient de corelaţie între 0,25 şi 0,50 semnifică o corelaţie

acceptabilă, Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie

moderată spre bună, Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună.

Exemple:

1. Determinaţi coeficienţii de corelaţie între Vârstă, Greutate şi

Glicemie la momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează în vreun fel valorile Glicemiei.

Una dintre condiţiile necesare pentru a putea calcula coeficienţii de

corelaţie este ca variabilele pentru care dorim să îi calculăm să fie situate în coloane învecinate – condiţie realizată în cazul tabelului nostru – altfel, coloanele respective ar trebui copiate şi rearanjate separat.

Se selectează comanda Data / Data Analysis / Correlation:

Figura 19-1. Fereastra corespunzătoare calculului coeficienţilor de corelaţiei

Se specifică şirul de celule în care se află valorile variabilelor pentru care dorim să calculăm coeficienţii de corelaţie.

Se specifică modul de grupare a valorilor – în coloane în cazul de faţă.

Se bifează când în prima celulă din fiecare coloană se află numele variabilei.




Figura 19-2. Modul de prezentare a rezultatului corelaţiei

Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce

conţine coeficienţii de corelaţie Pearson între toate perechile posibile de variabile selectate prin comandă.

În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci pozitivă, acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697), respectiv glicemie şi greutate (0.0660) sunt practic nule.

2. Determinaţi coeficienţii de covarianţă între Vârstă, Greutate şi Glicemie la momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează în vreun fel valorile Glicemiei.

După cum am arătat, covarianţa este o măsură premergătoare

calculului coeficienţilor de corelaţie între două variabile, definită ca media produselor deviaţiilor pentru fiecare pereche de puncte. Spre deosebire de coeficientul de corelaţie, coeficientul de covarianţă nu aparţine unui interval dat de valori, putând lua ca valoare orice număr real.

Se selectează comanda Data / Data Analysis / Covariance:

Figura 19-3. Fereastra corespunzătoare calculului covarianţei

Covarianţa se foloseşte pentru a determina doar natura legăturii între cele 2 variabile: valorile pozitive ale ei indică o legătură direct

Se specifică şirul de celule în care se află valorile variabilelor pentru care dorim să calculăm coeficienţii de covarianţă.

Se specifică modul de grupare a valorilor – în coloane în cazul de faţă.




proporţională între variabile, valorile negative indică o legătură invers proporţională, iar valorile apropiate de 0 indică absenţa unei influenţe între cele două variabile.


Figura 19-4. Modul de prezentare a rezultatului calculului covarianţei

Între toate cele 3 variabile există o legătură direct proporţională, mai

accentuată între Greutate şi Vârstă (69.0012), şi foarte slabă între Glicemie şi Vârstă (6.3772), respectiv Greutate (7.7596).

3. Construiţi modelul de regresie liniară între Vârstă şi Glicemie la

mom. 0, respectiv Greutate şi Glicemie la mom. 0, pentru a determina modul în care aceste variabile influenţează valorile Glicemiei. Comentaţi rezultatele obţinute şi realizaţi reprezentarea grafică corespunzătoare (de tip SCATTER). Se selectează comanda Data / Data Analysis / Regression:

Figura 19-5. Fereastra corespunzătoare regresiei

Se specifică şirul de celule în care se află valorile variabilei dependente/ influenţate - Glicemia.

Se specifică şirul de celule în care se află valorile variabilei independente/ care influenţează - Vârsta.



Se vor calcula şi intervalele de încredere 95% în jurul dreptei de regresie.



Figura 19-6. Modul de prezentare a rezultatului regresiei (vârstă vs. glicemie)

Regression Statistics:

- Multiple R: este coeficientul de corelaţie calculat anterior, între Vârstă şi Glicemie;

- R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă proporţia din variaţia variabilei Y (Glicemie) care este explicată de influenţa liniară a variabilei X (0.0048 – foarte mic în cazul nostru);

- Adjusted R Square: reprezintă Coeficientul de Determinare corectat; - Standard Error: eroarea medie înregistrată la predicţia valorilor

medii ale variabilei Y (Glicemie) prin ecuaţia de regresie liniară (7.9118 – de asemeni foarte mică, dar nu pentru că modelul de regresie este bun, ci pentru că acesta este total inadecvat). ANOVA: Analiza de regresie conţine şi un test cu ipoteză nulă, care

afirmă că panta dreptei de regresie este egală cu 0 (deci nu există nici un fel de corelaţie între cele 2 variabile). Pentru a se verifica testul respectiv, se calculează statistica F=0.234971 şi nivelul său de semnificaţie p=0.63007.

Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta dreptei de regresie este semnificativ diferită de 0, şi prin urmare există o relaţie liniară între X şi Y. Dacă p>0.05 înseamnă că ipoteza nulă este CONFIRMATĂ, panta dreptei de regresie este 0 şi nu există nici o relaţie semnificativă între X şi Y – cazul de faţă, p=0.63007.

- Regression: reprezintă variaţia lui Y explicată de X (= 14.70855) - Residual: reprezintă variaţia lui Y neexplicată de X (= 3004.671, mult

mai mare decât celălalt coeficient) - Total: reprezintă variaţia totală a lui Y, suma între Regression şi

Residual. - Coefficients: reprezintă coeficienţii dreptei de regresie.

Ecuaţia dreptei de regresie are forma generală y=ax+b, unde:


- a = 0.046128 reprezintă PANTA dreptei; cu cât este mai mare, cu atât semnifică o dreaptă mai înclinată, (dar nu neapărat o legătură mai puternică); când panta are o valoare pozitivă, atestă o corelaţie direct proporţională între cele 2 variabile, în timp ce atunci când are o valoare negativă, atestă o corelaţie invers proporţională între cele 2 variabile.

- b = 125.544281 reprezintă INTERCEPTUL CU AXA OY: punctul în care dreapta intersectează axa verticală. Reprezentarea grafică se realizează folosind comanda SCATTER, în

care pe axa Orizontală se pune variabila independentă, iar pe cea Verticală variabila dependentă (influenţată de cealaltă):

Figura 19-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie

Pentru a se figura pe acest

grafic ecuaţia dreptei de regresie, se selectează punctele din norul de puncte, după care se activează meniu-ul personalizat (click dreapta) din care se alege opţiunea „Add trendline…”.

Se bifează tipul de regresie dorit – Linear, şi opţiunile

- Display Equation on chart: pentru afişarea pe grafic a ecuaţiei dreptei de regresie,

- Display R-squared value on chart: pentru afişarea pe grafic a coeficientului de determinare.

Figura 19-8. Modul de setare pentru afişarea dreptei de regresie

80

90

100

110

120

130

140

150

0 20 40 60 80

Corelatia intre Varsta si Glicemie

Varsta

Glic

emie


Graficul care se obţine va fi:

Figura 19-9. Reprezentarea grafică a dreptei de regresie

Construim similar modelul de regresie liniară între Greutate şi

Glicemie la momentul 0. Rezultatele obţinute vor fi:

Figura 19-10. Modul de prezentare a rezultatului regresiei (greutate vs. glicemie)

Coeficientul de corelaţie între Greutate şi Glicemie la momentul 0

este cel deja cunoscut, R = 0.0660, fiind de asemenea foarte mic. Testul ANOVA de caracterizare a pantei dreptei de regresie

furnizează de asemenea un coeficient de încredere p = 0.6487 > 0.05, care conduce la concluzia că panta dreptei de regresie este aproape egală cu 0, iar ecuaţia dreptei de regresie, aşa cum rezultă din calcule, va fi y = 0.0339∗x + 124.3388, adică o dreaptă de regresie din nou aproape paralelă cu axa orizontală – fapt deja anticipat de valoarea coeficientului de corelaţie şi de rezultatul testului ANOVA.

y = 0.0461x + 125.54 R² = 0.0049

80

90

100

110

120

130

140

150

0 20 40 60 80

Corelatia intre Varsta si Glicemie

Varsta

Glic

emie

Se vede clar din ecuaţia dreptei de regresie că practic Vârsta nu influenţează deloc Glicemia, dreapta fiind aproape paralelă cu axa orizontală.


Aceste elemente sunt de asemenea confirmate de reprezentarea grafică corespunzătoare:

Figura 19-11. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie)

y = 0.0339x + 124.34 R² = 0.0044

020406080

100120140160

0 50 100 150

Corelatia intre Greutate si Glicemie la mom. 0

Greutate

Glic

emie


20 ANALIZA SUPRAVIEŢUIRII Noţiuni prezentate: Analiza supravieţuirii prin metoda Kaplan Meier.

Suntem adesea interesaţi în studiul intervalului de timp până la apariţia

unui eveniment de interes. De exemplu, timpul scurs până la însănătoşire în cazul aplicării unui nou tratament sau timpul de utilizare a unui cateter sau chiar timpul scurs de la îmbolnăvire până la deces – cercetare des întâlnită în studiul afecţiunilor terminale. Observăm natura pozitivă sau negativă a evenimentului urmărit. Cum putem examina acest interval de timp, cum extragem informaţii din datele culese şi cum interpretăm rezultatele obţinute, sunt probleme la care vom răspunde în acest capitol [9].

Avem nevoie mai întâi de informaţii de tipul timp (o coloană de date) şi o altă coloană ce defineşte realizarea sau nu a evenimentului urmărit. Aceste date sunt corespunzătoare fiecărui pacient în parte.

Trebuie să răspundem la întrebări de genul: care este supraviețuirea în prima lună de tratament, sau care este supravieţuirea medie, sau în cât timp am pierdut 50% din pacienţi? Evident toate întrebările sunt legate de conceptul de timp.

Am putea în primă etapă să folosim noţiunile specifice din statistica descriptivă deci, am putea caracteriza populaţia prin indicatorii statistici de localizare, împrăştiere, distribuţie de frecvenţă. În realitate problema se complică. Sunt dese situaţiile în care pe parcursul studiului se pierd pacienţi din diferite motive (schimbare de adresă, abandon, deces din alte cauze etc.). Astfel suntem nevoiţi să eliminăm datele incomplete pe perioada de analiză. Dacă pierdem cantităţi importante de informaţie putem compromite întregul studiu. Datele pierdute se numesc date cenzurate. Acestea conţin informaţie parţială. De asemenea pot apărea cazuri noi care ar trebui incluse în lot. Dacă am transla toate înregistrările la o origine de timp comună am putea ţine cont de informaţia chiar parţial introdusă. Ar trebui să folosim într-un mod corect această informaţie care ne-ar aduce, evident, un plus de cunoştinţe. Analiza de tip Kaplan-Meier permite exact acest tip de lucru cu date cenzurate şi/sau noi. Practic profităm de toată informaţia pe care o avem pe parcursul intervalului de timp investit în cercetare [9].

Metoda Kaplan Meier este o tehnică statistică neparametrică ce determină probabilităţile de supravieţuire în timp, acceptă lucrul cu date

Analiza supravieţuirii | 155

cenzurate şi permite introducerea de noi cazuri în perioada de cercetare [9, 13].

Curba Kaplan Meier reprezintă evoluţia probabilităţii de supravieţuire în timp. Ca metodă de calcul într-un mod vag exprimată, aceasta reprezintă numărul de cazuri în viaţă raportat la numărul total de cazuri de la începutul studiului. Dacă pierdem pacienţi în perioada de studiu, atunci pe fiecare subinterval vom avea probabilităţile condiţionate calculate conform formulei sus menţionate. Va trebui să calculăm probabilitatea pe subinterval şi vom face apel la teoria probabilităţilor.

Evenimentele au loc la momentele notate T1 < T2 < … < Ti < … < Tn. Momentul de start este T0 definit de scopul studiului. Aici trebuie să se acorde o atenţie deosebită deoarece, poate exista o mare relativitate în stabilirea momentului de start (de ex.: în cancerul de sân, care este momentul de determinare a prezenţei neoplaziei ?). Toate cazurile luate în studiu trebuie să fie tratate uniform pentru a nu introduce erori.

Funcţia de supravieţuire sau rata de supravieţuire este definită de probabilitatea ca o persoană (sau caz de studiu) să supravieţuiască mai mult de n unităţi de timp )( iTTPs > . Aceste unităţi de timp sunt chiar valorile T1, T2, …Tn [9, 13].

Se poate calcula uşor probabilitatea pe fiecare interval Ti-1, Ti. Aceasta este însă o probabilitate condiţionată. Practic în intervalul Ti-1–Ti , avem o anumită compoziţie a lotului de studiu. La momentul Ti-1 avem în viaţă Ni-1 pacienţi. Aceştia sunt supuşi riscului de a deceda. În intervalul precizat o parte din pacienţi va fi eliminată din studiu (cenzuraţi), notaţi cu Ci, iar o parte va deceda, notaţi Di.

Putem calcula numărul de pacienţi supuşi riscului la momentul Ti. Vom scădea pe cei decedaţi şi pe cei cenzuraţi. iiii CDNN −−= −1 .

Probabilitatea de deces pe acest interval, condiţionată de faptul că pacienţii au supravieţuit până la începutul intervalului este

11 )(

−− =>>

i

iii N

DTTTTPd , T este timpul de supravieţuire, ce caracterizează

studiul [13]. Astfel probabilitatea de supravieţuire condiţionată este:

111 1)(1)(

−−− −=>>−=>>

i

iiiii N

DTTTTPdTTTTPs .

Această probabilitate se poate calcula pe fiecare interval care prezintă evenimente de tip deces sau cenzură. Trebuie în final să calculăm probabilitatea necondiţionată: )( iTTPs > .

Făcând apel la teoria probabilităţilor avem:

)()()(

BPBAPBAP ∩

= - formula de calcul a probabilităţii condiţionate [17].

156 | Analiza supravieţuirii

Evenimentul A poate fi de exemplu, timpul de supravieţuire mai mare ca Ti (T>Ti), iar evenimentul B poate reprezenta T>Ti-1. Observăm că probabilitatea de intersecţie a evenimentelor )()( 1−>∩>=∩ ii TTTTPBAPeste tocmai P(A), deoarece evenimentul A este mai restrictiv decât B.

În acest caz avem: )(

)()(1

1−

− >>

=>>i

iii TTP

TTPTTTTP . Obţinem probabilitatea

de supravieţuire pentru intervalul i ca un produs de forma: )()()( 11 −− >⋅>>=> iiii TTPsTTTTPsTTPs .

Înlocuind în continuare probabilitatea de supravieţuire de la momentul Ti-1 cu o formulă asemănătoare celei de sus, obţinem un produs al probabilităţilor condiţionate. În final ultima valoare va fi probabilitatea de supravieţuire la momentul 0 (aceasta este considerata de valoare 1,

1)( 0 => TTPs ). Este justificat astfel şi pseudonimul: „product limit estimate”.

)()(.....)()( 0121 TTPsTTTTPsTTTTPsTTPs iii >⋅>>⋅⋅>>=> − Fiind un produs de probabilităţi putem uşor observa că în timp, forma

grafică va fi de tip descrescător. Practic vom determina pe fiecare interval numărul de pacienţi la risc

(Ni), numărul de decese (Di) şi numărul de pacienţi eliminaţi (sau cenzuraţi, Ci). Se poate calcula apoi probabilitatea condiţionată şi în final prin produsul acestora se află funcţia de supravieţuire în fiecare punct în timp, unde se întâlnesc evenimente [13].

Se poate astfel determina curba de supravieţuire. În continuare se calculează cuartilele prin metoda grafică prin trasarea de drepte paralele cu abscisa în punctele de probabilităţi egale cu 0.75, 0.50 respectiv 0.25.

Exemplu (date generice). Avem următoarele date prezente în tabelul de mai jos. Acestea descriu

evenimentele de tip deces respectiv cenzură. Să se determine prin metoda Kaplan Meier curba de supravieţuire şi să se calculeze cuartilele.

Tabelul 20-1. Date necesare în calculul supravieţuirii (metoda Kaplan-Meier) An Cenzuri Eveniment urmărit 1 1 1 2 2 2 3 2 2 4 3 3 6 3 1 8 3 4 10 4 3 11 2 2 13 1 2 14 1 1 Total 22 21


Numărul total de pacienţi este 22+21=43. În tabelul următor sunt prezentate calculele necesare realizării curbei

Kaplan Meier.

Tabelul 20-2. Date necesare realizării curbei Kaplan Meier An Cenzuri Eveniment

urmărit Pacienţi la

risc Prob.

condiţionată Prob. de supravieţuire

1 1 1 43 1-1/43=97.67% 97.67% 2 2 2 43-1-1=41 1-2/41=95.12% 0.97.67*95.12=92.91% 3 2 2 41-2-2=37 1-2/37=94.59% 92.91*94.59=87.89% 4 3 3 37-2-2=33 1-3/33=90.91% 87.89*90.91=79.90% 6 3 1 33-3-3=27 1-1/27=96.30% 79.90*96.30=76.94% 8 3 4 27-3-1=23 1-4/23=82.61% 76.94*82.61=63.56%

10 4 3 23-3-4=16 1-3/16=81.25% 63.56*81.25=51.64% 11 2 2 16-4-3=9 1-2/9=77.78% 51.64*77.78=40.17% 13 1 2 9-2-2=5 1-2/5=60.00% 40.17*60=24.10% 14 1 1 5-1-2=2 1-1/2=50.00% 24.10*0.50=12.05%

Total 22 21

În continuare se poate reprezenta grafic curba de supravieţuire. Pentru aceasta vom folosi graficul de tip scatter (XY). Datele le vom aranja ca în tabelul de mai jos:

Tabelul 20-3. Valorile probabilităţii de supravieţuire

An Supravieţuire 0 1 1 1 1 97.67% 2 97.67% 2 92.91% 3 92.91% 3 87.89% 4 87.89% 4 79.90% 6 79.90% 6 76.94%

8 76.94% 8 63.56%

10 63.56% 10 51.64% 11 51.64% 11 40.17% 13 40.17% 13 24.10% 14 24.10% 14 12.05%

Vom obţine graficul:

158 | Analiza supravieţuirii

Figura 20-1. Curba Kaplan Meier

EXERCIŢIU

1. Calculaţi cuartilele şi reprezentaţi grafic curba Kaplan Meier pentru

datele prezentate în tabelul de mai jos.

An Cenzuri Eveniment urmărit

1 7 2 2 4 1 3 2 2 4 3 3 6 1 2 8 3 4

10 2 1 11 2 2 13 1 2 14 0 1

Total 25 20

Răspuns: Supravieţuire de 75% avem la 6 ani. Supravieţuire de 50% avem la 10 ani. Supravieţuire de 25% avem la 13 ani.

Citim din grafic cuartilele: Supravieţuire de 75% avem la

8 ani. Supravieţuire de 50% avem la

11 ani. Supravieţuire de 25% avem la 13 ani.


21 BAZE DE DATE MICROSOFT ACCES. NOŢIUNI GENERALE

Noţiuni prezentate:

elemente introductive; deschiderea şi crearea unei baze de date; sortarea şi filtrarea datelor.

Elemente introductive

Bazele de date Access [18] sunt fişiere care conţin obiecte de diverse tipuri [19]:

• tabele pentru stocarea datelor; • form-uri (ferestre) pentru editarea pe ecran a datelor din tabele; • rapoarte pentru tipărirea datelor; • query-uri (interogări) pentru selecţia şi combinarea datelor; • macro-uri şi module care conţin programe scrise pentru a rezolva

diverse probleme.

O bază de date Access poate conţine mai multe tabele, de exemplu în baza de date a unei clinici pot exista: o tabelă cu datele personale ale pacienţilor (nume, prenume, adresă, nr. de telefon, etc. şi o tabelă cu istoricul medical al acestora (dată internare, afecţiune, tratament, etc.).

In imaginea de mai jos este arătată o tabelă care conţine informaţii despre angajaţii unei companii.

Figura 21-1. Tabel cu date în Microsoft Access

160 | Baze de date Microsoft Access. Noţiuni generale.

Deschiderea unei baze de date Pentru a putea lucra cu o bază de date, ea trebuie deschisă în

prealabil. Deschiderea unei baze de date Access se poate face în mai multe moduri.

1) Una din variante este de a alege “Open” din meniul principal (vezi figura de mai jos).

2) Altă metodă este de a alege o bază de date deschisă anterior din lista “Recent Documents”.

3) O altă posibilitate este prin “dublu-clic” pe fişierul bază de date (acesta este un fişier cu extensia accdb sau mdb (versiuni anterioare de Access).

Figura 21-2. Modul de deschidere a unei baze de date în Microsoft Access

Crearea unei noi baze de date O modalitate simplă de a crea o bază de date este de a utiliza un

template. Acesta reprezintă o bază de date deja creată, cu o structură preexistentă, destinată unui anumit tip de aplicaţie. Utilizarea template-urilor reduce mult timpul necesar creării unei baze de date, care ulterior poate fi adaptată cerinţelor specifice.

A doua variantă este crearea bazei de date de la zero prin intermediul comenzii New / Blank Database / Create. Baza de date este creată ca un container, care conţine iniţial un singur tabel, cu numele generic Table1 – şi la care ulterior putem adăuga alte tabele, în funcţie de necesităţile pe care le avem.

Un tabel într-o bază de date este asemănător ca structură cu un tabel în Excel şi conţine o colecţie de informaţii împărţite în categorii precis caracterizate şi neredundante (care apar doar o singură dată).

Baze de date Microsoft Access. Noţiuni generale. | 161

Pentru a se defini un tabel într-o bază de date [18] trebuie parcurse două etape: 1. Definirea structurii tabelului: Înseamnă caracterizarea categoriilor de

informaţii pe care le va conţine tabelul respectiv – numite în teoria bazelor de date CÂMPURI. Câmpurile unei baze de date sunt foarte asemănătoare ca şi concept cu coloanele unui tabel în Excel, dar, în timp ce în Excel pentru caracterizarea unei coloane este de obicei suficient să îi stabilim un nume, în Access (şi în orice limbaj de lucru cu baze de date) pentru a realiza acest lucru trebuie să fim mai riguroşi. Astfel, pentru a caracteriza un câmp într-un tabel care aparţine unei baze de date trebuie indicate în mod obligatoriu următoarele elemente referitoare la acesta:

Numele câmpului: reprezintă descrierea informaţiilor care vor fi memorate în câmpul respectiv (Ex. Nume şi prenume, Vârstă, Data naşterii, etc.); poate avea maximum 64 de caractere, inclusiv caractere speciale: „spaţiu _”, „virgulă ,”, „punct şi virgulă ;”, „semnul întrebării ?” sau „semnul exclamării !”, dar nu şi „punct .”. În cazul câmpurilor cu nume compuse (care conţin în structura lor caractere speciale dintre cele menţionate mai sus), acestea vor fi apelate prin comenzi sau expresii Access fiind incluse în paranteze pătrate [ ]: ex. [nume, prenume]. În fapt, referirea completă la numele unui câmp dintr-un tabel al unei baze de date se face precizând înaintea sa şi numele tabelului din care acesta provine, separat printr-un punct: ex. persoane.[nume, prenume].

Figura 21-3. Definirea structurii tabelului unei baze de date


Tipul de dată al câmpului: se alege dintr-o listă de tipuri de dată predefinite, în funcţie de natura informaţiilor care vor fi memorate în câmpul respectiv. Pe lângă acestea, mai pot fi precizate (opţional) şi alte proprietăţi ale câmpului, cum ar fi: dimensiune, indexare, obligativitatea unui conţinut, etc. (vezi figura de mai jos).

Toate aceste elemente referitoare la definirea câmpurilor unui tabel într-o bază de date se definesc vizualizând conţinutul tabelului în modalitatea View / Design View.

Tipurile de dată disponibile în Access pentru câmpurile unui tabel sunt următoarele:

Tabelul 21-1. Tipurile de dată disponibile în Microsoft Access Tip Descriere

Text Şiruri de caractere (litere şi cifre) cu o lungime maximă de 255 caractere

Memo Şiruri de caractere (litere şi cifre) cu o lungime maximă de 65536 caractere

Number Valoare numerică întreagă sau reală, în funcţie de proprietatea FieldSize DateTime Dată calendaristică (zi, lună, an) şi moment de timp (oră, minut, secundă)

Currency Valoare numerică care reprezintă o sumă de bani, folosită în special în calcule financiare, unde nu sunt permise rotunjiri.

AutoNumber Valoare numerică autogenerată, unică pt. fiecare înregistrare din tabelă Yes/No Valoare logică (booleană) cu două posibilităţi: da, nu (adevărat, fals)

OLE Obiect generic inserat în baza de date (document Word, imagine, film, etc.)

Hyperlink Adresă către o pagină Web din Internet

Calculated Valoare autogenerată în urma efectuării unor calcule asupra valorilor din celelalte câmpuri ale tabelului

Lookup Wizard

Valoare care se selectează dintr-o listă de valori posibile, specificate manual sau preluate din alte tabele ale bazei de date

Attachment Tipul de dată optim pentru a stoca imagini digitale şi orice alt fel de fişiere binare.

2. Definirea conţinutului tabelului: înseamnă introducerea efectivă a

informaţiilor care vor fi stocate în tabelul respectiv – numite în teoria bazelor de date ÎNREGISTRĂRI. Înregistrările într-o bază de date sunt foarte asemănătoare cu liniile unui tabel în Excel şi conţin valori particulare pentru câmpurile (coloanele) tabelului; ca şi principiu general, este bine ca într-un tabel înregistrările să nu se repete şi să existe şi un mecanism de identificare a lor în mod unic pentru a nu se putea confunda unele cu altele.


Încărcarea efectivă a tabelului cu înregistrări se realizează vizualizând conţinutul acesteia în modalitatea View / Datasheet View (vezi figura de mai jos) [20].

Figura 21-4. Încărcarea cu date a unui tabel Microsoft Access

Exemplu:

Vom crea un tabel care să conţină informaţii generale despre pacienţii luaţi în evidenţa unui spital. În structura acestui tabel dorim să introducem următoarele câmpuri:

NUME, PRENUME DATA NASTERII VARSTA SEX DOMICILIU JUDET LOCALITATE CAS ANAMNEZĂ INALTIME GREUTATE BMI GLICEMIE COLESTEROL SUSPECT DIABET COLESTEROL MARIT

Descriem în continuare cum se poate defini fiecare câmp în parte: 1. Câmpul NUME, PRENUME: deoarece va conţine numele şi

prenumele persoanelor care urmează a fi luate în evidenţă, tipul de dată cel mai adecvat este tipul Text.


Dintre proprietăţile auxiliare ale acestuia, este bine să stabilim şi dimensiunea câmpului (proprietatea „Field Size”, vezi figura) pentru a nu se aloca o dimensiune mult mai mare decât este necesar. Am stabilit dimensiunea câmpului la 50 de caractere, spaţiu suficient pentru a tipări nume şi prenume de persoane – dacă nu am fi personalizat această proprietate, dimensiunea implicită a câmpului ar fi fost cea maximă, adică 255 caractere.

Figura 21-5. Definirea proprietăţilor auxiliare a unui câmp

2. Câmpul DATA NASTERII: tipul de dată adecvat este DateTime.

Figura 21-6. Definirea proprietăţilor auxiliare a unui câmp de tip DateTime

Există mai multe formate de dată calendaristică, care pot fi

accesate şi modificate prin proprietatea «Format» (vezi figura). Formatul implicit este «Short Date», dar dacă este cazul, acesta poate fi înlocuit cu una dintre celelalte şase alternative.


3. Câmpul VARSTA: va fi de tip Number. Pentru câmpurile numerice este util de particularizat două

proprietăţi: “Field Size” şi “Format”. Proprietatea „Field Size” stabileşte tipul şi mărimea valorilor

numerice care vor putea fi introduse în câmpul respectiv, conform următorului tabel: Byte Numere ÎNTREGI, între 0 şi 255 Integer Numere ÎNTREGI, între -32.768 şi 32.767 Long Integer Numere ÎNTREGI, între -2.147.483.648 şi 2.147.483.647 Decimal Numere REALE, între –10^28–1 şi 10^28–1, cu precizie de 28

zecimale Single Numere REALE, între –3.402823 E38 şi –1.401298 E–45 (valori

negative) şi între 1.401298 E–45 şi 3.402823 E38 (valori pozitive), cu precizie de 7 zecimale

Double Numere REALE, între –1.79769313486231 E308 şi –4.94065645841247 E–324 (valori negative) şi între 4.94065645841247 E–324 şi 1.79769313486231 E308 (valori pozitive), cu precizie de 15 zecimale

În cazul nostru, deoarece este vorba de vârsta pacienţilor, tipul

„Byte” este suficient pentru a introduce valori în acest câmp (vezi figura de mai jos).

Figura 21-7. Definirea proprietăţilor auxiliare a unui câmp de tip Number

Proprietatea “Format” stabileşte modul de afişare a valorilor

numerice cu care se lucrează. Dacă nu se personalizează, opţiunea implicită este “General Number” (vezi figura de mai jos).


Figura 21-8. Definirea modului de afişare a unui câmp de tip Number

4. Câmpul SEX: Va avea doar două valori posibile, M (pentru

masculin) şi F (pentru feminin). Ca principiu de lucru în proiectarea bazelor de date, se urmăreşte în general ca informaţia să fie introdusă în maniera cea mai concisă posibil, folosindu-se prescurtări sau coduri numerice ori de câte ori este posibil – pentru a se micşora la maximum timpul de introducere a datelor şi a se minimiza riscul de eroare. Tot din aceleaşi considerente, deşi am fi tentaţi să definim acest câmp de tip Text, eventual cu dimensiunea 1, un tip de dată încă mai adecvat ar fi „Lookup Wizard”, care elimină complet riscul de eroare, deoarece nu permite utilizatorului decât să selecteze una dintre cele două valori posibile stabilite în faza de proiectare a bazei de date, respectiv M şi F (vezi figura).

Etapele de personalizare [21] a unui câmp de tip „Lookup Wizard”:

1. Se stabileşte locul de unde să fie încărcate valorile predefinite ale câmpului – dintr-un alt tabel, sau introduse manual.

Figura 21-9. Crearea câmpului de tip Lookup Wizard


2. Se stabilesc valorile care vor fi afişate în lista derulantă şi eventual se modifică dimensiunile fizice ale acesteia. De obicei este suficientă utilizarea unei singure coloane de valori.

Figura 21-10. Stabilirea valorilor listei derulante a câmpului de tip Lookup Wizard

3. Se stabileşte, dacă este cazul, o etichetă pentru câmpul de tip Lookup

(de obicei aceasta se lasă identică cu numele câmpului). Este de asemeni utilă limitarea valorilor posibile care vor fi tipărite în câmp la cele din lista derulantă (pentru a se reduce la maximum riscul de introducere a valorilor eronate) şi interzicerea introducerii de valori multiple (un alt principiu de lucru în proiectarea bazelor de date este acela de a memora, pe cât posibil, valori singulare în câmpurile unui tabel – când este totuşi necesară introducerea de valori multiple fiind mai bine să se adauge câmpuri suplimentare la tabel).

Figura 21-11. Stabilirea etichetei câmpului de tip Lookup Wizard


4. Rezultatul acestei operaţiuni: La introducerea înregistrărilor, în coloana „Sex” avem în dreptul fiecărei înregistrări o listă derulantă de tip ComboBox cu valorile posibile, dintre care se va selecta valoarea dorită.

Figura 21-12. Vizualizarea listei derulante pentru câmpul de tip Lookup Wizard

5. Câmpurile DOMICILIU, JUDET: se pot defini tot de tip Text sau

Lookup Wizard; la DOMICILIU valorile posibile vor fi U (pentru mediul urban) şi R (pentru mediul rural), iar la JUDET se va încărca lista tuturor judeţelor din România.

6. Câmpul LOCALITATE: este de tip Text, cu dimensiunea de 25 caractere (spaţiu suficient pentru a scrie nume de localităţi din România).

7. Câmpul CAS: prin acest câmp dorim să bifăm pacienţii care beneficiază de asigurare de sănătate; prin urmare, tipul de dată cel mai adecvat este „Yes/No”. În funcţie de natura informaţiilor dintr-un câmp de tip „Yes/No”, se

poate opta între 3 formatări disponibile de afişare a datelor: True/False, Yes/No sau On/Off, deşi acestea, indiferent de formatul selectat, vor fi introduse în acelaşi mod – prin bifarea unui control de tip CheckBox (vezi figura).

Figura 21-13. Setarea formatului de data de tip „Yes/No”


8. Câmpul ANAMNEZA: În acest câmp va fi descrisă anamneza bolii; deoarece este necesar un spaţiu mai mare, pentru introducerea unor caracterizări potenţial complexe, tipul de dată cel mai adecvat va fi Memo. Fiind vorba de un câmp de tip text, cu lungime mare, nu este necesară specificarea altor proprietăţi suplimentare.

9. Câmpul INALTIME: Se va introduce înălţimea pacienţilor, exprimată în metri – prin urmare, tipul de dată adecvat va fi Number, şi, pentru a putea lucra cu numere reale, este obligatoriu să folosim un format adecvat – de exemplu, formatul „Double” în proprietatea „Field Size” şi să precizăm numărul de cifre cu care dorim să exprimăm partea zecimală a valorilor introduse, în proprietatea „Decimal Places” – de exemplu 2 cifre (vezi figura).

Figura 21-14. Setarea proprietăţilor auxiliare pentru câmpul de tip numeric

10. Câmpurile GREUTATE, GLICEMIE, COLESTEROL: se vor

introduce valori numerice, întregi, prin urmare tipul cel mai potrivit de dată este Number – cu formatul “Long Integer” – pentru a putea introduce valori suficient de mari dacă este cazul. De multe ori, în cazul în care se lucrează cu valori numerice (dar şi cu valori de tip Text), în ideea de a se controla rata erorilor care pot apare la încărcarea datelor în tabel se introduce în descrierea câmpurilor o regulă de validare (prin personalizarea proprietăţii „Validation Rule”), astfel încât să nu fie acceptate în câmpul respectiv decât valorile care satisfac acea regulă de validare – în cazul în care regula nu este satisfăcută, fiind afişat un mesaj de atenţionare, stabilit prin personalizarea proprietăţii „Validation Text”. Astfel, convenim că greutatea unei persoane nu poate depăşi valoarea 1000 kg. Regula de validare şi textul de validare vor fi definite conform figurii de mai jos:


Figura 21-15. Setarea proprietăţilor auxiliare pentru câmpul de tip numeric

Rezultatul definirii acestei reguli de validare este indicat în figura de mai jos şi se manifestă în etapa de introducere a datelor, atunci când sunt introduse valori care nu satisfac regula de validare definită:

Figura 21-16. Mesaj de nerespectarea setării de validare

Convenim că glicemia unei persoane se exprimă în mg/dl, ceea ce înseamnă că plaja de variaţie a sa va fi între 10 şi 1000. Regula de validare şi textul de validare vor fi definite conform figurii de mai jos:

Figura 21-17. Setarea regulii de validare pentru glicemie


11. Câmpul BMI: Se vor introduce valorile BMI, calculate pe baza înălţimii şi a greutăţii pacienţilor. Se cunoaşte formula de calcul a Indicelui de Masă Corporală (BMI):

BMI = Greutatea (kg) / (Înălţime (m) x Înălţime (m)). O posibilitate este de a calcula valorile manual, pentru fiecare pacient în parte, şi de a le introduce în câmpul BMI de tip Number, dar mult mai comod este să calculăm automat aceste valori, definind câmpul BMI de tip Calculated şi introducând în proprietatea „Expression” formula de calcul a acestuia, construită pe baza valorilor existente în celelalte câmpuri ale tabelului (vezi figura).

Figura 21-18. Setarea expresiei de calcul a BMI

Editarea de expresii [20] nu este foarte dificilă în Access, realizându-

se într-o fereastră de construcţie, numită „Expression Builder”, care permite combinarea în expresii matematice a câmpurilor unui tabel – indicate prin numele lor, scris între paranteze pătrate [ ], precum şi a funcţiilor, constantelor şi operatorilor disponibili în program (vezi figura).

Figura 21-19. Editarea expresiilor cu „Expression Builder”,


12. Câmpul SUSPECT DIABET: Se va completa cu DA dacă glicemia înregistrată a persoanei este peste valoarea 110 şi cu NU în caz contrar; poate fi definit ca un câmp de tip text care se completează manual pentru fiecare pacient în parte, sau poate fi definit tot ca un câmp de tip Calculated, care se va completa automat prin evaluarea funcţiei din figura de mai jos.

Figura 21-20. Definirea câmpului de tip Calculated

Pentru calcularea sa am folosit funcţia IIF() disponibilă în Access,

care are sintaxa: IIF (expresie, adevărat, fals), cu următoarea semnificaţie:

Expresie: este o expresie matematică, ce va fi evaluată: în cazul nostru am folosit expresia [glicemie] > 110;

Adevărat: este o valoare sau o expresie care va fi returnată în cazul în care expresia evaluată iniţial este adevărată: în cazul nostru dorim să afişăm textul DA;

Fals: este o valoare sau o expresie care va fi returnată în cazul în care expresia evaluată iniţial este falsă: în cazul nostru dorim să afişăm textul NU.

13. Câmpul COLESTEROL MARIT: Se va completa cu DA dacă

colesterolul înregistrat al persoanei este peste valoarea 200 şi cu NU în caz contrar; cel mai eficient este să definim şi acest câmp tot de tip Calculated şi să îl calculăm folosind funcţia IIF (vezi figura de mai jos).

Figura 21-21. Definirea câmpului de tip Calculated


Sortarea înregistrărilor Sortarea are ca efect aranjarea înregistrărilor într-o ordine astfel încât valorile din câmpul după care se face sortarea să se afle în ordinea dorită [18]. Sortarea se poate face în ordine crescătoare sau descrescătoare astfel [22]:

1. se selectează câmpul după care se va face sortarea (criteriu sau cheie a sortării),

2. se declanşează sortarea în ordinea dorită (vezi figura de mai jos).

Figura 21-22. Sortarea înregistrărilor

In figura de mai jos sunt ilustrate butoanele utilizate pentru sortarea crescătoare, descrescătoare şi pentru eliminarea sortării şi revenirea la ordinea iniţială.

Figura 21-23. Tabel cu date în Microsoft Acces

Filtrarea înregistrărilor Filtrarea permite afişarea doar a înregistrărilor care satisfac un criteriu (condiţie) de filtrare. Selectând câmpul după care se doreşte filtrarea şi apoi alegând Filter va fi afişat dialogul cu opţiunile de filtrare. Aici sunt listate valorile distincte din


câmpul selectat. Prin bifarea sau debifarea lor, realizăm filtrarea înregistrărilor pe baza valorilor respective. O altă metodă de filtrare presupune activarea comenzii Text Filters sau Number Filters din meniul de filtrare. În continuare, trebuie ales un operator de tipul: Equals (egal cu), Does Not Equal (diferit de), Less Than (mai mic decât), Greater Than (mai mare decât), Between (în intervalul). Se va introduce apoi operandul, adică valoare asupra căreia acţionează operatorul selectat (vezi figura de mai jos).

Figura 21-24. Filtrarea înregistrărilor

Figura 21-25. Tabel cu date în Microsoft Access Pentru eliminarea filtrului definit la nivelul unui câmp al unui tabel se foloseşte butonul Toggle Filter din meniu-ul superior.

Figura 21-26. Eliminarea filtrului definit


Alte operaţii referitoare la înregistrările unui tabel (Secţiunile Records şi Find)

Figura 21-27. Secţiunile Records şi Find

a) Adăugarea de înregistrări noi: În momentul în care se începe

editarea conţinutului unei înregistrări într-un tabel, după aceasta se adaugă automat o linie nouă, vidă, pe care urmează a se introduce o nouă înregistrare. Comanda New din meniu-ul superior are exact

acelaşi efect, , cu singura deosebire că, în plus, cursorul se mută pe linia nou-introdusă în tabel pentru a se începe editarea acesteia.

b) Ştergerea unei înregistrări: Se selectează înregistrarea (linia) din tabel pe care dorim să o ştergem, după care se foloseşte comanda

Delete, . În acest moment va apare un mesaj de confirmare a ştergerii (vezi figura), prin care suntem avertizaţi că, din momentul în care efectuăm ştergerea datele nu vor mai putea fi recuperate, pentru a se evita eventualele ştergeri accidentale.

Figura 21-28. Confirmarea ştergerii unei înregistrări

c) Salvarea înregistrărilor: Se foloseşte dacă dorim în mod explicit să

salvăm doar conţinutul tabelului curent din baza de date, folosind

comanda Save . În mod normal, salvarea globală a fişierului care conţine întreaga bază de date, folosind comanda generală de salvare,

, presupune şi salvarea modificărilor din tabelele bazei de date, deci poate fi folosită ca înlocuitor al comenzii specializate de salvare fără nici un fel de dificultăţi.


d) Poziţionarea pe o anumită înregistrare din tabel: Se realizează

folosind comanda Go To, , cu opţiunile: • First: ne poziţionăm pe prima înregistrare din tabel • Last: ne poziţionăm pe ultima înregistrare din tabel • Previous: ne poziţionăm pe înregistrarea anterioară celei

curente; • Next: ne poziţionăm pe înregistrarea care o urmează pe

cea curentă; • New: se adaugă o nouă înregistrare, vidă, la finalul

tabelului şi ne poziţionăm pe ea.

e) Select all: Este o opţiune a comenzii Select , prin care se selectează întregul conţinut al tabelului – echivalentă cu combinaţia de taste CTRL+A sau cu click pe pătratul din colţul din stânga-sus al tabelului (similar cu comanda de selectare a unui tabel în Excel) – vezi figura.

Figura 21-29. Modul de afişare a selecţiei totale

f) Căutarea unei valori specifice într-un tabel: Se realizează folosind

comanda Find , după care se precizează modul în care urmează a se realiza căutarea respectivă: • În secţiunea „Find What”: se indică valoarea pe care dorim să o

căutăm; • În secţiunea „Look In”: se indică locul în care se va realiza

căutarea – în câmpul selectat al tabelului, „Current field”, sau în întregul tabel , „Current document”;

• În secţiunea „Match”: se indică modul în care se va realiza căutarea – se caută potrivirile exacte ale valorilor din câmpuri cu valoarea căutată, „Whole Field”, câmpurile care încep cu valoarea căutată, „Start of Field”, sau câmpurile care conţin în interiorul lor valoarea căutată, „Any Part of Field”.


Figura 21-30. Setarea ferestrei Find

g) Înlocuirea unei valori specifice într-un tabel cu o valoare nouă: Se

realizează folosind comanda Replace, , specificând aceleaşi informaţii ca la comanda Fiind.

Figura 21-31. Setarea ferestrei Replace

h) Realizarea de calcule cu valorile dintr-un tabel: Se foloseşte

comanda Totals, , care adaugă la finalul tabelului o linie de totaluri în care se pot calcula rezultatele următoarelor funcţii: • Pentru câmpuri de tip Text, Memo sau Yes/No: Se calculează

funcţia COUNT, adică numărul înregistrărilor care au valori nevide în câmpul respectiv (de tip Text sau Memo) sau care au controlul de tip CheckBox bifat (câmpuri de tip Yes/No);

• Pentru câmpuri de tip Number: Se calculează oricare dintre următoarele funcţii disponibile:

SUM (suma valorilor din câmpul respectiv),


AVERAGE (valoarea medie), COUNT (numărul valorilor nevide), MAXIMUM (valoarea maximă), MINIMUM (valoarea minimă), STANDARD DEVIATION (deviaţia standard), VARIANCE (varianţa).

• Pentru câmpuri de tip Date/Time: Se calculează oricare dintre funcţiile COUNT, AVERAGE, MINIMUM sau MAXIMUM.

Aceste calcule se realizează în mod implicit pentru toate înregistrările tabelului, dar dacă definim filtre pe câmpurile acestuia, calculele vor fi reactualizate doar pentru înregistrările care îndeplinesc criteriile de filtrare specificate.

EXERCIŢII

1. Sa se creeze o bază de date Access cu o tabelă având următoarea structură:

• ID - Long Integer; • CNP - Text (13); • Nume - Text (20); • Prenume - Text (20); • DataNasterii - DateTime; • Sex - Text (1); • Casatorit - Boolean • Greutate - Numeric, Single; • Diagnostic - Memo.

2. Să se încarce structura creată cu 10 înregistrări. 3. Să se deschidă baza de date pers.accdb. 4. Să se sorteze înregistrările din pers.accdb, tabela Pers, după valorile

din câmpul Ocupatie, în ordine crescătoare (A->Z). 5. Să se sorteze înregistrările din pers.accdb, tabela Pers, după valorile

din câmpul Inaltime, în ordine descrescătoare. 6. Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să

fie afişate doar persoanele casnice şi pensionarii. 7. Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să

fie afişate doar persoanele cu înălţimea mai mare decât 170. 8. Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să

fie afişate doar persoanele cu greutatea în intervalul [70,80].


22 BAZE DE DATE MICROSOFT ACCESS. RELAŢIONAREA TABELELOR


Relaţii între tabele

Bazele de date folosite în practică sunt adesea containere foarte vaste de informaţie – care conţin sute de mii sau milioane de înregistrări, structurate pe zeci sau sute de câmpuri. De aceea este esenţială identificarea unor metode cât mai eficiente pentru manevrarea rapidă a acestor colecţii de date. Astfel s-a născut conceptul de modelare a unei baze de date cu instrumente de natură matematică, care constă în specificarea unei structuri logice după care informaţia din aceasta să fie organizată, în vederea creării, actualizării şi consultării sale cât mai simple şi rapide. Cele mai cunoscute modele de baze de date sunt modelul ierarhic, modelul reţea, modelul relaţional şi modelul obiectual – în prezent, primele două nu se mai utilizează, cel mai eficient şi răspândit model de baze de date fiind modelul relaţional [18]. Acest model, creat în 1970 de matematicianul E.F.Codd, se bazează pe noţiunea matematică de relaţie n-ară şi are în vedere fracţionarea tabelelor de date în tabele mai mici, care să conţină în general informaţii omogene şi din care să poată fi reconstituit în orice moment tabelul iniţial fără nici un risc de amestecare a informaţiilor. De exemplu, un tabel cu informaţii despre pacienţii unui spital ar trebui să conţină următoarele categorii de informaţii: datele administrative ale pacientului: date personale de identificare şi

date financiare (situaţia asigurării sale de sănătate) datele medicale permanente: înregistrările unor parametri biologici

constanţi pe parcursul vieţii individului şi care nu sunt afectaţi de starea de sănătate sau de boală a acestuia: rasă, înălţime, grupă de sânge, măsurători antropometrice (ex. măsurători faciale în ortodonţie)

date medicale variabile: înregistrările unor parametri biologici care sunt afectaţi de starea de boală a pacientului, fiind chiar un indicator al gravităţii acesteia şi al eficienţei tratamentului administrat: rezultatele examenului fizic, analize de laborator, imagini (radiografii, RMN-uri, CT-uri, scintigrame), înregistrări ale semnalelor biologice (EKG, ECG, etc.). În majoritatea situaţiilor sunt necesare chiar mai multe determinări pentru aceşti parametri, tocmai pentru a se putea cuantifica evoluţia bolii.

180 | Baze de date Microsoft Access. Relaţionarea tabelelor.

date privind spitalizarea şi costurile acesteia date privind tratamentul administrat: medicamente, doze, perioade,

costuri, furnizori. Este clar că utilizarea unui singur tabel care să conţină toate aceste informaţii este foarte dificilă, astfel încât se recomandă structurarea datelor în mai multe tabele, care să conţină informaţiile similare. De exemplu, datele administrative ale pacienţilor pot fi stocate într-un tabel denumit Pacienţi, datele medicale permanente într-un tabel separat denumit Med_permanente, iar datele medicale variabile, în funcţie de natura lor, în tabele separate numite Examen_fizic, Laborator, Imagistica, Tratament etc. Vorbim astfel despre baze de date relaţionale. Problema majoră care apare este însă aceea de a „pune în legătură” informaţiile/înregistrările din aceste tabele astfel încât să ştim, fără nici o posibilitate de eroare, cărei înregistrări din tabelul Pacienţi îi corespunde o înregistrare din tabelul Med_permanente, din tabelul Examen_fizic şi aşa mai departe. Această sincronizare se face prin crearea unei relaţii între tabele, două câte două. În general relaţiile între tabele sunt direcţionate dinspre un tabel, care se va numi primar, către celălalt, care se va numi legat. Condiţia pentru a putea crea o astfel de relaţie este existenţa unui câmp comun în cele două tabele pe baza căruia înregistrările vor fi sincronizate, şi care să identifice aceste înregistrări, denumit cheie de legătură. De obicei, pentru a se asigura unicitatea, câmpul comun va conţine un cod numeric de identificare – în cazul unor liste de persoane acesta fiind codul numeric personal (CNP) sau, în spitale, codul foii de observaţie. De exemplu, în cazul tabelelor propuse mai sus, Pacienţi şi Med_permanente, câmpul comun este ID, un cod numeric de identificare a persoanei/pacientului (vezi figura de mai jos). Pentru a asigura unicitatea, câmpul ID va fi declarat drept cheie primară (primary key) – dar numai în situaţiile în care se doreşte ca valorile din acest câmp să apară o singură dată în tabel, identificând astfel în mod unic înregistrările.

Figura 22-1. Definirea chei primare (primary key)

Baze de date Microsoft Access. Relaţionarea tabelelor. | 181

Relaţiile între tabele sunt de mai multe tipuri: Unu la Unu (One-to-One): unei înregistrări din primul tabel îi

corespunde o singură înregistrare din al doilea tabel - vezi exemplul cu tabelele Pacienţi şi Med_permanente de mai sus; în acest caz este necesar ca, atât la nivelul tabelului primar cât şi la nivelul tabelului legat, cheia de legătură (respectiv câmpul ID) să fie cheie primară – adică în ambele tabele să existe câte o singură înregistrare care să aibă o valoare dată pentru cheia de legătură.

Unu la Mai Multe (One-to-Many): unei înregistrări din primul tabel îi corespund mai multe înregistrări din al doilea tabel – acesta este cazul tabelelor Pacienţi şi Examen_fizic: tabelul Pacienţi este tabel primar, în care cheia de legătură ID este cheie primară, deoarece identifică în mod unic pacienţii, iar tabelul Examen_fizic este tabel legat, în care pentru acelaşi pacient, identificat prin cheia de legătură ID, au fost realizate pe parcursul internării mai multe examinări fizice ale căror rezultate au fost înregistrate – astfel încât cheia de legătură nu poate fi definită drept primară, iar relaţia are rolul de a asocia fiecărui pacient toate examenele fizice care i-au fost efectuate.

Mai Multe la Mai Multe (Many-to-Many): nici una, una sau mai multe înregistrări din prima tabelă sunt puse în corespondenţă cu nici una, una sau mai multe înregistrări din a doua tabelă – acesta este cazul tabelelor Examen_fizic şi Laborator: la mai multe examene fizice efectuate pentru acelaşi pacient, identificat prin intermediul codului său numeric ID se asociază mai multe seturi de analize de laborator pentru acel pacient, identificate tot prin codul numeric ID. În acest caz, nici în tabelul primar, Examen_fizic, şi nici în tabelul legat, Laborator, cheia de legătură nu poate fi definită drept cheie primară. În practică, acest tip de relaţie între tabele nu este recomandat şi se reduce la două relaţii de tip One-to-Many prin introducerea unui tabel auxiliar între cele două tabele, denumit tabel de joncţiune, astfel încât vom defini câte o relaţie de tip One-to-Many între tabelul primar şi tabelul de joncţiune, respectiv între tabelul legat şi tabelul de joncţiune.

Presupunem că avem o bază de date denumită Medicale.accdb,

care conţine trei tabele după modelul de mai sus:

Tabelul Pacienti, cu structura: ID Number NUME, PRENUME Text VARSTA Number SEX Text CAS Yes/No


Tabelul Med_permanente, cu structura:

ID Number INALTIME Number GREUTATE Number GRUPA DE SANGE Text

Tabelul Examen_fizic, cu structura:

ID Number TEMPERATURA Number CEFALEE Yes/No AMETEALA Yes/No DURERI DE GAT Yes/No

Cheia de legătură între cele trei tabele va fi câmpul ID, tabelul primar fiind Pacienti. Între tabelele Pacienti şi Med_permanente vom defini o relaţie de

tip One-to-One, iar între tabelele Pacienti şi Examen_fizic vom defini o relaţie de tip One-to-Many. Din acest motiv, în tabelele Pacienti şi Med_permanente, cheia de legătură ID este definită drept cheie primară, iar în tabelul Examen_fizic aceasta este doar cheie de legătură (fără a fi primară).

Pentru definirea unei baze de date noi se foloseşte comanda File / New / Blank Database / Create, iar primul tabel, Pacienti, se defineşte în mod obişnuit (vezi capitolul anterior). Câmpul ID se defineşte drept cheie primară folosind comanda Primary Key (vezi figura).

Figura 22-2. Definirea Primary key

Pentru adăugarea celorlalte două tabele în baza de date Medicale se

foloseşte din meniul superior comanda Create / Table, după care tabelele se definesc similar.


Pasul următor îl reprezintă crearea relaţiilor. Pentru

aceasta, mai întâi se închid toate cele trei tabele. Apoi, din secţiunea Database Tools se selectează comanda Relationships şi se încarcă toate cele trei tabele în zona de editare a relaţiei, folosind butonul Add (vezi figura).

Figura 22-3. Încărcarea tabelelor bazei de date

Se iniţiază crearea relaţiilor dintre tabele selectându-se cu mouse-ul câmpul comun din tabelul primar, după care acesta se trage cu mouse-ul (prin drag&drop) peste câmpul corespunzător din tabelul legat. Tipul relaţiei este stabilit în mod automat, în funcţie de modul în care sunt definite câmpurile între care se stabileşte relaţia (One-to-One dacă ambele câmpuri sunt definite drept chei primare, şi One-to-Many dacă doar câmpul din tabelul primar este definit drept cheie primară) [22].

Figura 22-4. Editarea relaţiilor


În continuare se setează proprietăţile relaţiei (vezi figura). - Opţiunea Enforce Referential Integrity permite activarea unui sistem

de verificare a consistenţei conţinutului celor două tabele aflate în relaţie, respectiv, dacă pentru fiecare înregistrare din tabelul părinte există o înregistrare corespondentă în tabelul legat şi reciproc;

- Cascade Update Related Fields face ca modificarea conţinutului unui câmp aflat la în tabelul părinte (ID) să se propage şi în tabelul legat;

- Cascade Delete Related Records propagă ştergerea înregistrărilor dintr-un tabel către celălalt tabel la înregistrările corespondente.

Definirea efectivă a relaţiei se realizează folosind butonul Create, după care relaţia este prezentată grafic între cele două tabele ca în figura de mai jos.

Figura 22-5. Setarea proprietăţilor relaţiei

Relaţia de tip One-to-Many se creează în aceeaşi manieră (vezi figura).

Figura 22-6. Editarea relaţiei

Dacă, la crearea relaţiilor, nu se bifează proprietatea „Enforce Referential Integrity”, acestea vor fi figurate doar generic, fără etichetele 1 – 1 respectiv 1 - ∞.


Odată ce relaţiile sunt active, o înregistrare poate fi expandată prin intermediul nodului + astfel încât să fie afişată şi înregistrarea / înregistrările corespondente din celălalt tabel (vezi figura de mai jos).

Figura 22-7. Module de afişare a înregistrărilor corespondente din mai multe

tabele

Editarea relaţiilor după ce acestea au fost definite se realizează prin selectarea lor, după care se foloseşte, din secţiunea Design, comanda Edit Relationships. Pentru ştergerea unei relaţii între două tabele aceasta se selectează, după care se foloseşte din secţiunea Home / Records comanda Delete.

EXERCIŢII

1. Să se adauge în tabelele Pacienti şi Med_permanente un câmp nou numit CNP de tip Text. Să se creeze o relaţie de tip One-to-One între cele două tabele pe baza câmpului CNP.

2. Să se seteze ambele opţiuni Cascade Update Related Fields şi Cascade Delete Related Records după care să se verifice efectul activării acestor opţiunii.

3. Să se şteargă relaţia dintre cele două tabele.


23 INTEROGĂRI SQL ÎN MICROSOFT ACCES Noţiuni prezentate:

Interogări (queries) SQL

O interogare (query) este un obiect Access care se construieşte în jurul unei instrucţiuni SQL, SQL (Structured Query Language) fiind un limbaj pentru accesarea bazelor de date relaţionale [21]. Interogările scrise în acest limbaj sunt folosite pentru extragerea de informaţii din baza de date.

Pentru crearea unei interogări, în secţiunea Create, se activează butonul Query Design. Există mai multe modalităţi de a crea un query dar vom prezenta în continuare editarea directă, textuală, a query-urilor în modul SQL View.

Figura 23-1. Crearea interogărilor SQL

Editarea se face într-o fereastră separată (vezi figura), în care

interogarea se tipăreşte de la tastatură, cu respectarea unor reguli de sintaxă bine definite.

Figura 23-2. Editarea sintaxei interogării SQL

Execuţia query-ului creat se face prin apăsarea butonului Run.

Interogări SQL în Microsoft Access | 187

Într-o fereastră de editare se poate tipări o singură interogare la un moment dat – pentru tipărirea unei noi interogări trebuind activată o nouă fereastră de editare, tot cu ajutorul comenzilor Create / Query Design.

Interogările SQL sunt în principal de patru tipuri: - Extragere de informaţii din baza de date: folosind comanda SELECT

[23]: SELECT câmpuri FROM table_name WHERE condiţie

- Adăugare de noi înregistrări într-un tabelă folosind comanda INSERT: INSERT INTO tabel (câmp1, câmp1, ...) VALUES (valoare1, valoare2, ...)

- Modificarea conţinutului înregistrărilor unui tabel: folosind comanda UPDATE:

UPDATE tabel SET câmp1=valoare1,câmp2=valoare2,...WHERE condiţie - Ştergerea înregistrărilor dintr-un tabel: folosind comanda DELETE:

DELETE FROM tabel WHERE condiţie Extragerea de informaţii dintr-o bază de date: SELECT

Sintaxa generală şi simplificată a comenzii SELECT este: SELECT <listă de câmpuri> FROM <nume tabel> WHERE <condiţie> ORDER BY <lista de câmpuri> [ASC /DESC], unde:

- <listă de câmpuri>: se foloseşte pentru a specifica unul sau mai multe câmpuri / coloane din tabel care vor fi selectate şi afişate prin comanda de interogare;

- FROM <nume tabel>: reprezintă numele tabelului din care se aleg informaţiile care vor fi extrase şi afişate;

- WHERE <condiţie>: se foloseşte pentru a indica un criteriu de filtrare a înregistrărilor / liniilor tabelului, astfel încât vor fi selectate doar înregistrările care îndeplinesc acel criteriu;

- ORDER BY <lista de câmpuri> [ASC /DESC]: se foloseşte pentru a defini un criteriu de ordonare a înregistrărilor selectate din tabel, după valorile specificate în lista de câmpuri; ordinea implicită în care sunt aşezate înregistrările este cea crescătoare, [ASC], iar dacă dorim ca înregistrările să fie aşezate în ordine descrescătoare trebuie să folosim parametrul [DESC].

Observaţie: Utilizarea tuturor acestor parametri într-o interogare nu

este obligatorie, în schimb ordinea de utilizare a lor trebuie să fie cea din sintaxa de mai sus – în cazul în care ordinea este inversată, interogarea generând un mesaj de eroare [21].

188 | Interogări SQL în Microsoft Access

În cele ce urmează vom lucra cu tabelul PERSOANE, pe care l-am

creat în capitolul 21.

a) Selectarea unuia sau mai multor câmpuri dintr-un tabel al unei baze de date: Se realizează folosind comanda SELECT sub forma: SELECT <listă de câmpuri> FROM <nume tabel>, unde:

- Câmpurile se precizează indicând exact numele lor, separate prin virgulă;

- Dacă se lucrează cu câmpuri având numele format dintr-un singur cuvânt (nume simple), este suficient să precizăm în comanda SELECT doar numele acestora:

Exemplu: Pentru a afişa, din tabelul PERSOANE, vârsta, sexul şi anamneza

pacienţilor, interogarea va avea sintaxa: SELECT VARSTA, SEX, ANAMNEZA FROM PERSOANE

- Dacă se lucrează cu câmpuri având numele format din mai multe

cuvinte şi eventual alte semne de punctuaţie (nume compuse), în mod obligatoriu acestea vor trebui incluse între paranteze pătrate:

Exemplu: Pentru a afişa, din tabelul PERSOANE, numele şi prenumele,

data naşterii şi vârsta pacienţilor, interogarea va avea sintaxa: SELECT [NUME, PRENUME], [DATA NASTERII], VARSTA FROM PERSOANE

- Regula sintactică completă pentru a specifica numele unui câmp al unui

tabel presupune, în general, şi indicarea numelui tabelului din care provine acesta, într-o construcţie de forma:

nume tabel.[nume câmp] Unele dintre aceste elemente sunt facultative, după cum am descris în situaţiile anterioare, dar comenzile SELECT complete ar fi fost:

SELECT PERSOANE.[VARSTA], PERSOANE. [SEX], PERSOANE.[ANAMNEZA] FROM PERSOANE

respectiv SELECT PERSOANE.[NUME, PRENUME], PERSOANE.[DATA NASTERII], PERSOANE.[VARSTA] FROM PERSOANE


- Dacă dorim să selectăm şi să afişăm toate câmpurile dintr-un tabel, nu este necesar să indicăm numele lor în mod explicit, fiind suficient să folosim semnul *:

SELECT * FROM PERSOANE

b) Selectarea înregistrărilor care îndeplinesc o anumită condiţie dintr-un tabel al unei baze de date Se realizează folosind comanda SELECT sub forma:

SELECT <listă de câmpuri> FROM <nume tabel> WHERE <condiţie> ,

unde condiţia este o expresie în Access, scrisă folosind regulile de editare ale acesteia, care depind în principal de tipul de dată al câmpurilor utilizate.

Forma generală a unei condiţii în Access este: [nume câmp] operator <expresie>

sau, în cazul în care se doreşte combinarea mai multor condiţii, <condiţie 1> AND <condiţie 2> AND … AND <condiţie n>

când se doreşte ca aceste condiţii să fie îndeplinite simultan, respectiv <condiţie 1> OR <condiţie 2> OR … OR <condiţie n> când se doreşte ca măcar una dintre aceste condiţii să fie îndeplinită,

fiecare dintre condiţiile specificate, <condiţie 1>, <condiţie 2>, … <condiţie n> fiind de forma indicată mai sus: [nume câmp] operator <expresie>.

Reguli pentru construirea de expresii folosind câmpuri de tip Text sau Memo: - Valoarea căutată în câmpul respectiv se va specifica întotdeauna între

ghilimele, „ ” - Pentru a se căuta potrivirile exacte se foloseşte operatorul „=” Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume

este „popescu”, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [NUME, PRENUME] = „POPESCU”

- Pentru a se căuta potrivirile parţiale se foloseşte operatorul LIKE şi

simbolurile de tip „wildcard”: *, care înlocuieşte orice şir de caractere, de lungime neprecizată, respectiv ?, care înlocuieşte un singur caracter:

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume

începe cu litera P, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [NUME, PRENUME] LIKE „P*”


Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume NU începe cu litera P, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE [NUME, PRENUME] NOT LIKE „P*”

Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume se termină cu literele „escu”, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE [NUME, PRENUME] LIKE „*ESCU”

Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume începe cu literele D, E, F sau G, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE [NUME, PRENUME] LIKE „[D-G]*”

(când dorim să indicăm un caracter care aparţine unui şir de caractere, este suficient să precizăm şirul respectiv între paranteze pătrate [], iar dacă şirul conţine caractere consecutive, se vor indica doar primul şi ultimul caracter, iar între ele se pune semnul -). - Pentru a se căuta potrivirile multiple, se poate folosi operatorul IN,

urmat o listă de şiruri de caractere, ceea ce înseamnă că vor fi selectate toate înregistrările care conţin în câmpul specificat unul dintre şirurile de caractere indicate în listă:

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care au în anamneză „febra” sau „cefalee”, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE ANAMNEZA IN ( „FEBRA”, „CEFALEE”)

sau SELECT * FROM PERSOANE WHERE ANAMNEZA = „FEBRA” OR ANAMNEZA = „CEFALEE” Reguli pentru construirea de expresii folosind câmpuri de tip Number sau AutoNumber:

- Valoarea căutată în câmpul respectiv se va specifica direct, fără ghilimele;

- Operatorii disponibili sunt: =, <>, <, <=, >, >=, BETWEEN: Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta de 30 de ani, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE VARSTA=30


Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta peste 30 de ani, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE VARSTA >=30

Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta între 30 şi 35 de ani, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE VARSTA BETWEEN 30 AND 35

sau SELECT * FROM PERSOANE WHERE VARSTA >= 30 AND VARSTA <= 35

Reguli pentru construirea de expresii folosind câmpuri de tip

Date/Time: - Valoarea căutată în câmpul respectiv se va specifica între semnele # #; - Operatorii disponibili sunt = şi BETWEEN, la care se pot adăuga

funcţiile care utilizează date calendaristice, respectiv: • YEAR(dată calendaristică) – returnează anul din data

calendaristică introdusă; • MONTH(dată calendaristică) – returnează luna din data

calendaristică introdusă; • DAY(dată calendaristică) – returnează ziua din data

calendaristică introdusă; • DATE() – returnează data curentă a sistemului; • NOW() – returnează data şi ora curentă a sistemului.

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut pe 20 iunie 2000, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE [DATA NASTERII] = #6/20/2000#

Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în luna iunie 2000, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE [DATA NASTERII] BETWEEN #6/1/2000# AND #6/30/2000#

Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în anul 2000, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE YEAR([DATA NASTERII]) = 2000


Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în luna iunie, indiferent de an, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE MONTH([DATA NASTERII]) = 6

Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut într-o zi de 23, indiferent de lună şi an, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE DAY([DATA NASTERII]) = 23

Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în anul curent, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE YEAR([DATA NASTERII]) = YEAR(DATE())

Reguli pentru construirea de expresii folosind câmpuri de tip

Yes/No: - Valoarea căutată în câmpul respectiv se va specifica direct; indiferent de

formatul indicat pentru câmp, valorile YES, TRUE şi ON sunt echivalente, la fel ca şi valorile NO, FALSE şi OFF;

- Operatorii disponibili sunt = şi <>. Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care au asigurare de sănătate, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE CAS = YES

Pentru a afişa, din tabelul PERSOANE, pacienţii care nu au asigurare de sănătate, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE CAS = NO

Condiţiile de filtrare a înregistrărilor dintr-un tabel pot fi combinate

fără nici un fel de restricţii, şi se pot referi la mai multe câmpuri ale tabelului; de asemenea, ele pot fi combinate şi cu selectarea anumitor câmpuri din tabel, nefiind obligatorie afişarea tuturor câmpurilor atunci când selectăm înregistrări dintr-un tabel. Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii de sex feminin şi cu vârsta peste 30 de ani, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE SEX=”F” AND VARSTA>30


Pentru a afişa, din tabelul PERSOANE, numele pacienţilor de sex feminin şi cu vârsta peste 30 de ani, interogarea va avea sintaxa:

SELECT [NUME, PRENUME] FROM PERSOANE WHERE SEX=”F” AND VARSTA>30

c) Afişarea în ordine a înregistrărilor selectate dintr-un tabel:

Se realizează folosind comanda SELECT sub forma:

SELECT <listă de câmpuri> FROM <nume tabel> WHERE <condiţie> ORDER BY <lista de câmpuri> [ASC /DESC]

Exemplu: Pentru a afişa, din tabelul PERSOANE, toţi pacienţii în ordine alfabetică, interogarea va avea sintaxa:

SELECT * FROM PERSOANE ORDER BY [NUME, PRENUME]

Pentru a afişa, din tabelul PERSOANE, pacienţii cu asigurare de sănătate în ordinea crescătoare a vârstelor, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE CAS = YES ORDER BY VARSTA

Pentru a afişa, din tabelul PERSOANE, pacienţii cu asigurare de sănătate în ordinea descrescătoare a vârstelor, interogarea va avea sintaxa:

SELECT * FROM PERSOANE WHERE CAS = YES ORDER BY VARSTA DESC

d) Copierea informaţiilor selectate prin SELECT într-un tabel nou al

bazei de date curente: Se realizează adăugând o nouă clauză la comanda SELECT, sub

forma: SELECT <listă de câmpuri> INTO <tabel nou> FROM <nume tabel> WHERE <condiţie> ORDER BY <lista de câmpuri> [ASC /DESC], unde:

Observaţie: Câmpurile autocalculate nu pot fi inserate în tabele noi

folosind clauza INTO.


Exemplu: Pentru a copia, din tabelul PERSOANE, numele, data naşterii şi anamneza tuturor pacienţilor de sex feminin, în ordine crescătoare a vârstelor, într-un alt tabel din baza de date curentă, denumit FEMEI, interogarea va avea sintaxa:

SELECT [NUME, PRENUME], [DATA NASTERII], ANAMNEZA INTO FEMEI FROM PERSOANE WHERE SEX=”F” ORDER BY VARSTA

e) Folosirea comenzii SELECT împreună cu funcţii de agregare,

pentru realizarea de calcule într-o bază de date: Comanda SELECT poate fi folosită indicând, în locul listei de

câmpuri, o listă de funcţii (identice cu cele din comanda Totals, de realizare de calcule pentru conţinutul unui tabel), cu acelaşi rezultat – de realizare a calculelor respective. Funcţiile disponibile sunt [20]: COUNT() – determină numărul de înregistrări din tabel care

îndeplinesc o anumită condiţie; AVG() – determină valoarea medie dintr-un câmp numeric al unei baze

de date; MIN() – determină valoarea minimă dintr-un câmp numeric al unei

baze de date; MAX() – determină valoarea maximă dintr-un câmp numeric al unei

baze de date; STDEV() – determină deviaţia standard a unui câmp numeric al unei

baze de date; VAR() – determină varianţa unui câmp numeric al unei baze de date; SUM() – determină suma valorilor unui câmp numeric al unei baze de

date. Exemplu: Pentru a calcula, în tabelul PERSOANE, numărul pacienţilor de

sex feminin, interogarea va avea sintaxa: SELECT COUNT(∗) FROM PERSOANE WHERE SEX=”F”

Pentru a calcula, în tabelul PERSOANE, vârsta medie, minimă şi maximă ale pacienţilor de sex feminin, interogarea va avea sintaxa:

SELECT AVG(VARSTA), MIN(VARSTA), MAX(VARSTA) FROM PERSOANE WHERE SEX=”F”


Pentru a calcula, în tabelul PERSOANE, deviaţia standard, varianţa şi suma vârstelor pacienţilor de sex feminin, interogarea va avea sintaxa:

SELECT STDEV(VARSTA), VAR(VARSTA), SUM(VARSTA) FROM PERSOANE WHERE SEX=”F”

f) Folosirea comenzii SELECT pentru extragerea de informaţii din

două tabele ale aceleiaşi baze de date, care sunt legate printr-o relaţie: Pentru această operaţie este necesar să folosim comanda SELECT

adăugând clauza JOIN, după cum urmează: SELECT <listă de câmpuri> FROM <nume tabel1> INNER JOIN <nume tabel1> ON <regula de corespondenţă> WHERE <condiţie> ORDER BY <lista de câmpuri> [ASC /DESC] În fapt, există trei variante de combinare a înregistrărilor din două

tabele care sunt legate printr-o relaţie [18]: INNER JOIN: combină înregistrările din cele două tabele ori de câte ori

acestea au aceeaşi valoare în câmpul comun al celor două tabele; LEFT JOIN: foloseşte acelaşi principiu, doar că include toate

înregistrările din primul tabel, chiar dacă pentru unele dintre ele nu există valori cu care să se potrivească în câmpul comun din al doilea tabel;

RIGHT JOIN: foloseşte acelaşi principiu, doar că include toate înregistrările din al doilea tabel, chiar dacă pentru unele dintre ele nu există valori cu care să se potrivească în câmpul comun din primul tabel.

Prin urmare, INNER JOIN este varianta adecvată de combinare a înregistrărilor dacă cele două tabele sunt legate printr-o relaţie de tip one-to-one, în timp ce LEFT JOIN şi RIGHT JOIN sunt variantele adecvate de combinare a înregistrărilor dacă cele două tabele sunt legate printr-o relaţie de tip one-to-many; de obicei este de preferat combinarea înregistrărilor prin LEFT JOIN celei prin RIGHT JOIN, pentru a nu se pierde înregistrările din tabelul primar pentru care nu există corespondenţe în tabelul legat, dar există şi situaţii speciale în care varianta RIGHT JOIN este mai potrivită – în funcţie de modul de proiectare a tabelelor şi de obiectivele concrete pe care le urmărim la unificarea lor.

<Regula de corespondenţă> indică numele câmpului comun al celor două tabele, în care se vor căuta valorile identice după care să se facă potrivirea înregistrărilor.


Deoarece în această situaţie comanda SELECT foloseşte câmpuri din două tabele diferite ale unei baze de date, pentru a nu avea erori este esenţial să utilizăm numele complete ale câmpurilor cu care se lucrează, precizând şi tabelul din care provin acestea. În rest, celelalte clauze ale comenzii SELECT se pot folosi la fel ca în exemplele anterioare. Exemplu: Avem tabelele PACIENTI şi MED_PERMANENTE, legate printr-o

relaţie de tip one-to-one. Dorim să afişăm numele, vârsta, înălţimea şi greutatea persoanelor cu grupa de sânge B; interogarea va avea sintaxa:

SELECT PACIENTI.[NUME, PRENUME], PACIENTI.VARSTA, MED_PERMANENTE.INALTIME, MED_PERMANENTE.GREUTATE FROM PACIENTI INNER JOIN MED_PERMANENTE ON PACIENTI.ID = MED_PERMANENTE.ID WHERE MED_PERMANENTE.[GRUPA DE SANGE] =”B”

Avem tabelele PACIENTI şi EXAMEN_FIZIC, legate printr-o relaţie de tip one-to-many. Dorim să afişăm numele, vârsta, şi temperatura persoanelor cu cefalee; interogarea va avea sintaxa:

SELECT PACIENTI.[NUME, PRENUME], PACIENTI.VARSTA, EXAMEN_FIZIC.TEMPERATURA FROM PACIENTI LEFT JOIN EXAMEN_FIZIC ON PACIENTI.ID = EXAMEN_FIZIC.ID WHERE EXAMEN_FIZIC.CEFALEE = YES


24 FORMURI ŞI RAPOARTE ÎN MICROSOFT ACCESS


formuri; rapoarte

Formuri Cu toate că tabelele prezintă în totalitate datele conţinute în baza de date, ele sunt un mod anost şi nefinisat de afişare. Pentru un aspect profesional al interfeţei cu utilizatorul trebuie să folosim Formuri. Acestea pot fi proiectate după dorinţă, pot conţine texte explicative şi pot afişa doar acele informaţii care sunt necesare. Formurile pot executa şi anumite calcule pe baza datelor introduse. Pentru crearea unui form, vom folosi una din opţiunile din meniul Create, secţiunea Forms [24]. Există câteva tipuri de formulare predefinite (Form, Split Form, Multiple Items) dar şi posibilitatea de a crea un design de la zero pentru noul form (Form Design).

Figura 24-1. Meniul corespunzător creării formurilor Formularul va fi “populat” cu diverse obiecte numite controale (vezi figura de mai jos).

Figura 24-2. Obiecte (controale) necesare în crearea formurilor

Aceste controale pot fi: casete de introducere a textului sau a valorilor numerice (text box), text static (label), butoane virtuale care declanşează o anumită acţiune (button), opţiuni care pot fi bifate (option button sau check box), etc.

198 | Formuri şi rapoarte în Microsoft Access

De exemplu, formularul din imaginea de mai jos (Fişa medicală) conţine o serie de texte statice (label) care indică informaţia conţinută în text box-urile alăturate. În modul Design, conţinutul formularului şi dispunerea obiectelor în formular pot fi schimbate. Pot fi adăugate noi obiecte sau pot fi eliminate obiecte existente. De asemenea, pentru fiecare obiect pot fi afişate şi modificate proprietăţile acestuia, utilizând fereastra Property Sheet (vezi figura de mai jos). Acesta conţine de exemplu: numele obiectului (Name), sursa informaţiilor afişate de acest control (Control Source), formatul de afişare (Format), număr de zecimale afişate în cazul valorilor numerice (Decimals), dimensiunile controlului (Width, Height), etc.

Figura 24-3. Modul Design a unui form (exemplu)

In modul rulare, form-ul arată ca în figura de mai jos. Obiectele Nume, Ocupaţie, Greutate, Înălțime, sunt conectate cu câmpurile cu aceeaşi denumire din baza de date. În partea de jos a ferestrei există un control standard care afişează numărul curent al înregistrării afişate, numărul total de înregistrări şi oferă posibilitatea deplasării pe înregistrarea precedentă sau următoare sau pe prima, respectiv ultima înregistrare din tabelă. De asemenea controlul conţine un buton care oferă posibilitatea adăugării de noi înregistrări. Conţinutul acestora va fi introdus în casete de text din formular.

Formuri şi rapoarte în Microsoft Access | 199

Figura 24-4. Modul de rulare a unui form (exemplu)

Observaţi câmpul IMC (indexul de masă corporală) din formular. Acesta conţine o valoare care nu se găseşte în baza de date ci este o valoare calculată ca greutate/pătratul înălțimii (figura de mai jos).

Figura 24-5. Modul de afişare a unui câmp cu valoare calculată (Expression Builder) Această formulă se introduce în proprietatea Control Source aflată în lista de proprietăţi a casetei de text IMC. Formula poate fi editată în


fereastra Expression Builder folosind denumiri de câmpuri, operatori aritmetici şi logici, constante, etc.

Figura 24-6. Modul de editare al formulei

Rapoarte Rapoartele sunt modalitatea prin care informaţii din baza de date sau legate de acestea pot fi puse într-o formă potrivită pentru tipărire. Putem alege cum să fie tipărită informaţia, ce câmpuri să facă parte din raport, fonturi, dimensiuni, spaţiere, linii, casete, desene şi alte elemente grafice, etc. Rapoartele şi formurile se creează într-un mod foarte similar, introducând controale care for afişa informaţiile dorite. Un raport poate fi vizualizat în 3 moduri diferite:

Design View: se poate observa şi modifica structura raportului; Print Preview: afişează raportul aşa cum va apărea după tipărire; Layout View: mod asemănător cu Print Preview dar se pot face

modificări. Pe lângă caracteristicile prezente în form-uri, rapoartele mai prezintă o serie de facilităţi suplimentare:

grupuri şi secţiuni; antele şi subsoluri de pagină; setarea marginilor, dimensiunii şi orientării paginii.

Pentru crearea unui raport se merge la secţiunea Create şi se alege unul din butoanele pentru crearea rapoartelor. Design View - permite crearea unui raport de la zero; Report Wizard – asistent pentru crearea unui raport specificând câmpurile, gruparea şi sortarea dorite;

Formuri şi rapoarte în Microsoft Access | 201

Report – pentru crearea unui raport simplu pe baza tabelului sau a query-ului curent selectat. În figura de mai jos, observaţi structura unui raport în Design View, cu patru secţiuni: antetul raportului, antetul de pagină, conţinutul, subsolul paginii şi subsolul raportului.

Figura 24-7. Structura (secţiunile) unui raport

EXERCIŢII

1. Să se creeze un formular care să conţină câmpurile Nume, Ocupaţie, Greutate, Înălțime, reprezentând numele, ocupaţiile, greutăţile şi înălţimile persoanelor din baza de date.

2. Să se adauge două câmpuri în formular, LnG, Isq reprezentând valorile calculate Ln(Greutate) şi Înălțime^2.

3. Să se adauge o imagine în colţul de sus stânga al formularului. 4. Să se adauge, folosind formularul, o nouă înregistrare în baza de

date. 5. Să se creeze un raport cu acelaşi conţinut cu al formularului.


BIBLIOGRAFIE

1 John Walkenbach. Excel 2010 Bible. Wiley Publishing, Inc., Indianopolis, Indiana, 2010.

2 Matthew MacDonald. Excel 2010: The Missing Manual. O’Reilly Media, Inc., Sebastopol, CA, 2010.

3 Vijay Gupta. Excel: Beyond the Basics. VJ Books Inc., Canada, 2002. 4 Vijay Gupta. Statistical Analysis with Excel. VJ Books Inc., Canada, 2002. 5 Gerald Knight. Analyzing Business Data with Excel. O'Reilly, 2006. 6 Vijay Gupta. Charting in Excel. VJ Books Inc., Canada, 2002. 7 Jaba E., Grama A. Analiza statistică cu SPSS sub Windows, Polirom, Iași,

2004. 8 Jaba E., Pintilescu C. Statistică: teste grilă și probleme, Ed. a 2-a rev., Sedcom

Libris, Iași, 2007. 9 Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu. Elemente de

Biostatistică – Analiza statistică a datelor biologice. Editura PIM Iasi, 2007. 10 Doina Azoicăi, Lucian V. Boiculese, George Pisică-Donose, Noţiuni de

metodologie epidemiologică şi statistică medicală, Ed. DAN, Iaşi, 2001. 11 Jaba E. Statistica Ediția a III-a. Ed. Econmică, București, 2002. 12 Rand R. Wilcox. Fundamentals of Modern Statistical Methods, Second

Edition. Springer Science+Business Media, LLC, 2010. 13 Le C.T. Introductory Biostatistics, John Wiley & Sons, Inc. 2003. 14 Everitt B.S. Modern Medical Statistics – A practical guide. Oxford University

Press, New York, 2003. 15 Anthony D. Statistics for Health, Life and Social Sciences. Ventus Publishing

ApS, Frederiksberg, Danemarca, 2010. 16 Brink D. Essentials of Statistics. Ventus Publishing ApS, Frederiksberg,

Danemarca, 2010. 17 Ash R.B. Basic Probability Theory, Dover Publications. New York, 2008. 18 Teodorescu Al. Lecţii de Access, Editura Albastră Cluj Napoca, 2002 19 J. Cox and J. Lambert. Microsoft Access 2010 Step by Step. Redmond,

Washington, Microsoft Press, 2010. 20 Groh M.R., Stockman J.C., Powell G., Prague C.N., Irwin M.R., Reardon J.

Access 2007 Bible, John Wilez and Sons Inc., New York, 2007. 21 Jennings R. Using Microsoft Office Access 2003, Que Pub, Pearson

Technology Group, Canada, 2003. 22 M. Mac Donald. Access 2010: The Missing Manual. Sebastopol, O’Reilly

Media, 2010. 23 w3schools.com. SQL Tutorial. [Online]. Disponibil la:

http://www.w3schools.com/sql/default.asp, 2012. 24 GCFLearnFree.org. Access 2010. [Online]. Disponibil la:

http://www.gcflearnfree.org/access 2010, 2012.

Bibliografie | 203

http://www.amazon.com/s/ref=rdr_ext_aut?_encoding=UTF8&index=books&field-author=John%20Walkenbach

http://www.amazon.com/dp/0470474874/ref=rdr_ext_tmb

http://www.w3schools.com/sql/default.asp

http://www.gcflearnfree.org/access%202010

METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ … de curs/Facultatea de Medicina... · 23 Interogări...

Documents

Transcript of METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ … de curs/Facultatea de Medicina... · 23 Interogări...