Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1....

20
Organizarea datelor statistice Conf. dr. habil. Eduard Rotens ¸tein 1 Introducere Partea statisticii care se ocup˘ a cu culegerea, ˆ ınregistrarea, gruparea, descrierea s ¸i sumarizarea datelor este gru- pat˘ a sub titulatura de statistic˘ a descriptiv˘ a. Acea parte care vizeaz˘ a interpretarea s ¸i obt ¸inerea concluziilor din datele colectate ˆ ın cadrul unei experient ¸e se numes ¸te statistic˘ a inferent ¸ial˘ a. Ea se refer˘ a la luarea deciziilor pe baza datelor strˆ anse, estimarea punctual˘ a sau prin intervale de ˆ ıncredere a parametrilor, verificarea ipotezelor statistice, at ˆ at ˆ ın cazul parametric c ˆ at s ¸i ˆ ın cel neparametric. O mult ¸ime de elemente ce posed˘ a o tr˘ as˘ atur˘ a comun˘ a, s ¸i care se cerceteaz˘ ın statistic˘ a, poart˘ a numele de populat ¸ie statistic˘ a (colectivitate statistic˘ a)s ¸i va fi notat˘ a cu Ω. Elementele care alc˘ atuiesc populat ¸ia statistic˘ a se numesc unit˘ at ¸i statistice sau indivizi. Num˘ arul de indivizi care alc˘ atuiesc populat ¸ia statistic˘ a determin˘ a volumul populat ¸iei. Caracteristica X (sau variabila) este o anumit˘ a proprietate urm˘ arit˘ a la indivizii unei colectivit˘ at ¸i statistice s ¸i a arei valoare se poate schimba de la un individ la altul ˆ ın cadrul populat ¸iei. Exist˘ a caracteristici cantitative (cele care se pot m˘ asura, ca vˆ arsta, greutatea, etc.) s ¸i caracteristici calitative. Datele pot proveni din observat ¸iile unei singure caracteristici (sau variabile) sau, simultan, a dou˘ a sau mai multor caracteristici. O mult ¸ime univariat˘ a de date reprezint˘ a datele obt ¸inute prin observarea unei singure variabile; de exemplu, ne intereseaz˘ a timpul de viat ¸˘ a al unui tip de baterii utilizate ˆ ıntr-un anume fel. Avem o mult ¸ime bivariat˘ a de date atunci cˆ and observat ¸iile sunt f˘ acute pentru dou˘ a variabile simultan; de exemplu, ne intereseaz˘ ın˘ alt ¸ime s ¸i greutatea pentru fiecare elev al unei clase, deci fiecare caracteristic˘ a este o pereche de date. Date multivariate avem atunci cˆ and observat ¸iile sunt f˘ acute simultan pentru mai mult de dou˘ a variabile. Unul dintre scopurile statisticii este acela ca, pe baza observat ¸iilor efectuate, s ˘ a determine, prin inferent ¸˘ a, o lege care s ˘ a reprezinte variabila investigat˘ a X. De cele mai multe ori, verificarea unei caracteristici pentru ˆ ıntreaga populat ¸ie este greu de realizat. De regul˘ a, acest lucru se poate obt ¸ine ˆ ın urma unui recens ˘ amˆ ant. Din acest motiv, se analizeaz˘ a caracteristica pe un subgrup al populat ¸iei t ¸int˘ a. Se numes ¸te select ¸ie (e¸ santion) o submult ¸ime a populat ¸iei, adic˘ a o colectivitate part ¸ial˘ a de elemente extrase la ˆ ıntˆ amplare din cadrul populat ¸iei. Not˘ am valorile caracteristicii m˘ asurate pe fiecare element al colectivit˘ at ¸ii part ¸iale cu x i , i = 1, n, unde n este volumul select ¸iei (num˘ arul indivizilor din select ¸ie). Se presupune c˘ a alegerea celor n indivizi ai unui es ¸antion este f˘ acut˘ a astfel ˆ ıncˆ at toate subgrupurile de n indivizi din ˆ ıntreaga populat ¸ie sunt egal probabile de a fi alese. Spunem c ˘ a select ¸ia este repetat˘ a (cu ˆ ıntoarcere, sau bernoullian˘ a) dac˘ a individul extras este reintrodus ˆ ın colectivitate ˆ ınainte de a se extrage urm ˘ atorul; ˆ ın caz contrar, select ¸ia este nerepetat˘ a (ar˘ ıntoarcere). ˆ In cazul acestei select ¸ii aleatoare, ar trebui ca populat ¸ia s ˘ a aib˘ a caracteristica repartizat˘ a omogen, altfel este posibil ca alegerea indivizilor din es ¸antion s˘ a nu reflecte corect structura populat ¸iei. Dac˘ a volumul select ¸iei este foarte mic ˆ ın raport cu volumul populat ¸iei atunci nu se mai face distinct ¸ia ˆ ıntre cele dou˘ a tipuri de select ¸ie (aceasta se va considera repetat˘ a). Remarc˘ am faptul c˘ a statistica trebuie s˘ a se ocupe s ¸i cu dezvoltarea tehnicilor potrivite de colectare a datelor. Dac˘ a aceasta nu este f ˘ acut˘ a corect, atunci analiza datelelor nu poate oferi r˘ aspunsuri cu un nivel de ˆ ıncredere crescut. Exist˘ as ¸i metode alternative de es ¸antionare, metode care, ˆ ın anumite situat ¸ii ofer˘ a solut ¸ii mai practice s ¸i genereaz˘ a select ¸ii mai adecvate decˆ at select ¸ia aleatoare. Unele dintre aceste metode sunt descrise ˆ ın continuare: 1. Select ¸ia stratificat˘ a: populat ¸ia investigat˘ a este ˆ ımp˘ art ¸it˘ ın clase (categorii), dup ˘ a care se realizeaz˘ a select ¸ia la ˆ ıntˆ amplare ˆ ın cadrul fiec ˘ arei clase. Astfel, din fiecare categorie vor exista reprezentant ¸i ˆ ın cadrul es ¸antionului ales, alegerea fiind astfel reprezentativ˘ a. De regul˘ a, es ¸antionarea se face astfel ˆ ıncˆ at num˘ arul indivizilor ales ¸i din cadrul fiec˘ arei clase s˘ a fie proport ¸ional cu cu dimensiunea clasei ˆ ın cadrul populat ¸iei analizate. 2. Select ¸ia sistematic˘ a (algoritmic˘ a): metoda presupune structurarea populat ¸iei dup˘ a un anumit criteriu de or- donare, iar dup˘ a aceasta se aleg indivizii din es ¸antion conform unei reguli specificate, de exemplu o alegere de tip modulo k. 3. Select ¸ia de cot˘ a: este similar˘ a select ¸iei stratificate, es ¸antionul trebuind s˘ a fie o imagine a populat ¸iei t ¸int˘ a, dar la o scar ˘ a redus˘ a. 4. Select ¸ia ciorchine: este, de asemenea, o select ¸ie de tip stratificat, ˆ ıns˘ a se decide alegerea aleatoare a indivizilor ce vor face parte din select ¸ie doar utilizˆ and anumite clase. Renunt ¸area la folosirea unor clase se poate decide, de exemplu, ˆ ın urma unor analize sociologice. O populat ¸ie este descris˘ a numeric de parametri (medie, dispersie, deviat ¸ie standard), parametrii ce sunt, de fapt, ˆ ın centrul studiilor statistice s ¸i sunt valori numerice ce caracterizeaz˘ ıntreaga populat ¸ie. Cel mai adesea, repartit ¸ia (teoretic˘ a, exact ˘ a) a caracteristicii studiate este necunoscut ˘ a apriori, iar dac ˘ a este cunoscut ˘ a, ea poate fi complet specificat˘ a (neparametrizat˘ a) sau nespecificat˘ a (parametrizat˘ a). O prim˘ a problem˘ a ce trebuie avut˘ ın 1

Transcript of Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1....

Page 1: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Organizarea datelor statisticeConf. dr. habil. Eduard Rotenstein

1 Introducere

Partea statisticii care se ocupa cu culegerea, ınregistrarea, gruparea, descrierea si sumarizarea datelor este gru-pata sub titulatura de statistica descriptiva. Acea parte care vizeaza interpretarea si obtinerea concluziilor dindatele colectate ın cadrul unei experiente se numeste statistica inferentiala. Ea se refera la luarea deciziilor pebaza datelor stranse, estimarea punctuala sau prin intervale de ıncredere a parametrilor, verificarea ipotezelorstatistice, atat ın cazul parametric cat si ın cel neparametric.

O multime de elemente ce poseda o trasatura comuna, si care se cerceteaza ın statistica, poarta numele depopulatie statistica (colectivitate statistica) si va fi notata cu Ω. Elementele care alcatuiesc populatia statistica senumesc unitati statistice sau indivizi. Numarul de indivizi care alcatuiesc populatia statistica determina volumulpopulatiei.

Caracteristica X (sau variabila) este o anumita proprietate urmarita la indivizii unei colectivitati statistice si acarei valoare se poate schimba de la un individ la altul ın cadrul populatiei. Exista caracteristici cantitative (celecare se pot masura, ca varsta, greutatea, etc.) si caracteristici calitative. Datele pot proveni din observatiile uneisingure caracteristici (sau variabile) sau, simultan, a doua sau mai multor caracteristici. O multime univariatade date reprezinta datele obtinute prin observarea unei singure variabile; de exemplu, ne intereseaza timpul deviata al unui tip de baterii utilizate ıntr-un anume fel. Avem o multime bivariata de date atunci cand observatiilesunt facute pentru doua variabile simultan; de exemplu, ne intereseaza ınaltime si greutatea pentru fiecare eleval unei clase, deci fiecare caracteristica este o pereche de date. Date multivariate avem atunci cand observatiilesunt facute simultan pentru mai mult de doua variabile. Unul dintre scopurile statisticii este acela ca, pe bazaobservatiilor efectuate, sa determine, prin inferenta, o lege care sa reprezinte variabila investigata X.

De cele mai multe ori, verificarea unei caracteristici pentru ıntreaga populatie este greu de realizat. De regula,acest lucru se poate obtine ın urma unui recensamant. Din acest motiv, se analizeaza caracteristica pe un subgrupal populatiei tinta. Se numeste selectie (esantion) o submultime a populatiei, adica o colectivitate partiala deelemente extrase la ıntamplare din cadrul populatiei. Notam valorile caracteristicii masurate pe fiecare elemental colectivitatii partiale cu xi, i = 1, n, unde n este volumul selectiei (numarul indivizilor din selectie). Sepresupune ca alegerea celor n indivizi ai unui esantion este facuta astfel ıncat toate subgrupurile de n indivizi dinıntreaga populatie sunt egal probabile de a fi alese. Spunem ca selectia este repetata (cu ıntoarcere, sau bernoulliana)daca individul extras este reintrodus ın colectivitate ınainte de a se extrage urmatorul; ın caz contrar, selectia estenerepetata (fara ıntoarcere). In cazul acestei selectii aleatoare, ar trebui ca populatia sa aiba caracteristica repartizataomogen, altfel este posibil ca alegerea indivizilor din esantion sa nu reflecte corect structura populatiei. Dacavolumul selectiei este foarte mic ın raport cu volumul populatiei atunci nu se mai face distinctia ıntre cele douatipuri de selectie (aceasta se va considera repetata). Remarcam faptul ca statistica trebuie sa se ocupe si cudezvoltarea tehnicilor potrivite de colectare a datelor. Daca aceasta nu este facuta corect, atunci analiza datelelornu poate oferi raspunsuri cu un nivel de ıncredere crescut. Exista si metode alternative de esantionare, metodecare, ın anumite situatii ofera solutii mai practice si genereaza selectii mai adecvate decat selectia aleatoare.Unele dintre aceste metode sunt descrise ın continuare:

1. Selectia stratificata: populatia investigata este ımpartita ın clase (categorii), dupa care se realizeaza selectia laıntamplare ın cadrul fiecarei clase. Astfel, din fiecare categorie vor exista reprezentanti ın cadrul esantionuluiales, alegerea fiind astfel reprezentativa. De regula, esantionarea se face astfel ıncat numarul indiviziloralesi din cadrul fiecarei clase sa fie proportional cu cu dimensiunea clasei ın cadrul populatiei analizate.

2. Selectia sistematica (algoritmica): metoda presupune structurarea populatiei dupa un anumit criteriu de or-donare, iar dupa aceasta se aleg indivizii din esantion conform unei reguli specificate, de exemplu o alegerede tip modulo k.

3. Selectia de cota: este similara selectiei stratificate, esantionul trebuind sa fie o imagine a populatiei tinta, darla o scara redusa.

4. Selectia ciorchine: este, de asemenea, o selectie de tip stratificat, ınsa se decide alegerea aleatoare a indivizilorce vor face parte din selectie doar utilizand anumite clase. Renuntarea la folosirea unor clase se poatedecide, de exemplu, ın urma unor analize sociologice.

O populatie este descrisa numeric de parametri (medie, dispersie, deviatie standard), parametrii ce sunt, defapt, ın centrul studiilor statistice si sunt valori numerice ce caracterizeaza ıntreaga populatie. Cel mai adesea,repartitia (teoretica, exacta) a caracteristicii studiate este necunoscuta apriori, iar daca este cunoscuta, ea poate ficomplet specificata (neparametrizata) sau nespecificata (parametrizata). O prima problema ce trebuie avuta ın

1

Page 2: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

vedere de un studiu statistic vizeaza determinarea tipului de repartitie al caracteristicii investigate. Aceasta sepoate verifica cu ajutorul Testelor de concordanta. In momentul cunoasterii formei repartitiei, se pune problema es-timarii parametrilor, folosind datele culese ın cadrul esantionului. Pentru caracteristici cantitative ale populatiei,studiem parametri care descriu tendinta centrala a populatiei (media, mediana, momente initiale sau centrate de unanumit ordin), parametri care caracterizeaza ımprastierea datelor (dispersia, deviatia standard, coeficienti de corelatie),parametri de pozitie (cuantile de anumite ordine), parametri ce descriu forma graficului repartitiei statisticii (de-plasarea, boltirea graficului).

O prima forma de explorare a datelor este utilizarea reprezentarilor grafice, care pot revela un comportamentsistematic (un sablon) al variabilei. Tipul de reprezentare grafica depinde, ın mod normal, de tipul variabilei.Pentru date calitative reprezentarile grafice folosite sunt sectoarele de disc (pie charts) sau prin bare (bar graphs).Pentru datele cantitative scopul reprezentarilor grafice este de a afla forma distributiei variabilei.

Inainte de prelucrare, datele obtinute ın urma selectiei indivizilor din sondaj poarta denumirea de date ne-grupate, sau serie statistica. Presupunem ca, pentru un sondaj statistic de volum n ∈ N, am obtinut datele de tipdiscret (asociate unei caracteristici discrete): x1, x2, ..., xn. Desigur, ın multe situatii, este posibil ca unele valorisa se repete, valorile distincte, ordonate crescator, fiind x′1, x

′2, ..., x

′k, k ≤ n. Vom nota cu fi, i = 1, k frecventa

absoluta de aparitie a valorii x′i - sau repartitia (distributia) empirica (statistica) de selectie a caracteristicii studiate -si construim tabloul de frecvente urmator:

Valoarea Frecventa absoluta Frecventa cumulata Frecventa relativa Frecventa relativa cumulata

x′1 f1 f1 f1/n f1/n

x′2 f2 f1 + f2 f2/n f1/n+ f2/n

......

......

...x′k fk f1 + f2 + ...+ fk = n fk/n f1/n+ f2/n+ ...+ fk/n = 1

Cumulat n − 1 −

Frecventele cumulate, atat cele absolute cat si cele relative, ınmagazineaza informatiile aduse de functia derepartitie a variabilelor aleatoare, ıntalnita ın Teoria probabilitatilor.

Daca datele culese sunt realizari ale unei caracteristici de tip absolut continuu, atunci gruparea datelor statis-tice se va realiza ın clase astfel: realizam o partitie a intervalului de valori a0 < a1 < a2 < ... < ak si notam cufi, i = 1, k, frecventa de apartenenta a valorilor observate ın fiecare clasa. Similar cazului discret, putem generaurmatorul tablou de frecvente:

Clasa Media clasei Frecventa Frecventa relativa Frecventa cumulata

[a0, a1) x′1 = (a0 + a1) /2 f1 f1/n f1/n

[a1, a2) x′2 = (a1 + a2) /2 f2 f2/n f1/n+ f2/n

......

......

[ak−1, ak) x′k = (ak−1 + ak) /2 fk fk/n f1/n+ f2/n+ ...+ fk/n = 1

Cumulat − n 1 −

Modul de construire al claselor anterioare nu este realizat dupa o metoda standardizata, ci mai curand urmarindcateva principii generale, prin ajustarea alegerii pana la reprezentativitatea alegerii construite:

1. Numarul de clase din partitia intervalului de valori trebuie sa fie ıntre 5 si 20, acest numar fiind influientatsi de volumul de selectie. Daca acesta este mai mic decat 30, atunci, ın practica, sunt folosite 5 sau 6 clase,fiecare avand minimum 5 elemente. Daca studiul impune utilizarea unui numar mai mare de clase, seaccepta si o componenta mai redusa a acestora, dar nu mai putin de 3 elemente ın fiecare dintre acestea.

2. Amplitudinea clasei (sau lungimea intervalului ce caracterizeaza clasa) se alege ca fiind aceeasi pentrufiecare clasa. Ea se ajusteaza ın concordanta cu numarul de clase considerate.

3. Marginile intervalelor se considera astfel ıncat asocierea unei clase pentru fiecare valoare observata sa fieunivoca.

Inainte de a trece la metode de reprezentare a datelor observate, introducem, pe langa parametrii unei vari-abile aleatoare studiati deja la Teoria Probabilitatilor (medie, momente, momente centrate, dispersie, abatereastandard, coeficient de covariatie) un element foarte important in studiile statistice, si anume cuantilele. DacaX este o variabila aleatoare cu functia de repartitie F, atunci, pentru α ∈ (0, 1) , se numeste cuantila de ordin αnumarul

xα = infx ∈ R : F (x) ≥ α.Daca X este de tip absolut continuu, atunci avem egalitatea F (xα) = α. In particular:

2

Page 3: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

• Me := x0.5 reprezinta mediana repartitiei. Daca X e de tip absolut continuu, atunci

P (X ≤Me) = P (X > Me) = 0.5.

Daca repartitia nu este simetrica, atunci mediana este o masura mai utila decat media a tendintei centralea valorilor.

• Q1 = x0,25, Q2 = x0,5, Q3 = x0,75 reprezinta cuartilele. Este evident ca Q2 = Me.

• Daca α = i/10, i = 1, 2, ..., 9 obtinem acele cuantile numite decile.

2 O analiza exploratorie a datelor

Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA) poate fi privita ca un demersde investigatie, de natura cantitativa, a observatiilor. Acestea trebuie, pentru ınceput, interpretate ın absentaoricaror informatii privitoare la modelul probabilistic, erorile de repartizare a datelor, numarul de grupuri decategorisire a valorilor, relatii ıntre caracteristici. Scopul trebuie sa fie acela de a extrage informatii preliminarelegate de fenomenul investigat, eventual de a identifica tipare ın datele culese. EDA cuprinde o colectie de tehnicicare furnizeaza informatiile aduse de seria statistica, precum si metode de vizualizare eficienta a lor, care sa re-liefeze informatii despre procesul asociat, care le genereaza. Aceasta analiza precede analiza confirmationala(testarea ipotezelor statistice, ANOVA) si asigura ca aceasta analiza este potrivita setului de date cules. Uniiexperti utilizeaza, de asemenea, tehnici de regularizare (ca metoda pentru regresie neparametrica), de estimarea densitatii de probabilitate, de clustering (ca metoda pentru ınvatarea nesupervizata), sau de analiza a com-ponentei principale, ca tehnici de EDA. O parte dintre acestea le vom aborda ın capitolul dedicat determinariistructurii datelor empirice. In aceasta sectiune vom prezenta tehnici de vizualizare a datelor univariate: stem-and-leaf plots, box plots, histograms, quantile plots, iar apoi a datelor bivariate: surface plots, scatterplots, bivariatehistograms. Pentru reprezentarea datelor multivariate se utilizeaza slices, isosurfaces, star plots, parallel coordinates,Andrews curves. Acestea din urma reprezinta o metoda de vizualizare a datelor multi-dimensionale, prin ma-parea (prin proiectare) fiecarei observatii pe o baza ortogonala formata din functii de tip sin si cos, urmata de oreprezentare grafica adecvata.

Cele doua obiective importante ale EDA sunt: (1) determinarea unui model rezonabil pentru procesul cegenereaza datele observate; (2) determinarea eventualelor valori extreme, de neglijat, ın selectia avuta la dispozitiespre analiza. Spre exemplu, putem investiga daca repartitia generatoare este simetrica si daca are un anumit co-eficient de boltire / aplatizare.

2.1 Reprezentari grafice ale datelor univariate

Vom folosi pentru exemplificarile grafice urmatoare datele statistice si analiza realizata de Pearson, K., Lee, A.,On the laws of inheritance in man. I. Inheritance of physical characters. Biometrika, 2, 357-462, 1903. Seria statisticareprezinta masuratori (ın inch) ale antebratelor pentru 140 de adulti. Autorii investigheaza daca repartitia acesteicaracteristici este de tip normal sau nu. Datele obtinute ın urma esantionarii sunt prezentate ın cele ce urmeazasi, pentru scopul nostru sunt ıncarcate ın fisierul de date forearm:

17.3 18.4 20.9 16.8 18.7 20.5 17.9 20.4 18.3 20.519.0 17.5 18.1 17.1 18.8 20.0 19.1 19.1 17.9 18.318.2 18.9 19.4 18.9 19.4 20.8 17.3 18.5 18.3 19.419.0 19.0 20.5 19.7 18.5 17.7 19.4 18.3 19.6 21.419.0 20.5 20.4 19.7 18.6 19.9 18.3 19.8 19.6 19.020.4 17.3 16.1 19.2 19.6 18.8 19.3 19.1 21.0 18.618.3 18.3 18.7 20.6 18.5 16.4 17.2 17.5 18.0 19.519.9 18.4 18.8 20.1 20.0 18.5 17.5 18.5 17.9 17.418.7 18.6 17.3 18.8 17.8 19.0 19.6 19.3 18.1 18.520.9 19.8 18.1 17.1 19.8 20.6 17.6 19.1 19.5 18.417.7 20.2 19.9 18.6 16.6 19.2 20.0 17.4 17.1 18.319.1 18.5 19.6 18.0 19.4 17.1 19.9 16.3 18.9 20.719.7 18.5 18.4 18.7 19.3 16.3 16.9 18.2 18.5 19.318.1 18.0 19.5 20.3 20.1 17.2 19.5 18.8 19.2 17.7

Serii statistice asociate esantionarilor unor numeroase studii concrete se pot regasi ın [3, Hand, D.; Daly, F.; Lunn,A. D.; McConway, K. J.; Ostrowski, E., A Handbook of Small Data Sets, London: Chapman and Hall, 1994]. Cititorii

3

Page 4: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

acestui material pot folosi ınsa si serii de date fictive pentru a exersa modul de reprezentare a datelor seriilorstatistice.

HistogramaO histograma este o modalitate de reprezentare grafica a unui tabel de frecvente. Histogramele sunt o modal-

itate buna de a rezuma un set de date pentru a ıntelege caracteristicile generale ale distributiei, cum ar fi forma,raspandirea sau locatia, sugereaza posibile modele probabilistice sau determina un comportament neobisnuit.

O histograma de frecvente este obtinuta prin crearea unor intervale ce acopera gama setului de date. Esteimportant ca aceste intervale sa nu se suprapuna si sa aiba lungimea egala. Numaram apoi numarul de observatiicare se ıncadreaza ın fiecare interval. Pentru a vizualiza acest lucru, reprezentam frecventa ca ınaltimea unei bare,latimea barei reprezentand lungimea intervalului. Histograma este determinata de doi parametri, lungimeaintervalului si punctul de pornire al intervalului.

O histograma de frecvente relative este o modificare minora a unei histograme tipice de frecvente. In loc safolosim o axa verticala pentru numararea valorilor datelor care intra ıntr-o clasa data, vom folosi aceasta axapentru a reprezenta proportia totala a valorilor datelor care se ıncadreaza ın acest compartiment. Deoarece 100%= 1, toate barele trebuie sa aiba ınaltimea de la 0 la 1. In plus, suma ınaltimilor tuturor barelor din histogramade frecvente trebuie sa fie 1. Pachetul MATLAB de baza are o functie de calcul si de trasare a unei histogrameunivariate. Aceasta functie este ilustrata ın exemplul dat ın continuare.

Exemplul 1.In acest exemplu, realizam o histograma a datelor din tabelul de mai sus. Putem obtine o histograma simpla

ın MATLAB folosind urmatorul cod:

load forearm.msubplot(1,2,1)% Functia hist returneaza centrele intervalelor si frecventele[n,x] = hist(forearm);bar(x,n,1);axis squaretitle(’Frequency Histogram’)% Cream o histograma de frecvena relativa% Impartim fiecare frecvena la numarul total de masuratorisubplot(1,2,2)bar(x,n/140,1)title(’Relative Frequency Histogram’)axis square

Se observa ca formele histogramelor sunt aceleasi ın ambele tipuri de histograme, doar axa verticala fiinddiferita. Din forma histogramei, pare rezonabil sa presupunem ca datele sunt distribuite normal. O problemala utilizarea unei histograme de frecventa sau frecventa relativa este aceea ca acestea nu reprezinta densitatide probabilitate semnificative. Acest lucru poate fi viziblil suprapunand o distributie normala corespunzatoare

4

Page 5: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

peste histograma frecventei relative, asa cum se observa ın urmatoarea figura. Curba este mai mare decat his-tograma, ceea ce indica faptul ca ınaltimile barelor histogramei nu corespund unei functii de densitate de prob-abilitate valabile.

O histograma a densitatii de probabilitate este o histograma care a fost normalizata, astfel ıncat se va suma(integra) la valoarea unu. O histograma a densitatii este data de urmatoarea ecuatie:

f (x) =νknh, x ∈ Bk,

unde Bk reprezinta bara numarul k, νk reprezinta frecventa absoluta a valorilor din clasa cu indicele respective,iar h este latimea barelor.

Exemplul 2.Vom explora datele modelului anterior folosind o histograma a densitatii. Presupunand o distributie normala

si estimand parametrii din date, putem suprapune o curba lina, continua, care reprezinta o densitate estimatapentru distributia (repartitia) normala.

load forearm.m% Colectam parametrii distributiei normalemu = mean(forearm)v = var(forearm)xp = linspace(min(forearm),max(forearm))yp = normpdf(xp,mu,v);% Pregatim informatile necesare histogramei[nu,x] = hist(forearm);% h=latimea barelorh = x(2)-x(1);% Plotbar(x,nu/(140*h),1)hold onplot(xp,yp)xlabel(’Length (inches)’)title(’Density Histogram and Density Estimate’)hold off

Stem-and-LeafStem-and-leaf au fost introduse de Tukey [1977] ca o modalitate de afisare a datelor ıntr-o lista structurata.

Prezentarea datelor ıntr-un tabel sau o lista ordonata nu transmite cu usurinta informatii despre modul ın caredatele sunt distribuite, asa cum se ıntampla ın cazul histogramelor. Daca avem date ın care fiecare observatieconsta din cel putin doua cifre, atunci putem construi o diagrama stem-and-leaf. Pentru a afisa acestea, vomsepara fiecare masurare ın doua parti: tulpina si frunza. Tulpinile sunt alcatuite din cifra sau cifrele principale,iar cifra ramasa alcatuieste frunza. De exemplu, daca am avut numarul 75, atunci tulpina este 7, iar frunza este

5

Page 6: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

5. Daca numarul este 203, atunci tulpina este 20 si frunza 3. Tulpinile sunt listate ın stanga unei linii verticale, cutoate frunzele corespunzatoare acelei radacini enumerate ın dreapta. Daca datele contin zecimale, atunci acesteapot fi rotunjite pentru o afisare mai usoara. O alternativa este deplasarea zecimalei pentru a specifica frunzacorespunzatoare.

Exemplul 3.Inaltimile a 32 de cranii tibetane [Hand, et al. 1994; Morant, 1923], masurate ın milimetri, sunt date ın fisierul

tibetan.m. Aceste date cuprind doua grupuri de cranii colectate ın Tibet. Un grup de 17 cranii provin dinmorminte din Sikkim si ın zonele din apropiere ale Tibetului, iar celelalte 15 cranii provin de pe un camp de luptadin Lhasa. Datele originale contin cinci masuratori, dar la exemplul acesta, folosim doar a patra masuratoare.

load tibetan.m% stem-and-leaf plot; rotunjim masuratorileX = round(tibetan(:,4));stemleafplot(X)

6 : 2 3 5 5 6 8 97 : 0 0 1 1 1 2 2 3 4 4 4 4 5 6 6 7 7 7 8 9 98 : 0 1 2 3

Din aceasta reprezentare observam ca nu exista prea multe dovezi ca exista doua grupuri de cranii, daca neuitam doar la caracteristica ınaltimii superioare a fetei. Este posibil sa nu avem prea multe dovezi pentru douagrupuri de cranii, deoarece exista prea putine tulpini. Retineti ca eceasta este un proces iterativ, ın care analistular trebui sa ıncerce mai multe metode de vizualizare ın cautarea modelelor si a structurii din date. O abordarealternativa este reprezentarea mai multor linii pe tulpina. Cand desenam doua linii pe tulpina, frunzele carecorespund cifrelor 0 pana la 4 sunt reprezentate pe prima linie, iar cele care au cifrele 5 pana la 9 sunt afisate pea doua linie.

6 : 2 36 : 5 5 6 8 97 : 0 0 1 1 1 2 2 3 4 4 4 47 : 5 6 6 7 7 7 8 9 98 : 0 1 2 38 : −

In practica, se poate trasa o tulpina si o frunza cu una sau cu doua linii pe tulpina, ca mod de a descoperimai multe despre date. Stem-and leaf sunt utile ın masura ın care aproximeaza forma densitatii si ofera, deasemenea, o lista a datelor. De obicei, se poate recupera setul de date originale din stem-and leaf, spre deosebirede histograma. Un dezavantaj al reprezentarii stem-and leaf este dat de faptul ca nu este utila pentru seturi maride date, ın timp ce o histograma este foarte eficienta ın reducerea si afisarea seturilor de date masive.

Quantile Plots — Distributii continueDaca trebuie sa comparam doua distributii, atunci putem folosi diagrame pentru quantile pentru a le com-

para vizual. Acest lucru este valabil si atunci cand dorim sa comparam o distributie si un esantion sau sa com-param doua esantioane. Atunci cand comparam distributiile sau esantioanele, suntem interesati sa stim cumsunt deplasate unele fata de altele. In esenta, vrem sa stim daca sunt distribuite ın acelasi mod. Acest lucru esteimportant atunci cand ıncercam sa determinam distributia care a generat datele noastre, eventual cu scopul de autiliza aceste informatii pentru a genera date pentru simulari de tip Monte Carlo.

O alta aplicatie ın care acest lucru este util este verificarea ipotezelor modelului, cum ar fi normalitatea,ınainte de a efectua analiza. In aceasta sens, vom vedea ın continare mai multe versiuni de grafice bazate pecuantile. Acestea includ diagrame q-q si diagrame quantilice (uneori numite reprezentari grafice de probabili-tate). Diagrama cuantilica este utilizata pentru a compara un esantion cu o distributie teoretica. De obicei, o di-agrama q-q este utilizata pentru a determina daca doua esantioane aleatorii sunt generate de aceeasi distributie.Trebuie remarcat faptul ca reprezentarea grafica q-q poate fi utilizata si pentru a compara un esantion aleatoriucu o distributie teoretica, prin generarea unui esantion din distributia teoretica ca celui de al doilea esantion.

Diagrama Q-QReprezentarea grafica q-q a fost initial propusa de Wilk si Gnanadesikan [1968] pentru a compara vizual doua

distributii prin reprezentarea cuantilelor uneia versus cuantilele celeilalte. Presupunem ca avem doua seturi dedate constand din masuratori univariate. Fie statisticile (empirice) ordonate pentru cele doua seturi de date:

x(1), x(2), ..., x(n), respectiv y(1), y(2), ..., y(m),

6

Page 7: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

cu m ≤ n. Pentru m = n, reprezentam, ca puncte, esantionul cantilelor unui set de date fata de celalalt setde date. Acest lucru este ilustrat ın Exemplul 4. Daca seturile de date provin din aceeasi distributie, ne-amastepta ca punctele sa urmeze aproximativ o linie dreapta. Un avantaj major al graficelor bazate pe cuantile esteacela ca nu necesita ca cele doua esantioane (sau esantionul si distributia teoretica) sa aiba acelasi parametru decentrare (relativ la medie) si scalare (relativ la curbura). Daca repartitiile sunt de acelai tip, dar difera la celedoua caracteristici, este de asteptat ca diagrama q-q sa produca o linie dreapta.

Exemplul 4.Vom genera doua seturi de variabile aleatorii normale si vom construi o diagrama q-q. Diagrama q-q urmeaza

o linie dreapta (aproximativ), care indica faptul ca esantioanele provin din aceeasi distributie.

% Generam variabilele aleatoare normalex = randn(1,75);y = randn(1,75);% Ordonam statisticilexs = sort(x);ys = sort(y);% Construim q-q plot.plot(xs,ys,’o’)xlabel(’X - Standard Normal’)ylabel(’Y - Standard Normal’)axis equal

Observam ca punctele din aceasta diagrama q-q nu respecta o linie dreapta, ceea ce ne conduce la concluziaca datele nu sunt generate din aceeasi distributie. Analizam acum cazul ın care dimensiunile esantioanelor nusunt egale. Fara restrange generalitatea, presupunem ca m < n. Pentru a obtine diagrama q-q, reprezentamy(i), i = 1, 2, ...,m fata de (i− 0.5) /m cuantila din celalalt set de date. Retineti ca aceasta definitie nu este unica,deoarece valori diferite dec 0.5 pot fi, de asemenea, utilizate. Cuantilele (i− 0.5) /m din datele x sunt obtinutede obicei prin interpolare si vom arata ın urmatorul exemplu cum sa utilizam functia quantile pentru a obtineplotul dorit.

Diagramele q-q ofera o idee aproximativa a similaritatii distributiilor celor doua esantioane aleatorii. Dacadimensiunile esantioanelor sunt mici, atunci se asteapta o multime de variatii, astfel ıncat comparatiile ar puteafi suspecte. Pentru a ajuta la compararea vizuala, unele diagrame q-q includ o linie de referinta. Acestea suntlinii care sunt estimate utilizand prima si a treia quartila (q0.25, q0.75) a fiecarui set de date. Dreapta este adaugatapentru a acoperi intervalul de date. Aratam ın continuare cum sa adaugam dreapta pe grafic.

Exemplul 5.Acest exemplu arata cum se realizeaza o diagrama q-q atunci cand esantioanele nu au acelasi numar de

puncte. Folosim functia quantile pentru a obtine cuantilele necesare ale esantionului, pornind de la setul de datece are dimensiunea esantionului mai mare. Apoi, reprezentam acestea versus statisticile ordonate ale celuilaltesantion, asa cum am facut ın exemplul anterioar. Vom adauga o linie de referinta bazata pe prima si a treiacuartila din fiecare set de date, folosind functia polyfit.

m = 50; n = 75;x = randn(1,n); y = randn(1,m);ys = sort(y);% Probabilitatile pentru cuantile:p = ((1:m) - 0.5)/m;xs = quantile(x,p);% Construim graficulqy = quantile(y,[0.25,0.75]);qx = quantile(x,[0.25,0.75]);[pol, s] = polyfit(qx,qy,1);plot(xs,ys,’ko’)% Construim dreapta directoareyhat = polyval(pol,xs);hold onplot(xs,yhat,’k’)xlabel(’Sample Quantiles - X’),ylabel(’Sorted Y Values’)

7

Page 8: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Studiind reprezentarea grafica, presupunerea ca fiecare set de date este generat de aceeasi distributie parerezonabila.

Diagrame QuantileO diagrama Q sau o diagrama de probabilitate este cea ın care cuantilele teoretice sunt reprezentate grafic ın

raport cu statisticile de ordine pentru esantion. Astfel, pe o axa trasam x(i) si pe cealalta axa trasam

F−1(i− 0.5

n

),

unde F−1 reprezinta inversa functiei de repartitie pentru distributia teoretica.MATLAB Statistics Toolbox are mai multe functii pentru obtinerea de diagrame quantile. Una din ele se

numeste normplot si produce un grafic pentru repartitia normala. Daca cineva ar dori sa evalueze ipoteza ca unset de date provine dintr-o distributie normala, atunci acesta este cel care trebuie utilizat.

O alta functie se numeste probplot. Folosind aceasta functie, se pot construi grafice de probabilitate pentrumai multe distributii, cum ar fi exponentiale, lognormale, normale, e.t.c. Exista, de asemenea, o functie pentruconstruirea unei diagrame quantile care compara un set de date cu distributia Weibull. Aceasta se numestewblplot. Pentru graficele quantile cu alte distributii teoretice, se poate utiliza codul MATLAB dat ın continuare,ınlocuind functia adecvata pentru a obtine cuantilele teoretice.

Exemplul 6.Acest exemplu ilustreaza modul ın care putem afisa o diagrama quantile ın MATLAB. Mai ıntai se genereaza

un esantion aleatoriu din distributia normala ca set de date. Esantionul sortat este o estimare a cuantilei, decicalculam ın continuare aceste probabilitati si obtinem cuantilele teoretice corespunzatoare. In cele din urma,utilizam functia norminv pentru a obtine cuantilele teoretice pentru distributia normala.

% Generam o secventa aleatoare repartizate% normal standardx = randn(1,100);% Determinam probabilitatileprob = ((1:100)-0.5)/100;% Determinam cuantilele teoretice% corespunzatoare repartitiei Gasussiene standardqp = norminv(prob,0,1);% Reprezentam cuantilele teoretice versus% datele sortateplot(sort(x),qp,’ko’)xlabel(’Sorted Data’)ylabel(’Standard Normal Quantiles’)

Pentru a ilustra ın continuare aceste concepte, sa vedem ce se ıntampla atunci cand generam un esantion aleato-riu dintr-o distributie uniforma pe (0, 1) si o comparam cu datele dintr-o distributie normala.

Codul MATLAB este prezentat ın continuare, iar graficul quantile este mai jos. Asa cum era de asteptat,punctele nu urmeaza o linie dreapta si concluzionam ca datele pe care le avem la dispozitie nu provin dintr-odistributie normala:

% Generam o secventa aleatoare repartizata uniformx = rand(1,100);% Determinam probabilitatileprob = ((1:100)-0.5)/100;% Determinam cuantilele teoretice% corespunzatoare repartitiei normale standardqp = norminv(prob,0,1);% Reprezentam cuantilele teoretice versus% datele sortateplot(sort(x),qp,’ko’)ylabel(’Standard Normal Quantiles’)xlabel(’Sorted Data’)

8

Page 9: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Quantile Plots — Distributii DiscreteAnterior, am prezentat graficele quantile, care sunt utilizate ın principal pentru date de tip continuu. Este

important sa existe o tehnica similara pentru compararea grafica a formelor distributiilor discrete. Amintimdoua dintre cele mai importante: repartitia Poisson si repartitia binomiala. Acestea ne vor permite sa cautamdovezi ca datele discrete considerate urmeaza o distributie Poisson sau binomiala. Ele servesc, de asemenea,pentru a evidentia care puncte ar putea fi incompatibile cu modelul.

Diagrama pentru repartitia PoissonDe obicei, datele discrete sunt valori ıntregi care sunt, adesea, obtinute prin numararea de cate ori se real-

izeaza un anumit eveniment. De exemplu, acestea ar putea fi numarul de accidente din trafic, numarul copiilorde varsta scolara dintr-o casa, numarul de defecte pe un hard disk sau numarul de erori dintr-un program de cal-culator. Datele pot fi furnizate sub forma unei distributii de frecventa, care listeaza valorile posibile (de exemplu,0, 1, 2, ...) si numarul de observatii pentru fiecare valoare de numarare.

Aceste valori posibile vor fi notate cu k, pentru k = 0, 1, ..., L. Vom presupune ca L este valoarea maximaobservata pentru variabila noastra discreta sau numarul de valori din setul de date si ca sunem interesati detoate valorile cuprinse ıntre 0 si L. Astfel, numarul total de observatii din esantion este

N =

L∑k=0

nk,

unde nk reprezinta numarul de observatii care este egal cu marimea k. O diagrama Poisson este construita prinreprezentarea valorii de numarare, k, pe axa orizontala si

ϕ (nk) = ln

(k!nkN

)pe axa verticala. Acestea vor fi reprezentate pe diagrama grafica sub forma unor simboluri, similar cu graficulQ.

Daca o distributie Poisson este un model rezonabil pentru date, atunci aceasta ar trebui sa urmeze o liniedreapta. Curbura sistematica ın grafic ar indica faptul ca aceste date nu sunt ın concordanta cu o distributiePoisson. Valorile pentru cantitatile ϕ (nk) tind sa aiba mai multa variabilitate atunci cand nk este mic, asa cavom reprezenta cu simbolul 1 aceste puncte.

Exemplul 7.Acest exemplu este introdus de Hoaglin si Tukey [1985]. La sfarsitul anilor 1700, Alexander Hamilton, John

Jay si James Madison au scris o serie de 77 de eseuri sub titlul de The Federalist. Acestea au aparut ın ziare subpseudonim. Majoritatea analistilor accepta faptul ca John Jay a scris 5 eseuri, Alexander Hamilton a scris 43,Madison a scris 14 si 3 au fost scrise ın comun de Hamilton si Madison. Mai tarziu, Hamilton si Madison ausustinut ca fiecare dintre ei a scris doar cele 12 lucrari ramase. Pentru a verifica aceasta afirmatie, Mosteller siWallace [1964] au folosit metode statistice, dintre care unele se bazau pe frecventa cuvintelor continute ın blocuride text ale celor 77 de eseuri.

In continuare prezentam distributia frecventei pentru cuvantul may ın lucrarile despre care se stia ca suntscrise de Madison:

Numar de ocurente alecuvantului may (k)

Numarul de blocuri(nk)

0 1561 63

2 29

3 8

4 4

5 1

6 1

nk reprezinta numarul de blocuri de text care contineau k aparitii ale cuvantului may [Hoaglin si Tukey, 1985].Nu vom repeta analiza lui Mosteller si Wallace, ci pur si simplu, folosim datele pentru a ilustra un grafic pentrudistributia Poisson.

9

Page 10: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

k = 0:6; % Vectorul numararilorn_k = [156 63 29 8 4 1 1]; N = sum(n_k);% Construim vectorul factorialilorfact = zeros(size(k));for i = kfact(i+1) = factorial(i);end% Determinam phi(n_k) pentru reprezentarephik = log(fact.*n_k/N);% Determinam numararile de 1, le reprezentam% cu acest simbol 1, restul cu alt simbolind = find(n_k˜=1);plot(k(ind),phik(ind),’o’)ind = find(n_k==1);if ˜isempty(ind)text(k(ind),phik(ind),’1’)end% Adaugam spatii pentru o buna vizualizareaxis([-0.5 max(k)+1 min(phik)-1 max(phik)+1])xlabel(’Number of Occurrences - k’)ylabel(’\phi (n_k)’)

Graficul are o curbura semnificativa care indica faptul ca distributia Poisson nu este un model bun pentruaceste date. Exista, de asemenea, cateva puncte cu o frecventa de 1, care par incompatibile cu restul datelor.Astfel, daca o analiza statistica a acestor date se bazeaza pe modelul Poisson, atunci orice rezultat este suspect.

Hoaglin si Tukey [1985] sugereaza o diagrama Poisson modificata care se obtine prin modificarea lui nk, ceeace contribuie la variabilitatea valorilor individuale. Propun urmatoarea modificare:

n∗k =

nk − 0.67− 0.8nk/N, nk ≥ 2

1/e, nk = 1

nespecificat, nk = 0

In exemplul urmator aplicam graficul modificat Poisson pentru frecventa a cuvantului din datele considerate.Efectul principal al noului grafic este acela de a evidentia acele elemente din date ce au un contor de numararemic si care nu se comporta contrar celorlalte observatii. Astfel, daca un punct afisat ca 1 ıntr-un grafic Poissonmodificat pare diferit de restul datelor, atunci ar trebui investigat.

Exemplul 8.Revenim la datele de frecventa a cuvantului din tabel si aratam cum se obtine o diagrama Poisson modificata.

In aceasta versiune vedem ca punctele nk = 1 nu par atat de diferite de restul datelor.

k = 0:6; n_k = [156 63 29 8 4 1 1];N = sum(n_k); phat = n_k/N;nkstar = n_k-0.67-0.8*phat;fact = zeros(size(k));for i = kfact(i+1) = factorial(i);end% Gasim frecventele ce sunt 1; nkstar=1/eind1 = find(n_k==1); nkstar(ind1)= 1/2.718;phik = log(fact.*nkstar/N);ind = find(n_k˜=1);plot(k(ind),phik(ind),’o’)if ˜isempty(ind1)text(k(ind1),phik(ind1),’1’)endaxis([-0.5 max(k)+1 min(phik)-1 max(phik)+1])xlabel(’Number of Occurrences - k’)ylabel(’phi (nˆ*_k)’)

10

Page 11: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Diagrama pentru repartitia BinomialaO diagrama de binomialitate este obtinuta prin trasarea valorilor k de-a lungul axei orizontale si

ϕ(n∗k) = ln

(n∗k

N · Ckn

),

de-a lungul axei verticale. Reamintim ca n reprezinta numarul de ıncercari, iar n∗k este dat de ecuatia de mai sus.Ca si ın cazul diagramei Poisson, cautam o relatie liniara aproximativa ıntre k si ϕ(n∗k). Un exemplu al graficuluibinomial este dat ın Exemplul 9.

Numar de fete (k) Numarul de blocuri (nk)0 11 3

2 4

3 23

4 25

5 19

6 18

7 5

8 1

9 1

10 0

Exemplul 9.Hoaglin si Tukey [1985] ofera o distributie de frecventa care reprezinta numarul de persoane de gen feminin

de la 100 cozi de asteptare de lungime 10. Aceste date sunt date ın tabelul de mai sus. Codul MATLAB pentruafisarea unei diagrame de binomialitate pentru n = 10 este dat ın continuare. Remarcam ca nu putem afisa ϕ(n∗k)pentru k = 10 (ın acest exemplu), deoarece nu este definit pentru nk = 0. Graficul binomial rezultat indica orelatie liniara. Astfel, modelul binomial pentru acest set de date pare adecvat.

% Reprezentare Binomialk = 0:9;n = 10;n_k = [1 3 4 23 25 19 18 5 1 1];N = sum(n_k);nCk = zeros(size(k));for i = knCk(i+1) = nchoosek(n,i);% nchoosek este o functie basic din MATLABendphat = n_k/N;nkstar = n_k-0.67-0.8*phat;% Gasim frecventele ce sunt 1; nkstar=1/eind1 = find(n_k==1);nkstar(ind1) = 1/2.718;% Determinam phi(n\_k) pentru reprezentarephik = log(nkstar./(N*nCk));% Gasim numararile ce sunt 1ind = find(n_k˜=1);plot(k(ind),phik(ind),’o’)if ˜isempty(ind1)text(k(ind1),phik(ind1),’1’)end% Adaugam spatii pentru o buna vizionare% a datelor din graficaxis([-0.5 max(k)+1 min(phik)-1 max(phik)+1])xlabel(’Number of Females - k’)ylabel(’\phi(nˆ*_k)’)

11

Page 12: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Diagrame Box-and-whiskerBox plots (uneori numite diagrame box-and-whisker) sunt utilizate de multi ani [Tukey, 1977]. Ca si ın cazul

altor tehnici de vizualizare pe care tocmai le-am discutat, acestea sunt utilizate pentru a afisa distributia unuiesantion. Cinci valori dintr-un set de date sunt utilizate pentru a construi versiunea de baza a graficului boxplot. Acestea sunt: cele trei cuantile ale unui esanton (q0.25, q0.5, q0.75), valoarea minima din esantion si valoareamaxima.

Inainte de a descrie graficul box plot, trebuie sa definim cativa termeni. Intervalul interquartilic (IQR) estediferenta dintre prima cuantila si cea de-a treia cuantila a esantionului. Se estimeaza astfel:

IQR := q0.75 − q0.25.

De asemenea, sunt definite doua limite: o limita inferioara (LL) si o limita superioara (UL). Acestea se calculeazadin IQR estimate dupa cum urmeaza:

LL := q0.25 − 1.5 · IQR si UL := q0.25 + 1.5 · IQR.

Ideea este ca observatiile care se afla ın afara acestor limite sunt posibile valori aberante. Valorile aberante suntpuncte din date care se afla departe de restul datelor. Acest lucru ar putea ınsemna ca datele au fost masuratesau ınregistrate incorect. Pe de alta parte, ar putea ınsemna ca acestea reprezinta puncte extreme care apar ınmod natural ın functia de distributie. In orice caz, acestea sunt puncte de esantion potrivite pentru investigatiisuplimentare. Valorile adiacente sunt observatiile extreme din setul de date, care se afla ın limitele inferioaresi superioare. Daca nu exista potentiale valori externe, atunci valorile adiacente sunt pur si simplu punctele dedate maxime si minime.

Pentru a construi un grafic vertical box plot, atasam linii orizontale la fiecare dintre cele trei quartile si trasamlinii verticale pentru a crea o cutie. Extindem apoi o linie de la prima quartila la cea mai mica valoare adiacentasi facem acelasi lucru pentru a treia quartila si cea mai mare valoare adiacenta. Aceste linii sunt uneori numitemustati. In cele din urma, orice posibil contur este marcat ca un asterisc sau un alt simbol.

Un exemplu de diagrama box plot este prezentat ın continuare. Box plots pentru diferite esantioane potfi reprezentate ımpreuna pentru a compara vizual distributiile corespunzatoare. Caseta de instrumente dinMATLAB contine o functie numita boxplot pentru crearea acestui tip de afisaj. Afiseaza un grafic pentru fiecarecoloana de date.

Cand vrem sa comparam seturi de date, este mai bine sa afisam un grafic box plot cu notches. Aceste notchesreprezinta incertitudinea ın locatiile tendintei centrale si ofera o masura bruta a semnificatiei diferentelor dintrevalori. Daca crestaturile nu se suprapun, atunci exista dovezi ca medianele sunt semnificativ diferite.

Exemplul 10.In acest exemplu, mai ıntai generam valori ale unei variabile aleatorii distribuite uniform pe un interval,

apoi o distributie normala standard si o distributie exponentiala. Vom afisa ın continuare graficele box plotcorespunzatoare fiecarui esantion utilizand functia MATLAB boxplot.

12

Page 13: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

% Generam o secventa de numere aleatoare repartizate uniform% pe intervalul (0,1)xunif = rand(100,1);% Generam o secventa de numere aleatoare repartizate normal standardxnorm = randn(100,1);% Generam o secventa de numere aleatoare repartizate exponentialxexp = exprnd(1,100,1);% Construim un boxplot cu notches (crestaturi).boxplot([xunif,xnorm,xexp],’notch’,’on’)

In figura de mai sus se poate observa ca box plot-ul transmite cu usurinta forma distributiei. O distributiesimetrica va avea whiskers (mustati) cu lungimi aproximativ egale, iar cele doua laturi ale cutiei vor fi, deasemenea, aproximativ egale. Acesta ar fi cazul distributiei uniforme sau normale. O distributie ınclinata vaavea o parte a ”cutiei” si o ”mustata” mai lunga decat cealalta. Acest lucru poate fi vazut ın figura pentrudistributia exponentiala. Daca intervalul intermediar este mic, atunci datele din mijloc sunt ın jurul medianei.Daca intervalul intermediar este mare, atunci 50% din date sunt larg dispersate. In grafic avem trei box plot-uri.Cel din stanga este pentru un esantion din distributia uniforma. Datele pentru box plot-ul din mijloc au provenitdintr-o distributie normala standard, ın timp ce datele pentru ”cutia” din partea dreapta au provenit dintr-unaexponentiala. Observam ca forma fiecarei distributii este intuita din informatiile continute de box plot.

2.2 Reprezentari grafice ale datelor bivariate si trivariate

Folosind coordonatele carteziene, putem vizualiza pana la trei dimensiuni. De exemplu, am putea vedea datelebivariate ca puncte sau datele trivariate ca un nor de puncte. Am putea vedea, de asemenea, o functie bivariata,z = f(x, y) ca suprafata. Vizualizarea a mai mult de trei dimensiuni este dificila. dar exista tehnici si pentruaceasta. In continuare vom vedea mai multe metode pentru vizualizarea datelor 2D si 3D, analizand mai ıntaidatele bivariate. Majoritatea tehnicilor pe care le discutam sunt disponibile ın programul de baza MATLAB.

ScatterplotsUna din cele mai simple diagrame de vizualizare a datelor bivariate este diagrama scatterplot. O diagrama

scatterplot se obtine afisand perechile ordonate ca puncte folosind un simbol de reprezentare. Acest tip de grafictransmite informatii utile, cum ar fi modul ın care datele sunt distribuite ın cele doua dimensiuni si modul ın carecele doua variabile sunt legate (de exemplu, o relatie liniara sau neliniara). Inainte de orice modelare statistica,cum ar fi regresia, analistul ar trebui sa se uite ıntotdeauna la o astfel de diagrama pentru a vedea ce tip de relatieeste rezonabila.

O diagrama scatterplot poate fi obtinuta cu usurinta ın MATLAB folosind comanda plot. Se introduce doarstilul marker sau simbolul de reprezentare ca unul dintre argumente. O functie alternativa pentru scatterplots,care este disponibila ın MATLAB, este functia numita scatter. Aceasta functie ia vectorii de intrare x si y si ıireprezinta ca simboluri. Exista argumente optionale care vor trasa markerii folosind culori si dimensiuni diferite.Aceste alternative sunt explorate ın exemplul urmator.

13

Page 14: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Exemplul 11.Mai ıntai generam un set de variabile aleatoare normale bivariate, apoi cream o diagrama scatterplot utilizand

functia plot si functia scatter. Graficele rezultate sunt prezentate mai jos.

% Generam o matrice de covarianta pozitiv definitavmat = [2, 1.5; 1.5, 9];% Cream media (2,3).mu = [2 3];[u,s,v] = svd(vmat);vsqrt = ( v*(u’.*sqrt(s)))’;% Generam valori aleatoare repartizate normal standardtd = randn(250,2);% Folosim x=z*sigma+mu pentru transformarea repartitiei% in una de medie mu si dispersie sigma patratdata = td*vsqrt+ones(250,1)*mu;% Cream un scatterplot folosind functia plot% Prima figuraplot(data(:,1),data(:,2),’x’)axis equal% Cream un scatterplot folosind functia scatter% Cea de a doua figura% Folosim markeri pentru reprezentarescatter(data(:,1),data(:,2),’filled’)axis equalbox on

Surface PlotsDaca avem date care reprezinta o functie definita pe un domeniu bivariat, cum ar fi z = f(x, y), atunci putem

vedea valorile noastre pentru z ca fiind o suprafata. MATLAB ofera doua functii care afiseaza o matrice de valoriz ca suprafata: mesh si surf.

Functia mesh afiseaza valorile ca puncte deasupra unei retele dreptunghiulare ın planul x-y si conecteazapunctele adiacente cu linii drepte. Liniile de plasa pot fi colorate folosind diverse optiuni, dar metoda implicitamapeaza liniile de nivel cu culori distincte.

Functia surf este similara cu mesh, cu exceptia faptului ca spatiile libere ıntre linii sunt umplute cu culoare, culinii afisate ın negru. Un exemplu ın care putem afisa aceasta suprafata este vizualizarea unei functii de densitatede probabilitate.

Exemplul 12.In acest exemplu ıncepem prin generarea unei retele peste care reprezentam o functie de densitate normala,

bivariata. Calculam apoi valorile z, care corespund functiei evaluate pentru fiecare x si y. Putem afisa acestevalori ale functiei de doua argumente ca o suprafata folosind comanda surf.

14

Page 15: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

% Generam un vector aleator bi-dimensional, repartizat normal standard% Cream o partitie (grid) pentru domeniu[x,y] = meshgrid(-3:.1:3,-3:.1:3);% Evaluam folosind repartitia normala standard bi-dimensionalaz = (1/(2*pi))*exp(-0.5*(x.ˆ2+y.ˆ2));% Reprezentam suprafatasurf(x,y,z)

Contour PlotsDe asemenea, putem folosi contour plots pentru a vedea suprafata. Contour plots prezinta linii cu valori de

suprafata constante, de nivel, similare cu hartile topografice. Doua functii sunt disponibile ın MATLAB pentrucrearea de contour plots 2D si 3D. Acestea se numesc contur si contur3.

Exemplul 13.MATLAB contine o functie numita peaks care returneaza o suprafata cu varfuri si depresiuni care pot fi

utilizate pentru a ilustra graficele de contur. Urmatorul cod MATLAB arata cum cream un contur grafic 2D.

% Obtinem datele pentru reprezentarea grafica[x,y,z] = peaks;% Cream un contur grafic 2D cu etichete% Returnam informatia necesara pentru etichetec = contour(x,y,z);% Adaugam etichetele reprezentariiclabel(c)

figure% Cream un grafic de tip contur 2D, umplutcontourf(x,y,z,15)

figure% Cream un contur grafic 3Dcontour3(x,y,z,15)

15

Page 16: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Histograme bivariateIn sectiunea anterioara, am descris histograma densitatii univariate ca o modalitate de a vizualiza modul

ın care datele observate sunt distribuite ın intervalul de date. Putem extinde acest lucru la orice numar dedimensiuni, pe o partitie a spatiului [Scott, 2015]. Cu toate acestea, ın aceasta sectiune, ne restrangem atentiaasupra histogramei bivariate date de

f(x) =νk

nh1h2, x ∈ Bk,

unde νk este numarul de observatii ce se afla ın bara bidimensionala Bk iar hi este latimea barei pentru coordo-nata i. Exemplul 14 arata cum se obtine histograma densitatii bivariate ın MATLAB.

Exemplul 14.Generam un set de valori aleatoare bivariate, provenite dintr-o repartitie normala standard si le folosim

pentru a ilustra cum se obtine histograma acestei densitati bivariate.

% Generam o secventa aleatoare repartizata normal standard in fiecare dimensiunen = 1000; d = 2; x = randn(n,d);% Stabilim originile intervalelor din partitiebin0 = [floor(min(x(:,1))) floor(min(x(:,2)))];% Latimile intervalelor din partitie, h, vor fi abordate ulteriorh = 3.504*n.ˆ(-0.25)*ones(1,2);% Determinam numarul de intervale din partitienb1 = ceil((max(x(:,1))-bin0(1))/h(1));nb2 = ceil((max(x(:,2))-bin0(2))/h(2));% Determinam reteauat1 = bin0(1):h(1):(nb1*h(1)+bin0(1));t2 = bin0(2):h(2):(nb2*h(2)+bin0(2));[X,Y] = meshgrid(t1,t2);% Determinam frecventele pentru fiecare interval din partitie[nr,nc] = size(X); vu = zeros(nr-1,nc-1);for i = 1:(nr-1)

for j = 1:(nc-1)xv = [X(i,j) X(i,j+1) X(i+1,j+1) X(i+1,j)];yv = [Y(i,j) Y(i,j+1) Y(i+1,j+1) Y(i+1,j)];in = inpolygon(x(:,1),x(:,2),xv,yv);vu(i,j) = sum(in(:));

endendZ = vu/(n*h(1)*h(2));% Fixam axele pentru graficbar3(Z,1)set(gca,’YTickLabel’,’ ’,’XTickLabel’,’ ’)set(gca,’YTick’,0,’XTick’,0)grid off

figure[XX,YY] = meshgrid(linspace(-3,3,nb1),linspace(-3,3,nb2));surf(XX,YY,Z)

16

Page 17: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Matricea Z contine ınaltimile barei. Cand MATLAB construieste o diagrama mesh sau surf, elementele matri-cei Z reprezinta ınaltimi deasupra planului x-y. Suprafata se obtine trasand punctele si unind punctele adiacentecu linii drepte. Prin urmare, o astfel de diagrama este o interpolare liniara ıntre barele adiacente. In esenta,ofera o versiune lina a unei histograme. In exemplul urmator oferim o alta metoda de vizualizare a histogrameibivariate.

Exemplul 15.

% Matricea Z a fost obtinuta in Exemplul 14bar3(Z,1)set(gca,’YTickLabel’,’ ’,’XTickLabel’,’ ’)set(gca,’YTick’,0,’XTick’,0)grid off

MATLAB are o functie care va construi histograme bivariate. Aceasta functie se numeste hist3. Aceasta functiefunctioneaza similar functiei univariate, hist. Urmatorul fragment de cod va construi o histograma bivariatafolosind datele generate ın Exemplul 14.

% Realizam o histrograma cu bare transparente% Folosim datele x generate in Exemplul 5.14.hist3(x,[10 10],’FaceAlpha’,0.35);set(gcf,’renderer’,’opengl’);axis tight

17

Page 18: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

Urmatorul cod MATLAB construieste un grafic care afiseaza distributia ıntr-un mod diferit. Putem utilizafunctia de trasare a scatterului cu argumente care leaga dimensiunea si culoarea markerului cu ınaltimea barelor.Adaugam bara de culori pentru a mapa ınaltimea barelor la culoare.

% Reprezentam histograma 2D prin scatterplot cu% inaltimi proportionale cu dimensiunea markerului% Determinam jumatatile intervalelor pentru a le folosi la scatterplotn1 = length(t1); n2 = length(t2);tt1 = linspace((t1(1)+t1(2))/2,(t1(n1-1)+t1(n1))/2,nb1);tt2 = linspace((t2(1)+t2(2))/2,(t2(n2-1)+t2(n2))/2,nb2);[xxs,yys] = meshgrid(tt1,tt2);scatter(xxs(:),yys(:),(Z(:)+eps)*1000,(Z(:)+eps)*1000,’filled’)% Cream o bara de culoare si fixam axele la scara corectah_ax = colorbar;% Stabilim etichetele curentetemp = get(h_ax,’Yticklabel’);[nr,nc] = size(temp);% Convertim stringurile in valori numericenewlab = cell(nr,1);tempcell = cellstr(temp);% Rescalam si convertim din nou in valori numericefor i=1:nrnewlabi=num2str((str2num(tempcelli)/1000));endset(h_ax,’Yticklabel’,newlab)

18

Page 19: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

2.3 Explorarea datelor multi-dimensionale

Exista mai multe metode folosite pentru problema vizualizarii datelor multi-dimensionale (avand dimensiunead > 3). Printre acestea amintim scatterplot matrix, slices, 3D contours, star plots, Andrews curves, parallel coordinates.

Scatterplot matrixGeneram scatterplots bi-dimensionale pentru toate perechile de variabile. Aceasta permite vizualizarea posi-

bilelor relatii ıntre perechi, ın scopul identificarii unor structuri ın doua dimensiuni. Functia MATLAB plotmatrixeste ilustrata ın exemplul urmator.

Exemplul 16.Seria de date cunoscuta sub denumirea de Fisher irises este un set de informatii de referinta ce permite ilus-

trarea modului de clasificare, partitionare sau de utilizare a unor tehnici de vizualizare. Datele au fost colec-tate de Anderson [1935] si analizate / interpretate ın detaliu de catre Fisher [1936]. Acestea constau ın 150 deobservatii ale dimensiunilor (lungime si latime) petalelor si sepalelor pentru trei specii de plante de iris: Iris se-tosa, Iris virginica si Iris versicolor. Pentru exemplificarea datelor cuprinse ın aceasta serie statistica, prezentamprimele trei ınregistrari din cele 50 de seturi pentru fiecare subspecie de iris ın tabelul urmator.

load iris.m% Se incarca datele pentru 3 matrici, corespunzatoare celor 3 specii% Incarcam fiecare matrice intr-o variabilasetosa = iris(1:50,1:4);versicolor = iris(51:100,1:4);virginica = iris(101:150,1:4);% Reprezentam grafic datele pentru Iris Setosa[H,ax,bigax,P] = plotmatrix(setosa);% Stabilim axele si titlul reprezentarii graficeaxes(bigax),title(’Iris Setosa’)

Comanda plotmatrix accepta cateva optiuni pentru parametru. Daca primele doua variabile sunt matrici,atunci este reprezentata o coloana a primei matrici versus coloana corespunzatoare din cea de a doua matrice.La exemplul nostru am folosit ca argument o singura matrice, iar MATLAB-ul creaza scatterplots pentru toateperechile posibile de coloane ale matricii. Sunt reprezentate si histograme ale fiecarei coloane pe diagonalaprincipala a matricii scatterplot.

Argumente aditionale permit modificari ale reprezentarii grafice, dupa cum vedem ın abordarea urmatoare,ın care ınlocuim histogramele de pe diagonala cu etichete de text care identifica numele variabilelor.

19

Page 20: Organizarea datelor statistice - Facultatea De Matematica Iasieduard/Capitolul 1. Organizarea...Analiza exploratorie a datelor unei serii statistice (exploratory data analysis, EDA)

load iris.m% Se incarca datele pentru 3 matrici, corespunzatoare celor 3 specii% Reprezentam grafic datele pentru Iris setosasetosa = iris(1:50,1:4);versicolor = iris(51:100,1:4);virginica = iris(101:150,1:4);% Cream etichetelelabs = ’Lungime sepale’,’Latime sepale’,’Lungime petale’, ’Latime petale’;[H,ax,bigax,P] = plotmatrix(virginica);axes(bigax)title(’Iris Virginica’)% Stergem histogrameledelete(P)% Completam cu etichetelefor i = 1:4txtax = axes(’Position’,get(ax(i,i),’Position’),’units’,’normalized’);text(.1, .5,labsi)set(txtax,’xtick’,[],’ytick’,[],’xgrid’,’off’,’ygrid’,’off’,’box’,’on’)end

Bibliografie

[1] Devore, J; Berk, K., Modern Mathematical Statistics with Applications, 2nd Edition, Springer New York Dor-drecht Heidelberg London, 2012.

[2] Duret, R., Probability: Theory and Examples, 5th Edition, Cambridge Series in Statistical and Probabilistic Math-ematics, 2014.

[3] Hand, D.; Daly, F.; Lunn, A. D.; McConway, K. J.; Ostrowski, E., A Handbook of Small Data Sets, London:Chapman and Hall, 1994.

[4] Klenke, A., Probability Theory: A Comprehensive Course, 2nd Edition, Springer, 2014.[5] Martinez, A; Martinez W., Computational Statistics Handbook with MATLAB, Third Edition, Chapman &

Hall/CRC, 2016.[6] Montgomery, D; Runger, G, Applied Statistics and Probability for Engineers, 3rd Edition, John Wiley & Sons, Inc,

2003.[7] Owen, A, Lectures on statistics, Department of Statistics, Stanford University.[8] Wackerly, D.; Mendenhall, W.; Scheaffer, R., Mathematical Statistics with Applications, 7th Edition, Thomson

Brooks/Cole, 2008.[9] Walck, C., Handbook on Statistical distributions for experimentalists, Particle Physics Group, University of Stock-

holm.

20