Prelucrarea Primara a Datelor Statistice

Capitolul II

PRELUCRAREA PRIMAR A DATELOR2.1. CONINUTUL PRELUCRRII DATELOR STATISTICEO persoan pentru a exprima o aciune trebuie s aeze ntr-o form logic cuvintele n propoziii sau fraze. n mod analog, datele referitoare la indicatorii societilor comerciale dintr-un departament, la preurile i cantitile de mrfuri desfurate pe o pia etc. pentru a evidenia esena, regularitatea, din forma de manifestare a fenomenelor cercetate trebuie prelucrate, sistematizate, centralizate i grupate. Valorile individuale ale caracteristicilor nregistrate, n funcie de scopul analizei, prezint variaii mari de la o unitate la alta crend n mod aparent impresia c ele ar fi independente ntre ele. Din aceast cauz ansamblul datelor nregistrate nu permite cunoaterea esenei din forma de manifestare a fenomenelor investigate. Datele statistice nregistrate, printr-o modalitate de observare total sau parial, sunt utile n procesul de cunoatere i pregtire a deciziilor numai dac sunt supuse unor operaiuni de prelucrare. Prelucrarea, ca etap a cercetrii statistice, cuprinde operaii (de rafinare sau transformare) cu ajutorul crora se realizeaz trecerea de la datele individuale la indicatorii derivai, sintetici, care reflect esena din manifestarea fenomenelor. S presupunem c ntr-o colectivitate (populaie) s-au observat carateristicile x1, x2, ..., xm. De exemplu: cantitatea mrfurilor vndute; preul de pe pia al mrfurilor, valoarea adugat; profitul brut; numrul de angajai; volumul activelor fixe etc. Datele culese de la cele n uniti din colectivitatea investigat sunt sistematizate sub urmtoarea form:

40

Statistic general

Tabelul 2.1. Forma general de sistematizare a datelor statisticei/j Unitile investigate ale colectivitii (populaiei) 1 2 : i : n Caracteristici statistice observate (X) x1 x11 x21 xi1 : xn1 x2 x12 x22 xi2 : xne2 xj x1j x2j xij : xnj xm x1m x2m xim : xnm

Forma matriceal a datelor sistematizate se caracterizeaz prin urmtoarele trsturi: - elementele fiecrei coloane j j = 1, m reprezint valorile caracteristicii ( ) xj nregistrate la toate cele n uniti. Datele x ij i=1,n sunt egale sau/i diferite ntre ele; - elementele fiecrei linii i i = 1, n reprezint valorile caracteristicilor

x j j = 1, m nregistrate la fiecare unitate i i = 1, n din colectivitatea investigat; ( ) - elementele matricei x ij i=1,n, j=1,m sunt nule i/sau nenule, pozitive i/sau negative; - mrimea matricei (m, n) depinde att de numrul caracteristicilor precizate n programul observrii ct i de numrul de uniti investigate. Pentru desprinderea aspectelor eseniale i stabile din manifestarea fenomenelor analizate datele statistice sistematizate trebuie s fie supuse unor operaii de prelucrare. Prelucrarea datelor statistice nregistrate poate fi primar sau secundar. Prelucrarea primar cuprinde operaii de clasificri, de grupri, de comparri, de prezentare sub form de tabele, grafice sau serii statistice. Prin efectuarea acestor operaii se realizeaz sintetizarea datelor individuale la nivelul grupelor sau claselor, se calculeaz indicatori absolui i/sau relativi, se prezint sintezele efectuate prin tabele, grafice sau serii statistice. Sintetizarea datelor individuale la nivelul grupelor sau claselor i apoi la nivelul colectivitii, este nsoit de o pierdere inevitabil de informaii, deoarece se elimin ceea ce este neesenial i ntmpltor. n acelai timp se ctig sub aspectul obinerii unei noi informaii, sintetice, care nu pot fi obinute direct din datele primare (structura colectivitii, tendina central etc.). Rezultatele operaiilor de prelucrare primar sunt elementele de intrare pentru prelucrarea secundar n urma creia se

Capitolul II

41

estimeaz valori tipice, omogenitatea i asimetria distribuiilor, intensitatea legturilor dintre fenomenul analizat i factorii si de influen etc. n cazul n care scopul cercetrii declanate necesit un volum mare de operaii, diverse, de prelucrare este necesar s se elaboreze, de la caz la caz, planuri de prelucrare informatic a datelor.

2.2. METODE DE STRUCTURARE A COLECTIVITILOR STATISTICE N FUNCIE DE UNA SAU MAI MULTE CARACTERISTICIObiectivele metodelor. Principalele metode prin care se realizeaz trecerea de la datele primare nregistrate la valorile tipice, sintetice, sunt metodele de structurare ale colectivitilor dup una sau mai multe caracteristici statistice i anume metode de clasificare i grupare. Obiectivul principal al metodelor de clasificare sau/i grupare l reprezint formarea de clase sau grupe de uniti omogene, din colectivitatea (populaia) investigat. Prin grup sau clas omogen nelegem acea grup sau clas n care sunt incluse acele uniti din colectivitate la care valorile individuale ale caracteristicii (lor) urmrit(e) prezint variaii (abateri) minime, explicate prin influena factorilor ntmpltori. Potrivit acestui obiectiv se poate spune c gruparea i clasificarea datelor statistice sunt subordonate scopului cercetrii i sunt declanate dup o analiz aprofundat a colectivitii investigate n vederea identificrii grupelor sau claselor calitativ distincte i omogene. n cazul n care nu se acord o importan deosebit operaii exist riscul de a se forma clase sau grupe care nu se deosebesc calitativ, iar cunoaterea obiectiv a aspectelor eseniale ar fi imposibil. Gruprile i clasificrile pot fi specifice fiecrei cercetri concrete sau pot avea un caracter permanent. Criteriile (caracteristicile) de clasificare sau grupare se aleg n funcie de scopul cercetrii astfel nct s conduc la structurarea colectivitii n grupe sau clase omogene. Cu ct complexitatea fenomenelor urmrite este mai mare, cu att mai mult este necesar gruparea unitilor din colectivitate (populaie) dup mai multe caracteristici aflate n relaii de interdependen obiectiv. Gruprile sau clasificrile, care pun n eviden tipuri de fenomene, sunt grupri sau clasificri tipologice i care de multe ori au un caracter permanent. De exemplu: clasificarea populaiei pe grupe de vrst; clasificarea societilor comerciale pe ramuri de activitate sau n profil teritorial etc.

42

Statistic general

2.2.1. Clasificarea statisticIstoria statisticii consemneaz c nc din cele mai vechi timpuri s-a utilizat metoda clasificrii, un prim pas n cunoatere fiind omogenizarea materialului faptic (observat) pentru a evidenia asemnarea, tipicitatea straturilor (claselor) formelor individuale de manifestare ale fenomenelor de mas. n orice tiin clasificarea prezint o importan metodologic deosebit, deoarece faciliteaz trecerea de la masa amorf de date nregistrate la informaie. Acesta este i motivul pentru care astzi, cnd mijloacele informatice sunt extrem de permisive, asistm la o larg diversitate a tehnicilor de clasificare (sau de clusterizare). n esen, clasificarea ca metod statistic -, utilizat potrivit scopului cercetrii, presupune operaii complexe de sistematizare a unui ansamblu de uniti sau noiuni, pe baza caracteristicilor lor comune, n clase de uniti, a claselor de uniti n clase de clase de uniti .a.m.d., cu scopul ca fiecare clas astfel obinut s ocupe un loc precis i stabil ntr-o structur sau ierarhie. n cadrul operaiei de clasificare se disting: o obiectele (unitile) de clasificat; o criteriul (criteriile) dup care se efectueaz clasificarea; o clasele rezultate din operaii de clasificare. Operaiile de clasificare a ansamblului de uniti observate presupune respectarea anumitor cerine: o completitudine: fiecare unitate trebuie repartizat unei clase (clasificarea are n vedere ansamblul unitilor observate i nu las rest); o unicitatea: fiecare unitate aparine unei clase i numai una (clasele formate trebuie s fie, deci, disjuncte, adic nici o unitate nu poate fi repartizat simultan n mai multe clase); o omogenitatea: unitile care aparin aceleiai clase trebuie s fie asemntoare (diferenele dintre unitile care aparin aceleiai clase trebuie s fie minime); o organizarea ierarhic: pe fiecare nivel de clasificare criteriul trebuie s fie unic; trecerea de la un nivel la altul se realizeaz prin creterea gradului de generalitate al criteriului adoptat. Utilizarea metodei clasificrii, n principiu, presupune parcurgerea succesiv a dou etape: 1. Etapa I: n aceast etap se realizeaz o clasificare pe orizontal a ansamblului de uniti observate. Unitile sunt repartizate n clase (grupe) cu acelai grad de generalitate, dar (pe ct posibil) disjuncte.

Capitolul II

43

2. Etapa II: n aceast etap se realizeaz o ierarhizare pe vertical n ordinea generalitii, prin trecerea la operaii aplicate claselor obinute iniial, acestea sunt cointegrate n clase de clase sau, dimpotriv, sunt divizate n subclase mai compacte. n practica statistic, n clasificare se utilizeaz pentru structurarea unitilor populaiei statistice o gam larg de criterii. De exemplu, natura criteriului de clasificare conduce la distincia dintre clasificrile naturale (situaii n care criteriul este ales n mod obiectiv, n conformitate cu trsturile intrinseci ale unitilor observate) i clasificri artificiale (situaii n care unitile sunt repartizate dup criterii subiective, convenionale). Menionm n acest sens sistemele standardizate de clasificri i nomenclatoare utilizate n statistica public, i care cuprind, printre altele: clasificarea ramurilor din economia naional (CREN); clasificarea activitilor din economia naional (CAEN); clasificarea produselor i serviciilor asociate activitilor (CPSA); nomenclatorul profesiilor (NP); nomenclatorul indicatorilor economico-sociali (NIES) etc. 2.2.1.1. Clasificarea dup variabile calitative Aa cum rezult din cele prezentate anterior, clasificarea (stratificarea) reflect, ca orice form logic de reprezentare i abstractizare, o operaie de tip conceptual reprezentnd o anumit modalitate de a distinge unitile populaiei statistice prin divizarea lor dup caracteristici comune n submulimi (clase sau grupe) relativ omogene. Obiectivul urmrit prin aceast operaie este acela de a identifica straturi tipice n structura populaiei, de a obine indicatori generalizatori, difereniai pe clase, necesari pentru analiza statistic. Cazul cel mai simplu este acela n care dup o anumit variabil calitativ A, unitile populaiei se separ prin dichotomie n dou clase complementare: o clasa unitilor de tip U1 care posed modalitatea direct de exprimare a variabilei; o clasa unitilor de tip non-U1 (sau U 1 ) care nu posed modalitatea direct de exprimare a variabilei U1 (modalitatea direct fiind absent). Cazul prezentat ar putea sugera faptul c operaia de clasificare s-ar putea rezuma la numrarea i ordonarea unitilor posesoare sau nonposesoare de caracteristici calitative. Dimpotriv, problematica nu este simpl deoarece pentru maximizarea cantitii de informaie necesar cunoaterii suntem nclinai s formm clase i subclase compacte cu grade diferite de omogenitate, s structurm populaia dup mai multe

44

Statistic general

variabile calitative. De exemplu, dac analizm trei variabile calitative U1, U2, U3 se vor identifica urmtoarele tipuri de clase: o clase de ordinul unu de uniti la care este prezena caracteristicii specificate simbolizate prin U1, U2, U3; o clase de ordinul unu de uniti la care este absent caracteristica specificat simbolizate prin U 1 , U 2 , U 3 ; o clase de ordinul 2 (tip mixtur) n care apar combinaii ale posesiei i/sau absenei caracteristicii - simbolizat prinU1 U 2 ; U1 U 2 ; U1 U 2 ; U1 U 2 ; U1 U 3 ; U1 U 3 ; U1 U 3 ; U1 U 3 ; U 2 U 3 ; U 2 U 3 ; U 2 U 3 ; U 2 U 3

o clase de ordinul trei de tipul U 1 U 2 U 3 ; U 1 U 2 U 3 ; U 1 U 2 U 3 ... Numrul absolut de cazuri observate i incluse ntr-o grup (clas) se numete frecven de grup (clas) i se va nota prin acelai simbol dar inclus n paranteze rotunde. De exemplu: U 1 U 2 U 3 este clasa de ordinul 3, iar ( U 1 U 2 U 3 ) numrul de uniti posesoare simultan de U1, U2, U3 sau frecvena clasei specificate de ordinul 3. Generaliznd, se poate spune c n cazul a n variabile calitative se pot forma grupe de ordinul r (cu r n ) cu frecven absolut corespunztoare numit frecven de grup de ordinul r. Mai mult, se poate demonstra c dac numrului total de uniti din populaia N i se atribuie, n mod convenional, ordinul zero, atunci exist un numr de 3n frecvene de grup de diferite ordine. Exemplificm aceast afirmaie n tabelul 2.2. Tabel 2.2. Frecvene de grup a unei populaii formate din N uniti descris prin patru caracteristici calitative (U1, U2, U3, U4)Ordinul r al grupei de uniti r = 0,4 0 1

Frecvene de grup de ordinul r r = 0,4 ; n = 1,4 N (U1) (U2) (U3) (U4) (U1 ) (U 2 ) (U 3 ) (U 4 )(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )

2

(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 ) (U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )

Capitolul II(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )

45

(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )

3

(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )

(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 ) (U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )

(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

4

(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

Analiznd datele din tabelul anterior observm urmtoarele: o Suma frecvenelor de grup este 81 = 34 = N. o Frecvenele de grup nu sunt independente ci sunt legate ntre ele prin anumite relaii. De exemplu: N = (U1 ) + (U 2 ) {

(U1 ) = (U1 U 2 ) + (U1 U 2 ) 123 4 4

(U1 U 2 ) = (U1 U 2 U 3 ) + (U1 U 2 U 3 ) M Prin urmare, fiecare frecven de grup poate fi exprimat cu ajutorul de ordin imediat mai nalt. Mai mult, orice frecven de grup se poate exprima cu ajutorul frecvenelor de ordinul cel mai nalt. o Frecvenele de grup, corespunztoare grupelor specificate prin toate caracteristicile considerate numite i frecvene de grup finale sunt n numr de 2n. n exemplul anterior exist 24 = 16 frecvene de grup finale.

46

Statistic general

o Populaia statistic investigat este definit n mod unic printr+o serie de frecvene de grup care ndeplinete urmtoarele condiii: numrul elementelor sale este 2n i elementele sale sunt independente ntre ele. O astfel de serie de frecvene de grup se numete serie fundamental (unidimensional). o Operaia de dichotomizare a populaiei statistice dup un numr mai mare de trei sau patru caracteristici calitative devine greoaie. n activitatea practic, n cazul n care suntem n posesia anumitor frecvene de grup se putea opera cu ele astfel nct s se determine mai nti grupele finale, iar apoi, pe baza lor, se vor exprima diferite frecvene de grup a cror cunoatere este necesar. O observare statistic riguros organizat, urmat de prelucrri i grupri corespunztoare fiind vizat una i aceeai populaie ofer frecvene de grup ce nu se contrazic n nici un fel. Se spune despre asemenea date c asigur condiia de concordan. Aceast condiie este aceea ca frecvenele de grup finale s fie nenegative. Lipsa acestei condiii, lipsa de concordan a datelor privind frecvenele de grup ne sugereaz faptul c n procesul de observare au existat erori (lipsa concordanei n timp i spaiu; folosirea diferitelor surse i materiale de informare etc.). Aceast condiie de concordan a informaiei privind sistemul de grupri este important i din alte motive: 1. Ea sugereaz i metoda cu ajutorul creia se poate verifica ntr-un ansamblu de frecvene de grup, nsi concordana. De exemplu, dac se cunosc doar frecvenele de grup finale pozitive (obinute prin excluderea din simbol a celor care sunt de tip non) pe baza acestora pot fi determinate frecvene de grup nedeterminate, atunci cnd seriile de date sunt incomplete. Deci, atunci cu siguran seria este concordant. 2. O consecin important a acestei condiii de concordan faciliteaz aflarea probabilitii ca alegnd la ntmplare o unitate sau un grup de uniti dintr-o populaie statistic aceasta sa prezinte anumite modaliti ale unor caracteristici calitative. 3. Pe baza condiiei de concordan se poate determina numrul minim de uniti la care s-a nregistrat prezena simultan a caracteristicilor calitative

Capitolul II

47

U1,U2,,Um i acesta este dat de inegalitatea:( U1 U 2 ...U m ) ( U1 ) + ( U 2 ) + ... + ( U m ) (m 1) N (2.1)

Pentru exemplificarea acestei observaii prezentm urmtoarea aplicaie. Presupunem o serie de studeni (N = 100), ntr-o sesiune de examene, la urmtoarele examene: analiz matematic, statistic i informatic. La sfritul sesiunii au promovat 89% (U1) la analiz, 91% (U2) la statistic i 92% (U3) la informatic. Numrul minim de integraliti este dat de inegalitatea ( U 1 U 2 U 3 ) ( U 1 ) + ( U 2 ) + ( U 3 ) (3 1)100 ( U 1 U 2 U 3 ) 72 ceea ce nseamn c cel puin 72% din studenii care au susinut examenele precizate sunt integraliti. Clasificri complexe. Dup cum s-a observat din cele prezentate, dac sunt luate n considerare dou variabile calitative, fiecare dintre ele genereaz prin simpla dichotomie dou subclase complementare. n realitate, de cele mai multe ori variabila calitativ poate avea un numr mare i diferit de variante (modaliti). De exemplu, populaia se divizeaz dup variabila U1 n k grupe (clase) U11, U12, , U1k, fiecare din cele k clase se subdivid n l grupe dup variabila U2 i avem U21, U22, , U2l, apoi n mod similar dup factorul U3 .a.m.d. se formeaz n final grupe (clase) complexe (cu complexitate diferit). n categoria clasificrilor complexe, un loc aparte l ocup clasificrile (gruprile) multiple. Pentru realizarea acestora lum n considerare variabilele calitative U1 i U2; variabila U1 conduce la frecvene de grup ( U 1i ) i =1,k , iar variabila U2 conduce la frecvene de grup ( U 2 j ) j=1,l . Rezult, deci, c vor exista i grupe (clase) combinate de tipul ( U 1i U 2 j ) , cu i = 1, k, j = 1, l , care sunt n numr de k x l. Datele obinute sunt sistematizate i prezentate n urmtoarea form tabelar (tabelul nr. 2.3):Tabel 2.3

U21 U2j U2l Total

U11 (U11 U21) (U11 U2j) (U11 U2l) (U11)

U12 (U12 U21) (U12 U2j) (U12 U2l) (U12)

U1i (U1i U21) (U1i U2j) (U1i U2l) (U1i)

U1k (U1k U21) (U1k U2j) (U1k U2l) (U1k)

Total (U21) (U2j) (U2l) N

Analiznd forma tabelar anterioar se observ urmtoarele:

48

Statistic general

1. (U1i U2j) reprezint numrul de uniti din populaie simultan prezint att prezena modalitii U1i ct i prezena modalitii U2j. 2. Tabelul prezentat se numete tabel de contingen de tip k xl i este nzestrat cu urmtoarele proprieti: a. Suma frecvenelor de grup din coloana i reprezint totalul unitilor din clasa U1i la care s-a nregistrat prezena modalitii U1i indiferent de variantele nregistrate ale variabilei U2. Deci, pe coloane rndurik

( U1i U 2 j ) = ( U1i ), i = 1, k i analog pej=1

l

( U1i U 2 j ) = ( U 2 j ), j = 1, l (2.2) .i =1

b. Sumele frecvenelor de grup ( U 1i ), i = 1, k i ( U 2 j ), j = 1, l sunt egalek i =1

ntrel j=1

ele

i

egale (2.3)

cu

volumul

populaiei

( U1i ) = ( U 2 j ) = N

c. Exist un numr de k x l grupe finale, iar numrul lor total (inclusiv N) este (k+1) x (l+1). d. Frecvenele de grup finale de tipul ( U 1i ), ( U 2 j ), ( U 1i U 2 j ) pentru orice i = 1, k, j = 1, l definesc complet datele unui tabel de contingen (de tip k x l). n cazul omisiunilor de nregistrare a datelor este posibil s se stabileasc limitele ntre care se vor ncadra frecvenele de grup necunoscute. e. Datele dintr-un astfel de tabel de contingen sunt concordante dac lipsesc frecvenele negative aceasta fiind o condiie necesar i suficient. f. Problematica analizat ntr-un tabel de contingen de tip k x l nu difer de cea din categoria tabelelor dichotomice de tip 2 x 2. n esen, aceasta poate fi structurat n dou categorii: O problem de ordin general, deseori pus n practic I. (ea va fi tratat pe larg n capitolul consacrat analizei dependenelor statistice), se refer la msura n care variabila U1 este n ansamblul populaiei dependent de variabila U2 i care ar fi intensitatea acestei dependene. Pentru aceasta se vor utiliza coeficienii de contingen total, care sintetizeaz natura general (global) a dependenei. O a doua mare problem care intereseaz (teoretic i II. practic) se refer la asocierile pariale dintre

Capitolul II

49

diferitele variante (modaliti) ale factorilor studiai. Acest caz solicit o analiz de detaliu: prin transformri succesive dimensiunea tabelului iniial (k x l) se reduce, iar apoi cu tabelele de tip 2x2 se urmresc diferite asocieri la nivelul claselor (ptratelor sau celulelor) elementare (compacte) adiacente sau al grupelor de cte patru, cinci, frecvene (cnd proprietile tabelului initial fac posibile asemenea operaii). Se va putea stfel constata (i demonstra matematic) c aceste proprieti sunt satisfcute doar de tabelele de contingen izotropice1 i care vor fi studiate la capitolul dedicat regresiei i corelaiei. n acest context precizm doar faptul c una din proprietile izotropiei n tabelele de contingen amintite se refer la satisfacerea egalitilor (pentru orice i = 1, k i j = 1, l ) de tipul ( U 1i )( U 2 j ) ( U 1i U 2 j ) = (2.4) , ceea ce ar sugera o N independen total ntre U1 i U2. Dup cum s-a artat, gruprile multiple, clasificrile multiple s-au format n tabele de contingen dup ce populaia statistic a fost divizat n k clase U11,U12,,U1k (dup factorul U1), iar fiecare din aceste clase n continuare au fost divizate (dup U2) n l clase: U21,U22,,U2l. Clasificrile (gruprile) multiple complementare se obin n mod evident i prin luarea n considerare a absenei modalitii non-U1 (sau U 1 ) n combinaie cu non-U2 (sau U 2 ). n ambele situaii, principiul clasificrii (gruprii) este identic i anume omogenitatea claselor compacte formate. Numai n virtutea acestui principiu clasificrile multiple conduc la informaii comparabile n timp, spaiu i din punct de vedere organizatoric, la aprofundarea analizelor de asociere i contingen. Aceste precizri sunt utile pentru cteva observaii concluzive referitoare la metodologia statistic a clasificrilor multiple: 1. Centralizarea, clasificarea multipl i, apoi, prelucrarea datelor statistice necesit operaii greoaie dac nu se face apel la mijloace informatice corespunztoare (absena acestora poateNoiunea de izotropie provine din fizic i se refer la nsuirea unei substane de a avea proprieti identice cu altele, indiferent de timpul i spaiul n care ele sunt msurate. n statistic, izotropia n sensul amintit se refer la nsuirea unor grupri multiple de a avea asocieri de acelai semn n fiecare ptrat elementar.1

50

Statistic general

2.

3.

4.

5.

afecta direct omogenitatea i compatibilitatea n ansamblul datelor culese). O clasificare multipl poate fi privit ca o succesiune de dichotomii. La fiecare partiionare, o unitate poate fi inclus n una din alternativele U1 sau U 1 , U2 sau U 2 i combinaii ale acestora. Dac datele provin dintr-un sondaj statistic, problematica expus (prin implicaiile ei) capt dimensiuni exprimate n termeni de estimaii i care se va trata n capitolul 3. Cea mai important clasificare de tip omogen a unitilor populaiei statistice este prin care toate aceste uniti se distribuie dup o singur stare a variabilei calitative studiate. Aceasta conduce la un tip de clasificare (clusterizare) ierarhic. Deseori se ntlnesc clasificri multiple prezentate n tabele de contingen aparent neizotropice. n practic, ns, printr-o rearanjare convenabil (scopului) a unor coloane sau rnduri din tabele studiate se pot obine tabele transformate cu proprieti de izotropie; acestea pot, apoi, s fie reduse la tabele de tip 2x2 fr s existe riscul obinerii unor asocieri cu semne diferite. Din motive practice, n metodologia prezentat se pot utiliza simultan nu numai variabile msurabile de pe scala nominal ci i combinaii de tipul una pe scala nominal i alta (celelalte) pe scala fie ordinal, fie de interval, fie de raport. Cert este c una din aceste combinaii trebuie s cuprind o variabil nominal (cu una sau mai multe modaliti de exprimare).

2.2.1.2. Clasificarea ierarhicObiectivul clasificrii automatice l reprezint n colectivitatea statistic investigat a unor clase (familii) de uniti omogene un anumit criteriu. Pentru efectuarea unor clasificri automate pe un anumit ansamblu n de uniti este necesar s definim o distan sau mai general o msur a "asemnrii" ntre unitile clasificate. Exist mai multe metode de clasificare automate: partiionarea; partiionarea n clase, n care unitile colectivitii pot s aparin simultan mai multor clase; clasificarea ierarhic etc. Pentru efectuarea unei clasificri ierarhice a celor n uniti dintr-o colectivitate dup o anumit caracteristic x, respectiv a datelor {x1, x2,...,xn} este necesar s definim o "distan" pentru a obine tabelul distanelor dintre

Capitolul II

51

uniti; n acelai mod se determin i distanele dintre subclasele colectivitii investigate. n cadrul clasificrii ierarhice un loc aparte l ocup metodele "aglomerative". Acestea sunt sintetizate n urmtorul algoritm: 1. Identificarea perechilor (xi, xj) ntre care distana care le separ s fie cea mai mic; 2. Agregarea perechilor (xi, xj) ntr-o singur clas i elaborarea unui nou tabel al distanelor. Acest ultim tabel se formeaz suprimnd liniile i colonele xi i xj i nlocuindu-le cu liniile i coloanele relative de la clasa . Deci, noul tabel al distanelor va avea mai puin o linie i o coloan. 3. Se repet cele dou operaii pn la obinerea de clase omogene sau pn la agregarea unitilor colectivitii ntr-o singur clas. n funcie de distanele dintre unitile unei clase formate i celelalte elemente exist mai multe metode de clasificare i anume: metoda simplei nlnuiri i metoda nlnuirii complete. Metoda simplei nlnuiri este o metod de clasificare ierarhic care presupune utilizarea distanelor euclidiene pentru elaborarea tabelului cu distane, sau a distanei ntre dou cele mai apropiate uniti (distana minim). n cazul metodei nlnuirii complete se ia n considerare distana euclidian ntre dou elemente cele mai ndeprtate (distana maxim). ntre cele dou metode exist, deci, diferena c una ia n considerare distana minim, iar alta distana maxim. Fie x1, x2, ..., xn valorile individuale ale caracteristicii x urmrite la cele n uniti din colectivitatea investigat i pentru care se elaboreaz un tabel la distanele dintre valorile individuale respective. Acest tabel poate avea urmtoarea form: Tabelul 2.4. Tabelul distanelor d(x1, x2) d(x1, x3) d(x2, x3) d(x1, xn) d(x2, xn) : d(xn-1, xn)

Unde: d(xi, xj) este distana euclidian ntre xi i xj (pentru i < j cu valori de la 1 la n); Algoritmul metodei simplei nlnuiri presupune parcurgerea urmtorilor pai: - se caut distana minim d(xi, xj) cu i < j; - elementele xi i xj sunt agregate ntr-o nou grup C k = x i 4 x j ;

52

Statistic general

- ansamblul de uniti din colectivitatea statistic investigat este partiionat n: {x1}, ..., {xi-1}, ..., {xj-1}, {xj+1}, ..., {xn}; - se elaboreaz un nou tabel al distanelor prin suprimarea liniilor i coloanelor corespunztoare xi i xj i adugnd o linie i o coloan reprezentnd distanele dintre xm i Ck, m = 1, 2, ..., n, m ! i i m ! j, aflate cu relaia (2.5). d(C k , x m ) = min{d(x i , x m ); d (x j , x m )} (2.5) n cazul cel mai general distana dintre cele dou calse sau grupe este calculat dup relaia (2.6). d(C k , C m ) = min{d(x i , x j ) cu x i c C k {x j c C m } (2.6) Relaia (2.6) se aplic n cazul n care grupele/clasele sunt formate din unul sau dou uniti. regruparea datelor se vizualizeaz prin grafice specifice cum ar fi de exemplu diagramele, pe axa absciselor a acestora se reprezint distanele care separ clasele/grupele de uniti. Din algoritmul prezentat trebuie s precizm faptul c o clasificare automat a unitilor unei colectiviti nu conduce la cea mai bun structur a colectivitii, dar ea este mult mai real dect clarificarea efectuat dup criterii (variabile) considerate de cercettor ca fiind reprezentative.Aplicaia 2.1. Ilustrm metoda simplei nlnuiri de clasificare pe baza cifrelor de afaceri (mild. lei) nregistrate de cinci societi comerciale A, B, C, D, E cu profil asemntor, n patru judee: Constana, Galai, Ialomia. Datele (convenionale) sunt prezentate n tabelul urmtor: Tabelul 2.5. (mild. lei)Judeul Constana 5,0 5,5 4,5 4,0 4,0 Judeul Galai 3,5 4,0 4,5 5,5 4,5 Judeul Brila 4,0 5,0 4,0 3,5 3,0 Judeul Ialomia 4,5 4,5 3,5 4,0 3,5

A B C D E

Pe baza datelor din tabelul 2.5 se calculeaz distanele euclidiene dup relaia:d ij = d ( x i , x j ) =

( x i x j ) 2 , cu i, j = 1, ni =1

n

(2.7)

Capitolul II

53

Se obine astfel tabelul distanelor euclidiene ntre societile comerciale (tabelul 2.6).Tabelul 2.6.A B C D E A 1,22 0 1,80 2,65 2,74 B 1,50 1,80 0 1,32 1,12 C 1,50 1,80 0 1,32 1,12 D 2,35 2,65 1,32 0 1,22 E 2,00 2,74 1,12 1,22 0

Tabelul (2.6) distanelor euclidiene evideniaz disimilitatea dintre uniti. Din tabelul precedent se ia n considerare jumtatea superioar a tabelului simetric, adic tabelul 2.7.Tabelul 2.7.A B C D B 1,22 C 1,50 1,80 D 2,35 2,65 1,32 E 2,00 2,74 1,12 1,22

Se observ c distana minim de 1,12 ntre C i E; Aceasta nseamn c o prim clas/grup se poate forma ntre C i E. Se calculeaz, de exemplu, distana dintre C i E, pe de o parte, i dintre C i A, pe de alt parte, i se ia n considerare distana minim dintre C i A i dintre E i A. Aceasta nseamn: d({C, E,}, E) = min {d(C, A), d(E, A)} = min {1, 5, 2} = 1, 5 Analog d({C, E,}, B) = min {d(C, B), d(E, B)} = min {1, 80, 2,74} = 1, 8 i d({C, E,},D) = min {d(C, D), d(E, D)} = min {1, 32, 1, 22} = 1, 22 Noul tabel al distanelor are forma urmtoare (tabelul 2.8).Tabelul 2.8.A B C i E B 1,22 C i E 1,50 1,80 D 2,35 2,65 1,22

54

Statistic general

Distana minim prezentat n datele tabelului 2.6 este 1,22, ntre A i B (aceeai minim distan exist ntre grupul C i E pe de o parte i D pe de alt parte); se regrupeaz, deci, n primul rnd societile comerciale A i B i se reface noul tabel al distanelor, utiliznd datele din tabelul 2.8. Se determin: D({A, B},{C, E}) = min {d(A, {C, E}), d(B, {C, E})}= min {1,5, 1,8} = 1,5 i analog d({A, B},D) = min {d(A,D), d(B, D) = min {2,35, 2,65} = 2,35 Noul tabel al distanelor este urmtorul:Tabelul 2.9.A i B C i E C i E 1,5 D 2,35 1,22

Din tabelul precedent se observ c D, trebuie s fie integrat la grupul format de societile C i E. Noua distan va fi: d({(C, E),D},{A, B,}) = min {d({C, E}), A, B}}; d(D, {A, B}) = min {1,5, 2,35} = 1,50. Se obine astfel, urmtorul tabel al distanelor (tabelul (2.10)).Tabelul 2.8.C, E i D A i B 1,50

n final se observ dou grupe/clase: A i B i C, E i D care sunt difereniate prin distana de 1,50. Dendograma care se obine prin agregri succesive este prezentat n fig. 2.1.A B C D

E0

1

2 distana

Fig 2.1. Clasificarea simplu nlnuit a celor cinci societi comerciale

Capitolul II

55

Un alt exemplu de clasificare ierarhic dup acelai criteriu prezentat anterior este urmtorul.1 2 3 4 5 1 2 3 4 5 0 4 9 5 8 4 0 6 3 6 9 6 0 6 3 5 3 6 0 5 8 6 3 5 0 Aglomerarea (agregarea) 2 i 4 la disimilaritatea 3 1 2U4 3 5 1 0 4 9 8 2U4 4 0 6 5 3 9 6 0 3 5 8 5 03 0

Aglomerarea (agregarea) 3 i 5 la disimilaritatea 3

1 2U4 3U5

1 2U4 3U5 0 4 8 4 0 5 8 5 0 Aglomerare 1 i 2U4 la disimilaritatea 4

1U2U4 3U5 1U2U4 0 5 3U5 5 0 Aglomerare final 1U2U4 i 3U5 la disimilaritatea 5

Rezultatul dendogramei4 3 2 1 0 Ranguri de nivel 5 4 3 3 0

1

2

4

3

5

Criteriul valorilor

Figura 2.2. Exemplu de construcie a unei dendograme

2.2.2. Gruparea datelor statisticeRealizarea scopului cercetrii statistice necesit elaborarea nu numai de clasificri dar i de grupri simple i/sau combinate, dup uan sau mai multe caracteristici numerice cuprinse n programul de observare. Caracteristicile numerice de grupare pot fi cu variaie discret i/sau cu variaie continu. n funcie de variaia caracteristicii urmrite gruprile pot fi efectuate pe variante i/sau pe intervale de variaie.

56

Statistic general

n cazul n care caracteristica urmrit prezint un numr redus de variante, n mod evident, se recomand gruparea pe variante (tabelul 2.12). Aceast operaiune de prelucrare const n identificarea prin numrare a unitilor (frecvenelor) la care se nregistreaz aceeai variant a caracteristicii. Exemplul 2.1. La finalul lanului de asamblare a aspiratoarelor se preleveaz un eantion de 20 aparate. n urma controlului tehnic de calitate s-a constatat numrul de piese care prezint o defeciune, la fiecare aparat prelevat. Datele nregistrate sunt urmtoarele:Tabelul 2.11.0 0 1 1 Numrul de piese care prezint o defeciune minor 1 0 2 1 2 0 0 1 3 2 1 0 0 0 0 0

n urma gruprii datelor pe variante (tabelul 2.12) se obine urmtoarea distan de frecvene:Tabelul 2.12. Distribuia aparatelor dup numrul pieselor defecteNumrul de piese defecte 0 1 2 3 Total Numr de aparate 10 6 3 1 20

Gruparea datelor pe intervale de variaie se utilizeaz atunci cnd caracteristica numeric urmrit prezint un numr mare de valori individuale (exemplul 2.2.). Exemplu 2.2. Din fiierul informatic "fora de munc" al Societii Comerciale "GRUPO" se extrag urmtoarele date referitoare la caracteristica "vechime n munc" (ani).

Capitolul II

57

Tabelul 2.13.9,4 8,3 11,0 11,2 16,3 13,8 8,4 8,0 12,2 11,0 11,2 10,3 Vechimea n munc a personalului (ani) 12,0 16,3 11,9 16,8 9,8 7,0 9,5 12,1 11,0 14,1 13,1 7,1 14,0 9,4 10,2 13,4 7,3 14,6 11,4 15,4 12,5 10,5 10,0 11,9 11,1 12,8 10,6 10,5 15,0 10,2 9,8 12,4 11,4 10,4 8,2 9,3 11,5 12,6 11,1 13,2 13,1 11,6 12,6 12,1 10,3 15,6 12,0 9,4

Pentru structurarea colectivitii, pentru evidenierea grupelor (straturilor) tipice din colectivitate, se pot forma grupri pe intervale egale de variaie sau pe intervale neegale. Gruparea datelor pe intervale de variaie necesit stabilirea numrului de grupe i a mrimii intervalelor. Nu exist o regul general valabil de determinare a numrului de grupe care trebuie s se formeze. Cu toate acestea, alegerea numrului de grupe nu se face mecanic, ci presupune cunoaterea variaiei caracteristicii numerice, elaborarea mai multor variante de grupe pn se ajunge la soluia cea mai potrivit, conform cu forma concret de manifestare a fenomenului urmrit. Scopul operaiei de grupare necesit formarea unui numr de grupe care s nu fie nici prea mare, dar nici prea mic. Cert este faptul c numrul de grupe (r) trebuie s fie direct proporional cu amplitudinea variaiei (A) (2.8.). (2.8) A = xmax - xmin = 16,8 - 7,0 = 9,8 ani Unde: xmin = min {x1, x2, ..., x60} = 7,0 ani i xmax = max {x1, x2, ..., x60} = 16,8 ani La variaia valorilor individuale prezentate n tabelul 2.11 caracterizat printr-o amplitudine de 9,8 ani se pot forma 7 grupe. Pe baza amplitudinii i a numrului de grupe se determin mrimea intervalelor de variaie (h) dup relaia 2.9. 9,8 ani x max x min 7 = 1, 5 ani h= A = r r (2.9) n literatura de specialitate se recomand, n ipoteza repartiiei aproximativ normale a unitilor colectivitii dup caracteristica urmrit, utilizarea relaiei lui Sturges (2.10) pentru determinarea mrimii intervalelor de variaie. x max x min h = 1+3,322 log10 n (2.10) Dup determinarea mrimii intervalelor de variaie este necesar s se determine limitele inferioare i superioare ale intervalelor de grupare. Stabilirea limitelor se poate face astfel:

58

Statistic general

- limita superioar a fiecrui interval s se preia ca limit inferioar a intervalului urmtor. n felul acesta se obin intervale cu limit repetabil (2.11). sup inf x i xi+1 , i = 1, r 1 (2.11) - limitele inferioare i superioare ale intervalelor de grupare distincte, difereniate printr-o unitate (2.12). sup x inf1 + x i + 1; i = 1, r 1 i+ (2.12) Adoptnd prima variant (2.11) pentru datele din tabelul (2.13) se determin intervalele de grupare care sunt prezentate n coloana 1 a tabelului 2.14.Tabelul 2.14. Distribuia personalului Societii Comerciale "GRUPO" dup vechimeGrupe de persoane dup vechime (ani) ncadrarea persoanelor pe Numr de persoane intervale de vechime 1 /// ///// /// ///// ///// // ///// ///// ///// //// ///// //// ///// //// 2 3 8 12 19 9 5 4 60

x iin f0

[ xi

Prelucrarea Primara a Datelor Statistice

Documents

Transcript of Prelucrarea Primara a Datelor Statistice