Pezentare Curs Nr. 13

11
IVC -continuare Împrăştierea datelor este apropiată de variaţia maximă, procentajul de 94,73 fiind foarte apropiat de 100%. Deci, repartizarea datelor este suficient de echilibrată Procedând în mod analog cu eşantionul B obţinem o valoarea a IVC = 88,07%, ceea ce arată, de asemenea, o distribuţie echilibrată IVC este utilizat doar pentru scalele nominale cu relativ puţine categorii. ENTROPIA(H) A fost introdusă în teoria statistică a informaţiei în anul 1948 de către C. Shanon. Are multiple sensuri, însă în analiza datelor entropia este o măsură a gradului de dezordine a unui sistem. Astfel, ea poate fi folosită ca o măsură a împrăştierii.

description

m

Transcript of Pezentare Curs Nr. 13

  • IVC -continuaremprtierea datelor este apropiat de variaia maxim, procentajul de 94,73 fiind foarte apropiat de 100%. Deci, repartizarea datelor este suficient de echilibratProcednd n mod analog cu eantionul B obinem o valoarea a IVC = 88,07%, ceea ce arat, de asemenea, o distribuie echilibratIVC este utilizat doar pentru scalele nominale cu relativ puine categorii. ENTROPIA(H)A fost introdus n teoria statistic a informaiei n anul 1948 de ctre C. Shanon. Are multiple sensuri, ns n analiza datelor entropia este o msur a gradului de dezordine a unui sistem. Astfel, ea poate fi folosit ca o msur a mprtierii.

  • ENTROPIA(H)Formula de calcul este urmtoarea:

    Unde k este numrul de clase n care se mpart datele, iar pi este probabilitatea ca un element s se afle ntr-o anumit clas. Este necesar ca toate probabilitile s fie strict pozitive, adic diferite de 0. Domeniul de variaie este ntre 0 i log2k i rezultatul se exprim n bii (BIT este o prescurtare de la Binary digit)

  • ENTROPIA(H)Entropia poate fi calculat i utiliznd logaritmi naturali(baza e =2,7183), caz n care rezultatul este exprimat n nii(de la NIT, T, prescurtare pentru natural digit). n acest caz formula devine:

  • ENTROPIAPentru o distribuie cu o concentrare maxim(toate valorile se situeaz ntr-o singur clas, adic mprtierea datelor este minim) se obine valoarea H = 0. Valoarea entropiei crete o dat cu mrirea mprtierii datelor, care poate fi interpretat ca o accentuare a dezorganizrii. Valoarea extrem este obinut n situaia n care elementele sun t uniform repartizate pe clasele de grupare.n aplicaii, entropia poate avea doar valoare de comparare. Utilitatea ei apare cnd se compar dou clasificri diferite cu acelai numr de clase, cea cu entropia mai mare avnd o mprtiere superioar.Un indicator a-dimensionalizat, care s permit aprecierea unei valori individuale a entropiei, se obine prin raportarea valorii calculate la valoarea maxim a entropiei

  • ENTROPIA RELATIVNoiunea de entropie relativ, notat cu Hr, are urmtoarea formul, n varianta exprimrii n nii, n care simbolurile sunt cunoscute(k este numrul de clase n care s-a fcut partiia)

  • Exemplu: dou probleme cu 6, respectiv 5 soluii, cu 65 de decideniDatele sunt expuse n tabelul urmtor

    Problema 1Problema 2SoluiaNr. decideniSoluiaNr. decideni1711921222231935434115958615

  • ExempluSe prezint proporiile claselor de decideni i logaritmii acestora

    Decideni p1Ln(p1)Decideni p2Ln(p2)7,11-2,2319,29-1,2312,18-1,6922,34-1,0819,29-1,235,08-2,563,05-3,0811,,17-1,789,14-1,988,,12-2,0915,23-1,47

  • Tabel ajuttor

    P1P2Lnp1Lnp2Ent1(1,67)Ent2(1,48),11,29-2,23-1,23-0,24-0,36,18,34-1,69-1,08-0,31-0,37,29,08-1,23-2,56-0,36-0,20,05,17-3,08-1,78-0,14-0,30,14,12-1,98-2,09-0,27-0,26,23-1,47-0,34

  • Calculul entropieiH(problema 1) = -[0,11*ln(0,11)+0,18*ln(0,18)+0,29*ln(0,29)+0,05*ln(0,05)+0,14*ln(0,14)+0,23*ln(0,23)] =1,67H(problema 2) = -[0,29*ln(0,29)+0,34*ln(0,34)+0,08*ln(0,08)+0,17*ln(0,17)+0,12(ln(0,12) = 1,48

  • Media utilizarea mediei n condiii inadecvate poate duce la confuzii i erori de interpretare. Media poate fi folosit doar n cazul n care datele se afl la cel puin un nivel de msurare de intervaln cercetrile socio-umane se folosete o variant a mediei numit media ponderat. Mai ales la scorurile testelor psihologice, rezultatele sunt ponderate n funcie de influena difereniat a fiecrui test asupra rezultatului global. Astfel, dac n cadrul unei baterii de teste avem rezultatele la 5 teste psihologice(inteligen, atenie, memorie, dexteritate manual i oboseal neuropsihic) i subiecii obin n ordinea amintit rezultatele 5, 9, 8, 6, 10 , media aritmetic se obine prin adunarea cifrelor i mprirea lor la 5. Media aritmetic este 7,6. Pentru a calcula media ponderat, trebuie ca fiecare test s aib o greutatea diferit sau o anumit pondere. Astfel dac primul test are ponderea 2, al doilea ponderea 3, al treilea ponderea 5, al patrulea ponderea 6 i al cincilea ponderea 4, vom obine urmtoarea medie ponderat:

  • Formula mediei ponderate este urmtoarea