Lecture 6

DATA MININGCurs 6

TEHNICILE K-MEDOIDS: TEHNICI BAZATE PEOBIECTE REPREZENTATIVE

K-Means – se pleacă de la construirea unui obiect genericp gcare reprezintă media obiectelor în cluster

K-Medoids – utilizează ca si punct de plecare un obiect real,care prezintă proprietatea că este cel mai central obiect încare prezintă proprietatea că este cel mai central obiect încluster

obiectul reprezintă o mediana pentru clusterul luat în discutie,d d i d i d d id d tă t i bi tde unde si denumirea de medoid dată acestui obiect

De exemplu: Media pentru 1, 3, 5, 7, 9 este 5p Media pentru 1, 3, 5, 7, 1009 este 205 Mediana pentru 1, 3, 5, 7, 1009 este 5

Avantajul medianei este acela ca nu este afectat de Avantajul medianei este acela ca nu este afectat devalorile extreme

TEHNICI K-MEDOIDS

Principala strategie a tehnicilor k-medoids constă înp ggăsirea a k clustere pentru n obiecte prin găsirea initial-arbitrară a unui obiect reprezentativ (medoid) pentrufiecare clusterfiecare cluster.

Fiecare obiect rămas este grupat cu medoidul la care estecel mai asemănător.

Strategia apoi înlocuieste iterativ unul din medoizi cuunul din obiectele non-medoid atât timp cât calitateaclusterului rezultat este îmbunătătităclusterului rezultat este îmbunătătită.

Calitatea este estimată folosind o functie de cost caremăsoară di-similaritatea medie dintre un obiect simedoidul unui cluster

ALGORITMUL K-MEDOID

PAM: PARTITIONING AROUND MEDOIDS

Prin comparatie cu cunoscutul algoritm k-means, PAMp g ,prezintă următoarele caracteristici: Operează folosind matricea de di-similaritate a setului dedatedate.

Este mai robust, deoarece minimizează o sumă a di-similaritătilor în locul unei sume a distantelor Euclidieneăt tpătrate.

Oferă o prezentare grafică, care permite selectarea număruluioptim de clustere.

ALGORITMUL PAM CLUSTERING -PARTITIONING AROUND MEDOIDS

1. Se pleca de la un set de medoids. Se selectează k obiecteparbitrar (printr-o esantionare euristică)

2. Se reamplasează unul din medoids, prin altul, astfel încât săapară o îmbunătătire în distanta totală ce caracterizeazăapară o îmbunătătire în distanta totală ce caracterizeazăobiectele din cluster. Astfel, pentru fiecare pereche deobiecte formată din obiectul neselectat h si obiectul selectat icalculează o functie cost TC = ΣCcalculează o functie cost TCih = ΣjCjih

3. Pentru fiecare pereche de i si h, If TCih < 0, i este înlocuit de h Se atribuie fiecare obiect neselectat la cel mai similar obiectreprezentativ

4. Repetă pasii 2-3 până când nu mai apare nici o schimbare

1. Se selectează aleator k medoizi. In cazul nostruk=2. Deci alegem 2 obiecte, medoid i coordonate 3-8,

d id i d t 6 4 medoid i coordonate 6-4.

2. Se asignează fiecare obiect rămas la cel mai apropiat medoid. Operatia de asignare presupune stabilirea unei distante maxime dată de

ili ( ă 5 ) d fi i i j lutilizator – (presupunem că este 5 ) ce va defini zona in jurulmedoidului in care obiectele prezente vor fi asignate la acesta. Pentruprimul cluster se vor asigna 3 obiecte, pentru al doilea 5 obiecte

Se calculează costul total pentru fiecare cluster in parte TCih = ΣjCjih.p p ih j jih pentru primul cluster avem un cost de 2 + 3 + 4 = 9 pentru al doilea cluster un cost de 1 + 2 + 2 + 3 + 3 = 11 TCih _old = 9+11=20

3. Se selectează un obiect h (coordonate 6-2) care nu este medoid.Acesta devine noul medoid. Se calculează costul total pentrufiecare cluster in parte TCih = ΣjCjih. Pentru primul cluster avem un cost de 9 pentru al doilea cluster un cost de 17 Tcih_new = 9+17=26Se verifică dacă a apărut o îmbunatătire Calitatea modificări seSe verifică dacă a apărut o îmbunatătire. Calitatea modificări seobtine făcând diferenta dintre noua si vechea distanta Tcih_new -Tcih_old If Tcih_new - Tcih_old < 0 i este înlocuit de h si se reia pasul 2If T T > 0 ă t ă hi l d id If Tcih_new - Tcih_old > 0 se păstrează vechiul medoid

In exemplul dat avem 26-20 > 0 deci se păstrează medoidul icoordonate 7-4.

CLUSTERING LARGE APPLICATIONS BASEDUPON RANDOMIZED SEARCH

CLARA (Clustering LARge Applications).( g g pp ) o mică parte din date (esantion) este aleasă ca fiind reprezentativăpentru întreaga multime de date

medoidurile sunt alese din această submultime folosind PAM Se calculeaza raportul dintre distanta maxima a medoidului sidistanta minima a medoidului la un alt medoid (< 0.2 clusterconsistent , > 1 cluster putin dens)

CLARANS (Clustering LARge Applications based uponRANdomized Search) extrage un număr de obiecte probă aleator in fiecare pas de căutare extrage un număr de obiecte probă aleator in fiecare pas de căutare căutare a unui graf unde fiecare nod reprezintă o solutie posibilăcum ar fi un set de k medoid-uri

Dacă este găsit un “vecin” mai bun CLARANS primeste nodul Dacă este găsit un vecin mai bun,CLARANS primeste nodul“vecin” si procesul începe iar

METODE DE GRUPARE IERARHICE

Pentru o multime de date dată, se creează o,descompunere ierarhică.

Problema tehnicilor bazate pe ierarhie, constă în faptul căd tă ( i di i ) t fă todată ce un pas (uniune sau divizare) este făcut, nu semai poate reveni la stare precedentă

Obtinerea unor costuri de calcul mai mici prin eliminarea Obtinerea unor costuri de calcul mai mici prin eliminareanumărului de combinatii al alegerilor diferite

MODALITĂȚI DE CALCUL A SIMILARITĂȚII / DISIMILARITĂȚII

Single Link: numită si metoda celei mai mici distante dintre obiectesa metoda cel i mai apropiat ecin Se a considera distanta– sau metoda celui mai apropiat vecin. Se va considera distanta

dintre un cluster si alt cluster ca fiind egală cu cea mai mică distantacare apare între oricare din obiectele clusterului si oricare dinobiectele celuilalt cluster. Dacă datele constau din similarităti , vomconsidera similaritatea dintre un cluster si alt cluster ca fiind egalăconsidera similaritatea dintre un cluster si alt cluster ca fiind egalăcu cea mai mare similaritate de la orice obiect al clusterului laoricare obiect ce apartine celuilalt cluster.

Complete Link: numită metoda celei mai mari distante dintre obiecte– metoda diametrului – sau metoda celui mai îndepărtat vecin. Se vaconsidera distanta dintre un cluster si alt cluster ca fiind egală cu ceamai mare distanta care apare între oricare din obiectele clusterului sioricare din obiectele celuilalt cluster

Average Link: media distantei dintre obiecte. Se va consideradistanta dintre un cluster si alt cluster ca fiind egală cu cea mediadistantei care apare între oricare din obiectele clusterului si oricaredin obiectele celuilalt clusterdin obiectele celuilalt cluster

Centroid: distanta dintre centrele clusterului - centroids

DISTANTE

SINGLE LINK METHOD

COMPLET LINK METHOD

COMPARAREA DENDOGRAMELOR

ALGORITMI DE GRUPARE IERARHICĂ -PRINCIPII

Se da un set de N obiecte care urmează sa fie organizate îngclustere. Se utilizează matricea de distanta de dimensiuneNxN ca si set de date pe care urmează sa actioneze algoritmiide grupare ierarhică.g p 1. Initial fiecare obiect din setul de obiecte va defini un cluster,astfel dacă avem N obiecte,vom avea N clustere fiecare cu unelement. In această faza distanta dintre clustere este dată de distantaîntre obiectele (un obiect) prezente în fiecare cluster.

2. Se găseste cel mai apropiat(cel mai similar) pereche de clustere sise procedează la reuniunea lor într-un singur cluster. Ca urmare pesetul de obiecte vom avea un cluster mai putin.

3. Se calculează distanta (similaritătile) dintre noul cluster si fiecaredin vechile clustere.

4. Se repetă pasii 2 si 3 pana când toate obiectele sunt grupate într-un singur cluster de dimensiune N.

OBSERVATII

Această metoda nu necesită specificare numărului de clusterek i d tă d i t î i ifi t i ik ca si dată de intrare, însa impune specificarea acestuia ca siconditie de stopare în cazul în se doreste oprirea procesului degrupare la atingerea unei anumite structuri de clustere.

Ca urmare a procesului de aglomerarea obiectelor (clustere) în Ca urmare a procesului de aglomerarea obiectelor (clustere) înnoi structuri de clustere(formate din unul sau mai multeobiecte) apar partitii (tree de clustere) numitedendograme.Astfel ca urmare a acestui proces dendograma vad fi i b îdefini un arbore în care: frunzele reprezintă clustere individuale rădăcina defineste un cluster clusterul de la nivelul i este reuniunea clusterelor copii de la nivelul clusterul de la nivelul i este reuniunea clusterelor copii de la niveluli+1

O noua partitionare se obtine prin tăierea dendogramei la / peun nivel, componentele care se conectează formând un noulcluster.

Lecture 6

Documents

Transcript of Lecture 6