Lecture 6
-
Upload
rodicasept1967 -
Category
Documents
-
view
221 -
download
6
description
Transcript of Lecture 6
DATA MININGCurs 6
TEHNICILE K-MEDOIDS: TEHNICI BAZATE PEOBIECTE REPREZENTATIVE
K-Means – se pleacă de la construirea unui obiect genericp gcare reprezintă media obiectelor în cluster
K-Medoids – utilizează ca si punct de plecare un obiect real,care prezintă proprietatea că este cel mai central obiect încare prezintă proprietatea că este cel mai central obiect încluster
obiectul reprezintă o mediana pentru clusterul luat în discutie,d d i d i d d id d tă t i bi tde unde si denumirea de medoid dată acestui obiect
De exemplu: Media pentru 1, 3, 5, 7, 9 este 5p Media pentru 1, 3, 5, 7, 1009 este 205 Mediana pentru 1, 3, 5, 7, 1009 este 5
Avantajul medianei este acela ca nu este afectat de Avantajul medianei este acela ca nu este afectat devalorile extreme
TEHNICI K-MEDOIDS
Principala strategie a tehnicilor k-medoids constă înp ggăsirea a k clustere pentru n obiecte prin găsirea initial-arbitrară a unui obiect reprezentativ (medoid) pentrufiecare clusterfiecare cluster.
Fiecare obiect rămas este grupat cu medoidul la care estecel mai asemănător.
Strategia apoi înlocuieste iterativ unul din medoizi cuunul din obiectele non-medoid atât timp cât calitateaclusterului rezultat este îmbunătătităclusterului rezultat este îmbunătătită.
Calitatea este estimată folosind o functie de cost caremăsoară di-similaritatea medie dintre un obiect simedoidul unui cluster
ALGORITMUL K-MEDOID
PAM: PARTITIONING AROUND MEDOIDS
Prin comparatie cu cunoscutul algoritm k-means, PAMp g ,prezintă următoarele caracteristici: Operează folosind matricea de di-similaritate a setului dedatedate.
Este mai robust, deoarece minimizează o sumă a di-similaritătilor în locul unei sume a distantelor Euclidieneăt tpătrate.
Oferă o prezentare grafică, care permite selectarea număruluioptim de clustere.
ALGORITMUL PAM CLUSTERING -PARTITIONING AROUND MEDOIDS
1. Se pleca de la un set de medoids. Se selectează k obiecteparbitrar (printr-o esantionare euristică)
2. Se reamplasează unul din medoids, prin altul, astfel încât săapară o îmbunătătire în distanta totală ce caracterizeazăapară o îmbunătătire în distanta totală ce caracterizeazăobiectele din cluster. Astfel, pentru fiecare pereche deobiecte formată din obiectul neselectat h si obiectul selectat icalculează o functie cost TC = ΣCcalculează o functie cost TCih = ΣjCjih
3. Pentru fiecare pereche de i si h, If TCih < 0, i este înlocuit de h Se atribuie fiecare obiect neselectat la cel mai similar obiectreprezentativ
4. Repetă pasii 2-3 până când nu mai apare nici o schimbare
1. Se selectează aleator k medoizi. In cazul nostruk=2. Deci alegem 2 obiecte, medoid i coordonate 3-8,
d id i d t 6 4 medoid i coordonate 6-4.
2. Se asignează fiecare obiect rămas la cel mai apropiat medoid. Operatia de asignare presupune stabilirea unei distante maxime dată de
ili ( ă 5 ) d fi i i j lutilizator – (presupunem că este 5 ) ce va defini zona in jurulmedoidului in care obiectele prezente vor fi asignate la acesta. Pentruprimul cluster se vor asigna 3 obiecte, pentru al doilea 5 obiecte
Se calculează costul total pentru fiecare cluster in parte TCih = ΣjCjih.p p ih j jih pentru primul cluster avem un cost de 2 + 3 + 4 = 9 pentru al doilea cluster un cost de 1 + 2 + 2 + 3 + 3 = 11 TCih _old = 9+11=20
3. Se selectează un obiect h (coordonate 6-2) care nu este medoid.Acesta devine noul medoid. Se calculează costul total pentrufiecare cluster in parte TCih = ΣjCjih. Pentru primul cluster avem un cost de 9 pentru al doilea cluster un cost de 17 Tcih_new = 9+17=26Se verifică dacă a apărut o îmbunatătire Calitatea modificări seSe verifică dacă a apărut o îmbunatătire. Calitatea modificări seobtine făcând diferenta dintre noua si vechea distanta Tcih_new -Tcih_old If Tcih_new - Tcih_old < 0 i este înlocuit de h si se reia pasul 2If T T > 0 ă t ă hi l d id If Tcih_new - Tcih_old > 0 se păstrează vechiul medoid
In exemplul dat avem 26-20 > 0 deci se păstrează medoidul icoordonate 7-4.
CLUSTERING LARGE APPLICATIONS BASEDUPON RANDOMIZED SEARCH
CLARA (Clustering LARge Applications).( g g pp ) o mică parte din date (esantion) este aleasă ca fiind reprezentativăpentru întreaga multime de date
medoidurile sunt alese din această submultime folosind PAM Se calculeaza raportul dintre distanta maxima a medoidului sidistanta minima a medoidului la un alt medoid (< 0.2 clusterconsistent , > 1 cluster putin dens)
CLARANS (Clustering LARge Applications based uponRANdomized Search) extrage un număr de obiecte probă aleator in fiecare pas de căutare extrage un număr de obiecte probă aleator in fiecare pas de căutare căutare a unui graf unde fiecare nod reprezintă o solutie posibilăcum ar fi un set de k medoid-uri
Dacă este găsit un “vecin” mai bun CLARANS primeste nodul Dacă este găsit un vecin mai bun,CLARANS primeste nodul“vecin” si procesul începe iar
METODE DE GRUPARE IERARHICE
Pentru o multime de date dată, se creează o,descompunere ierarhică.
Problema tehnicilor bazate pe ierarhie, constă în faptul căd tă ( i di i ) t fă todată ce un pas (uniune sau divizare) este făcut, nu semai poate reveni la stare precedentă
Obtinerea unor costuri de calcul mai mici prin eliminarea Obtinerea unor costuri de calcul mai mici prin eliminareanumărului de combinatii al alegerilor diferite
MODALITĂȚI DE CALCUL A SIMILARITĂȚII / DISIMILARITĂȚII
Single Link: numită si metoda celei mai mici distante dintre obiectesa metoda cel i mai apropiat ecin Se a considera distanta– sau metoda celui mai apropiat vecin. Se va considera distanta
dintre un cluster si alt cluster ca fiind egală cu cea mai mică distantacare apare între oricare din obiectele clusterului si oricare dinobiectele celuilalt cluster. Dacă datele constau din similarităti , vomconsidera similaritatea dintre un cluster si alt cluster ca fiind egalăconsidera similaritatea dintre un cluster si alt cluster ca fiind egalăcu cea mai mare similaritate de la orice obiect al clusterului laoricare obiect ce apartine celuilalt cluster.
Complete Link: numită metoda celei mai mari distante dintre obiecte– metoda diametrului – sau metoda celui mai îndepărtat vecin. Se vaconsidera distanta dintre un cluster si alt cluster ca fiind egală cu ceamai mare distanta care apare între oricare din obiectele clusterului sioricare din obiectele celuilalt cluster
Average Link: media distantei dintre obiecte. Se va consideradistanta dintre un cluster si alt cluster ca fiind egală cu cea mediadistantei care apare între oricare din obiectele clusterului si oricaredin obiectele celuilalt clusterdin obiectele celuilalt cluster
Centroid: distanta dintre centrele clusterului - centroids
DISTANTE
SINGLE LINK METHOD
COMPLET LINK METHOD
COMPARAREA DENDOGRAMELOR
ALGORITMI DE GRUPARE IERARHICĂ -PRINCIPII
Se da un set de N obiecte care urmează sa fie organizate îngclustere. Se utilizează matricea de distanta de dimensiuneNxN ca si set de date pe care urmează sa actioneze algoritmiide grupare ierarhică.g p 1. Initial fiecare obiect din setul de obiecte va defini un cluster,astfel dacă avem N obiecte,vom avea N clustere fiecare cu unelement. In această faza distanta dintre clustere este dată de distantaîntre obiectele (un obiect) prezente în fiecare cluster.
2. Se găseste cel mai apropiat(cel mai similar) pereche de clustere sise procedează la reuniunea lor într-un singur cluster. Ca urmare pesetul de obiecte vom avea un cluster mai putin.
3. Se calculează distanta (similaritătile) dintre noul cluster si fiecaredin vechile clustere.
4. Se repetă pasii 2 si 3 pana când toate obiectele sunt grupate într-un singur cluster de dimensiune N.
OBSERVATII
Această metoda nu necesită specificare numărului de clusterek i d tă d i t î i ifi t i ik ca si dată de intrare, însa impune specificarea acestuia ca siconditie de stopare în cazul în se doreste oprirea procesului degrupare la atingerea unei anumite structuri de clustere.
Ca urmare a procesului de aglomerarea obiectelor (clustere) în Ca urmare a procesului de aglomerarea obiectelor (clustere) înnoi structuri de clustere(formate din unul sau mai multeobiecte) apar partitii (tree de clustere) numitedendograme.Astfel ca urmare a acestui proces dendograma vad fi i b îdefini un arbore în care: frunzele reprezintă clustere individuale rădăcina defineste un cluster clusterul de la nivelul i este reuniunea clusterelor copii de la nivelul clusterul de la nivelul i este reuniunea clusterelor copii de la niveluli+1
O noua partitionare se obtine prin tăierea dendogramei la / peun nivel, componentele care se conectează formând un noulcluster.