Download - Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Transcript
Page 1: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Algoritmi de clasificareARBORI DE DECIZIE

1

Page 2: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Clasificarea❑Se dă o mulțime de antrenare: o mulțime de instanțe (vectori de antrenare, obiecte) ❑Datele de antrenare

❑Instanțele au atribute

❑Fiecare instanță are atribute cu anumite valori

❑De obicei, ultimul atribut este clasa

2

Page 3: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Tipuri de atributeExistă patru tipuri de atribute, organizate pe două coordonate:

❑ Atribute simbolice (calitative): de tip nominal (ex. culoareaochilor, nume, sex, CNP ca obiect, nu număr) şi ordinal(înălțime (mică, medie, mare), ranguri, calificative)

❑ Atribute numerice (cantitative): de tip interval (Temperatura în °C, date calendaristice) şi raţional (lungime, distanță, prețuri)

3

Page 4: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Inducţia unui arbore de decizieAlgoritmul lui Hunt❑Fie Dn mulțimea instanțelor de antrenare care ajung la un nod n

❑Algoritmul lui Hunt (Hunt 1962; Tan, Steinbach & Kumar, 2006): ❑Dacă Dn conține instanțe din aceeași clasă yn , atunci n este o frunză

etichetată yn

❑Dacă Dn este o mulțime vidă, atunci n este o frunză etichetată cu clasaimplicită (default) yd

❑Dacă Dn conține instanțe care aparțin mai multor clase, se utilizează un test de atribute pentru a partiționa datele în mulțimi mai mici

❑Se aplică recursiv procedura pentru fiecare submulțime

4

Page 5: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Testul de atribute

❑Urmează o strategie greedy: se partiționează mulțimea de instanțecu un test care maximizează un anumit criteriu

❑Depinde de tipul atributului: nominal, ordinal sau continuu

❑Depinde de numărul de posibilități de partiționare: binar saumultiplu

5

Page 6: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Atribute nominale

❑ Partiționarea multiplă❑Numărul de partiții = numărul de

valori distincte❑Partiționarea binară❑Se împart valorile în două submulțimi❑Trebuie descoperită partiționarea

optimă

6

Page 7: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Atribute ordonale❑ Partiționarea multiplă❑Numărul de partiții = numărul de valori

distincte❑Partiționarea binară❑Se împart valorile în două submulțimi❑Trebuie descoperită partiționarea optimă

7

Page 8: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Atribute continue❑Se discretizează datele pentru a le transforma în atribute ordinale ❑Cu interval egal (histograma)

❑Cu frecvență egală (mulțimi cu numere egale de instanțe)

❑Grupare (clustering)

❑Decizie binară: (Ai < v) sau (Ai > v) ❑Trebuie considerate toate partiționările posibile

❑Necesită un efort de calcul mai mare

8

Page 9: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Discretizarea❑Cu interval egal – de exemplu, 3 intervale ❑[65, 75], (75, 85], (85, 95]

9

Page 10: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Discretizarea

❑Cu frecvență egală❑ de exemplu, 3 intervale

10

Page 11: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Discretizarea

❑Binară❑ de exemplu, 85

11

Page 12: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Partiţionarea optimă❑Euristică: se preferă nodurile cu cele mai omogene distribuții de clasă❑Necesită o măsură a „impurității” nodurilor

12

Page 13: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Măsuri de impuritateEntropia

Shannon, 1948

Graficul entropiei pentru 2 clase

13

Page 14: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Măsuri de impuritateEntropia

Shannon, 1948

Graficul entropiei pentru 3 clase

14

Page 15: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Măsuri de impuritateIndexul Gini

Breinman et al., 1984

Graficul indexului Gini pentru 2 clase

15

Page 16: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Măsuri de impuritate Exemplu

16

Page 17: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Partiţionarea❑Când un nod părinte p este partiționat în k fii, calitatea partiționării

(de exemplu, entropia) se calculează astfel:

❑unde ni este numărul de instanțe din fiul i și n este numărul de instanțe din nodul p

❑s este o partiţionare (engl. “split”) din mulţimea tuturor partiţionărilorposibile

❑Formulă similar pentru indexul Gini

17

Page 18: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Câştigul informaţional

❑Calitatea unei partiționări este determinată de creșterea omogenității submulțimilor rezultate

❑ Trebuie maximizat câștigul informațional:

❑ Deoarece nodului părinze este același pentru toți fiii se preferă valoarea minimă

❑ Termenul de „câștig informațional” se utilizează când se folosește entropia ca măsură de impuritate, dar principiul este același pentru indexul Gini sau orice altă măsură de impuritate

18

Page 19: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Inducţia unui arbore de decizieAlgoritmul lui Hunt❑Fie Dn mulțimea instanțelor de antrenare care ajung la un nod n

❑Algoritmul lui Hunt (Hunt 1962; Tan, Steinbach & Kumar, 2006): ❑Dacă Dn conține instanțe din aceeași clasă yn , atunci n este o frunză

etichetată yn

❑Dacă Dn este o mulțime vidă, atunci n este o frunză etichetată cu clasaimplicită (default) yd

❑Dacă Dn conține instanțe care aparțin mai multor clase, se utilizează un test de atribute pentru a partiționa datele în mulțimi mai mici

❑Se aplică recursiv procedura pentru fiecare submulțime

19

Page 20: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

ExempluClasificarea folosind un arbore de decizie❑Datele de antrenare

❑Instanțele au atribute

❑Fiecare instanță are atribute cu anumite valori

❑Ultimul atribut este clasa

20

Page 21: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionare după atributul Starea vremii

21

Page 22: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionare după atributul Temperatură

22

Page 23: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionare după atributul Umiditate

23

Page 24: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionare după atributul Vânt

24

Page 25: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionare❑Valoarea maximă a câştigului informaţional este corespunzătoareminimului entropiei ponderate şi deci prima partiţionare se va face după atributul Starea vremii.

25

Page 26: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de decizie

❑Pentru nodul N1 se repetă procedura, eliminând atributulStarea vremii şipăstrând doarinstanţele care au ca valoare a acestuia

Soarele (5 instanţe).

26

Page 27: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionare

27

Page 28: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionare

28

Page 29: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionarePentru nodul N2, avem următoarea mulţime de date

Nodul este omogen şi deci va fi la rândul său frunză, fără a mai trebui

partiţionat

29

Page 30: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de deciziePartiţionarePentru nodul N3, avem următoarea mulţime de date

30

Page 31: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Exemplu: Construirea unui arbore de decizieArborele final

Temperatura este un atribut irelevant pentru această clasificare.

31

Page 32: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt

Bibliografie❑Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, Capitolul 6 şi Capitolul 7

32