Lab3

4
Preprocesare Date 1 Se da fisierul: hypothyroid.arff care conţine informaţii referitoare la afectiuni ale tiroidei. Informaţiile sunt cuantificate pentru un numar de 5 categorii (clase) de afectiuni hypothyroid, primary hypothyroid, compensated hypothyroid, secondary hypothyroid, negative. Fiecare din aceste afectiuni este caracterizată de un număr de 29 atribute Nume atribut Valoare age: continuous. sex: M, F. on thyroxine: f, t. query on thyroxine: f, t. on antithyroid medication: f, t. sick: f, t. pregnant: f, t. thyroid surgery: f, t. I131 treatment: f, t. query hypothyroid: f, t. query hyperthyroid: f, t. lithium: f, t. goitre: f, t. tumor: f, t. hypopituitary: f, t. psych: f, t. TSH measured: f,t. TSH: continuous. T3 measured: f,t. T3: continuous. TT4 measured: f,t. TT4: continuous. T4U measured: f,t. T4U: continuous. FTI measured: f,t. FTI: continuous. TBG measured: f,t. TBG: continuous. referral source: WEST, STMW, SVHC, SVI, SVHD, other Fisierul conţine Num Instances: 3772 Num Attributes: 30 Num Continuous: 7 (Int 1 / Real 6) Num Discrete: 23 Missing values: 6064 / 5.4

description

L

Transcript of Lab3

Page 1: Lab3

PPrreepprroocceessaarree DDaattee

11

Se da fisierul: hypothyroid.arff care conţine informaţii referitoare la afectiuni ale tiroidei.

Informaţiile sunt cuantificate pentru un numar de 5 categorii (clase) de afectiuni

hypothyroid,

primary hypothyroid,

compensated hypothyroid,

secondary hypothyroid,

negative.

Fiecare din aceste afectiuni este caracterizată de un număr de 29 atribute

Nume atribut Valoare

age: continuous.

sex: M, F.

on thyroxine: f, t.

query on thyroxine: f, t.

on antithyroid medication: f, t.

sick: f, t.

pregnant: f, t.

thyroid surgery: f, t.

I131 treatment: f, t.

query hypothyroid: f, t.

query hyperthyroid: f, t.

lithium: f, t.

goitre: f, t.

tumor: f, t.

hypopituitary: f, t.

psych: f, t.

TSH measured: f,t.

TSH: continuous.

T3 measured: f,t.

T3: continuous.

TT4 measured: f,t.

TT4: continuous.

T4U measured: f,t.

T4U: continuous.

FTI measured: f,t.

FTI: continuous.

TBG measured: f,t.

TBG: continuous.

referral source: WEST, STMW, SVHC,

SVI, SVHD, other

Fisierul conţine

Num Instances: 3772

Num Attributes: 30

Num Continuous: 7 (Int 1 / Real 6)

Num Discrete: 23

Missing values: 6064 / 5.4

Page 2: Lab3

PPrreepprroocceessaarree DDaattee

22

Preprocesare

1. In setul de date exista atat date complectate incorrect

Pentru cazul in discutie avem de exemplu pentru varsta personae care au 1 an respective

455 ani. Daca varste de 1 an pot fi considerate corecte cele de 455 ani sunt sigur

incorecte:

Eliminarea lor se face cu :

Presupunem ca luam in considerare numai persoanele cu varsta cuprinsa intre [10, 100]

ani. Se va vizualiza modul in care se scriu expresiile care asigura filtrarea instantelor din

baza de date. Vezi optiunile More si Capabilities, inclusive modul in care se introduce

expresiile din figura de mai jos ( atributele se noteaza cu ATTI I=1,n:

Page 3: Lab3

PPrreepprroocceessaarree DDaattee

33

Exercitiu

Sa presupunem ca valoarea TSH poate fi maxim 150. Cele care depasesc aceasta valoare

sunt gresite. Inlaturati valorile gresite.

Salvati baza de date corepunzatoare acestei faze de prelucrare.

2. Inlocuiti valorile lipsa si salvati baza de date rezultata. Inlocuirea se face cu :

3. Determinati care sunt atributele cele mai importante. Se va utiliza secventa:

Page 4: Lab3

PPrreepprroocceessaarree DDaattee

44

Exercitiu

Selectati aceste attribute (inclusive atributul de clasa) si creati o noua baza de date pe care

o salvati

4. Construiti pentru setul de date rezultat o :

a) Regula de tip if then else simpla pentru clasificarea in 5 clase a datelor

b) Regula de tip if then else multipla pentru clasificarea in 5 clase a datelor

Care este precizia clasificatorului obtinut?

5. Determinati pentru setul de date in discutie care sunt :

a) Prototipurile pentru cele 5 clase. Care sunt valorile medii pentru atributele luate in

discutie?

b) Obiectele representative pentru cele cinci clase. Care sunt valorile medii pentru

atributele luate in discutie?

Care este precizia clasificatorului obtinut in ambele cazuri?