Lab3
-
Upload
rodicasept1967 -
Category
Documents
-
view
212 -
download
0
description
Transcript of Lab3
PPrreepprroocceessaarree DDaattee
11
Se da fisierul: hypothyroid.arff care conţine informaţii referitoare la afectiuni ale tiroidei.
Informaţiile sunt cuantificate pentru un numar de 5 categorii (clase) de afectiuni
hypothyroid,
primary hypothyroid,
compensated hypothyroid,
secondary hypothyroid,
negative.
Fiecare din aceste afectiuni este caracterizată de un număr de 29 atribute
Nume atribut Valoare
age: continuous.
sex: M, F.
on thyroxine: f, t.
query on thyroxine: f, t.
on antithyroid medication: f, t.
sick: f, t.
pregnant: f, t.
thyroid surgery: f, t.
I131 treatment: f, t.
query hypothyroid: f, t.
query hyperthyroid: f, t.
lithium: f, t.
goitre: f, t.
tumor: f, t.
hypopituitary: f, t.
psych: f, t.
TSH measured: f,t.
TSH: continuous.
T3 measured: f,t.
T3: continuous.
TT4 measured: f,t.
TT4: continuous.
T4U measured: f,t.
T4U: continuous.
FTI measured: f,t.
FTI: continuous.
TBG measured: f,t.
TBG: continuous.
referral source: WEST, STMW, SVHC,
SVI, SVHD, other
Fisierul conţine
Num Instances: 3772
Num Attributes: 30
Num Continuous: 7 (Int 1 / Real 6)
Num Discrete: 23
Missing values: 6064 / 5.4
PPrreepprroocceessaarree DDaattee
22
Preprocesare
1. In setul de date exista atat date complectate incorrect
Pentru cazul in discutie avem de exemplu pentru varsta personae care au 1 an respective
455 ani. Daca varste de 1 an pot fi considerate corecte cele de 455 ani sunt sigur
incorecte:
Eliminarea lor se face cu :
Presupunem ca luam in considerare numai persoanele cu varsta cuprinsa intre [10, 100]
ani. Se va vizualiza modul in care se scriu expresiile care asigura filtrarea instantelor din
baza de date. Vezi optiunile More si Capabilities, inclusive modul in care se introduce
expresiile din figura de mai jos ( atributele se noteaza cu ATTI I=1,n:
PPrreepprroocceessaarree DDaattee
33
Exercitiu
Sa presupunem ca valoarea TSH poate fi maxim 150. Cele care depasesc aceasta valoare
sunt gresite. Inlaturati valorile gresite.
Salvati baza de date corepunzatoare acestei faze de prelucrare.
2. Inlocuiti valorile lipsa si salvati baza de date rezultata. Inlocuirea se face cu :
3. Determinati care sunt atributele cele mai importante. Se va utiliza secventa:
PPrreepprroocceessaarree DDaattee
44
Exercitiu
Selectati aceste attribute (inclusive atributul de clasa) si creati o noua baza de date pe care
o salvati
4. Construiti pentru setul de date rezultat o :
a) Regula de tip if then else simpla pentru clasificarea in 5 clase a datelor
b) Regula de tip if then else multipla pentru clasificarea in 5 clase a datelor
Care este precizia clasificatorului obtinut?
5. Determinati pentru setul de date in discutie care sunt :
a) Prototipurile pentru cele 5 clase. Care sunt valorile medii pentru atributele luate in
discutie?
b) Obiectele representative pentru cele cinci clase. Care sunt valorile medii pentru
atributele luate in discutie?
Care este precizia clasificatorului obtinut in ambele cazuri?