Analiza Discriminanta - SAS Enterprise Miner

5

Click here to load reader

description

data mining

Transcript of Analiza Discriminanta - SAS Enterprise Miner

Page 1: Analiza Discriminanta - SAS Enterprise Miner

Laborator 6 Analiza discriminantă.

ScopulCunoașterea pocedurii discrim utilizată pentru Analize Discriminante (AD) și

implementarea codurilor SAS utilizate în cadrul diagramelor SAS® Enterprise MinerTM folosind

nodul SAS Code.

Cuprins1. ANALIZA DISCRIMINANTĂ.................................................................1

1.1. Introducere...............................................................................11.2. Implementarea codurilor SAS................................................2

1.2.1. Importul bazei de date.......................................................21.2.2. Aplicarea procedurii discrim............................................31.2.3. Realizarea bazei de date pentru testare..........................31.2.4. Realizarea analizei discriminante pe baza datelor test. .31.2.5. Afișarea datelor obținute...................................................3

1.3. Implementarea În SAS® Enterprise MinerTM.................................4

1. Analiza Discriminantă

1.1. INTRODUCERE

Analiza Discriminantă (Discriminante Analyis - DA), este o tehnica de statistică

multivariată frecvent utilizată pentru a construi un model predictiv/descriptiv al separării

(„discriminării”) pe grupuri bazat pe variabilele predictor observate şi de a clasifica fiecare

observaţie într-unul din grupuri. În Analiza Discriminantă (AD) sunt utilizate mai multe atribute

cantitative pentru a separa o singură variabilă de clasificare. Analiza Discriminantă (AD) este

diferită de Analiza Cluster din cauza unor cunoştinţe anterioare ale claselor, de obicei este necesară

un eşantion din fiecare clasă pentru a realiza o Analiza Discriminantă. Obiectivelor principale ale

Analizei Discriminante sunt:

a) pentru a investiga diferenţe între grupuri,

b) pentru separarea eficientă a grupurilor,

c) pentru a identifica variabile importante discriminatorii,

d) pentru a efectua testarea ipotezelor legate de diferenţele dintre grupuri,

Page 2: Analiza Discriminanta - SAS Enterprise Miner

e) pentru a clasifica noi observaţii în grupuri pre-existente.

1.2. IMPLEMENTAREA CODURILOR SAS

1.2.1. Importul bazei de date

Fiecare coloană reprezintă codificarea unei anumite caracteristici (de exemplu costul mediu

al unității de masă calculat în patru luni consecutive) a produselor împărțite în cinci categorii:

porumb, soia, bumbac, sfeclă și grâu.

data Cer; title 'Analiza Discriminanta'; input Cereale $ 4-13 x1-x4 xvalues $ 14-24; datalines; Porumb 16 27 31 33 Porumb 15 23 30 30 Porumb 16 27 27 26 Porumb 18 20 25 23 Porumb 15 15 31 32 Porumb 15 32 32 15 Porumb 12 15 16 73 Soia 20 23 23 25 Soia 24 24 25 32 Soia 21 25 23 24 Soia 27 45 24 12 Soia 12 13 15 42 Soia 22 32 31 43 Bumbac 31 32 33 34 Bumbac 29 24 26 28 Bumbac 34 32 28 45 Bumbac 26 25 23 24 Bumbac 53 48 75 26 Bumbac 34 35 25 78 Sfecla 22 23 25 42 Sfecla 25 25 24 26 Sfecla 34 25 16 52 Sfecla 54 23 21 54 Sfecla 25 43 32 15 Sfecla 26 54 2 54 Grau 12 45 32 54 Grau 24 58 25 34 Grau 87 54 61 21 Grau 51 31 31 16 Grau 96 48 54 62 Grau 31 31 11 11 Grau 56 13 13 71 Grau 32 13 27 32 Grau 36 26 54 32

Page 3: Analiza Discriminanta - SAS Enterprise Miner

Grau 53 08 06 54 Grau 32 32 62 16;

1.2.2. Aplicarea procedurii discrim

proc discrim data=Cer outstat=StatCer method=normal pool=yes list crossvalidate; class Cereale; priors prop; id xvalues; var x1-x4; title2 'Utilizarea functiei discriminante liniare'; run;

Observații

- method=normal se utilizează o metodă parametrică bazată pe o distribuţie cu mai multe

variaţii normale din cadrul fiecărei categorii pentru a obţine o funcţie discriminantă liniară sau

pătrată.

- pool=yes procedura discrim folosește matricea covariantă cumulată în calcularea

(generalizate) distanțelor pătratice.

- priors prop probabilitatea prioritara folosita este cea proportionala

1.2.3. Realizarea bazei de date pentru testare

data test; input Cereale $ 1-10 x1-x4 xvalues $ 11-21; datalines; Porumb 16 27 31 33 Soia 21 25 23 24 Bumbac 29 24 26 28 Sfecla 54 23 21 54 Grau 32 32 62 16 ;

1.2.4. Realizarea analizei discriminante pe baza datelor test

proc discrim data=Statcer testdata=test testout=Outcer testlist; class Cereale; testid xvalues; var x1-x4; title2 'Classificarea datelor de test'; run;

1.2.5. Afișarea datelor obținute

proc print data=Outcer; title2 'Afisarea datelor'; run;

Page 4: Analiza Discriminanta - SAS Enterprise Miner

1.3. IMPLEMENTAREA ÎN SAS® ENTERPRISE MINERTM

Se realizeaza diagrama din figura de mai jos si se implementeaza 1.2.1 si 1.2.2.