Figura 5-5 Vizualizarea proceselor de data mining de catre ...

21
Figura 5-5 Vizualizarea proceselor de data mining de catre Clementine Data mining visual interactiv: In data mining visual (interactiv), instrumentele de vizualizare pot fi folosite in procesul de data mining pentru a ajuta utilizatorii sa ia cele mai bune decizii DM . De pilda, distribuirea datelor intr-o serie de atribute poate fi reprezentat prin sectoare de cerc sau coloane colorate (in functie de reprezentarea intregului spatiu, care poate fi un cerc sau o serie de coloane). Acest tip de afisaj ii poate ajuta pe utilizatori sa determine care sector ar trebui selectat cu prioritate pentru clasificare si care ar fi un punct potrivit pentru delimitarea acestui sector. Un astfel de exemplu este prezentat in Fig. 5-6, care este rezultatul unui sistem de clasificare bazat pe perceptie, PCB , dezvoltat la Universitatea din Munchen. 1

Transcript of Figura 5-5 Vizualizarea proceselor de data mining de catre ...

Page 1: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

Figura 5-5 Vizualizarea proceselor de data mining de catre Clementine

Data mining visual interactiv: In data mining visual (interactiv), instrumentele de vizualizare pot fi folosite in procesul de data mining pentru a ajuta utilizatorii sa ia cele mai bune decizii DM . De pilda, distribuirea datelor intr-o serie de atribute poate fi reprezentat prin sectoare de cerc sau coloane colorate (in functie de reprezentarea intregului spatiu, care poate fi un cerc sau o serie de coloane).

Acest tip de afisaj ii poate ajuta pe utilizatori sa determine care sector ar trebui selectat cu prioritate pentru clasificare si care ar fi un punct potrivit pentru delimitarea acestui sector. Un astfel de exemplu este prezentat in Fig. 5-6, care este rezultatul unui sistem de clasificare bazat pe perceptie, PCB , dezvoltat la Universitatea din Munchen.

Figura 5-6 Clasificarea bazata pe perceptie (PBC): o perspective interactiva a DM

1

Page 2: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

DM audio utilizeaza semnalele audio pentru a indica tipurile de date sau caracteristicile rezultatelor DM. Desi DM visual poate propune modele interesante folosind afisaje grafice, utilizatorii trebuie sa se concentreze pentru a identifica o caracteristica interesanta sau noua. Acest lucru poate fi deseori obositor. Daca aceste modele pot fi transformate in sunet si muzica, atunci in loc sa analizam imaginile, putem asculta tonuri, ritmuri si melodii pentru a identifica ceva interesant sau neobisnuit. Aceasta ne-ar putea scuti de o parte din efortul de concentrare vizuala si in multe cazuri poate fi mult mai relaxant decat DM visual. De aceea, DM audio poate fi o alternativa interesanta la DM vizual.

5.3.2 Data Mining stiintific si statistic

In acest curs, nun e propunem sa analizam in detaliu principalele metode statistice; totusi, vom mentiona in cele ce urmeaza cateva dintre ele, pentru a avea o imagine completa a acestei dimensiuni.

Regresia: In general, aceste metode sunt folosite pentru a anticipa valoarea unui raspuns (dependent) cu una sau mai multe variabile predictive (independenta), in cazul in care variabilele sunt numerice. Exista diverse forme de regresie, cum ar fi lineara, multipla, polinomiala, nonparametrica si robusta (in care metodele robuste sunt folositoare doar in cazul in care erorile nu pot satisface conditiile de normalitate sau cand datele contin aberatii insemnate) .

Modele lineare generalizate: Aceste modele si generalizarea lor (modele aditive generalizate) permit stabilirea unei relatii intre o variabila de raspuns categoric (sau unele

2

Page 3: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

forme ale acestuia) si o serie de variabile predictive in acelasi fel in care o variabila de raspuns numeric foloseste regresia lineara. Modelele lineare generalizate cuprind regresia logica si regresia Poisson.

Arborii de regresie: Acestia pot fi folositi pentru clasificare si predictie. Arborii sunt binari. Un arbore de regresie e asemanator unui arbore de decizie, in sensul ca testele se fac la nivelul nodurilor interne. O diferenta majora e la nivelul frunzelor, pentru ca intr-un arbore de decizie o majoritate de vot e destinata sa atribuie o eticheta de clasa unei anumite frunze, in timp ce la un arbore de regresie atributul obiectiv este codat si folosit drept valoare predictiva.

Analiza variabilitatii: Aceste tehnici analizeaza datele experimentale pentru doua sau mai multe populatii descrise de un raspuns numeric variabil si una sau mai multe variabile categoriale (factori). In general, o problema ANOVA (analiza a variabilitatii in functie de un factor unic) implica de fapt o comparatie intre caracteristicile populatiei K pentru a vedea daca macar doua dintre aceste caracteristici sunt diferite. Exista si alte probleme ANOVA mult mai complexe.

Modele cu efect mixt : Aceste modele sunt folosite pentru analizarea datelor grupate – date care pot fi clasificate cu ajutorul a uneia sau a mai multor variabile de grupare. In general, acestea descriu relatiile dintre o varaibila de raspuns si unele covariate in date grupate in functie de unul sau mai multi factori. Zonele comune de aplicatie cuprind date multilevel, date de masuri repetate, block design si date longitudinale.

Analiza de factor: Aceasta metoda este folosita pentru a determina care variabile sunt combinate pentru a genera un anumit factor. De exemplu, pentru multe date psihiatrice, nu e posibila masurarea directa a unui factor de interes (cum ar inteligenta); totusi, este posibila analiza altor cantitati (de ex. notele studentilor la un examen) care reflecta factorul de interes. In acest caz, nici una dintre variabile nu e desemnata ca dependenta.

Analiza discriminanta: Aceasta tehnica este folosita pentru a anticipa o variabila de raspuns categorial. Spre deosebire de modelele lineare generalizate, acesta tehnica presupune ca variabilele independente urmeaza o distributie normala multivariata. Aceasta procedura incearca sa determine cateva functii discriminante (combinatii lineare ale variabilelor independente) care fac deosebirea intre grupurile definite de variabila de raspuns. Analiza discriminanta este folosita mai ales in stiintele sociale.

Seriile de timp: Acestea sunt diverse tehnici de statistica utilizate pentru analizarea datelor de tip serii de timp, cum ar fi metodele de autoregresie, ARIMA (autoregresive integrated moving average) univariate si modelele de serii de timp memorie de lunga durata.

Analiza de supravietuire: Exista cateva tehnici statistice bine cunoscute pentru analiza de supravietuire. La origine, acestea au fost concepute pentru anticipa probabilitatea cu care un pacient supus unui anumit tratament va supravietui macar un timp t. Totusi, metodele analizei de supravietuire sunt aplicate si in cazul echipamentelor industriale

3

Page 4: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

pentru a estima durata de viata a utilajelor. Metodele cele mai cunoscute sunt Kaplan-Meier (estimarea duratei de viata), Cox (modelele de regresie a riscurilor proportionale) si extensiile lor.

Controlul calitatii: Anumite date statistice pot fi folosite pentru a pregati grafice de control al calitatii, precum graficele lui Shewhart si graficele cu suma cumulata. Aceste date statistice includ media, deviatia standard, amplitudinea, media mobila, deviatia standard mobila si amplitudinea medie. Potrivit unei investigatii facute de Piatetsky-Shapiro (" Which KDD techniques do you use regularly? " (August 2001)) se poate vedea (Tabel 5-4) ca instrumentele statistice sunt folosite in proportie de 60%, in timp ce instrumentele de sisteme simbolice 40%. In tabelul 5-4, proportiile sunt mai mici pentru instrumentele de sisteme simbolice. Astfel, KDD ramane un mare consumator de instrumente statistice si tehnicile de retro-inginerie par sa compenseze relativa lor dificultate de utilizare.

Tabelul 5-4 " Which KDD techniques do you use regularly? "(investigatie facuta de Piatetsky-Shapiro, august 2001)Retele 13 % St: 13 %Arbori de decizie/Reguli 19 % Sy: 19 %Regresie logica 14 % St: 14 %Statistica 17 % St: 17 %Metode bayesiene 6 % St: 3 % Sy: 3 %Vizualizare 8 % St: 4 % Sy: 4 %Reguli de asociere 7 % Sy: 7 %Metode hibrideText mining (nesemnificativ)

4 %2 %

St: 2 % Sy: 2 %NS: 2 %

Web mining (nesemnificativ) 5 % NS: 5 %Agenti (nesemnificativ) 1 % NS: 1 %Altele (nesemnificativ) 4 % NS: 4 %Total: nesemnificativ 12 %Total: mai ales instrument statistic 53 %Total: mai ales instrument simbolic 35 %

Investigatiile lui Piatetsky-Shapiro se refera mai ales la companii decat la instrumente ca atare. Coloana "instrumente de baza" din tabelul 5-5 este deci preluata din Cornuéjol&Miclet. Pentru a evalua partile de piata cu ajutorul instrumentelor statistice si al sistemelor simbolice, am facut o evaluare aproximativa a pietei pentru fiecare companie. Simbolul St indica prezenta mai ales a unui instrument statistic, iar Sy a unuia de sistem simbolic. Simbolul % St/Sy indica o evaluare a relatiei dintre cele doua tipuri de instrumente. Rezultatele analizei sunt prezentate in tabelul 5-5.

4

Page 5: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

Table 5-5 Instrumente folosite de companii in KDD

5

Page 6: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

5.4 Impactele sociale ale Data Mining

Odata cu coputerizarea rapida a societatii, impactul social al DM nu ar trebui trecut cu vederea. Este oare DM o chestiune de moda, de publicitate extravaganta, sau o prezenta de durata? Care sunt obstacolele care trebuie depasite pentru ca DM sa fie acceptat ca tehnologie de varf in afaceri si, de ce nu, pentru uz personal? Ce poate fi facut pentru protejarea datelor private si pentru siguranta? Acest sub capitol incearca sa raspunda la aceste intrebari.

5.4.1 Este Data Mining o moda sau o afacere de duarata si cu perspective de extidere?

In ultima perioada, data mining a devenit foarte populara; multi s-au apucat sa faca cercetari in domeniu, multi altii au inceput sa pretinda ca sistemele sofware pe care le ofera sunt produse data mining. Vazand toate acestea, te intrebi pe buna dreptate: "Este data mining o moda sau ceva care va ramane? Cat de bine acceptata este aceasta tehnologie?"

Fara doar si poate, s-a facut mare valva in legatura cu data mining inca de la aparitia sa, la sfarsitul anilor 80. Si asta mai ales pentru ca multi se asteptau ca DM sa devina instrumentul esential pentru extragerea cunostintelor din date, sa ii ajute pe directori sa ia decizii strategice, sa sporeasca copetitivitatea unei afaceri si multe alte astfel de lucruri minunate. Data mining e o tehnologie. Si care oricare alta tehnologie, data mining necesita timp si efort pentru cercetare, dezvoltare si maturizare; e ca un ciclu de viata care consta in urmatorii pasi (Fig. 5-7)

Inovatorii: Noua tehnologie incepe sa prinda forma in momentul in care cercetatorii isi dau seama de necesitatea unei metode care sa rezolve o posibila noua problema.

Primii utilizatori: Interesul creste odata cu aparitia diverselor metode propuse pentru acesta tehnologie.

Prapastia: Aceasta reprezinta incercarile si provocarile ce trebuie trecute inainte ca tehnologia sa fie larg acceptatat ca sector aparte.

Majoritatea timpurie: Tehnologia se dezvolta si e general acceptata si folosita.

Majoritatea tarzie: Tehnologia este bine acceptata, dar interesul fata de ea scade, fie pentru ca problema initiala devine mai putin importanta, fie pentru ca este inlocuita de alte nevoi.

Ultimele clipe : Tehnologia e din ce in ce mai putin folosita, pentru ca devine invechita si desueta.

"Asadar, in ce etapa se afla acum data mining?" Unele dezbateri recente au plasat data mining in ceea ce am numit prapastie. Pentru ca DM sa fie acceptata pe deplin ca

6

Page 7: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

tehnologie, sunt necesare cercetari in multe zone denumite in acest capitol provocari – eficienta si ierahizare, o mai mare interactiune cu utilizatorul, incorporarea cunostintelor deja existente si a tehnicilor de vizualizare, evolutia unui limbaj standard de interogare DM, metode eficiente pentru identificarea modelelor, o mai buna folosire a datelor de tip complex, Web mining si asa mai departe.

Pentru ca DM sa iasa din acesta prapastie, trebuie sa ne focalizam atentia si asupra integrarii DM in tehnologia de afaceri deja existenta. In prezent, exista o mare varietate de sisteme de data mining generice. Totusi, multe dintre acestea sunt realizate pentru experti formati anume care cunosc deja jargonul data mining, precum si tehnicile de analiza a datelor, de ex. asocierea, clasificarea sau segmentarea. Aceste premise fac ca sistemele de acest tip sa fie greu de utilizat pentru stafful executiv sau pentru publicul larg. Mai mult, aceste sisteme sunt concepute pentru a oferi solutii orizontale care sa se aplice in tot felul desituatii, si nu solutii data mining pentru nevoi specifice. Si pentru ca un DM eficient necesita o integrare graduala a logicii problemei in functiile data mining, ne putem astepta ca sistemele dgenrice de data mining sa se bucure de un succes la fel de mare in inteligenta de afaceri asa cum s-a intamplat cu sistemele de baze de date relationale independente de domeniu in cazul proesului de interogare in domeniul tranzactiilor.

Fig. 5-7 Ciclul de viata al adoptarii tehnologiei

Multi cercetatori si proiectanti care se ocupa de data mining cred ca o directie promitatoare pentru data mining ar fi construirea unor sisteme data mining care sa ofere solutii verticale, ceea ce ar echivala cu integrarea aprofundata a logicii specififice unui anumit domeniu de afaceri in sistemele data mining. Comertul pe Internet, sau e-commerce, e o mare oportunitate pentru data mining, deoarece din ce in ce mai multe companii strang cantitati importante de informatii din aceste e-stores (magazine electronice) create pe Web. Iata de ce in cele ce urmeaza vom examina modul in care se pot gasi solutii data mining specifice unui domeniu cum ar fi aplicatiile for e-commerce.

In prezent, sisteme mai adaptate si mai suple sunt necesare pentru a facilita

7

Page 8: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

managementul campaniilor de marketing (intalnite si sub denumirea de e-marketing). In mod ideal, aceste sisteme cu circuit inchis aduc cu ele analiza de date pentru client (cu OLAP si tehnologii de mining combinate intr-o interfata prietenoasa pentru utilizatori), realizarea profilului clientului (one-to-one segments), extinderea si analiza campaniei.

In tot mai multe cazuri, aceste sisteme folosesc data mining pentru administrarea relatiei cu clientul, CRM (customer relationship management), care ajuta companiile sa furnizeze servicii mai personalizate, orientate client in locul unor campanii de marketing de masa. Studiind modelele de navigare si de cumparare in magazinele Web (analizand de pilda ceea ce se numeste clickstreams, informatia furnizata de catre clienti prin clickurile mouse-ului ), companiile pot afla multe despre clientii individuali si cei de grup. Informatia se poate aplica atat in folosul companiei, cat si a clientului. De exemplu, profilul clientilor sai fiind mult mai bine conturat, companiile vor capata o mai buna intelegere a nevoilor clientilor lor. Satisfacerea acestor nevoi se poate traduce printr-un mai mare succes in vanzarea produselor, fie ca e vorba de vazare incitativa, de promotii pentru un anumit produs, de mentinerea clientilor. Adaptand reclamele si promotiile diverselor profile de clienti, e mai putin probabil ca multi dintre clienti sa fie plictisiti de mailuri tip spam sau alte mesaje mult prea generale. Aceste actiuni se pot traduce in enorme reduceri ale cheltuielilor pentru firme. La randul sau, e mult mai posibil ca un client sa primeasca ofertele acre il intereseaza, ceea ce inseamna o economie in timpul personal si o mai mare satisfactie. Publicitatile facute la comada pentru un anumit tip de consumatori nu se limiteaza la mailuri sau la reclame puse pe Internet. In viitor, televiziunea digitala si cartile sau ziarele on-line vor contine asemenea reclame care sunt destinate unui anumit spectator sau grup de spectatori, asa cum rezulta din rezultatele analizei profilului de client si a analizei demografice.

Este important de notat ca data mining este doar o parte din solutia integrata. Alt componenet, precum data cleaning si data integration, OLAP, securitatea utilizatorului, managementul ordinii si al inventarului, managementul produsului si altele de acest tip trebuie si ele sa fie puse in aplicatie.

5.4.2 Este data mining doar o chestiune pentru manageri sau pentru fiecare dintre noi?

Cu siguranta, data mining ii va ajuta mult pe manageri sa inteleaga piata si afacerea lor. Totusi, "Este data mining doar o chestiune pentru manageri sau pentru fiecare dintre noi? " Intrucat tot mai multe date sunt puse la dispozitie pe Internet sau pe propriile dumneavoastra hard discuri, se poate foarte bine sa aveti nevoie de data mining pentru a intelege datele pe care le accesezi, fie la munca, fie acasa. In plus, in anii care vor veni, se asteapta ca tot mai multe sisteme si componente puternice, user-friendly, diversificate si accesibile vor fi disponibile. De aceea, ne putem astepta ca fiecare sa aiba nevoi si mijloace data mining. Altfel spus, e putin probabil ca data mining sa ramana rezervat celor care folosesc cunostintele dintotdeauna, adica celor cu functii de conducere si analistilor economici. Data mining va fi o preocupare pentru fiecare dintre noi.

8

Page 9: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

"Dar cum as putea eu folsi casa data mining? Data mining poate avea multe utilizari personale. De pilda, vrei sa faci un mining pe istoria medicala a familiei tale., sa identifici elemente genetice legate de conditiile medicale, cum ar fi cancerul sau anomalii cromozomiale. Astfel de cunostinte va poate determina sa alegeti un anumit regim de viata. In viitor, vei putea sa faci mining pe inregistrarile companiei cu care lucrezi pentru a evalua serviciile pe acre ti le ofera tie in calitate de client. Ai putea folosi tehnica text mining bazata pe continut pentru a cauta e-mailuri sau pentru a crea un sistem automat de clasificare pentru a facilita arhivarea mesajelor. Vei putea face mining pentru o companie in care ai facut investitii, de pilda. Un alt exemplu ar fi mining in magazinele Web pentru a gasi cel mai bun pret pentru un produs sau o oferta de munca. Astfel, pe masura ce data mining depaseste ceea ce am numit mai sus prapastie, devine si mai accesibil publicului larg si va deveni, in cele din urma, un instrument la indemana tuturor.

"Atunci trebuie sa inteleg cum functioneaza sistemele data mining si toate dedesubturile legate de algoritmii DM pentru a face data mining "

Asa cum folosim televizorul, calculatorul si programele de software, ne putem astepta sa folosim fara a face vreun curs de specializare un instrument de data mining user-friendly. In plus, vor aparea din in ce mai multe softuri „destepte” care sa foloseasca implicit data mining ca o componenta functionala. De exemplu, motoarele de cautare pe Internet mai destepte , servicii Web adaptate clientului, sisteme de baze de date „inteligente”, sisteme de raspuns la chestionare cooperative, administratoare de e-mailuri, de calendare vor putea sa integreze module de data mining, utilizatorul nefiind astfel constient ca data mining exista. O astfel de utilizare implicita a funcţiilor incastrate se numeste data mining invizibil. E de asteptat ca data mining invisible sa devina un instrument foarte folosit de publicul larg pentru a face data mining.

5.4.3 Este data mining o amenintare pentru spatiul privat si siguranta datelor?

Tot mai multa informatii sunt prezente in format electronic si disponibile pe web, instrumentele de data mining sunt din ce in ce mai diverse; in aceste conditii, te intrebi pe buna dreptate: „Este data mining o amenintare pentru spatiul meu privat si siguranta informatiei?”Ca oricare alta tehnologie, data mining poate fi folosit in scopuri nobile sau nu chiar. Intrucat data mining scoate la lumina tipuri de cunostinte pe care cu greu le gasesti in alta parte, acest lucru poate pune o problema in ceea ce priveste spatiul privat si siguranta informatiilor daca nu est folosit si facut cum trebuie. Pe cei mai multi consumatori nu ii deranjeaza sa furnizeze informatii personale companiilor, pentru ca se gandesc ca in acest fel companiile le vor satisface mai bine nevoile. De exemplu, cei care fac cumparaturi semneaza fara probleme carduri de fidelitate la magazinul din cartier daca acest lucru le poate aduce o reducere la un moment dat.

Te-ai gandit vreodata cat de multa informatie despre tine este inregistrata si ce spune

9

Page 10: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

aceasta informatie? Informatiile privind profilul unei persoane pot fi accesate ori de cate ori folositi un card de credit, un card de debit, un card de fidelitate la supermarket sau atunci cand ceri sa ti se fac unul din documentele de mai sus. Aceasta informatie poate fi furnizata cand navighezi pe Internet, cand raspunzi pe un newsgroup pe Internet, cand te abonezi la un ziar sau la o revista, cand inchiriezi casete video, cand completezi un formular pentru un concurs, cand dai informatii despre copilul tau nou nascut, cand mergi la farmacie cu reteta sau la doctor pentru consultatie. Bineinteles, informatia care poate fi obtinuita fara prea mult efort nu este limitata la comportamentul nostru de cumparator de zi cu zi, ci poate cuprinde elemente despre activitatile noastre in timpul liber, data financiare, medicale etc. Daca stai sa te gandesti la toate aceste aspecte, data viitoare cand vei face aceste lucruri, vei avea impresia ca Fratele cel mare sau bancherul cel Mare te priveste cu mare atentie.

Desi strangerea de date personale poate fi folositoare pentru companii si consumatori, asa cum am aratat in sectiunea 5.4.1, exista totusi un potential de folosire improprie al acestei tehnologii. Dar daca datele sunt folosite cu alte scopuri, cum ar fi pentru a ajuta companiile dea asigurari sa stabileasca nivelul consumului de grasimi in alimentele pe acre le cumperi? Recent, un supermarket a incercat sa foloseasca datele de pe cardurile de fidelitate pentru a arata ca un cumparator care a alunecat si a cazut era de fapt un bautor inrait (afirmatie bazata pe cantitatile de alcool cumparate). Acest exemplu ilustreaza clar ca datele sunt „invizibil” colectate de la consumatori si pot fi folosite chiar impotriva lor.

Facand o analiza a celor de mai sus, te poti intreba:

"Cand ofer informatii unei companii despre mine, vor fi aceste date folosite in vreun fel la care eu nu ma gandesc?"

"Vor fi aceste date vandute altor companii?"

"Pot afla toate informatiile care s-au strans despre mine?"

"Cum pot afla ce companii detin informatii despre mine?"

" Am eu dreptul sau mijloacele sa interzic unei companii sa foloseasca informatiile pe acre le au despre mine?"

"Sunt aceste mijloace stabilite in vreun fel astfel incat sa pot modifica datele eronate privind profilul meu? Dar daca vreau sa sterg, sa completez, sa amendez sau sa updatez datele?"

"Informatiile despre mine vor fi anonime sau vor fi puse in legatura cu persoana mea?"

"Cat de sigure sunt datele?"

"Cat de responsabila este compania care detine sau strange date despre mine in cazul in

10

Page 11: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

care acestea sunt furate sau folosite intr-un mod inapropriat?"

Nu exista raspunsuri simple la aceste intrebari. La nivel international au fost luate masuri pentru protectia datelor private si pentru a acoperi aspecte legate de colectarea, folosirea, deschiderea datelor, de participarea individuala si de responsabilitate. Iata in cele ce urmeaza principalele principii:

Specificarea scopului si limitarea utilizării : Scopurile pentru care sunt colectate datele personale trebuie sa fie specificate in momentul in care acestea sunt colectate si nu trebuie sa depaseasca scopul enuntat. De obicei, data mining e un obiectiv secundar al colectarii de date. S-a sustinut ca simpla atasare a unui disclaimer care sa spuna ca datele pot fi de asemnea folosite pentru data mining nu este acceptata daca o suficienta dovada a intentiei declarate. Data fiind natura de exploatare a data mining, e imposibil ce modele vor fi descoperite; de aceea nu exista nici o certitudine privind modul in care vor fi folosite.

Deschidere: Persoanele au dreptul sa ştie ce informaţie s-a strâns in ceea ce le priveşte, cine are acces la aceste date si felul in care aceste date sunt folosite.

"Asadar, care ar fi solutiile pe care le propun aceste principii? Companiile ar trebui sa ofere consumatorilor multiple solutii, inclusiv liste de excluderi, pentru ca acesti consumatori sa hotarasca care a fi utilizarea datelor lor personale. Iata cateva solutii: 1. datele personale ale consumatorului nu vor fi folosite in nici un fel in data mining; 2. datele consumatorului pot fi folosite pentru data mining, dar identitatea fiecarui consumator sau orice informatie care ar putea duce la aflarea identitatii persoanei trebuie indepartate;3. datele pot fi folosite doar pentru data mining in interiorul firmei; 4. datele pot fi folosite atat in interiorul, cat si in exteriorul companiei. In unele cazuri, companiile pot sa propuna consumatorilor un consimtamant pozitiv, adica permitandu-le acestora sa opteze pentru o utilizare secundara a informatiilor furnizate, adica pentru data mining.

Ideal ar fi ca acesti consumatori sa poata suna la un numar gratuit sau sa acceseze un site web al companiei pentru asi exprima optiunile, pozitive sau negative si pentru a care accesul la datele lor personale.„dar despre siguranta datelor ce se poate spune? ” domeniu sistemelor de baze de date s-a lovit initial de o opozitie masiva mai ales atunci cand persoanele erau asociate cu riscurile unei stocari online a datelor. Dar de atunci s-au dezvoltat numeroase tehnici de sporire a sigurantei datelor, si, desi exista infractiuni ale hakerilor, datele sunt de obicei securizate, iar oamenii accepta cu usurinta astazi ca avantajele unor baze de data bine administrate sunt mult mai importante decat dezavantajele.Astfel de tehnici pot fi utilizate pentru a anonimiza informatia si pentru a proteja datele private in data mining.

Tehnicile mentionate mai sus includ intre altele blind signature (care au la baza un cod

11

Page 12: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

criptat cu cheie publica), biometric encryption (de exemplu imaginea irisului unei persoane sau amprentele digitale sunt folosite pentru a coda informatia personal) si baze de data anonime (care permit consolidarea diverselor baze de date dar limiteaza accesul la informatia personala; aceasta informatie este criptata si stocata in diferite locuri)

Data mining poate reprezenta o menintare pentru spatiul privat si pentru siguranta datelor. Insa, asa cum am vazut, multe solutii au fost concepute pentru a impiedica folosirea inadecvata datelor colectate. In plus, sistemele de baze de date beneficiaza de numeroase tehnici de securizare a datelor care pot fi folosite pentru a securiza datele colectate pentru data mining.

Desi este posibil ca unele din tehnicile actuale de data mining sa nu reuseasca sa treaca prapastia, data mining, este obligat sa reuseasca, data fiind nevoia pentru asemenea tehnologie. In conditiile in care companiile si consumatorii continua sa isi ia responsabilitatea unor noi solutii pentru asigurarea protectiei datelor private putem continua sa ne bucuram de beneficiile data mining in termeni de financiari si temporali si de descoperirea unor noi cunostinte.

5.5 Tendinte in data mining

diversitatea datelor, tascurile legate de data mining, perspectivele de abordare a data mining, toate acestea pun serioase probleme cercetarii in acest domeniu. Construirea unor limbaje speciale pentru data mining, dezvoltarea unor metode si sisteme eficiente de data minig, construirea unor medii data mining intgrate si interactive, precum si aplicarea tehnicilor data mining pentru a rezolva probleme cu aplicatie larga, toate acestea reprezinta obiective clare pentru cercetatorii si dezvoltatorii aplicatilor in data minig. Aceasta sectiune descrie cateva dintre tendintelor data mining care reflecta aceste obiective.

Largirea campului de aplicatie: primele aplicatii data minig aveau drept scop principal marirea competitivitati unor anumite afaceri. Odata cu respandirea cestei tehnologii, este folosita pentru explorarea aplicatiilor in alte domenii cum ar fi biomedicina , analizele financiare si telecomunicatiile. In plus aplicarea data mining continua sa se extinda o data cu raspandirea e-comerce, e-marketing ca elemente de comert pantru fiecare individ. Pentru ca sistemele data minig generice pot prezenta neajunsuri atunci cand vorbim de probleme specifice, von asista probabil la o tendinta de dezvoltare a sistemelor data mining specifice.

Metode data minig scalabile: spre deosebire de metodele traditionale de analiza a datelor, data minig trebuie sa fie capabil sa trateze o catitate mare de informatie intr-un mod eficient si, pe cat posibil , interactiv. Deoarece cantitatea de data care sunt colectate este in continua crestere, algoritmii scalabili pentru functii data minig individuale si integrate devin indispensabili. O directie importanta pentru cresterea eficientei in procesul mining, avand in vedere simultan si interactiunea cu utilizatorul, este ceea ce se numeste contraint based mining. Aceasta permite utilizatorilor sa aiba un control sporit, sa mentioneze

12

Page 13: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

anumite constrangeri care sa ghideze sistemele data mining atunci cand acestea sunt in cautatarea unui profil au a unui model.

Integrarea data minig cu sistemele de baza de date sistemele de depozitare a datelor si cu bazele de date on-line : sistemele de baza de date sistemele de depozitare a datelor si cu bazele de date on-line au devenit un element esential in sistemele de procesare a informatiei. In acest context , trebuie sa ne asiguram ca data mining poate fi o componenta esentiala a analizei de date ca poate fi integrata usor intr-un astfel de mediu de procesare a informatiei. Arhitectura ideala a unui sistem data minig ar consta in compatibilitatea cu sistemele de baze de data si cu sistemele de depozitare a datelor. Managementul tranzactiilor, procesul de chestionare precum si miningul analitic on-line ar trebui intrebate intr-o singura forma. Aceasta va asigura disponibilitatea datelor scalabilitatea si inalta performanta a data minig , precum si un mediu integral de procesare a informatiei pentru analiza si explorarea multidiensionala a datelor.

Standardizarea limbajului data minig: un limbaj data minig standard sau orice efort de standardizarea facilita dezvoltarea sistematica a solutiilor de data minig, va imbunatati interoperabilitatea intre sistemele si functiile multiple ale data minig si va duce la folosirea sistemelor data mining pe scara larga. Eforturile recente in acest sens includ OLEDB Microsoft pentru data minig.

Data mining visual: este un mod eficient de a identifica cunostintele intr-o enorma masa de date. Studiul sistematic si dezvoltarea tehnicilor vizuale de data minig vor facilita promovarea si folosirea data minig ca intrument pentru analiza datelor.

Noi metode pentru a face minig in cazul tipurilor complexe de date. Acest subiect reprezinta o frontiera importanta in cercetarea data minig. Desi s-au facut progrese inportante in demeniul geo spatial , multimedia, timp serie si text data, persiste inca un mare decalaj intre nevoile pentru acest tip de aplicatii si tehnologia existenta.

Web mining :Data fiind cantitatea uriasa a informatiilor de pe Internet, dar si importanta crescanda a web-ului in societate, Web-miningul, web log miningul si data miningul pe internet vor deveni cele mai importante subdomenii ale data miningului.

Protejarea datelor private si siguranta informatiilor in data mining Odata cu cresterea utilizarii domestice a data miningului, a telecomunicatiilor si a retelelor de calculatoare, o problema importanta care apare in data mining este sistemele de baza de date sistemele de depozitatere a datelor si cu bazele de date on-line. Ar trebui dezvoltate noi metode care sa asigure aceste elemente, facilitand, in acelasi timp, accesul la informatie si miningul.

5.6 Concluzii

Multe dintre instrumentele specifice data mining au fost dezvoltate pentru domenii anume de aplicatii, cum ar fi, biomedicina si analiza ADN, finante, industria pentru

13

Page 14: Figura 5-5 Vizualizarea proceselor de data mining de catre ...

consumatorii individuali si telecomunicatii. Aceste practici integreaza cunostinte specifice cu tehnicile analizei de date si ofera solutii specifice.

Multe dintre sistemele si produsele data mining au fost dezvoltate in ultimii 10 ani. Atunci cand selectarea unui produs data mining este adecvata unui task, e important sa avem in vedere diverse caracteristici ale sistemelor data mining dintr-un punct de vedere multidimensional. Acestea includ tipuri de date, elemente de sistem, sursa datelor, functii si metode data mining, o compatibilitate sporita intre sisteme data mining si baze de date sau depozitarea bazelor de date, sisteme vizuale si GUI.

Data mining vizual integreaza data mining si data vizualization cu scopul de a identifica cunostinte pertinente din mase mari de date. Data mining audio foloseste semnale audio pentru a indica modele de date sau caracteristici ale rezultatelor data mining.

Unele metode statistice deja testate au fost propuse pentru analiza de date: regresia, arborii de regresie, modelele lineare generalizate, analiza variabilitati, modele cu efect mixt, analiza discrimainante, analiza timp-serie, analiza de supravietuire si controlul calitatii. O descriere exhaustiva a metodelor de analiza statistica a datelor nu face obiectul acestui curs.

Cercetatorii au incercat sa construiasca un fundament teoretic pentru data minig. Un numar importnat de propuneri si –au facut aparitia, incluzând comprimarea de date si baze de date inductive.

O problema sociala a data minig estre aceea a sigurantei informatiei si a datelor personale. Politici de opt-out care permit consumatorilor sa specifice limitarile impuse folosirii datelor lor personale sunt un exemplu de abordare a protectiei datelor. Simultan tehnicile de securizare a datelor pot face informatia anonima pentru siguranta datelor.

Tendintele in data minig includ eforturi sustinute pentru explorarea unor noi domenii de aplicabilitate precum si noi metode de gestiune a tipurilor de date coplexe, ale algoritmilor scalabili, al metodelor de vizualizare, integrarea data minig cu sisteme de baze de date si depozite de baze de date, standardizarea limbajelor data minig, precum si protectia si siguranta datelor personale.

14