Tehnologii Pentru Extragerea Cunostintelor - Data Mining

download Tehnologii Pentru Extragerea Cunostintelor - Data Mining

of 43

  • date post

    27-Jun-2015
  • Category

    Documents

  • view

    294
  • download

    2

Embed Size (px)

Transcript of Tehnologii Pentru Extragerea Cunostintelor - Data Mining

4

Tehnologii pentru extragerea cunotinelor Data Mining

4.1 n cutarea informaiei ascunseDup mai multe decenii n cursul crora mijloace i tehnici informatice tot mai evoluate au contribuit la amplificarea capacitii de memorare i stocare a datelor, ultimii ani au marcat o reorientare semnificativ n utilizarea volumelor de date stocate, de la un proces de explorare retrospectiv spre unul cu caracter prospectiv. Aceast schimbare a devenit posibil ca urmare a maturizrii tehnologiilor legate de data mining. Denumirea provine de la analogia cu activitatea minier; tot aa cum este necesar dislocarea i rafinarea a tone de minereu pentru a obine cteva grame de aur, aici sunt examinate i analizate sute de mii sau milioane de date pentru a extrage din ele informaii i semnificaii noi, dincolo de scopurile pentru care acestea au fost colectate i memorate la origine. Data mining are, ca i alte concepte folosite n informatic, mai multe definiii. n esen, acestea converg spre ideea formulat anterior: un proces de extragere de informaii noi din coleciile de date existente. Termenul de dat este utilizat aici cu semnificaia de descriere a unui eveniment precis, produs n lumea real i verificabil prin raportare la aceasta. Informaia (sau cunoaterea transmis) constituie descrierea unei categorii abstracte, ce acoper mai multe evenimente sau exemple concrete. Principiul de funcionare n data mining este urmtorul: se prelucreaz datele referitoare la perioadele trecute, examinnd o varietate de situaii care s-au produs i ale cror rezultate sau consecine sunt deci, bine cunoscute, pentru a evidenia caracteristicile acestora i a permite elaborarea unui model. Odat construit, modelul poate fi aplicat situaiilor noi de acelai tip. Informaiile obinute prin data mining sunt de natur predictiv sau descriptiv. Un exemplu tipic de problem predictiv este direcionarea aciunilor de marketing. Datele rezultate din corespondena promoional trecut se folosesc pentru a identifica destinatarii pentru care urmtoarea campanie promoional poate aduce un maxim de efect. Detectarea tranzaciilor frauduloase cu carduri bancare constituie unul dintre exemplele tipice de aplicaii descriptive. Explorarea ansamblului tranzaciilor permite evidenierea unui anumit tipar comportamental, considerat normal. Dendat ce la un bancomat se cere efectuarea unei tranzacii ce iese din acest tipar, solicitarea poate fi refuzat. Este posibil ca operaia cerut s fie sau s nu fie frauduloas; o analiz ulterioar poate stabili acest lucru dar, n acest stadiu, sistemul o respinge pentru a preveni orice consecine nedorite.

4.2 Fundamentele explorrii datelorExpansiunea tehnicilor de data mining se explic, printre altele, prin faptul c firmele au acumulat volume foarte mari de date, stocate pe

1

suporturi informatice, privitoare la tranzacii de diverse tipuri, derulate de-a lungul mai multor ani. Bncile posed, spre exemplu, arhive de milioane de nregistrri, n care sunt consemnate n detaliu operaiile efectuate de clienii lor. n orice firm se gsesc mii i sute de mii de nregistrri privitoare la cumprrile, vnzrile, ncasrile i plile fcute. Societile de telefonie mobil posed date privitoare la fiecare convorbire efectuat de abonaii lor, incluznd data, momentul i locul apelului, numrul de telefon al corespondentului, durata convorbirii. Un magazin de tipul cash and carry posed sute de mii de nregistrri, provenind de la casele de marcaj, n care figureaz nu numai articolele cumprate ci i cumprtorii, identificai prin legitimaiile de acces. Mult vreme acestea s-au acumulat pur i simplu n virtutea nevoii de arhivare. Creterea permanent a concurenei, exigenele din ce n ce mai mari ale pieei au determinat firmele s devin contiente de potenialul pe care aceste arhive de date l reprezint. Toate exemplele enumerate au un element comun: vizeaz, n mod direct sau indirect, clienii. Exploatarea lor din aceast perspectiv ofer oportuniti deosebite. Datele sunt la dispoziia organizaiei respective; datele sunt ct se poate de precise i analitice; datele sunt n volum mare i acoper perioade de timp de ordinul anilor. Dar relaia cu clienii nu este singura direcie de re-utilizare a acestor date. n multe alte domenii ale activitii de afaceri, tendinele pe care acestea le ncorporeaz sau le reflect n mod obiectiv, structurile sau tiparele pe care le relev sunt deosebit de valoroase. Alturi de existena coleciilor de date istorice memorate pe suporturi informatice, nc doi factori explic emergena cunoscut actualmente de data mining: maturizarea algoritmilor i a produselor program dedicate i creterea capacitii de memorare i prelucrare a calculatoarelor, care permite tratarea n corelaie a volumelor foarte mari de date. Unele dintre tehnicile de data mining dateaz de ceva mai muli ani. Algoritmii folosii au cunoscut ns un proces de evoluie continu, care a permis nlturarea unora dintre limitele sau deficienele iniiale. Produsele program au evoluat i ele spre o utilizare ct mai facil, la un asemenea nivel nct pot fi folosite cu o cunoatere minim a tehnicii pe care o implementeaz. n sfrit, au aprut firme care ofer spre vnzare colecii de date istorice de uz general cum ar fi, spre exemplu, evoluia indicatorilor bursieri din ultimii 20 de ani - special constituite pentru asemenea utilizri. Depozitele de date i tehnologiile OLAP vizeaz i ele datele colectate la nivelul organizaiilor. n ciuda unor cerine i prelucrri preliminare asemntoare, exist deosebiri eseniale n privina demersului la care recurg fiecare dintre ele i nu mai puin, a obiectivelor urmrite. Nu este mai puin adevrat c depozitele de date se preteaz foarte bine ca surse pentru data mining iar rezultatele furnizate de acesta pot completa cmpurile nregistrrilor celor dinti i pot fi valorificate apoi prin proieciile multidimensionale specifice OLAP.

4.3 O explorare dirijat de oportunitiPotenialul oferit de tehnicile de data mining trebuie ncorporat n procesele comerciale curente ale organizaiilor pentru a deveni realmente utile. Cutarea de informaii nu este un scop n sine; ea devine util doar n msura n care se transpune n aciune.

2

Declanarea unui demers bazat pe data mining se face ca urmare a observrii sau constatrii unei necesiti sau oportuniti comerciale. Observarea diminurii numrului de clieni, scderea vnzrilor la un anumit produs, lansarea unui nou produs sau serviciu sunt cteva exemple de situaii de acest tip. O firm poate alege s reacioneze sau nu la asemenea situaii i, n caz afirmativ, poate alege diverse moduri de a o face. Tehnicile de data mining constituie una dintre acestea. Totui, este de reinut c fiecare dintre ele este adecvat unui anumit gen de probleme sau de circumstane i c, de multe ori, aplicarea lor n combinaie poate produce rezultatele cele mai bune. Alegerea trebuie s aib n vedere i compatibilitatea dintre cerinele n materie de date ale tehnicii sau tehnicile alese i cele de care se poate dispune realmente. Pasul urmtor const n explorarea propriu-zis a datelor. La rndul su, acesta este departe de a fi simplu sau liniar. Multe dintre aceste tehnici solicit, nainte de a putea fi utilizate, un proces de nvare; datele, fiind eterogene, impun o etap de pregtire prealabil; rezultatele sunt rareori aplicabile n forma n care sunt obinute, cernd un efort suplimentar de interpretare i adaptare, la care s participe i decidentul, cu cunotinele i experina sa n afaceri. Spre exemplu, aplicarea unui algoritm de grupare poate evidenia existena a 20 de clustere diferite; dintre acestea, doar unul se poate dovedi util dar relevana lor nu poate fi apreciat dect de specialistul sau specialitii din firm. Informaiile obinute anterior au valoarea aciunilor ntreprinse pe baza lor. Tehnicile de data mining permit obinerea de cunotine mai bogate privitoare la mediul n care exist i funcioneaz ntreprinderea. Acestea trebuie ns transformate n aciune iar efectul aciunilor msurat. Este posibil ca aciunea de data minig s fie un eec i nu o reuit. Este posibil ca msurile ntreprinse s nu fie cele mai adecvate n raport cu informaiile obinute. Att reuita ct i eecul pot fi surs de nvminte pentru viitor, pot fi stimulii unor noi aciuni de data mining, mai bine i mai precis orientate i derulate. Toate aceste contureaz ideea unui ciclu1 n utilizarea data mining, n cursul cruia se parcurg cele patru etape menionate: identificarea oportunitii comerciale i a datelor pe care se poate baza explorarea extragerea de informaii din coleciile de date existente prin tehnici adecvate de data mining adoptarea de decizii i ntreprinderea de aciuni pe baza informaiilor obinute msurarea rezultatelor concrete pentru a identifica i alte modaliti de exploatare a datelor disponibile

1

M.J.A. Berry, C. Linoff, Data Mining -Techniques applique au marketing, la vente et aux services clients, Masson, InterEditions, 1997

3

Data mining Oportunitate de afaceri Evaluare rezultate Decizie i aciune

Figura 4- 1. Ciclul de utilizare a data mining

4.4 Verificarea ipotezelor i cutarea cunotinelorAplicarea tehnicilor de data mining poate fi fcut din perspectiva unui demers ascendent sau descendent. n abordarea descendent, efortul este orientat spre confirmarea sau infirmarea unor idei (ipoteze) formulate n prealabil prin alte mijloace. Un demers asemntor se aplic n statistic i n analiza datelor, dar folosind alte tehnici i metode. Data mining

verificarea ipotezelor

cutarea de cunotine

dirijat

nedirijat

Figura 4-2. Utilizri ale tehnicilor de data mining Abordarea ascendent are o cu totul alt finalitate; ea urmrete extragerea de cunotine sau informaii noi din datele disponibile. Cutarea poate fi dirijat sau nedirijat2. Cutarea dirijat ia n considerare un atribut sau un cmp, ale crui valori ncearc s le explice prin celelalte cmpuri. Este cea mai folosit n practic.

2

M.J.A. Berry, C. Linoff, op. cit. 4

Cutarea nedirijat are ca scop identificarea relaiil