UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare,...

28
1 UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice, Economice și Administrative Craiova Programul de studiu Contabilitate si Informatică de Gestiune An III, sem II SISTEME INFORMATICE PENTRU ASISTAREA DECIZIEI 2017_2018 OBJECTIVE Obiectivele cursului sunt cunoaşterea şi aprofundarea elementelor fundamentale ale sistemelor informatice pentru asistarea deciziei în economie, precum şi câştigarea deprinderilor practice în utilizarea instrumentelor informatice inteligente pentru rezolvarea problemelor (aplicaţiilor) din domeniul economic. CUVINTE-CHEIE: decizie economică; sistem informatic pentru asistarea deciziei (SIAD) economice; depozit de date (Data Warehouse), Data Mining;OLAP; hipercub; bază de date multidimensională. 1. ASISTAREA DECIZIEI ECONOMICE 1.1. Introducere Sistemul este o colectie de părţi (elemente) organizate şi interconectate pentru îndeplinirea unui anumit scop. Sistemul, în plan conceptual, este expresia abstractizării unor fapte, fenomene, procese, obiecte din universul real pe baza unei structuri logice predefinite. După domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme deschise (open systems), putemic ancorate în mediul socio-economic (piaţa este o parte a acestui mediu) în care acestea funcţionează. Sistemele economice, ca sisteme deschise, sunt sisteme cibernetice adică prezintă legatura de reactie (feedback) ce le permite o functionare normală. Sistemele economice prezintă un comportament dinamic care asigură adaptarea la fluctuaţiile mediului socio-economic. Orice sistem economic poate fi impărţit în mai multe subsisteme în funcţie de criterii specifice. Societatea comercială (organizaţia economică) reprezintă un sistem economic care poate fi divizat a) funcţional sau pe domenii de gestiune (producţie/servicii, comercial, cercetare-dezvoltare, financiar- contabil, resurse umane) sau b) structural (organizatoric, decizional, informaţional, tehnologic, relational pe resurse umane). Potrivit concepţiei holonice asupra sistemelor, două sau mai multe sisteme autonome pot fi integrate (cu critenii şi obiective precise) şi se poate obţine astfel un sistem holonic.Sistemul holonic (holonul) economic permite optimizarea atât pe sisteme componente, cat şi pe ansamblul sistemului integrator devenit sistem de referinţă, pe cele două planuri: real şi conceptual. Orice sistem economic modern performant este un sistem integrat functional şi structural. Sistemele economice integrate pot fi abordate din perspectiva diferitelor şcoli de gândire în management (tehnico-ratională, comportamentală, cognitivă). Acestor sisteme economice integrate le sunt asociate sisteme informaţionale integrate, respectiv sisteme informatice integrate. Sistemele informatice integrate economice au în compunere, în funcţie de nivelurile de management ale organizaţiei, sisteme informatice dedicate (integrate pe orizontală), astfel: 1) nivelul de management strategic: sisteme informatice de sprijin al executivului, ESS (Executive Support Systems) sau EIS (Executive Information System);

Transcript of UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare,...

Page 1: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

1

UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice, Economice și Administrative Craiova Programul de studiu Contabilitate si Informatică de Gestiune An III, sem II

SISTEME INFORMATICE PENTRU ASISTAREA DECIZIEI

2017_2018 OBJECTIVE

Obiectivele cursului sunt cunoaşterea şi aprofundarea elementelor fundamentale ale sistemelor informatice pentru asistarea deciziei în economie, precum şi câştigarea deprinderilor practice în utilizarea instrumentelor informatice inteligente pentru rezolvarea problemelor (aplicaţiilor) din domeniul economic. CUVINTE-CHEIE: decizie economică; sistem informatic pentru asistarea deciziei (SIAD) economice; depozit de date (Data Warehouse), Data Mining;OLAP; hipercub; bază de date multidimensională.

1. ASISTAREA DECIZIEI ECONOMICE 1.1. Introducere

Sistemul este o colectie de părţi (elemente) organizate şi interconectate pentru îndeplinirea unui anumit scop. Sistemul, în plan conceptual, este expresia abstractizării unor fapte, fenomene, procese, obiecte din universul real pe baza unei structuri logice predefinite. După domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme deschise (open systems), putemic ancorate în mediul socio-economic (piaţa este o parte a acestui mediu) în care acestea funcţionează. Sistemele economice, ca sisteme deschise, sunt sisteme cibernetice adică prezintă legatura de reactie (feedback) ce le permite o functionare normală. Sistemele economice prezintă un comportament dinamic care asigură adaptarea la fluctuaţiile mediului socio-economic. Orice sistem economic poate fi impărţit în mai multe subsisteme în funcţie de criterii specifice. Societatea comercială (organizaţia economică) reprezintă un sistem economic care poate fi divizat a) funcţional sau pe domenii de gestiune (producţie/servicii, comercial, cercetare-dezvoltare, financiar-contabil, resurse umane) sau b) structural (organizatoric, decizional, informaţional, tehnologic, relational pe resurse umane). Potrivit concepţiei holonice asupra sistemelor, două sau mai multe sisteme autonome pot fi integrate (cu critenii şi obiective precise) şi se poate obţine astfel un sistem holonic.Sistemul holonic (holonul) economic permite optimizarea atât pe sisteme componente, cat şi pe ansamblul sistemului integrator devenit sistem de referinţă, pe cele două planuri: real şi conceptual.

Orice sistem economic modern performant este un sistem integrat functional şi structural. Sistemele economice integrate pot fi abordate din perspectiva diferitelor şcoli de gândire în management (tehnico-ratională, comportamentală, cognitivă). Acestor sisteme economice integrate le sunt asociate sisteme informaţionale integrate, respectiv sisteme informatice integrate. Sistemele informatice integrate economice au în compunere, în funcţie de nivelurile de management ale organizaţiei, sisteme informatice dedicate (integrate pe orizontală), astfel:

1) nivelul de management strategic: sisteme informatice de sprijin al executivului, ESS (Executive Support Systems) sau EIS (Executive Information System);

Page 2: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

2

2) nivelul de management mediu: sisteme informatice pentru management, MIS (Management Information Systems) şi sisteme informatice pentru asistarea deciziei, DSS (Decision Support Systems);

3) nivelul lucrătorilor cu date, informaţii şi cunoştinţe: sisteme de automatizare a lucrărilor de birou sau birotică OAS (Office Automation Systems) şi sisteme de lucru cu cunoştinte, KWS (Knowledge Work Systems);

4) nivelul de management operaţional: sisteme informatice pentru procesarea tranzacţiilor, TPS (Transaction Processing Systems). Cele mai cunoscute implementări ale unor componente de integrare pe verticală ale sistemelor informatice integrate economice sunt denumite: planificarea resurselor întreprinderii, ERP (Enterprise Resource Planning), fabricaţie asistată de calculator, CAM (Computer-Aided Manufacturing), planificarea resurselor de fabricaţie, MRP (Manufacturing Resource Planning), sistem informatic de resurse umane, HRIS (Human Resources Information System), sistem informatic contabil, AIS (Accounting Information System), sistem informatic financiar, FIS (Financiar Information System), sistem informatic pentru marketing, MKIS (Marketing Information System), sistem informatic de resurse informatice, IRIS (Information Resources Information System), sistem informatic pentru managementul relaţiilor cu clientii, CRM (Customer Relationship Management), sistem de management al lanţului de distribuţie, SCM (Supply Chain Management) etc.

Elemente ale OAS au reprezentat obiectul cursului de birotică, elemente ale TPS al cursului de sisteme de gestiune a bazelor de date, în timp ce elemente ale KWS au fost lămurite la cursul de sisteme expert. DSS reprezintгă obiectul de studiu al disciplinei Sisteme informatice pentru asistarea deciziei (SIAD) economice. MIS este o disciplină pentru specializarea Management. Este discutabilă separarea SIAD (DSS) de MIS, având în vedere că luarea deciziei reprezintă scopul fundamental al oricărui sistem de management. ESS sunt în curs de clarificare, conceptualizare şi realizare.

1.2. Decizia: loc, rol, clasificare

Evolutia tehnologiilor informaţiei şi ale comunicaţiilor, IT&C influentează evoluţia procesului managerial prin oferta de mijloace şi instrumente din ce în ce mai performante pentru rezolvarea sarcinilor managerilor, sintetizate în ESS, MIS, DSS, KWS, OAS. Sistemele informatice oferă un nivel rapid de obţinere, analiză şi interpretare a unei mari cantităţi de date şi informaţie, ajutând la o adaptare rapidă a decidenţilor într-un mediu economic în permanentă dinamică. Tot ele asigură un înalt nivel de responsabilitate şi putere de decizie spre nivelele inferioare. În acelaşi timp, procesul managerial are impact asupra modului în care se face proiectarea şi realizarea sistemelor informatice care deservesc acest proces.

În principal, managerii utilizează sistemele informatice pentru planificarea, organizarea, coordonarea, controlul şi previziunea activitaţilor , dar şi pentru comunicarea dintre persoane, stabilirea reţelelor în interiorul organizaţiei cât şi la rezolvarea problemelor curente.

Diverşi autori definesc decizia în moduri aproximativ asemănătoare ca de exemplu: solutia aleasă din mai multe posibile, alegerea unei căi de acţiune etc. Decizia se poate defini şi ca find rezultatul unor activităţi conştiente de alegere a unei căi de acţiune, alegere care presupune alocarea unor resurse. În organizaţia economică, resursele alocate sunt umane, materiale, financiare şi informaţionale. Clasificarea deciziilor în funcţie de nivelul decizional şi gradul de structurare este: a. Decizii strategice care se referă la obiectivele, resursele şi politicile organizaţiei, pe termen mediu şi lung.

Page 3: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

3

b. Decizii de control operaţional care determină modul în care sunt duse la îndeplinire sarcinile de la nivelele superioare. c. Decizii tactice - de control managerial ce determină cât de eficiente au fost folosite resursele. Controlul managerial presupune o continuă interacţiune între persoanele care îndeplinesc obiectivele organizaţiei, în mod curent şi pe termen scurt. d. Decizii în ceea ce privesc cunoştintele, acestea find indisolubil legate de ideile care se referă la noi produse şi servicii, metode de răspândire a acestor cunoştinţe şi de difuzare a datelor şi informaţiilor în cadrul organizaţiei. e. Decizii structurate sau programabile, adică decizii uzuale pentru care există proceduri realizate. Acest tip de decizii intervin în momentul în care apare un proces cunoscut. Dacă decizia este supusă procesului de informatizare, ea este descrisă printr-un program a cărui execuţie este fixă, deci nu pot exista reveniri, iar calea raţionamentelor nu este schimbată nici prin program şi nici de utilizatori. f. Decizii nestructurate (neprogramabile) sunt cele care se bazează pe flerul şi modul de judecată al decidentului care analizează problema. Acest tip de decizie se referă la tipuri de probleme atipice pentru organizaţie, pentru care nu există proceduri prestabilite. 0 decizie este considerată nestructurată atunci când elementele sale sunt de tip calitativ, obiectivele şi finalitatea nu sunt precise şi nu există un algoritm cunoscut pentru rezolvarea lor. g. Decizii semistructurate sunt cunoscute ca decizii care pot fi rezolvate parţial cu proceduri cunoscute, întrucât acestea au elemente predominant cantitative, scopurile nu sunt precise, iar procedura de rezolvare nu asigură ansamblul elementelor problemei. Gradul de structurabilitate a deciziei depinde de experienţa acumulată de decident, precum şi de nivelul şi importanţa ei. Conform terminologiei Iui H. Simon, în cazul proceselor semistructurate apare nevoia unui ,,asistent", de fapt de ,,asistare a deciziei". Acest termen de ,,asistare a deciziei" trebuie definit la modul general ca find o serie de operaţii cum sunt sortarea, clasificarea, selectarea, evaluarea ce au ca scop final organizarea informaţiei, reducerea incertitudinii şi obţinerea de variante de rezolvare. Dacă se consideră evoluţia în timp a acestui termen, atunci se poate constata că acesta s-a dezvoltat prin folosirea metodelor cercetării operaţionale, dar sunt greu de aplicat. De aceea a apаrut un alt nivel de abordare a asistării deciziei, şi anume ,,asistarea interactivă". Pe baza acesteia au apărut sistemele informatice de asistare a deciziei sau Decision Support Systems (DSS), situate generic pe nivelul de management mediu. O altă clasificare a deciziilor poate fi făcută în funcţie de cunoştintele de care dispune decidentul referitoare la evoluţia problemei pe care o are de rezolvat. În funcţie de acest criteriu, deciziile sunt: 1. Decizii în condiţii de certitudine ce presupun o cunoaştere a evoluţiei fenomenelor viitoare, ceea ce se petrece mai rar în realitatea economică. O astfel de decizie se bazează pe criteriul costului minim de funcţionare. 2. Decizii în condiţii de incertitudine ce presupun cunoaşterea evoluţii anterioare a fenomenului economic. Acest mod de cunoaştere va permite o previziune şi o alegere cât de cât corectă a variantei de decizie. Acest tip de decizie face parte din clasa generală a deciziilor de orientare în care alegerea unei variante se face în funcţie de previziunile viitoare ale decidentului precum şi de criterii obiective care presupun raţionament logic. 3. Decizii în condiţii de risc ce presupun că decidentul cunoaşte aproximativ evoluţia viitoare a fenomenului, posibilul trend al variabilelor necontrolabile şi chiar ce rezultate are fiecare strategie analizată pe baza criteriului speranţei matematice. În acest caz procesul de decizie va avea o multitudine de consecinţe, iar fiecăreia i se va asocia o probabilitate. Se obţine o distribuţie a probabilităţilor din care se va alege varianta cu speranţa matematică cea mai bună. Dacă există variante de decizie care au aceeaşi speranţă matematică, atunci se va calcula intervalul de variaţie şi abaterea standard. Ca variantă optimă se va alege aceea care

Page 4: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

4

are cea mai mică abatere standard. 1.3. Consideraţii asupra asistării deciziilor Procesul decizional este ansamblul de activităţi executat de o persoană/grup de persoane care sunt puse în faţa unui fenomen care poate genera mai multe variante de acţiune şi având drept obiectiv alegerea uneia dintre ele care să răspundă cel mai bine sistemului de valori ale persoanei, grupului de persoane sau organizaţiei în ansamblul său. Procesul de adoptare a deciziilor este constituit din următoarele etape: 1. Informarea generală, etapă în care sunt analizate evenimentele apărute în organizaţie şi depistate cauzele lor de apariţie. Această etapă conţine subetapele de identificare a problemei, descompunerea ci, stabilirea responsabilităţior şi are ca. rezultat descrierea formală a problemei, a categoriei din care aceasta face parte şi a tuturor responsabilităţilor care decurg de aici. 2. Design-ul sau modul de concepere al procesului de asistare a deciziei - presupune alegerea sau construcţia unui model pentru asistarea deciziei, precum şi subetapele de testare şi validare. Una din subetapele design-ului este modelarea ce implică modul de concepere a problemei, precum şi abstractizarea ei cantitativă şi/sau calitativă. Experienţa decidentului îşi pune amprenta pe modul de alegere a modelului dintr-o multitudine existentă, dezvoltă proceduri mentale care ajută la încadrarea problemei de rezolvat într-o anume clasă de modele existente. 3. Alegerea este etapă de bază pentru adoptarea deciziei deoarece în cadrul ei se concretizează rezultatele obţinute în celelalte etape. Decidentul alege o singură acţiune din multitudinea existentă în funcţie de criteriul de selecţie propus şi de modelul decizional pe care 1-a ales. Decidentul alege între posibilităţile existente în funcţie de soluţionarea definitivă a modelului, de selectarea celei mai adecvate alternative şi tot el selectează planul pentru implementare. Pentru alegere sunt evidenţiate mai multe metode de căutare, ca de exemplu: tehnici analitice, metode de căutare exhaustive prin care rezultatele obţinute de fiecare alternativă sunt comparate, metode euristice care sunt aplicabile în metodele descriptive. Metodele analitice sunt utilizate datorită utilizării formulelor matematice pentru a găsi soluţia optimă. Utilizarea lor este restricţionată de natura problemelor, iar acestea trebuie să fie structurate. Se pot aplica astfel de metode pentru probleme de gestiune a stocurilor sau de alocare a resurselor. Algoritmii stau la baza acestor metode şi conduc la obţinerea unor soluţii viabile pentru modelul ales. Metodele de căutare exhaustivă sunt utilizate în genere la luarea în considerare a tuturor căilor de acţiune pentru a ajunge la scopul propus. Aceste metode au la bază un proces neghidat, proces în urma căruia se alege soluţia optimă. Căutarea de obicei este incompletă întrucât posibilităţile de căutare sunt limitate de timp, spaţiu de memorie şi el se va opri când se va găsi o solutie apropiată de cea optimă (numită suboptim). Metodele de căutare euristice se bazează pe o riguroasă analiză a problemei sau printr-o căutare prin încercşri succesive a spaţiului soluţiilor. Raţonamentul făcut prin parcurgerea spaţiului de căutare a soluţiei permite trecerea prin toate stadiile intermediare către o stare finală care poate fi un rezultat satisfаcător sau o nereuşită (eşec). Se precizează că metoda de căutare care este implementată de un sistem de asistare a deciziilor este o metodă euristică. Ca ultimă etapă în adoptarea deciziei este evaluarea rezultatelor soluţiei. 4. Implementarea este etapa în care se face declanşarea acţiunii alese (propuse) de decident. De obicei, această etapă este o mare consumatoare de timp, resurse şi în cursul ei pot apare diverse probleme de rezolvat, ca de exemplu gradul de suport al nivelurilor superioare decizionale.

Page 5: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

5

Pentru procesul decizional structurat şi pentru cel semistructurat se pot folosi modelele cantitative bazate pe metode şi modele ale cercetării operaţionale. Această abordare presupune automatizarea totală sau parţială a procesului de adoptare a deciziei şi constă în următorii paşi: a) descrierea şi definirea problemei; b) găsirea categoriei din care face parte problema; c) elaborarea unui model matematic care să se plieze cel mai bine pe descrierea problemei; d) alegerea soluţiei. Modelarea personalizată este un proces interactiv şi a dat şi numele primelor sisteme: sisteme interactive de asistare a deciziei. Sistemele de asistare a deciziei orientate pe date ce se găsesc în depozitul de date al organizaţiei. Aceste sisteme functionează pe baza analizei şi agregării datelor şi au ca funcţii accesul irnediat la date, dispun de un mecanism pentru analiza imediată a datelor, creează statistici. Acest tip de sisteme este rezultatul creării unor tehnologii speciale cum sunt: - depozitarea unor volume enorme de date istorice ale organizaţiei (Data Warehousing); - exploatarea acestor depozite prin procesare analitică on-line (OLAP,OnLine Analytical Processing). Adoptarea deciziilor constituie un proces care pe lângă suportul tehnic are nevoie de un suport cognitiv care este asigurat de partea umană componentă integrantă a sistemului decizional. Suportul cognitiv înglobează cunoştinţele şi experienţa decidentului, precum şi capacitatea acestuia de raţionament. Suportul cognitiv este sprijinit şi marcat în ultimele decenii de apariţia sistemelor informatice de lucru cu cunoştinţe, KWS (Knowledge Work System) care se ocupă de probleme de stocare, clasificare, menţinere şi calitate a cunoştinţelor. Dacă în sistemele informatice de asistare a deciziei se includ şi bazele de cunoştinţe, se definesc astfel sisteme informatice de asistare a deciziei bazate pe cunoştinţe sau aşa numitele sisteme informatice de asistare inteligentă a deciziei. 1 .4. Clasificarea sistemelor informatice pentru asistarea deciziei Semantic, un sistem informatic de asistare a deciziei este o arhitectură abordată unitar, care presupune un dialog permanent cu utilizatorul, dar decizia finală este adoptată de utilizator şi nu de sistem. Toate posibilele definiţii date SIAD-ului au ca punct de pornire obiectivele şi modul lor de îndeplinire sau pornesc de la compararea specificităţii acestora cu alte sisteme informatice. De regulă, se face comparaţia între sistemele informatice de asistare a deciziei şi celelalte sisteme informatice din imediata lor vecinătate cum sunt: sistemele informatice pentru management (MIS), sistemele informatice pentru sprijinul conducerii executive (ESS) sau sistemele de lucru cu cunoştinte (KWS). MIS, de obicei, pun la dispoziţia utilizatorului rapoarte de sinteză sau probleme de excepţie în funcţie de criterii predefinite, referindu-se cu prioritate la un anumit domeniu (contabilitate, marketing etc.). Diferenta dintre MIS şi SIAD (DSS) constă în aceea că MIS pleacă de la date şi relaţiile dintre acestea, pe când SIAD-ul porneşte de la decident şi de la decizie. ESS (EIS) sunt sisteme destinate asistării deciziilor pe cel mai malt nivel al managementului organizaţional, ajută la identificarea şi rezolvarea problemelor prin sesizarea de noi oportunităţi. De asemenea, acest tip de sisteme au posibilitatea de a oferi decidentului tendinţe, analize pentru activitatea concurenţială. Caracteristicile principale ale SIAD (DSS) sunt: rezolvarea acelor probleme care nu se pot rezolva cu sisteme destinate cuantificării cantitative; rol de asistare a decidenţilor (managerilor) la nivel individual sau de grup în toate etapele procesului decizional; soluţiile sunt obţinute prin manipulări de date, căutări de informaţii, modele, calcule; timpul de

Page 6: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

6

răspuns pentru obţinerea unei soluţii acceptabile este limitat. Clasificarea SIAD-urilor se face după mai multe criterii, cel mai des utilizat fiind gradul de analiză a datelor pe care se bazează soluţia: 1. SIAD-uri care au la bază modele. Modelul cantitativ este sprijinit de o interfaţă care facilitează utilizarea. 2. SIAD-uri bazate pe date care se referă la un volum apreciabil de date stocate în sistemul informatic al organizaţiei şi oferă posibilitatea de a extrage informaţii utile din multitudinea de date de care dispune. Aceste tipuri de SIAD-uri au la bază depozitele de date (Data Warehouse), iar prelucrarea este asigurată de tehnologia informaţională OLAP. 3. SIAD-uri bazate pe cunoştinte care utilizează tehnologiile inteligenţei artificiale şi de aceea se mai numesc şi SIAD (sisteme informatice inteligente de asistare a deciziei). O a doua clasificare, oferită de Holsapple şi Whinston, grupează sistemele SIAD în cinci tipuri: 1. SIAD bazate pe analiza textelor; toate informaţiile de care are nevoie decidentul le găseşte sub formă de text care trebuie analizat. 2. SIAD baze de date au drept componentă principală baza de date a organizaţiei. 3. SIAD procesoare de tabele au ca principală componentă procesoarele de tabele care ajută utilizatorul să descrie modele pentru analiză. Cel mai utilizat procesor de tabele este Excel care include modele statistice, financiare, de previziune, de simulare.

4. SIAD bazate pe funcţii. Funcţia care de fapt este o procedură sau un algoritm scris într-un limbaj de programare şi destinată a fi utilizată pentru rezolvarea unui anumit tip de probleme.

5. SIAD bazate pe reguli; regulile sunt prevazute în KWS. În ultimii ani au apгărut SIAD de grup (Groupware) ca tip de suport al deciziilor pentru

un grup de decidenţi ale căror decizii au o pondere însemnată în asistarea deciziilor într-o organizaţie. Scopul utilizării unor astfel SIAD-uri este creşterea calităţii procesului decizional datorită lucrului în echipă, precum şi creşterea gradului de creativitate al grupului. 1.5. Sisteme suport pentru asistarea deciziei

Ca şi alte tipuri de sisteme informatice, SIAD-urile au ca bază un suport soft care le oferă un mediu de întreţinere, dezvoltare şi funcţionalitate, ele funcţionând într-un mediu creat de sisteme suport de asistare a deciziel (SSAD).

Functiile unui SIAD sunt: gestiunea datelor, gestiunea modelelor, gestiunea cunoştintelor şi gestiunea comunicării între utilizator şi sistem şi între date şi modele, cunoştinţe.

Un sistem suport pentru SIAD (SSAD) prezintă în arhitectura sa următoarele subsisteme: subsistemul de gestiune a datelor; subsistemul de gestiune a modelelor; subsistemul de gestiune a cunoştinţelor; subsistemul de gestiune a dialogulul (sau interfaţa cu utilizatorul). 1. Subsistemul de gestiune a datelor are următoarele componente: a) baza de date ce poate fi proprie SIAD sau se poate crea prin extragere de date din alte baze de date sau dintr-un depozit de date. Ea poate fi utilizat de unul sau mai multi decidenţi pentru diverse ap1icaţii. Datele pot proveni din mai multe surse interne organizaţiei sau chiar din afara ei, ele putând fi incluse în baza de date proprie sau pot fi accesate direct doar în momentul în care se utilizează sistemul; b) SGBD ce este de obicei încorporat în SIAD şi de cele mai multe ori el este de tip relaţional; c) dicţionarul de date (Data Dictionary) ce conţine un catalog al datelor bazei de date împreună cu definiţia lor şi care este utilizat în prima fază a procesului decizional - faza de identificare a problemelor; d) facilităţile de integrare a datelor ce se referă la existenţa limbajelor declarative de interogare. 2. Subsistemul de gestiune a modelelor, cu următoarele componente: a) modelele - sunt

Page 7: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

7

reprezentate de modelele financiare, statistice, de previziune şi stau la baza analizei obţinerii soluţiilor pentru sistemul decizional; b) sistemnul de gestiune al modelelor (similar SGBD), destinat pentru crearea de noi modele cu ajutorul limbajelor de programare, subrutine, sau de actualizare a modelelor deja existente; c) dicţionarul (catalogul) de modele; d) procesul de execuţie şi integrare a modelelor, ce este utilizat pentru a interpreta instrucţiuni create de utilizator pentru un anumit model utilizator şi pentru transmiterea acestora către sistemul de gestiune a modelelor. 3. Subsistemul de gestiune a cunoştintelor, cu înglobarea de sisterne expert ce oferă pentru SIAD soluţii pentru aspectele calitative nestructurate. Sistemele expert utilizate în acest context se vor axa pe analiza problemei şi selecţia modelelor care pot oferi soluţii pentru problema respectivă şi realizarea modelelor. 4. Subsistemul de dialog cu utilizatorul sau interfaţa ce este o componentă care asigură interactivitatea SIAD. SSAD este gestionat de un produs soft denumit sistemul de gestiune al interfeţei cu utilizatorul (SGIU), format din programe speciale cum sunt: interfaţa grafică (GUI), prezentarea datelor sub diverse forme (grafice, figuri, tabele), dialog cu utilizatorul în diverse moduri şi altele. Datorită rolului pe care îl are în SIAD utilizatorul este considerat o parte componentă a acestuia. Pentru SIAD, utilizatorul devine manager sau decident. 2. SIAD-URI BAZATE PE MODELE 2.1. Consideraţii referitoare la modele şi metode Un SIAD foloseşte un set de modele ca instrumente de analiză. Modelarea este considerată esenţială pentru sistemele informatice de asistare a deciziei şi implică partea de concepere a problemei şi partea de abstractizare în expresii cantitative sau calitative. Funcţionarea SIAD pe bază de modele se axează pe utilizarea modelelor pentru rezolvarea unor probleme cu care sunt confruntaţi managerii, dacă aceste probleme pot fi parţial modelate. Principala caracteristică a acestor sisteme este modelarea euristică utilizată ca metodă de rezolvare a acelor probleme care nu se pot rezolva prin metode analitice. Modelarea oferă un mod simplificat sau abstractizat de abordare a realităţii. Simplificarea rezidă din faptul că problemele din lumea reală sunt mult prea complicate, iar unele aspecte ale acestei realităţi nu sunt întotdeauna relevante.Gradul de abstractizare al unui model este dat de mai multe criterii, după care se va face şi clasificarea lor: a) modele iconice cu un grad mic de abstractizare, cu reflectarea fidelă a realitătii la o altă scară; b) modele analitice care au acelaşi comportament cu sistemul real, dar sunt diferite întrucât ele sunt reprezentări simbolice. Astfel de modele pot fi diagramele, graficele bidimensionale; c) modele cantitative (matematice) ce au un înalt grad de abstractizare şi care sunt cele mai des folosite în SIAD. Ca structură, modelul are trei componente principale: 1) variabilele de decizie care descriu opţiuni alternative şi ele sunt date de decident; 2) parametrii ce influenţează rezultatul, dar nu pot fi controlaţi de decident, ei devenind de fapt restricţii ale problemei, limitând soluţiile acesteia; 3) variabilele rezultat care sunt variabile dependente de adoptarea unor acţiuni şi de parametrii modelului. De obicei, modelele pot fi de optimizare cu ajutorul unui algoritm, cu ajutorul unei formule, obtinându-se modele de simulare, euristice şi chiar predictive, adică acele care pot da trendul referitor la un scenariu utilizat. Fiecare metodă de rezolvare se poate aplica unui model static sau dinamic construit în ipoteza de certitudine, incertitudine sau risc.

Page 8: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

8

2.2. Tabele de decizie şi arbori de decizie Actul de decizie care presupune un număr relativ finit şi rezonabil de alternative se poate modela prin analiza decizională. Aceasta presupune ataşarea unor valori estimate (cu probabilităţile aferente) pentru fiecare alternativă şi care se vor înscrie într-un tabel sau un graf. Modul de alegere a deciziei se face prin a vedea care dintre alternative este cea mai bună. Această metodă utilizează tabelele de decizie care caracterizează acţiunea decizională şi conţine: stări generale care sunt date de totalitatea condiţiilor în care se desfăşoară evenimentul de analizat; alternative decizionale ce determină modul de realizare a unei acţiuni independente de voinţa decidentului; consecinţe decizionale ce sunt rezultatul acţiunii conjugate a stării generale, criteriilor decizionale şi alternativelor. Condiţia este ca numărul de consecinţe să fie mai mare sau egală cu numărul de criterii. În cazul problemelor de decizie multicritenială în condiţii de risc, în care se cunosc probabilităţile de realizare a fiecărei stări, soluţia optimă este dată de probabilitate şi utilitate: Dacă problema de decizie multicriterială este în condiţii de incertitudine soluţia optimă va fi dată urmând una dintre reguli: * Criteriul WARD (al prudenţei) ce presupune că nu se admite sub nici o formă riscul. Se determină soluţia cea mai slabă pentru fiecare variantă şi se alege aceea care duce la cel mai bun rezultat (ales dintre rezultatele slabe). * Criteriut SAVAGE sau regula regretului care foloseşte conceptul de ,,regret economic" ce rezultă din faptul că nu s-a ales varianta bună. Se compară apoi fiecare ipoteză cu o singură alternativă şi se alcătuieşte o matrice a regretetor, obţinută din scăderea fiecărei stări din variabila maximă. Apoi se rezolvă problema de minim-maxim. * Criteriul Laplace în care toate stările se consideră a fi echiprobabile şi se alege acea variantă pentru care speranţa matematică a efectului economic este maximă. * Criteriul Hurwicz ce presupune calculul unui indicator decizional ca medie ponderată a rezultatelor extreme. Cu ajutorul arborilor de decizie se pot reprezenta tabelele de decizie prin evidenţierea grafică a relaţiilor dintre variabilele problemei. 2.3. Optimizare cu algoritmi -programare matematică Problemele manageriale în care decidentul poate aloca doar o cantitate limitată de resurse mai multor activităţi se pot rezolva cu setul de instrumente şi metode puse la dispoziţie de programarea matematică, din care cea mai utilizată este programarea liniară. Aceasta din urmă impune anumite reguli pe care decidentul trebuie să le respecte: existenţa unui set de variabile măsurabile pentru care se caută valoarea optimă; construirea unui set de restricţii cu aceste variabile care, în cazul decizional, sunt variabile de decizie, ce sunt de fapt relaţii de egalitate sau inegalitate faţă de anumite valori; o funcţie obiectiv care reprezintă o relaţie matematică liniară între variabilele de decizie şi rezultatul scontat a cărei valoare trebuie minimizată sau maximizată; crearea legăturilor între elemente realizată cu ajutorul relaţiilor matematice numite ecuaţii, în care apar şi coeficienţi. Modelul unei probleme de programare liniară devine astfel: determinarea unui minim sau maxim pentru funcţia obiectiv care depinde de una sau mai multe variabile care satisfac restricţiile modelului (condiţii implicite) sau care se referă la valorile ce pot fi luate de variabile (condiţii explicite); problemele de programare liniară au restricţii de tip inega1ităţi şi condiţii explicite puse unora dintre variabile. Aceste probleme se rezolvă cu algoritmul SIMPLEX este de fapt iterativ, la fiecare pas se obţine o îmbunătăţire a soluţiei, oferind soluţia admisibilă ce satisface doar condiţiile explicite sau soluţia optimă.

Page 9: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

9

Programul Excel prin componenta sa Solver rezolvă problema de programare liniară în ultimul timp majoritatea problemelor sunt de programare liniară multidimensională, ca de exemplu: metoda utilitătii globale în care problema de programare lniară este luată drept o problemă de decizie multidimensională. În acest caz, funcţia obiectiv este înlocuită cu funcţia de utilitate; metoda P.O.P. - algoritmul care descrie această metodă presupune o ordonare a soluţiilor în funcţie de criterii de preferinţă definite de decident; metoda STEM ce constă în definirea unei funcţii obiectiv de sinteză cu coeficienţi care vor fi ataşaţi fiecărui criteriu. 2.4. Simularea Simularea constă în a crea variante care se apropie de ceea ce se întâmplă în realitate, ea fiind de fapt o metodă experimentală. De obicei SIAD reflectă realitatea complexă a fenomenelor şi proceselor economice, şi de aceea este greu de crezut că un model matematic, cât ar fi el de bun, poate să reflecte aceste procese. Simularea nu este un model în strictul înţeles al cuvântului, ci prin diverse instrumente folosite imită ceea ce se îmtâmplă în realitate. Gradul de simplificare oferit de simulare este mult mai mic decât în cazul modelelor tradiţionale. Ea reprezintă o metodă descriptivă, deci nu există o procedura prin care să se obţină o solutie optimă. Un model de simulare poate descrie doar caracteristicile şi comportamentul sistemului în diferitele etape ale funcţionarii sale. Din variantele obţinute se va alege cea mai bună alternativă, adică aceea care prin experimentele aplicate efectului combinat al mai multor acţiuni sau factori se apropie cel mai mult de evoluţia sistemului studiat. Simularea înlocuieşte în bună măsură metodele de optimizare pentru rezolvarea problemelor complexe. Paşii de urmat într-un proces de simulare pot fi: definirea problemei – constă în stabilirea categoriei în care se poate încadra problema; obţinerea modelului de simulare ce constă în stabilirea variabilelor şi a relatiilor dintre ele; testarea şi validarea modelului ce presupune de fapt legătura dintre modelul de simulare şi realitatea simulată; modelul de efectuare a experimentelor care stabileşte perioada de simulare, limitele de lucru; evaluarea experimentelor ce constă în interpretarea rezultatelor obţinute prin aplicarea diverselor variante de simulare cu ajutorul metodelor oferite de statistică sau prin analogie de sensibilitate; implementarea rezultatelor simulării care are ca efect o implicare mai mare a decidenţilor decât în cazul modelării tradiţionale. Simularea prezintă avantaje deoarece modelul este obţinut de obicei din perspectiva decidentului; este unica metodă din cadrul SIAD care se poate utiliza pentru problemele nestructurate, surprinde complexitatea reală a problemei şi se poate aplica unor mari diversităţi de probleme manageriale. Pentru simulare există un soft relativ uşor de utilizat, soft care implementează metoda Monte Carlo (ca de exemplu, Excel). Acest proces de simulare prezintă şi dezavantaje precum lipsa de garantare a obţinerii soluţiei optime ci a unei solutii îmbunătăţite, modelul de simulare este aplicat doar pentru o singură problemă, neputând fi generalizat. 2.5. Modelele predictive Modelele predictive au ca scop anticiparea evoluţiei viitoare a sistemului considerat în functie de evoluţiile sale anterioare. Acest tip de modele se rezolvă de obicei prin metode statistice şi evolutţile acestora. Legatura dintre variabile este denumită corelaţie, iar stabilirea tipului de legatură dintre vaniabilele dependente de una sau mai multe variabile independente, în statistică, se numeşte analiză de regresie. Se cunoaşte că dependenţa dintre variabile poate fi liniară, exponenţială sau pătratică, iar pentru fiecare tip de dependenţă există instrumente puse la dispoziţie de statistică pentru a

Page 10: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

10

determina elementele modelului de regresie aferent. Pentru a alcătui un model de regresie se va ţine cont de următoarele etape: analiza pentru identificarea dependenţelor şi a tipurilor de legături pe care le exprimă; specificarea prin care se caută cea mai optimă formă de exprimare a variabilelor; estimarea parametrilor modelului; testarea semnficaţiei parametrilor estimaţi validarea (verificarea) modelului; utilizarea modelului în operaţii de simulare şi predicţie. Pentru regresia liniară simplă există o singură variabilă pentru care se face previziunea, dependentă de o singură altă variabilă. Modelul este Y=f(x) şi se observă că relaţia dintre cele două variabile este liniară. Pentru previzionarea variabilei V se pot folosi una din următoarele metode: metoda glisajului exponenţial, ce presupune previziunea evoluţiilor viitoare pe baza celor trecute şi a estimărilor din trecut; metoda filtrajului adaptiv, ce face o previziune pentru valorile variabilei dependente în funcţie de sumele ponderate a valorilor anterioare; metoda regresiei liniare simple prin care se obţine un model cauzal care pune în evidenţă dependenţa vaniabilei dependente de variabila independentă. Acest model este sintetizat în următoarea manieră: Y=mX+b+V unde m şi b sunt parametrii de regresie ce se vor determina prin metode statistice, iar V este factorul de cuantificare al influenţelor cauzelor nespecifice şi se mai numeşte variabilă de perturbaţie. Valoarea medie a lui V trebuie să fie 0, aceasta însemnând că influenţa factorilor perturbatori se compensează reciproc. Având în vedere valorile variabilei independente x şi a parametrilor de regresie, se vor putea estima valorile viitoare ale variabilelor dependente Z; metoda regresiei liniare multiple, care presupune existenţa dependenţei de mai multe variabile. Aceastа metodă este mai apropiată sistemelor decizionale, întrucât de cele mai multe ori variabila depinde efectul mai multor factori consideraţi laolaltă. Pentru a stabili care este semnificaţia influenţelor variabilelor independente asupra lui Y (variabilă dependentă) se fac o serie de teste statistice, cum ar fi calculul coeficientului de determinaşii R2, testarea determinaţiei globale a ecuaţiei de regresie (testul F), testarea determinaţiei fiecărei variabile (testul t) care la un loc se prezintă ca o analiză dispersională. Astfel, în concluzie, se poate afirma că rezultatele obţinute se vor accepta numai în cazul în care legatura liniară presupusă între variabilele dependente şi celelalte variabile este reală. Softul aferent unei astfel de metode este des utilizat precum SPSS. Acesta este un sistem automat de analiză a datelor de marketing (Statistical Package for Social Sciences). De asemenea, procesorul de tabele Excel conţine funcţii statistice care permit efectuarea previziunilor bazate pe tipuri de regresie şi se poate astfel realiza şi analiza statistică a datelor. Pentru a lucra cu metode de previziune este bine de ştiut că trebuie parcurse o serie de etape: * Formularea şi înţelegerea conţinutului problemei ce presupune ca managerul sau decidentul să definească în termeni cât mai apropiaţi de realitate problema, aceasta incluzând variabilele care trebuie explicitate şi a căror valori vor face obiectul previziunii. În această etapă se descrie situaţia decizională, se identifică variabila sau variabilele care vor constitui obiectul predicţiei ca şi variabilele dependente de acestea. * Selectarea indicatorilor economici care presupune a se găsi alături de variabilele independente şi acei factori suplimentari care influenţează variabila dependentă, factori care vor trebui incluşi în ecuaţia de regresie. * Analiza matricei de corelaţie simplă care se face pentru a alege variabilele care trebuie incluse în ecuaţia de regresie. Specific domeniului economic este fenomenul de multicoliniaritate adică nivelul înalt de interdependenţa între variabile diverse. La încheierea acestei etape se vor reţine doar trei sau patru ecuaţii de regresie care vor fi ulterior analizate. * Alegerea unei ecuaţii de regresie dintre cele reţinute anterior. De obicei calculatorul va determina coeficienţii de regresie şi elementele care permit testarea semnificaţiei acestora. Se

Page 11: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

11

vor reţine ecuatiile semnificative şi se va încerca ridicarea progresivă a valorii coeficientului de corelaţie R2 prin introducerea unor noi variabile independente. După fiecare iteraţie de mărire progresivă a acestui coeficient se vor verifica testele de semnificaţie. * Verificarea corectitudinii condiţiilor de regresie. * Pregătirea previziunii care presupune stabilirea unui interval de încredere pentru previziunile individuale şi ce precizie are fiecare variabilă independentă. Predicţia are un caracter limitat faţă de previziune (prognoză) care înseamnă depăşirea cadrului statistic permis de modelele de regresie. Dezavantajul principal al acestor metode statistice îl constituie volumul mare de date necesar şi costul ridicat al colectării acestora. Acest dezavantaj este remediat de apariţia noilor tehnologii de analiză şi agregare a datelor (OLAP). 2.6. Programarea euristică Această metodă conduce la generarea unei soluţii aproximate pentru probleme complexe de obicei nestructurate. Pentru astfel de probleme nu se poate descrie un algoritm care nu poate oferi soluţii optime într-un număr finit de paşi. Programarea euristică se poate utiliza şi pentru probleme complexe structurale, întrucât poate conduce la opţiunea mai rapidă a soluţiilor faţă de un algoritm de optimizare (de exemplu sunt problemele combinatoriale cu extrem de multe soluţii posibile). De remarcat este că procesul decizional se caracterizează printr-o formalizare a spaţiului stărilor şi presupune o explorare atentă şi pertinentă a acestuia. În cazul acestei programаri euristice, spaţiul de rezolvare a problemelor implică: spaţiul stări1or, spaţiul operatorilor, starea iniţială, starea sau stările finale, precum şi informaţia asociată fiecăгei stări. Soluţia finală obţinută prin programarea eurstică poate fi un eşec sau un succes. În utilizarea programării euristice se are în vedere evaluarea rezultatelor care va ţine cont de calea raţionamentului, de paşii de parcurs ulterior, precum şi de experienţa acumulată în probleme similare şi nu în ultimul rând şi de model. Evaluarea rezultatelor se realizează cu ajutorul funcţiei de evaluare care depinde de stare şi de informaţiile referitoare la acea stare. Starea va fi acceptată dacă funcţia de evaluare va depăşi un anumit prag prestabilit sau dacă este mai bună decât valorile stărilor în aşteptare. Euristicile se pot grupa în: cantitative dacă sunt în baza de modele a unui sistem informatic de asistare a deciziei; calitative dacă furnizează cunoştinte pentru un sistem expert. Programarea euristică se aplică în cazul în care datele de care se dispune pentru o problemă complexă sunt insuficiente sau are un grad mare de inexactitate, gradul de complexitate al problemei nu permite utilizarea modelelor de optimizare, nu există soluţie algoritmică iar modelul de simulare simplifică inadmisibil de mult problema şi trebuie obţinută o soluţie rapidă. Acest tip de programare are o serie de avantaje dintre care se enumeră: sunt metode uşor de aplicat şi implementat, produc mai multe solutii acceptabile, se poate face o măsurare empirică sau teoretică a calităţii soluţiei obţinute. Totuşi prezintă şi dezavantaje referitoare la garanţia obţinerii unei soluţii optime, iar în cazul în care se fac alegeri secvenţiale într-o decizie, există riscul de a nu anticipa corect consecinţele alegerilor făcute. Toate aceste riscuri sunt fapte asumate de decident în momentul în care a ales ca rezolvare programarea euristică. 2.7. Sistemul de gestiune a modelelor Sistemul de gestiune a modelelor (SGM) are de fapt facilităţi asemănătoare cu cele ale unui sistem de gestiune a bazelor de date (SGBD).

Page 12: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

12

Facilităţile oferite de un SGM se pot grupa în câteva categorii: stocarea modelelor; utilizarea modelelor deja existente; facilităţi de acces şi de regăsire a modelelor; facilităţi de mentabilitate a modelelor existente cu posibilităţi de păstrare a soluţiilor; construirea unor modele noi pe baza celor existente; flexibilitate, care constă în trecerea rapidă de la o abordare la alta; consistenţă care dă posibilitatea ca acelaşi model şi aceleaşi date să fie accesate de mai mulţi utilizatori. Aceste facilităţi definesc şi o serie de cerinţe pentru gestionarul de modele cum ar fi: asigurarea comunicării şi schimbul de date dintre modele în momentul în care sunt utilizate într-un anume context, asigurarea analizei şi interpretării rezultatelor obţinute în urma utilizării unui model standard. Din punct de vedere al limbajelor de modelare, care asistă utilizatorul în gestionarea modelelor, acestea sunt destinate pentru programare matematică Lingo, GAMS, AMPL. În procesul de modelare este utilizat şi procesorul de tabele Excel. Excel are încorporate pachete de programe pentru structurarea şi rezolvarea unor tipuri de modele pentru domeniul economic, matematic. Procesorul de tabele are încorporate o serie de categorii de funcţii (matematice, statistice, financiare şi previziune) care pot rezolva probleme de optimizare (programare liniară) şi simulare sau de căutare euristică a unor soluţii. El poate oferi la un nivel scăzut şi gestionarea unei baze de date sau importul de date. 3. SIAD-URI BAZATE PE ANALIZA ŞI SINTEZA DATELOR 3.1. Problematica generală Modul în care datele sunt retransformate în informaţii şi apoi în cunoştinţe este de fapt un proces de valorificare a datelor care se realizează prim sintetizarea şi analiza lor şi în final prin interpretare. Procesul de sintetizare a datelor presupune centralizarea lor, având în vedere diverse criterii şi este utilizat în crearea situaţiilor de sinteză necesare informării managerilor ca suport pentru luarea deciziilor Soluţiile oferite de informatică pentru procesul de sintetizare a datelor sunt programe specifice şi dedicate; interogări care dau posibilitatea grupării datelor după criterii stabilite şi oferă funcţii pentru domeniile astfel create; funcţiile de total şi subtotal oferite de generatoarele de rapoarte care permit indicarea ierarhiilor criteriilor de grupare. În ultimul timp, problema centralizării datelor a rămas aceeaşi, însă volumul de date de explorat este imens, ceea ce duce la faptul că metodele clasice să devină ineficiente. De aceea câştigă tot mai mult teren tehnologii moderne ca Data Warehousing (depozitarea datelor) şi OLAP (On-Line Analytical Processing) pe măsură ce suporturile soft devin suport de date pentru sistemele tranzacţionale. Tehnologiile de centralizare transformă datele în informaţii de sinteză şi analiză a lor. Analiza datelor presupune a găsi relaţii între datele sintetizate cum ar fi: asocieri, corelaţii structurale, cauzale sau funcţionale. O formă simplă de analiză a datelor este compararea datelor cu date similare, comparare care se face păstrând toate criteriile identice, doar unul singur având valori diferite. Compararea se face între seturi de date comparabile, iar tehnologiile de comparaţie sunt dotate cu cu tehnici de observare pentru semnalizarea tiparelor, corelaţiilor, asocierilor prin similitudini sau sesizează abateri, excepţii. Informatica a venit în întâmpinarea acestor cerinţe cu tehnicile de prezentare grafică care transformă informaţia cantitativă în informaţie calitativă. Au apărut şi tehnici de observare analitică a datelor care au la bază teorii matematice prin care datele reale sunt comparate cu date teoretice produse de un model ipotetic. Dezvoltarea tehnicilor de observare a dus la apariţia tehnicilor de observare automată bazate pe data-driven. Rezultatul unor astfel de tehnici se regăsesc într-un model cu caracter

Page 13: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

13

general. Tehnicile de observare analitică a datelor se regăsesc într-o tehnologie modernă denumită Data Mining (în traducere liberă ,,Mineritul datelor"). Rezultatul procesului de observare analitică este obţinerea unor tipare, corelaţii şi uneori modele din care se pot deduce tendinţe sau se poate previziona cu o anumită probabilitate cum vor arăta datele pe o perioadă ulterioară. Modelul permite interpretarea datelor, ce reprezintă un proces cognitiv cu o apreciere generală a situaţiei, şi identifică probleme, oportunităţi sau potenţiale cauze de eşec. De remarcat este faptul că interpretarea datelor duce la aparţia de cunoştinţe noi care se vor cumula la cele deja existente. Instrumentele soft clasice pentru asistarea deciziei au avut ca principal scop asigurarea tehnicilor de analiză, optimizare şi simulare, precum şi reprezentarea grafică a rezultatelor. Dintre aceste instrumente se amintesc procesoarele de tabele Lotus şi Excel orientate pe volume mici de date, cele referitoare la sistemele de gestiune a bazelor de date Access, Visual Foxpro capabile să lucreze cu volume mari de date cu structură uniformă. Principalul dezavantaj al acestor instrumente clasice este că operează numai asupra acelor date care au o structură prestabilită şi provin dintr-o sursă unică. Noile sisteme de asistare a deciziei folosesc tehnici speciale de comasare a datelor stocate în structuri neuniforme, pentru a utiliza informaţii implicite care nu sunt specificate în datele existente. Suporturile software de asistare a deciziei oferă utilizatorilor o serie de facilităţi cum ar fi: interogarea în limbaj natural, accesul la modele conceptuale, sisteme de gestiune OLAP şi servicii de integrare cu alte suporturi soft. 3.2. Depozite de dale (Data Warehouse) Necesitatea depozitelor de date este dată de volumul imens de date acumulat în timp de companii. Integrarea acestor date istorice ale companiei într-o structură care să stea la baza luării deciziilor a devenit principala preocupare a noilor tehnologii. Sistemele de asistare a deciziei care au la bază sinteza şi analiza datelor realizează comasarea, sistematizarea, corelarea şi gruparea datelor pentru a obţine informaţii care să reliefeze factorii care influenţează pozitiv sau negativ performanţele companiei. Ca urmare a obţinerii unor astfel de informaţii se poate adopta o strategie de ameliorare a factorilor cu influenţă negativă. Obţinerea rezultatelor, sub formă de rapoarte care conţin informaţii utile factorilor de decizie sunt într-o formă accesibilă şi sunt rezultatul tehnicilor speciale de explorare a masivelor de date. Aceste tehnici duc la evidenţierea unor corelaţii între date, pot face estimări şi prognoze precum şi să atragă atenţia asupra unor disfuncţii. În sinteză tehnicile de exploatare a masivelor de date pot sugera soluţii şi pot contribui la luarea deciziilor într-o anume situaţie. Datele, mai precis structurile de date care fac obiectul sistemelor informatice de asistare a deciziilor sunt denumite depozite de date (Data Warehouse). Caracteristicile acestor structuri este faptul că ele pot înmagazina volume mari de date preluate din arhive şi/sau din bazele de date ale aplicaţiilor informatice specifice activităţii curente a întreprinderii (sunt volume de ordin 1012 terabytes). Exploatarea acestor volume uriaşe de date este asigurată de existenţa unor motoare speciale care dau posibilitatea ca masivele sa poată fi interogate, precum şi existenţa unor servicii speciale de analiză on-line a datelor (OLAP). Suporturile software susţin performanţele prin transformarea datelor, corelarea şi completarea lor, precum şi prin crearea dicţionarului de date, toate acestea asigurând accesul la structurile primare. Datele sunt extrase din baze de date eterogene create de sistemele informatice deja existente in companie pe diversele platforme hard şi soft. Se poate remarca faptul că datele sunt introduse nu la întâmplare, ci sub controlul unor aplicaţii şi al SGBD-ului. Acestea asigură prin serviciile de integritate, stocarea şi lucrul în

Page 14: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

14

condiţii de siguranţă maximă. Datele care formează suportul pentru tranzacţiile primare sunt apoi prelucrate pentru a se obţine informaţiile de sinteză necesare planificării şi luării deciziilor şi sunt tratate de instrumentele SGBD. Deoarece exploatarea unui volum enorm de date, pentru a obţine diverse rapoarte, este asigurată de integritatea şi coerenţa bazei de date, reuniunea tuturor acestor date duce la exploatarea unui mare număr de tabele, La crearea unor multiple legături virtuale şi tabele temporare. Acest volum mare de muncă conduce la principalul inconvenient al depozitelor de date şi anume timpul mare necesar exploatării lor. Un alt inconvenient î1 constituie şi aglomerarea motorului bazei de date cu task-uri de centralizare care încetineşte astfel tranzacţiile curente. Astfel a apărut necesitatea stocării datelor care sunt dedicate planificаrii si deciziilor strategice intr-un sistem diferit de sistemul operaţional în aşa fel încânt funcţionarea celor două sisteme să se facă fаră inconveniente. În depozitul de date se pot stoca atât arhive de date privind activitatea anterioară, cât şi date referitoare la tranzacţii ulterioare fără ca utilizatorul să poată interveni. Datele se pot înmagazina pe domenii sau activiţăti specifice departartamentelor unei organizaţii în aşa numitele magazii de date (Data Marts), separarea lor în acest fel ducând la creşterea performanţelor în expboatare. Aceste depozite de date se construiesc de obicei cu tehnologii relaţionale. Depozitele de date sunt o concentrare de date care organizează, consolidează şi centralizează datele din surse eterogene şi care vor constitui baza procesărilor analitice atât de necesare proceselor de decizie. Depozitul de date se construieşte progresiv adică el permite completări şi dezvoltări ulterioare. Pentru a se asigura o calitate sporită a datelor acestea sunt supuse unui proces de curăţire şi transformare, menţionând şi maniera de obţinere a unor date colectate pe baza celor existente, acest proces ducând la micşorarea timpului cerut pentru obţinerea unor rapoarte finale. În depozitele de date se face transformarea codurilor în date explicite, precum şi integrarea datelor din nomenclatoare în datele referitoare la tranzacţii. Acesta este numit şi proces de denormalizare şi este caracterizat de faptul că nu modifică integritatea datelor şi grabeşte procesul de regăsire. Într-un depozit de date redundanţa datelor este permisă. Diferenţele dintre depozitul de date şi baza de date sunt următoarele: a. Datele conţinute de un sistem de prelucrare a tranzacţiilor, OLTP (On-Line Transaction Processing) sunt de tip operaţional, iar datele conţinute de un depozit de date sunt specifice asistării deciziilor, sunt date centralizate sau derivate din date operaţionale, nu se modifică în timp şi sunt destinate utilizatorilor finali.

b. În cazul sistemelor tranzacţionale, performanţele se referă la integritate, confidenţialitate, siguranţă şi timp de răspuns întrucât un număr mare de utilizatori introduc date în sistem, în timp ce în cazul SIAD (deci a depozitelor de date) numărul de utilizatori finali (manageri,) este foarte mic. Astfel şi securitatea şi siguranţa în expboatare nu sunt supuse unor riscuri majore, procedurile de salvare şi restaurare fiind mai puţin utilizate decât în cazul sistemelor tranzacţionale. c. Datele procesate în sistemele tranzacţionale sunt în seturi relativ mici, introduse recent şi compact, astfel încât prelucrarea se face destul de rapid. În procesele decizionale, datele necesare acestora sunt în volum mare, stocate dispersat ceea ce duce la o prelucrare mai lentă. d. Bazele de date construite pentru sisteme tranzacţionale sunt proiectate şi realizate pe baza unor cerinţe cunoscute şi certe, modificări care intervin datorită adaptării sistemului la schimbările intervenite reiau anumite faze ale ciclului de viaţă. Dar odată implementate ele funcţionează perioade lungi de timp fără modificări. În SIAD cerinţele sunt cunoscute doar parţial în momentul proiectării şi realizării lor ceea ce obligă depozitul de date să se adapteze din mers cerinţelor. De aceea se observă că datele gestionate pentru sisteme tranzacţionale sunt privite ca un întreg, pe când cele din depozitele de date sunt organizate pe secţiuni

Page 15: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

15

deoarece ele sunt organizate în funcţie de subiectul de analiză. e. Sistemele tranzacţionale reflectă de obicei fluxul datelor din activităţile curente, pe când depozitele de date sunt orientate pe subiecte cum ar fi de exemplu: resurse, produse, clienţi, furnizori. 3.3. Ciclul de viaţă al depozitelor de date Depozitul de date (Data Warehouse) este o colecţie de date orientate pe subiecte, integrate, corelate în timp şi non-volatile care sprijină decizia. Datele care fac obiectul unui depozit sunt integrate în acesta utilizând convenţii pentru măsurători, atribute. Structura de care dispune depozitul de date prevede identiticarea punctuală a datelor stocate şi, mai ales, un acces rapid la ele. Proiectarea structurii depozitului de date se face prin modelare multidimensională, structura implementându-se ca o bază de date care asigură stocarea unui volum mare de date şi un acces rapid la ele, aşa numitele baze de date client/server. Popularea depozitetor de date se face prin preluare din sisteme tranzacţionale, date care vor fi supuse unor procese complexe de transformare care să corespundă structurii depozitului care a fost proiectat. După această etapă depozitul va putea intra în exploatare pentru a obţine analize şi rapoarte. Etapele enumerate anterior (proiectare, populare, exploatare) sunt asistate de un soft specializat de la browsere şi generatoare de rapoarte până la instrumente specifice Data Mining. În exploatarea curentă a depozitului, frecvent vor apare noi cerinţe informaţionale care vor duce neapărat la extinderea structurii, la popularea cu extensii cuprinzând date istorice, precum şi la integrarea noilor date încorporate în aplicaţii de analiză. Pe parcursul existenţei sale, un depozit de date este incremental şi ciclic. 3.4. Modelarea conceptuală a depozitului de date În etapa de concepţie a unui depozit de date se folosesc modele dimensionale care grupează datele din tabelele relaţionale în scheme de tip stea sau fulg de zăpadă. În aceste scheme pot fi regăsite date cantitative cum ar fi cantităţi sau valori sau grupate după diverse alte criterii (pe client, pe produs, pe tipuri de servicii etc.). Datele cantitative din bazele de date dimensionale sunt de tip medii, număг de tranzacţii, centralizăгi după anumite caracteristici, totaluri şi măsuri ale activităţii. Pe de altă parte, criteriile de agregare vor fi denumite dimensiuni. Măsurile identificate prin dimensiuni vor fi stocate într-un tabel relaţional care este denumit tabel de fapte, iar codurile utilizate sau asociate criteriilor de agregare sunt date de tabelele de tip nomeclator asociate şi tabelele de fapte şi în acest fel schema relaţională va fi de tip stea. Dacă se reunesc mai multe scheme de tip stea care utilizează aceleaşi nomenclatoare formează un model tip constelaţie. Dacă nomenclatoarele se pot divide în subnomenclatoare atunci există o dependenţă între acestea. De remarcat că pentru acelaşi cod pot exista mai multe nomenclatoare alternative. Dacă se integrează aceste subdimensiuni şi dimensiuni alternative, se creează o schemă sub formă de fulg de zăpadă. Schemele de tip stea, fulg de nea sau constelaţie sunt modele conceptuale multidimensionale ale depozitelor de date, având ca rol organizarea datelor pe subiecte necesare procesului de decizie. Schema este deschisă (ea se poate modifica pe tot parcursul vieţii depozitului de date). 3.5. Modul de utilizare a depozitului de date

Page 16: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

16

Depozitele de date conţin structuri unice, integrate şi cumulative necesare procesului de decizie. Administratorul depozitului de date are ca principală sarcină stabilirea accesului partajat al categoriilor de manageri prin asigurarea de parole şi drepturi de acces. Datele din depozit sunt accesate selectiv de manageri în funcţie de necesităţile acestora. În acest fel se creează colecţii specializate pe diviverse domenii care se numesc magazii de date (Data Marts). Magaziile de date se utilizează şi ca structuri intermediare pentru colectarea datelor din surse primare şi al căror conţinut este descărcat periodic în depozitul de date. Depozitele de date pot lua naştere şi printr-o stocare exhaustivă a datelor din sistemele tranzacţionale în vederea aplicării tehnologiei Data Mining. Utilizarea tehnologiei Data Mining presupune că procesarea datelor se face fără intervenţia utilizatorilor background, iar rezultatele sunt păstrate pentru a fi consultate ulterior la cerere. 3.6. Mediul de depozitare al datelor Mediul în care se construieşte şi se exploatează un depozit de date conţine următoarele elemente: surse de date tranzacţionale, instrumente de proiectare-dezvoltare, instrument de extracţie şi transformare a datelor, sistemul de gestiune al bazei de date, instrumente de acces şi analiză a datelor şi instrumente de administrare. Toate componentele enumerate sunt integrate pe o platforma Microsoft în mediul de lucru Data Warehousing Framework ca şi în cazul SQL Server 7.0. Acest mediu de lucru oferă asistarea proiectării, implementării şi administrării depozitelor de date pe durata vieţii (existenţei) acestuia. Se poate concluziona că Data Warehousing Framework oferă o arhitectură care se poate integra relativ simplu cu produse ce provin de pe alte platforme, asigură servicii de import-export cu validare şi transformarea datelor, asigură metadate integrate pentru proiectarea depozitului şi gestionează suportul, task-uri şi evenimente. Pentru ca un depozit de date să poată fi procesat este necesară existenţa unui set specializat de instrumente pentru: descrierea fizică şi logică a surselor de date a depozitelor sau a magaziei de date în care acestea urmează să fie încorporate, validarea, curăţirea şi transformarea datelor care urmează a fi stocate în depozitul de date; utilizatorii finali, instrumente care permit acestora accesul la datele stocate în depozitul respectiv. Astfel de instrumente sunt specializate pentru medii de dezvoltare a aplicaţiilor, produse program specializate pe analiza datelor precum şi pentru aplicaţii personale (individuale). 3.7. Abordarea multidimensională a datelor stocate în depozite 3.7.1. Definirea şi caracterizarea OLAP (On-Line Analytical Processing) Dacă se analizează tehnologia relaţională se observă că cea mai mare parte a problemelor tratate relational sunt în realitate multidimensionale. În modelul relaţional problemele sunt tratate în tabele care au două dimensiuni: linie şi coloană. Problemele reale, care în cea mai mare parte a lor sunt multidimensionale nu impun limite stocării spaţiale a datelor. Astfel, un SGBDR obişnuit nu poate face faţă cerinţelor de agregări de date, sintetizări, consolidări şi proiecţii multidimensionale. De aceea, a apărut necesitatea extinderii functionalităţii unui SGBDR prin adăugarea unor componente speciale care să permită modelare şi analiză multidimensională (OLAP) şi Data Mining. Noua tehnologie OLAP permite utilizatorilor navigarea rapidă de la o dimensiune la alta şi facilităţi sporite de obţinere a celor mai detaliate informaţii. Tehnologia OLAP se bazează pe 11 principii formulate de Ted Codd (1992). Acestea sunt: 1) abordarea conceptuală multdimensională a datelor; 2) asigurarea unei transparenţe sporite prin existenţa unei arhitecturi deschise a sistemului;

Page 17: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

17

3) accesibilitatea asigurată utilizatorului prin asistarea implicаrii acestuia în modalităţile tehnice de furnizare a datelor; 4) complexitatea dimensională a analizei oferă performanţe stabile; 5) utilizarea arhitecturii client-server, unde serverul are ca scop omogenizarea datelor; 6) posibilitatea de a efectua aceleaşi operaţii asupra tuturor dimensiunilor care poartă numele de prelucrare generică a dimensiunilor; 7) gestionarea dinamică a matricilor încrucişate prin facilitatea de a elimina combinaţiile dimensionale nule, pentru a nu încărca memoria calculatorului; 8) posibilităţile de acces simultan a mai multor utilizatori (multi-user) la aceeaşi fază (etapă) de analiză; 9) operaţii nerestrictive, ceea ce dă posibilitatea executării fără restricţii a calculelor pentru toate combinările de dimensiuni şi niveluri ierarhice; 10) posibilitatea manipulării intuitive a datelor; 11) număr nelimitat de niveluri de agregare şi de dimensiuni. OLAP este tehnologia de agregare a datelor stocate în depozite într-o manieră de abordare multidimensională cu facilităţi referitoare la accesul la informaţii a managerilor în mod interactiv şi flexibil. Legatura dintre OLAP şi depozitele de date este aceea că OLAP le completează prin transformarea volumului imens de date stocate şi gestionat în depozite în informaţii utile procesului de decizie. Cele 11 reguli ale lui Codd au fost apoi regrupate într-un test cu 5 reguli denumit FASMI (Fast Analysis Shared Multidimensional Information). OLAP presupune existenţa unor tehnici care permit de la o navigare şi selecţie simplă a datelor pâna la analiza detaliată şi complexă. Aplicaţiile care se rezolvă pe baza acestei tehnologii au la bază analiza rapidă a informaţiei multidimensională dispersată în locaţii multiple dar accesibile unui mare număr de utilizatori. Pentru utilizarea acestor facilităţi, OLAP dispune de eficacitatea bazelor de date multidimensionale şi de posibilitatea de a construi alternative pentru diverse probleme de decizie. OLAP presupune că analiza datelor (care pot fi de tip numeric sau statistic) poate fi predefinită de cel care creează aplicaţia sau chiar de utilizatorul final. OLAP se caracterizează prin: perspectiva multidimensională a datelor, capacitatea de calcul intensiv şi orientare în timp (time intelligence). Aspectul multidimensional al datelor este dat de posibilitatea de a integra multiplele aspecte care caracterizează activitatea unei întreprinderi şi care sunt considerate din perspective multiple ca: timp, bani, produse. Fiecare dimensiune este definită în genere prin mai multe niveluri ca de exemplu: timpul este divizat în an, trimestre, luni, sezoane; produsul în: categorii, clasă. Conceptul de dimensiune este folosit cu înţeles de aspect, dimensiunile fiind independente şi cu unităţi de măsură specifice dimensiunii respective. Unitătile de măsură pot constitui criterii de agregare a datelor, iar nivelele unei dimensiuni formeaza ierarhia care la rândul ei poate constitui criteriu de agregare a datelor. Privite din punct de vedere multidimensional, datele sunt reprezentate în hipercuburi de date, prin extinderea cubului tridimensional la cel n-dimensional. Pe acest tip de cub se pot efectua calcule prin aplicarea unor algoritmi complecşi asupra datelor structurate în acesta. Acestea implică posibilitatea de adresare multidimensională directă a cuburilor unitare şi optimizarea timpului de răspuns. Caracteristica de orientare în timp (time intelligence) presupune flexibilitatea exploatării acestei dimensiuni care este necesară pentru comparaţii şi aprecieri de valoare în analizele economice. Această dimensiune este luată de obicei din calendarele tranzacţiilor economice aşa cum se află în bazele de date ale sistemului informatic al companiei. Se pot face astfel grupări pe dimensiuni ca: trimestre, luni, ani, sezoane. Se pot utiliza şi dimensiuni speciale cum sunt: perioada curentă, perioada precedentă, aceeaşi perioada din anul..., care trebuie neapаrat luate în considerare la proiectarea hipercubului. Bazele de date multidimensionale

Page 18: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

18

folosite de OLAP sunt suprapuse depozitelor de date şi stochează straturi de date agregate pe diferite criterii ierarhice. De asemenea, aceste baze de date multidimensionale conţin şi date statistice pentru fiecare nivel de agregare. 3.7.2. Modelarea dimensională - cuburi OLAP Modelarea dimensională presupune conceptualizarea şi reprezentarea aspectelor măsurabile ale activitatii studiate în interdependenţă cu contextul în care acesta se desfăşoară, aspect identificat prin parametrii activităţii. Legatura dintre valorile înregistrate ale activităţii (valori vânzări, cheltuieli comune, costul produselor) şi contextul de desăşurare al acesteia formează baza numeroaselor rapoarte de sinteză care sunt produse de sistemele tranzacţionale. Prin modelare dimensională se oferă un model conceptual comun acestor rapoarte şi agregarea lor într-o structură uniformă şi flexibilă. Totodată se păstrează şi legatura cu sursele iniţiale de date, deci posibilitatea de descompunere a datelor centralizate pe niveluri din ce în ce mai mici până se ajunge la setul de tranzacţii iniţiale (drill-down). Cubul OLAP se consideră a fi element structural pentru datele din procesul on-line. Acesta este o structură multidimensională, un hipercub prin care se modelează complexul de activităţi pe o perioadă îndelungată de timp. Acest tip de modelare este caracterizat de câteva concepte de bază: * Cuantificarea activităţii (aspectul cantitativ) care se face prin utilizarea unităţilor de măsură clasice ca de exemplu: m, m3, kg, unităţi monetare. Măsuri cantitative sunt: volum vânzări, volum salarii, cost materiale, cost produs etc. * Dimensiunile activităţii sunt de fapt parametrii activităţii măsurate ca de exemplu: zi, lună, trimestru, client sau grupă de clienţi. Dimensiunile sunt de obicei de natură diferită şi răspund la întrebări de tipul: Unde? Când? Cu ce? etc. * Faptele sunt colecţii ale cuantificării activităţii precum şi dimensiunile care identifică modul în care acestea s-au desfăşurat. Sursa de existenţă a faptelor este constituită din înregistrarile stocate în tabelele de tranzacţie ale aplicaţiilor operaţionale care susţin activitatea respectivă. Se pot folosi şi dimensiuni scenarii care pot stoca în tabelele de fapte şi măsuri imaginare alături de cele reale, pentru ca utilizatorul să poată stoca valori estimate pentru o măsură. În bazele de date tranzacţionale, dimensiunile sunt de fapt câmpuri care conţin caracteristicile unei tranzacţii adică datele de identificare ale tranzacţiilor care sunt de obicei chei externe care fac legătura cu nomenclatoarele care le explicitează. Ca atare, se poate afirma că dimensiunile se materializează în setul de valori posibile care formează domeniul caracteristicii respective, valori care poartă numele de membrii dimensiunii. O alta caracteristică a dimensiunii este a ceea că poate avea multipli adică sunt grupe de valori ale dimensiunii cu o caracteristică comună. Grupele pot fi identificate prin atribute care se află în nomenclatoare şi pot lua aceeaşi valoare pentru mai multe valori ale cheii primare. Multiplii unei dimensiuni nu trebuie să fie neapărat de aceeaşi natură cu dimensiunea primară, aceasta putând avea mai multe tipuri de multipli în funcţie de caracteristicile luate în considerare. Se poate afirma că dimensiunile împreună cu multiplii lor formează structuri arborescente care sunt recunoscute de OLAP ca fiind ierarhii. Ierarhiile pot fi regulate, adică toate ramurile au acelaşi număr de ramificaţii sau neregulate dacă pe anumite ramuri 1ipseşte un nivel de semnificaţie. La rădăcina arborelui se află o caracteristică cu aceeaşi valoare pentru toţi membrii dimensiunii de bază. Acest tip de caracteristică este una implicită ca, de exemplu, unitatea care are ca activitate cea analizată sau ,,all". Frunzele arborelui formează membrii dimensiunii iniţiale, iar dimensiunile intermediare pot fi pe mai multe nivele. Dacă arborele este neregulat, pentru a uniformiza ierarhia se poate introduce un membru de tip ,,alte".

Page 19: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

19

În acest fel se constată că centralizările pe nivelul respectiv nu vor fi de 100% din valoarea centralizată pe nivelul cel mai de jos. Atributele care definesc ierarhia sunt atribute derivate din atributul care defineşte dimensiunea acţiunilor măsurate, prin referire la nomenclatoare sau prin clasificări ale valorilor pe care le poate lua atributul respectiv. De exemplu, furnizorii se pot clasifica în furnizori stabili dacă compania face tranzacţii cu ei de mai mult de 4 ani, furnizori noi dacă au vechime cuprinsă între 1 şi 4 ani şi furnizori volatili sau ocazionali dacă în câmpul respectiv din Furnizori nu este completat nimic. Din acest exemplu se observă că asemenea clasificări conduc la obţinerea unor atribute derivate prin calcul din caracteristicile aflate în nomenclatoare. În acest fel se vor obţine seturi de membri calculaţi ai dimensiunii. Dimensiunile ierarhizabile se constituie în ierarhii alternative. Nivelele ierarhiilor sunt văzute ca nivel de agregare pentru valorile stocate în tabele de fapte. Membrii dimensiunilor identifică măsura activităţii stocată în tabelul de fapte. Dacă unui fapt îi sunt asociate mai multe dimensiuni, identificarea unică a acestuia va necesita valori precise pentru fiecare dimensiune. Ca urmare, din tabelele de fapte sunt selectate mai multe înregistrări, adică toate valorile posibile asociate dimensiunilor nespecificate. Pentru dezvoltarea unui depozit de date, modelarea datelor are un rol important deoarece permite vizualizarea structurii înainte ca ea să fie construită. Modelul multidimensional reprezentat prin el va fi prezentat destăşurat în secţiuni sau în proiecţii tridimensionale. Secţiunea unui hipercub este definită ca o secţiune din cub dată prin coordonatele sale. Proiecţia este definită ca o secţiune care centralizează datele de pe toate dimensiunile suprimate. Vizualizarea on-line se face de fapt tot în secţiuni sau proiecţii tridimensionale. Datele din celule sunt prezentate numai în secţiuni sau proiecţii transversale bidimensionale. Hipercubul ar putea fi imaginat ca un set de tabele pivot grupate pe dimensiunea cerută. Pentru procesul de modelare, hipercubul se poate prezenta în formă tabelară în care măsurile sunt evidenţiate pe coloane, iar liniile reprezintă combinaţiile de dimensiuni. De asemenea, în plan fizic, hipercubul poate fi stocat într-un tabel cu coloane multiple în care se stochează măsurile şi cu identificatori pe rânduri. Identificatorii de rânduri sunt de fapt chei formate din toate combinaţiile posibile de valori ale dimensiunilor. Utilizarea indecşilor pentru acces rapid nu are prea mare eficienţă întrucât cheia este compusă din mai multe caracteristici, iar câmpurile de valoare sunt puţine şi numerice, astfel că tabelul de indecşi este aproape de aceeaşi dimensiune cu tabelul iniţial. De aceea, se utilizează tabelul bitmap pentru un acces direct rapid. Datele modelate ca hipercuburi formează baze de date multidimensionale. 3.7.3. Baze de date multidimensionale

Baza de date multidimensională este formată din două structuri: structura datelor în care se stochează măsurile activităţilor preluate din tabela de fapte a depozitului de date. Datele vor fi prezentate utilizatorului în celulele tabelelor pivot; structura metadatelor care este formată din totalitatea dimensiunilor şi membrilor acestora precum şi din structurile ierarhice ale dimensiunilor. Utilizatorul poate vizualiza această structură ca nume de coloane şi linii care reprezintă informaţiile de pe axele cuburilor.

Numerotarea nivelurilor începe de la rаdăcină (nivel 0) către frunze (unde va apare nivelul maxim). Ierarhiile posedă propriile lor seturi de niveluri, chiar dacă unele ramuri sunt comune. De exemplu: ierarhia Calendar este formată din nivelele (0-5): Timp, An, Semestru, Trimestru, Lună, Dată calendaristică, ierarhia Anotimp este formată din nivelele (0-4): Timp, An, Sezon, Lună, Dată calendaristică, iar ierarhia Anotimp este formată din nivelele (0-3): Timp, Săptămână, Zi, Data calendaristică. Pe fiecare nivel se stochează membrii dimensiunilor respective. Rădăcina care se observă că este comună (timp) este nivelul de agregare maxim având ca unic membru implicit ,,all". Orice nod în arbore este un membru al unei subdimensiuni. Nodurile subordonate unui nod formează un set, iar orice membru al

Page 20: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

20

unui set are un numаr de ordine începând cu 0. De asemenea, orice membru poate avea proprietăţi ca de exemplu unele zile sunt sărbători legale, unii ani sunt bisecţi. Exemplul prezentat presupune o structură strict arborescentă întrucât fiecare membru al unei dimensiuni are submembri distincţi, chiar dacă aceştia au aceleaşi valori. De exemplu, fiecare an are setul lui de luni, fiecare săptămână are setul ei de zile. Ca mod de identificare, membrii vor fi calificaţi cu numele membrului de pe nivelul precedent cаruia acesta i se subordonează: 2000-feb, 2001-feb. tipul acesta de dimensiuni care au membri ce se repetă se pot crea ulterior prin combinarea a două nivele din ierarhie sau din ierarhii diferite pentru a crea un nivel nou, virtual. Pentru a se putea naviga pe o structură arborescentă, sistemele de gestiune pun la dispoziţie operatori ierarhici. De exemplu, pentru exploatarea datelor, sistemele de gestiune oferă operatori pe hipercuburi. Fizic, datele sunt stocate într-un fişier cu acces direct pe baza adresei fizice absolute sau relative a înregistrării obtinute prin exploatarea tabelelor bitmap obtinute în urma creării structurii de date. Aceste tabele sunt puntea de legatură dintre structura de date şi structura de metadate. Iată cum se face această legatură: se ştie că pentru fiecare membru al fiecărei dimensiuni există o coloană (1 bit) în tabele bitmap pentru fiecare înregistrare există un rând în acelaşi tabel în care se stochează 1 în dreptul biţilor asociaţi membrilor dimensiunii existente în inregistrare. Datorită acestui procedeu, câmpul respectiv nu trebuie stocat în înregistrare, iar structura datelor este redusă la un minim necesar. Din tabelul de măsuri se vor putea selecta acele înregistrări care au un bit 1 in poziţia corespunzătoare biţilor 1 din mască. Un inconvenient al tabelelor bitmap este acela că sunt greu de obţinut, iar apariţia unor noi membri sunt greu de inserat în pozitia corespunzătoare. Procesul de refacere a unui tabel bitmap este mare consumator de timp având în vedere că tabelul de fapte din depozit (care se va transforma în baza multidimensională) poate avea un număr imens de înregistrări. Masca de interogare se obţine prin exploatarea structurii ierarhice a metadatelor de unde se pot extrage seturi de membri pentru dimensiunile desemnate prin specificatorii de axe. Adresarea tabelului de măsuri se face în mod direct pe baza unui set de adrese de înregistrări care se suprapun cu tiparul măştii. Din tabel se preiau în această manieră valorile care se centralizează pentru celula cubului cu dimensiunile sale. Se poate afirma că structura metadatelor este de tip ierarhic, fiecare dimensiune fiind stocată într-o structură arborescentă cu o singură rădăcină (all) şi cu o multitudine de ramuri care pot conţine frunze comune (ierarhii alternative). Orice nivel al unei ierarhii poartă un nume şi conţine un set de membri. De altfel şi ierarhiile alternative poartă un nume pentru a putea fi distinse. Structura în care sunt stocate datele este o structură cu acces direct prin tabele bitmap exploatate prin măşti. 3.74. Operatii OLAP asupra hipercubului Un hipercub este proiectat astfel încât el să aibă în vedere nivelul de detaliu necesar în procesul de analiză. Nivelul de detaliu (granularitatea) reprezintă numărul de membri ai unei dimensiuni. Datele pot fi vizualizate printr-o selecţie în hipercub pe baza unui criteriu ierarhic care ar putea fi de exemplu structura organizaţională pe care o conduce un anumit manager. Dacă de la pornire, granulanitatea este prea mare, datele vor fi mult prea centralizate şi nu se va putea face decât o analiză grosieră. Ajustarea nivelului de granularitate este realizată de OLAP prin exploatarea ierarhiilor dimensiunilor prin comasări şi descompuneri ale măsurilor prin proceduri care poartă numele de roll-up şi drill-down. Prin intermediul acestor proceduri se face o deplasare a proiecţiei cubului în sus sau jos pe nivelele ierarhice ale fiecărei dimensiuni (zoom in; zoom out), executând de fiecare dată centralizări ale măsurilor stocate la cea mai mică granularitate după criterii ierarhice stabilite în prealabil. Este stabilit un nivel de granularitate iniţial sub care nu se poate coborî. Din acest motiv

Page 21: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

21

este important ca dimensiunile de bază să fie cât mai rafinate sau să se creeze Data Marts, unde hipercuburile sunt proiectate la nivelul de detaliu stabilit de managementul operaţional. Pentru managementul superior se va construi un depozit cu hipercuburi centralizatoare cu granulanitate mare. Prin drill-down se obţin detalii, iar prin roll-up se obţin date sintetice. Un alt grup de operaţii oferit de OLAP este secţionarea (slicing) şi defalcarea (dicing). Pnin secţionare, se creează posibilitatea selectării prin vizualizare doar pentru un membru al unei dimensiuni, adică un plan din cubul tridimensional. Secţiunea astfel obţinută va apare ca un tabel pilot cu valorile dimensiunilor pe laturi şi cu specificarea valorii alese pentru dimensiunea suprimată. Defalcarea (dicing) este operaţia de proiectare a unei dimensiuni pe o alta. De obicei o dimensiune din primul plan este combinată cu o altă dimensiune din adâncime. Acest proces se mai numeşte imbricarea dimensiunilor. Dimensiunile unui cub pot fi private sau pot fi utilizate în comun şi de alte cuburi (dacă provin din depozitele cu schema de tip constelaţie). Proiectarea structunilor depozitelor de date şi a cuburilor OLAP este un proces ce se desfаşoară continuu pe tot parcursul existenţei (vieţii) aplicaţiei, dimensiunile cuburilor fiind în strânsă dependenţă cu detaliile activităţii structurate. Aplicaţiile construite cu tehnologia OLAP îşi găsesc locul în multiplele domenii ale activităţii întreprinderilor, de la finanţe, bănci, marketing până la producţie şi vânzări. De exemplu, activitatea de producţie poate fi susţinută de aplicaţii OLAP cum sunt: planificarea operaţiilor, controlul calitătii produselor, analiza rebuturilor, analiza optimizării raportului dintre cost-beneficii. OLAP, utilizând tehnici inteligente de optimizare, beneficiază de avantajul timpului de răspuns mic. 3.8. Crearea aplicaliior OLAF In Microsoft SQL Server Pentru realizarea unei aplicaţii OLAP sunt necesare următoarele etape: 1. Crearea bazei de date relaţionale (tranzacţionale) care va conţine datele curente ale organizaţiei rezultate din tranzacţii. 2. Crearea bazei de date multidimensionale, a cuburilor şi tabelelor de fapte care preiau datele din baza de date relaţională. Datele sunt extrase, transformate şi încărcate în tabelele de fapte din tabelele relaţionale. 3. Crearea interfeţei aplicaţiei într-un mediu de programare visual – Visual Basic. 3.8.1. Crearea bazei de date tranzacţionale în Microsoft SQL Server Datele stocate în cadrul organizaţiei sunt importate într-o nouă bază de date tranzacţională ce stă la baza construirii cuburilor de date. Datele sunt organizate în tabele care corespund dimensiunilor, ierarhiilor şi tabelelor de fapte ale cuburilor multidimensionale. Ca exemplu, se va crea o ap1icaţie destinată analizei rezultatelor financiare ale unei bănci comerciale. Se vor analiza volumul depozitelor şi volumnul creditelor în funcţie de următoarele dimensiuni: agenţie, durată, garanţie, monedă, sector de activitate, timp, tip depozit, tip client (pers fizică sau juridică). Tabelul de fapte construit va conţine două măsuri: volumul depozitelor şi volumul creditelor. Crearea tabelelor în Microsoft SQL Server se realizează prin utilizarea de scripturi, aşa cum se prezintă în exemplul de mai jos: * create table agenţie (Agenţie varchar(20), Zona varchar(10), Tara varchar(10)); * create table voldepozite (Agenţie varchar(20), Durata varchar(20), Moneda varchar(20), Tipjur varchar(30), Timp varchar (20), Tipdepozit varchar(30), voldep numeric); * create table volcredite (Agenţie varchar(20), Durata varchar(20), Moneda varchar(20), Tipjur varchar(30), Timp varchar(20), Garantiecredit varchar(20), Sectoractivitate

Page 22: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

22

varchar(20), volcredite numeric). 3.8.2. Crearea bazei de date multidimensionale în SQL Server Produsul Microsoft SQL Server oferă suportul şi instrumentele necesare dezvoltării sistemelor OLAP prin setul de aplicaţii SQL OLAP Services, iar gestiunea bazei de date multidimensionale este realizată de serverul OLAP. Se creează o nouă bază de date rnultidimensională care va conţine cuburile de date prin intermediul meniului New Database. Se creează cuburile cu ajutorul asistentului Cube Wizard. Cuburile OLAP utilizează datele stocate în tabelele bazei de date tranzacţionale. Din acest motiv trebuie configurată conexiunea dintre cubul OLAP şi baza de date tranzacţională din care vor fi preluate datele. Conexiunea cu serverul de baze de date Microsoft SQL Server se realizează cu ajutorul Microsoft OLE DB Provider for SQL Server. După stabilirea serverului tranzacţional se selectează şi baza de date tranzacţională din care se importă datele. Aplicaţia OLAP conţine două cuburi pe care se vor analiza cele două tipuri de operaţiuni bancare: operaţiunile pasive (constituirea de depozite) şi operaţiunile active (acordarea de credite). Pentru fiecare cub se defineşte o schemă care conţine în centru tabelul de fapte legat de dimensiunile corespunzătoare fiecărei activităţi analizate după cum urmează: 1. Cubul Depozite - urmăreşte analiza depozitelor şi a dobânzilor pasive rezultate din activitatea curentă a băncii. * Dimensiunile identificate în cadrul acestei scheme sunt: Agenţie, Durata, Moneda, Timp, Tip juridic, TipDepozit. * Tabelul de fapte al modelului este VolDepozite având ca măsură volumul depozitelor constituite (voldep). 2. Cubul Credite - urmăreşte analiza creditelor şi a dobânzilor active rezultate din activitatea curentă a băncii. În cadrul acestei scheme se identifică dimensiuni comune cu schema operaţiuni1or pasive. Acestea sunt: * Dimensiunile identificate în cadrul acestei scheme sunt: Agentie, Durata, Moneda, Timp, Tip juridic, Garanţie credit, Sector activitate. * Tabelul de fapte al modelului este VolCredite ce conţine măsura VolCred (volumul creditelor). Crearea cuburilor se poate face independent (în fereastra Cube Editor) sau în mod asistat (prin opţiunea Cube Wizard) În ambele cazuri trebuie parcurşi următorii paşi: I. Alegerea tabelelor din baza de date relaţională din care se importă datele. După configurarea conexiunii dintre serverul OLAP şi baza de date tranzacţională se pot vizualiza tabelele acesteia. O parte din aceste tabele conţin date necesare dimensiunilor din cuburi, iar altele furnizează date în tabetele de fapte. 2. Stabilirea tabelului de fapte în cazul cubului Depozite, tabelul de fapte VolDepozite importă datele din tabelul voldepozite din baza de date relaţională, iar în cazul cubului Credite tabelul de fapte VolCredite importă datele din tabelul volcredite din baza de date relaţională. 3. Crearea şi configurarea dimensiunilor. Se aleg tabelele din baza de date relaţională din care se vor importa datele în tabelele dimensiuni. 4. Pentru fiecare dimensiune se stabilesc nivelurile ierarhice. De exemplu, pentru dimensiunea Timp, prezentă în ambele cuburi nivelele ierarhice sunt: Luna, Semestru, An. 5. Alegerea dimensiunitor care intră în configuraţia cubului. După crearea tuturor

Page 23: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

23

dimensiunilor, se aleg numai cele care participă la configuraţia cubului. 6. Stabilirea opţiunilor de stocare şi procesare a datelor din cubul OLAP. Există trei opţiuni importante de stocare şi procesare a datelor: MOLAP, ROLAP, HOLAP. După parcurgerea acestor etape, schema cubului este definitа (figura 2), datele sunt importante în tabelul de fapte şi pot fi vizualizate selectând opţiunea Data. Cuburi Virtuale Există posibilitatea definirii unor cuburi virtuale care să preia datele direct din cuburile existente. Această opţiune permite realizarea unor analize comparative între măsuri din cuburi diferite, pe baza dimensiunilor comune. Cubul se poate realiza fie prin intermediul asistentului Virtual Cube Wizard fie prin Cube Editor. De exemplu, se defineşte un cub virtual Operaţiuni care preia datele existente în cuburile Depozite şi Credite. Acest cub permite o analiză comparativă între volumul depozitelor şi volumul creditelor înregistrate în diverse perioade de timp în funcţie de diferite criterii. Dimensiunile cubului virtual sunt cele comune cuburilor Depozite şi Credtite. Iar măsurile sunt VolDepozite şi VolCredite pe baza cărora se realizeză analiza. 3.8.3. Crearea interfeţei aplicaţiei într-un mediu de programare visual - Visual Basic Accesul utilizatorilor la cuburile multidimensionale se realizează prin intermediul unei aplicaţii dezvoltate în mediul integrat de programare Visual Basic 6.0. Aplicaţia permite stabilirea drepturilor de acces a fiecărui utilizator la baza de date multidimensională, vizualizarea şi analiza datelor şi aplicarea operaţiilor de secţionare (slicing), defalcare (dicing), navigare ascendentă (roll-up) şi descendentă (drill-down) în interiorul datelor. Accesul şi vizualizarea datelor din cuburile OLAP se realizează prin intermediul componentei PivotTabte din pachetul Microsoft Office Web Components 9.0 sau o versiune mai nouă Microsoft OfficeXP Web Components. Aceste componente trebuie adăugate aplicaţiei din meniul Components. Se creează un proiect nou de tip Standard.exe în Visual Basic. Se adaugă proiectului un formular de tip MDI utilizat ca suport pentru meniul principal al aplicaţiei. Pentru analiza cuburilor se proiectează formulare, câte unul pentru fiecare cub, în care se inserează din Toolbox un object de tipul Pivot Table din componenta Microsoft Office Web Components 9.0. Acesta va permite vizualizarea şi analiza datelor din cub. Pentru a se realiza conexiunea cu serverul OLAP se stabilesc parametrii de lucru pentru obiectul PivotTable în Form Load() al formularului. Aceştia sunt: ConnectionString - stabileşte modalitatea de conectare; Provider - tipul serverului responsabil cu fumizarea; Data Source - serverul responsabil cu furnizarea datelor; Initial Catalog - baza de date multidimensională în care se află cuburile; DataMember - cubul de date. Se specifică şi componenţa principalelor axe ale cubului în funcţie de care se vor vizualiza datele: pe linii, coloane, datele centrale şi filtrele. În cazul cubului Depozite procedura este următoarea: Private Sub Form Load() `se configurează conexiunea PTDepozite. ConnectionString= "Provider=msolap; Data Source = OLAPpro; Initial CatalogOlapFin" PTDepozite.DataMember = "Depozite" `se specifică componentele axelor principale Set Obj View = PTDepozite.Active View

Page 24: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

24

Set ObjFlds = PTDepozite.Active View.FieldSets Obj View. RowAxis. InsertFieldSet (ObjFls("[Durata] `9) Obj View. ColumnAxis.lnsertFieldSet (ObjFlds("[Agentie]'9) Obj View.DataAxis.JnsertTotal (Obj View. Totals("voldep')) Obj View.FilterAxis. InsertFieldSet (ObjFlds("[TimpJ')) `se specifică afişarea listei ce conţine toate dimensiunile cubului PTDepozite.DisplayFieldList = True End Sub Vizualizarea şi analiza datelor şi aplicarea operaţiilor de secţionare (slicing), defalcare (dicing), navigare ascendentă (roll-up) si descendentă (drill-down) în interiorul datelor se realizează intuitiv prin intermediul obiectului Pivot Table Field List. 4. DATA MINING - TEHNOLOGII DEDICATE EXPTRAGERII CUNOŞTINŢELOR 4.1. Problematica generală Existenţa unor volume imense de date a pus problema reorientării utilizării lor de la un proces de exploatare retrospectiv către unul prospectiv. Data Mining poate avea mai multe definiţii, însă toate converg în esenţă către miezul problemei şi anume că acest concept reprezintă un proces de extragere de informaţii noi din colecţiile de date existente. Termenul de dată are semnificaţia de descriere a unui eveniment bine determinat care se produce în lumea reală şi este perfect verificabil. Prin tehnologia Data Mining se prelucrează date care referă perioade (date istorice), ce sunt examinate şi sunt deja cunoscute, pe baza lor constituindu-se un model. Acest model va putea fi aplicat situaţilor noi de acelaşi tip cu cele deja cunoscute. Informaţiile care se pot obţine prin Data Mining sunt predictive sau descriptive. De exemplu direcţionarea acţiunilor de marketing pot constitui o problemă tipică predictivă. Detectarea fraudelor produse cu carduri bancare reprezintă o problema tipică de aplicaţie descriptivă. Dezvoltarea tehnicilor de Data Mining se explică prin acumularea de volume pe care acestea le-au derulat de-a lungul anilor. De asemenea, concurenţa tot mai acerbă precum şi creşterea exigenţelor pieţei au determinat firmele să ia tot mai mult în considerare potenţialul uriaş pe care î1 oferă arhivele de date. Alături de arhivele de date memorate pe suporturi informatice mai există încă doi factori care au dus la necesitatea Data Mining: existenţa şi perfecţionarea algoritmilor şi a produselor program dedicate precum şi creşterea capacităţii de memorare şi prelucrare a calculatoarelor care permit tratarea corelativă a volumelor mari de date. Este de remarcat că depozitele de date pot fi surse pentru Data Mining, iar rezultatele obtinute pot completa câmpurile înregistrărilor din depozitele de date, care apoi pot fi valorificate prin proiecţiile multidimensionale specifice OLAP. Potenţialul oferit de Data Mining se încorporează în procesele comerciale ale firmelor, iar căutarea informaţiilor nu devine un scop în sine ci este util doar dacă este transformată ca acţiune. Astfel firmele pot alege să reacţiioneze sau nu la situaţiile diverse create de realitate (diminuarea numărului de clienţi, scăderea vânzărilor pierderea unor pieţe de desfacere etc.). Pasul următor după această alegere este exploatarea propriu-zisă a datelor utilizând diverşi algoritmi. De multe ori acţiunea de Data Mining poate fi un eşec şi nu o reuşită, fiind posibil ca măsurile luate să nu fie adecvate informaţiilor obţinute. Toate elementele considerate anterior conduc spre ideea de ciclu în utilizarea Data Mining în cursul căruia sunt patru etape: - definirea oportunităţilor comerciale şi a datelor pe care se face exploatarea;

Page 25: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

25

- obţinerea de informaţii din colecţiile de date existente prin tehnici Data Mining; - adoptarea deciziilor şi acţunilor în urma informaţiilor rezultate; - cuantificarea cât mai corectă rezultatelor concrete pentru a identifica şi alte căi de exploatare a datelor. 4.2. Căutarea cunoştinţelor şi verificarea ipotezelor Tehnicile de Data Mining se pot aplica atât ascendent, cât şi descendent. Pentru abordarea descendentă se iau în considerare ipotezele formulate în prealabil prin alte mijloace. Abordarea ascendentă urmăreşte extragerea de cunoştinţe sau informaţii noi din date disponibile, această căutare putând fi dirijată sau nedirijată. Căutarea dirijită presupune că se ia în considerare un atribut sau un câmp, ale cărui valori se explică prin celelalte câmpuri. Căutarea nedirijată identifică relaţiile sau structurile din datele examinate fără a asigura prioritate unui câmp sau a altuia. Ceea ce se exploatează prin Data Mining sunt colecţii de date constituite pentru alte scopuri (exemplu tranzacţii derulate pe o perioadă de timp). Deseori la cest tip de date se adaugă şi cele provenite din alte surse cum sunt statisticile oficiale care privesc evoluţia în ansamblu a economiei, date privind concurenţa sau măsuri legislative. De aceea se foloseşte tot mai des noţiunea de informaţie ascunsă în sensul că este aproape imposibilă detectarea corelaţiilor sau raporturilor pe care datele le încorporează în mod intrinsec. Rezultatele obţinute sunt cu atât mai relevante relevante cu cât ele se bazează pe un volum mare de date. Datele pot fi exploatate pentru a obţine informaţii prin diverse tehnici cum sunt: reţele neuronale arbori de decizie, algoritmi genetici, analiza grupurilor, raţionamente bazate pe cazuri, analiza legăturilor. Aceste tehnici pot fi asociate cu tehnici statistice cum sunt regresiile sau analiza factorială. Data Mining nu este capabilă, ca tehnică, să rezolve orice problemă de gestiune. De fapt ceea ce poate oferi se rezumă la câteva acţiuni cum sunt clasificarea, estimarea, predicţia, gruparea, analiza grupurilor, care folosite la locul potrivit pot deveni utile pentru o mulţime de probleme din domeniul decizional. Destinaţia şi caracteristicile acţiunilor oferite de Data Mining Clasificarea are ca scop plasarea obiectelor prelucrate într-un grup de clase predefinite. De exemplu, vânzarea unui produs nou se poate încadra în una din următoarele categorii de risc: scăzut, mediu, ridicat. Obţinute în mod clasificat vor fi reprezentate sub formă de înregistrări care la rândul lor sunt atribute sau câmpuri. Ca tehnici de Data Mining pentru clasificare sunt arborii de decizie şi raţionamentul bazat pe cazuri. Estimarea va atribui o vaboare unei variabile pe baza celorlalte date de intrare. Rezultatele obţinute în urma estimării sunt valori continue. Pentru acest tip de prelucrări se pot utiliza reţelele neuronale. Predicţia poate clasa înregistrările luate în considerare în funcţie de un anumit comportament sau o valoare viitoare estimată. De aceea se va recurge la o colecţie de exemple care vizează date din trecut, în care vaborile variabilei de previzionat sunt deja cunoscute. Cu ajutorul lor se va construi un model care va putea explica comportamentul observat. Aplicând acest model înregistrărilor care fac obiectul prelucrării, se va obţine o predicţie a comportamentului acestora în viitor. Gruparea poate duce la determinarea acelor obiecte care apar cel mai frecvent împreună. Un exemplu este ,,analiza coşului gospodăriei" în evaluările statistice. Analiza grupului urmăreşte o dividere a populaţiei eterogerne în grupuri mai omogene, care poartă numele de clustere. În această tehnică nu se pleacă de la un set predeterminat de clase şi nici din exemple din trecut. Segmentarea pe grupuri se face în funcţie de similititudinile obiectelor.

Page 26: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

26

4.3. Explorarea datelor – conţinut şi etape Programele care realizează implementarea algoritmilor pentru Data Mining nu sunt suficiente. Ele trebuie alimentate cu date care provin din diverse surse organizate pentru alte scopuri. De aceea este necesar un proces de curăţare a acestora şi de uniformizare pentru a fi explorate aşa cum sunt ele furnizate de programe, conţinutul lor trebuind a fi analizat de specialişti care vor identifica informaţiile utile pe care acestea (rezultatele) le conţin. Având în vedere aceste particularităţi, tehnicile de Data Mining se pot utiliza numai in procese specifice complexe şi de cele mai multe ori neliniare. Se pot astfel distinge etapele: definirea problemei, identificarea surselor de date; colectarea şi selectarea datelor; pregătirea datelor, definirea şi construirea modelului; evaluarea modelului; integrarea modelului. Definirea problemei constă în sesizarea unei oportunităţi sau necesităţi de afaceri. De aceea se va delimita ceea ce urmează a fi rezolvat prin Data Mining, obiective urmărire şi rezultate scontate. Problema ce urmează a fi rezolvată prin Data Mining este o parte componentă a oportunităţii organizaţiei, dar nu se identifică cu ea. De asemenea problema trebuie sa primească o formă adecvată pentru a putea fi tratată cu această tehnică. Identificarea surselor de date constă în stabilirea structurii generale a datelor necesare pentru rezolvarea problemei, precum şi regulile de constituire a acestora şi localizarea lor. Fiecare sursă de date va fi examinată pentru o familiarizare cu conţinutul său şi pentru identificarea incoerenţelor sau a problemelor de definire. Colectarea şi selecţia datelor este etapa în care se face extragerea şi depunerea într-o bază comună a datelor care urmează a fi utilizate ulterior. Această etapă ocupă un timp mare, cam 80% din timpul total, iar existenţa depozitelor de date constituie un real avantaj. În funcţie de limitele echipamentelor de calcul folosite, de produsele program aplicate colecţiilor de date şi nu în ultimul rând de bugetul disponibil se poate prelucra întregul fond de date disponibil sau un eşantion. Dacă opţiunea aleasă este dirijată spre lucrul cu eşantionare, atunci trebuie respectate toate regulile şi cerinţele de selectare a acestora. Pregătirea datelor. Datele sunt de obicei stocate în colecţii de date care au fost construite pentru alte scopuri. De aceea, firesc este să existe o fază preliminară de pregătire înainte de extragere prin Data Mining. Transformările la care sunt supuse datele pentru Data Mining se referă la: valori extreme, valori lipsă, valori de tip text, tabele. Tratarea valorilor extreme se poate face prin încadrarea între anumite limite cuprinse între medie şi un număr de abatere standard prin excludere sau limitare sau prin izolarea vârfurilor. În cazul valorilor lipsă se pot elimina câmpurile cu valori nule din inregistrări, sau se pot completa câmpurile cu date de valori medii, deoarece existenţa lor poate duce la o funcţionare incorectă a algoritmilor de Data Mining. Valorile de tip text ridică probleme întrucât separarea prin spaţii a cuvintelor duc la apariţia de valori diferite. Din acest motiv este indicată eliminarea lor, dar dacă prelucrarea lor nu poate fi eliminată, soluţia cea mai pertinentă este de codificare prin tabele de corespondenţe, în care să se evidenţieze toate şiruri1e valide de caractere. Rezumarea se aplică atunci când datele sunt considerate a reprezenta detalii nesemnificative pentru rezolvarea problemei, sau când numărul de exemple este insuficient. Codificarea incoerentă apare în momentul în care obiecte identice sunt reprezentate diferit în unele din sursele utilizate. Incompatibilităţile arhitecturale informatice se referă la diferenţele existente între modul de reprezentare internă a valorilor datorat creării lor cu sisteme din generaţii diverse. Definirea şi construirea modelului este etapa care se apropie cel mai mult de noţiunea de Data Mining şi se referă la crearea modelului informatic care va efectua exploatarea. Etapa de definire şi construire a modelului este însoţită de faza de instruire sau învăţare, depinzând de

Page 27: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

27

tehnicile de Data Mining utilizate. Indiferent de aceste tehnici toate au de parcurs două etape: învăţarea şi testarea. Învăţarea presupune existenţa unui set suficient de reprezentativ de exemple complete de la care se porneşte pentru a identifica relaţiile de legătură între valorile câmpurilor sau atributelor. Se consideră ca fiind încheiat procesul de învăţare, în momentu1 în care rezultatele obţinute prin model se apropie suficient de soluţiile conţinute de datele după care s-a învăţat. Nu întotdeauna rezultatele sunt cele scontate şi atunci modelul va fi supus testării cu date diferite de cele folosite pentru învaţare, dar care aparţin aceleiaşi colecţii. În această etapă sunt formulate alte două obiective, şi anume: obţinerea de date preclasate şi distribuirea acestora în seturi de învătare, testare sau evaluare. Evaluarea modelului are scopul de a determina corect valorile în care modelul are capacitatea de a determina corect valorile pentru cazurile noi. Modelul va fi astfel aplicat asupra ultimei părţi din datele preclasate care sunt dedicate evaluării. Procentul de eroare ce se stabileşte acum va fi considerat că va fi acceptat şi pentru datele noi. Performanţele unui model se vor aprecia cu ,,matricea de confuzie" care are rolul de a compara situaţia reală cu cea pe care modelul o furnizează. Integrarea modelului este etapa în care se finalizează procesul, prin încorporarea modelulul în SIAD ca element de bază, sau prin includerea sa într-un proces decizional general din organizaţie. 4.4. Raţionamentul bazat pe cazuri Prin aceastа tehnică se caută o rezolvare a problemelor apărute prin analogie cu experienţa acumulată. Această metodă se poate aplica pentru clasificări şi pentru predicţii. Cazurile pe care este bazat raţionamentul sunt memorate ca înregistrări compuse din setul de atribute care descriu fiecare caz. Un caz nou este prezentat tot ca o înregistrare, numai că în câmpurile în care valoarea trebuie determinată sunt vide. Pentru a determina aceste valori se caută înregistrаrile cu care înregistrarea ,,caz nou" se aseamănă şi conţinutul acestora se consideră a fi răspunsul. Prin urmare se poate afirma că există două funcţii fundamentale de prelucrare: a) măsurarea distanţei dintre membrii fiecărui cuplu de înregistrări, pentru a afla vecinele cele mai apropiate; b)combinarea rezultatelor obţinute de la ,,vecine" în raspunsul propus pentru cazul curent. Măsurarea distanţei dintre câmpuri. Se numeşte distanţă expresia modului în care se evaluează similitudinea. Distanţa are ca proprietăţi: poate fi definită şi se prezintă ca un număr real; distanţa de la un element la el însuşi este totdeauna nulă; sensul de măsurare este fără semnificaţie în maniera că distanţa de la elementul A la elementul B este egală cu distanţa de la B la A şi nu există un punct C intermediar lui A şi B prin a cărei parcurgere să se scurteze drumul de la A la B. Ca moduri de calcul pentru distanţa câmpurilor numerice se enumeră: - diferenţa între valoare absolută ׀A-B ׀ - pătratul diferenţei (A-B)2 - diferenţa între valoare absolută normalizată ׀A-B׀ (diferenta maximă). Ultima variantă produce rezultate cu valori cuprinse între 0 şi 1. Măsurarea distanţei între înregistrări. Când apare necesitatea de a considera simultan mai multe câmpuri ale înregistrării, se calculează distanţa pentru fiecare câmp în parte, iar rezultatul se combină într-o valoare mică care reprezintă distanţa înregistrării respective. Se vor enumera câteva procedee de combinare a distanţei câmpurilor: însumarea, însumarea normalizată (suma distanţelor/suma maximă), distanţa euclidiană (rădăcina pătrată din suma pătratelor distanţelor). Distanţa euclidiană evidenţiază cel mai bine înregistrările pentru care toate câmpurile sunt vecine. Combinarea rezultatelor presupune aflarea celor mai apropiaţi vecini, iar soluţia problemei

Page 28: UNIVERSITATEA SPIRU HARET Facultatea de Științe Juridice ... fileDupă domeniul de aplicare, sistemele sunt politice, economice, sociale, tehnice etc. Sistemele economice sunt sisteme

28

se obţine prin combinarea răspunsurilor obţinute de la aceştia. Fiecare vecin poate avea diverse variante de răspuns, dar se vor lua în calcul doar cei care sunt mai apropiaţi. Rezultatul ce obţine majoritatea va fi atribuit cazului curent. Cerinţa minimă este ca numărul votanţilor să fie impar, pentru a evita situaţiile de nedeterminare. Metodele care se bazează pe vot dau rezultate satisfăcătoare în situaţiile în care rаăpunsurile aşteptate sunt de tip enumerativ. O altă soluţie posibilă este interpolarea valorilor înregistrărilor vecine care însă introduce o aplatizare a rezultatelor care se înscriu între cele două limite folosite în calcul. De asemenea, se poate constata că rezultate bune se obţin prin metode de regresie statistică aplicate asupra valorilor date de vecinii cei mai apropiaţi. Se obţine ecuaţia unei drepte sau a unei curbe care permite calcularea mai precisă a valorilor aferente cazului curent. Se poate concluziona că raţionamentul bazat pe cazuri este o tehnică de Data Mining suficient de bună şi care se poate aplica unui mare număr de probleme, caz în care conduce la soluţii acceptabite. Toate acestea sunt valabile dacă volumul de date pe care se bazează este bine ales şi concludent. Ca avantaje pentru aceastа metodă se pot enumera: - aplicarea unui mare număr de tipuri de date, pe structuri de date complexe, iar câmpurile tip text sunt mai bine tratate decât în alte tehnici; - luarea în considerare a oricât de multor câmpuri; - rezultatele obţinute sunt explicite; - elementele de noutate care apar în procesul de învăţare sunt uşor de inglobat şi de folosit în rationamente. Ca orice metodă prezintă şi unele dezavantaje dintre care se pot menţiona: volumul mare de memorie şi resursă timp de prelucrare relativ mare, şi de asemenea, timpul de prelucrare mare pentru aplicarea funcţiilor de distanţă asupra tuturor înregistrărilor şi câmpurilor necesare pentru obţinerea rezultatelor. ÎNTREBĂRI DE AUTOEVALUARE 1. Care sunt subsistemele componente ale unui sistem economic? 2, Care sunt sistemele informatice asociate nivelurilor de management ale organizaţiei economice? 3. Care sunt sistemele informatice-componente de integrare pe verticală ale sistemelor informatice integrate economice? 4. Definiţi decizia. 5. Care sunt tipurile de decizii în funcţie de nivelul decizional şi gradul de structurare? 6. Ce sunt deciziile luate în condiţii de risc? 7. Care sunt etapele procesului de adoptare a deciziilor? 8. Cum funcţionează sistemele de asistare a deciziilor orientate pe date? 9 Ce SIAD-uri se deosebesc după gradul de analiză a datelor? 10. Prezentaţi clasificarea SIAD-urilor atribuită lui Holsapple şi Whinston. 11. Care sunt funcţiile unui SIAD? 12. Care este arhitectura unui SSAD? 13. Caracterizaţi modelul.