1_Introducere

6

Click here to load reader

description

SAS

Transcript of 1_Introducere

Page 1: 1_Introducere

1

1. Pachetul software integrat SAS

SAS este un produs software integrat furnizat de SAS Institute Inc, care oferă utilizatorilor

facilităţi precum:

introducerea, accesarea şi managementul datelor

data mining (extragerea de informaţii din date)

realizarea de rapoarte şi grafice

analize statistice

planificarea afacerilor, prognoză şi suport de decizie

cercetări operaţionale şi managementul proiectelor

dezvoltarea de aplicaţii

“data warehousing” (lucrul cu depozite de date)

lucrul independent de platforma hardware şi de locaţie

În plus, SAS oferă multe soluţii de business şi soluţii software pentru domenii cum ar fi

managementul IT, managementul resurselor umane, management financiar, business

intelligence, managementul relaţiilor cu clienţii etc.

Componentele produsului SAS

SAS constă dintr-un număr mare de componente, pe care organizaţiile le pot achiziţiona şi

instala separat, în funcţie de necesităţi. În centrul soluţiilor SAS se află produsul software Base

SAS. Acesta este un mediu software integrat, având facilităţi pentru accesul la date, analiza

datelor, crearea de rapoarte etc. Base SAS beneficiază şi de suportul unui limbaj de programare

proprietar de generaţia a patra (Notă: Limbajele de generaţia a patra sunt orientate pe rezolvarea

unei anumite clase de probleme. Exemple sunt SQL sau PL/SQL sau cele folosite de alte pachete

software ca Matlab sau SPSS). Bibliotecile SAS/STAT, SAS/Graph şi SAS/OR extind

capabilităţile motorului de bază Base SAS.

SAS/STAT oferă o gamă largă de instrumente pentru analiza statistică a datelor.

SAS/Graph este modulul care permite vizualizarea datelor sub formă de grafice sau hărţi.

SAS/OR este o componentă care are ca scop susţinerea procesului decizional prin intermediul

unor tehnici de optimizare, simulare sau planificare a proiectelor.

SAS Add-inn for MS Office permite utilizatorilor să beneficieze de facilităţile analitice, de

raportare şi pentru accesul la date oferite de SAS direct din Microsoft Office prin intermediul

unor meniuri şi bare de instrumente integrate în produsele Office.

SAS Enterprise Guide este o aplicaţie client pentru Microsoft Windows care va fi prezentată pe

larg în partea a doua a cursului.

Prelucrări bazate pe date

Accesarea datelor se referă la obţinerea accesului la datele cerute de aplicaţie.

Managementul datelor presupune pregătirea datelor astfel încât acestea să aibă forma cerută de

aplicaţie.

Page 2: 1_Introducere

2

Analiza datelor rezumă sau transformă datele primare în informaţii utile şi care au o

semnificaţie pentru analist.

Prezentarea datelor comunică informaţiile într-o manieră care demonstrează clar semnificaţia

acestora.

Transformarea datelor în informaţii

Produsul lucrează prin intermediul programelor SAS (programe scrise într-un limbaj specific, aşa

cum aminteam şi mai devreme) care definesc o succesiune de operaţii ce trebuiesc efectuate

asupra datelor stocate în tabele. Un program SAS este compus din trei părţi majore, secţiunea de

DATE, secţiunile de PROCEDURI, precum şi un limbaj macro. Deşi există interfeţe grafice

destinate utilizatorilor care nu deţin cunoştinţe de programare SAS (cum este SAS Enterprise

Guide), de cele mai multe ori aceste interfeţe sunt doar un mijloc pentru a automatiza sau a

facilita generarea de programe SAS.

SAS Enterprise Guide

SAS Enterprise Guide este o aplicaţie Windows uşor de utilizat care furnizează următoarele

facilităţi:

o interfaţă vizuală intuitivă

acces la modulele SAS

acces transparent la date

prelucrări pentru analiză şi raportare

exportul facil al datelor şi al rezultatelor în alte aplicaţii

facilităţi de scripting şi automatizare

Utilizatorii având diverse niveluri de experienţă (de la începători până la experţi) pot utiliza SAS

Enterprise Guide pentru a obţine rapid rezultate semnificative.

Interfaţa de ultimă generaţie a SAS Enterprise Guide oferă:

funcţionalitate de tip drag-and-drop

ferestre de dialog pentru introducerea parametrilor prelucrărilor şi efectuarea de setări

instrumente de tip wizard

editor de sintaxă pentru scrierea programelor, cu evidenţierea în culori diferite a elementelor

codului

facilităţi de Help Online, help senzitiv la context şi tutorial de iniţiere

Interfaţa de programare

Utilizând SAS Enterprise Guide, se pot accesa modulele SAS fără să fie nevoie să se înveţe

limbajul de programare SAS. Dacă utilizatorul este programator SAS, el poate utiliza editorul de

cod al pachetului de programe pentru a crea cod nou sau pentru a modifica programe SAS

existente.

Page 3: 1_Introducere

3

Ceea ce nu se vede

Pe măsură pe accesaţi date şi realizaţi prelucrări, SAS Enterprise Guide generează cod SAS.

Atunci când rulaţi o prelucrare, codul generat este primis motorului SAS pentru procesare, iar

rezultatele sunt returnate către SAS Enterprise Guide. Pachetul se poate conecta la motorul SAS

pe calculatorul local, sau pe un alt calculator numit server SAS.

Utilizatorul poate modifica codul SAS generat de pachet pentru a personaliza rezultatele şi

pentru a accesa facilităţile SAS care nu sunt disponibile în cadrul interfeţei grafice. De

asemenea, utilizatorul poate salva codul şi să îl execute într-un mediu de tip batch.

Zonele de lucru

Implicit, SAS Enterprise Guide afişează trei ferestre principale. Acestea sunt: fereastra arborelui

proiectului (Project Tree), fereastra fluxului de proces (Process Flow) şi fereastra prelucrărilor

(Task Status).

Ferestra Project Tree afişează o structură ierarhică a proiectului activ. Atunci când creaţi un nou

proiect, ferestra Project Tree este goală. Pe măsură ce adăugaţi date, rulaţi prelucrări sau generaţi

rezultate, în această ferestră vor fi adăugate iconiţe pentru fiecare dintre aceste obiecte. Ele sunt

văzute ca obiecte ale unui proiect.

Obiectele unui proiect

SAS EG are la un moment dat un singur proiect activ. Fiecare proiect conţine unul sau mai multe

fluxuri de proces. Un flux de proces reprezintă vizual relaţiile dintre obiectele unui proiect. Într-

un proiect se pot crea noi fluxuri pe proces şi se pot muta sau copia obiecte între fluxurile de

proces. De asemenea, se poate executa doar o porţiune a unui flux de proces, sau întregul flux.

2. Lucrul cu date într-un proiect

Înainte de a realiza orice în SAS EG este necesar să adăugaţi datele pe care doriţi să le analizaţi

în proiect. Pe lângă fişierele de date SAS, SAS EG poate citi majoritatea tipurilor de fişiere de

date ca HTML, Microsoft Access, dBASE sau Microsoft Excel. Aveţi posibilitatea să deschideţi

date care se află local pe calculatorul vostru sau pe orice alt server pe care sunteţi autorizat să îl

accesaţi.

SAS Enterprise Guide poate citi şi utiliza date dintr-o variatate de formate:

Fişiere text cu laţime fixă şi fişiere text delimitate

Un fişier text cu lăţime fixă are un format specific care permite salvarea datelor/informaţiilor

textuale într-o manieră organizată. Este un tip special de fişier în care formatul este definit de

lăţimea coloanei, de caracterele folosite pentru spaţiere şi de alinierea la stânga sau dreapta.

Lăţimea coloanei este specificată sub forma unui număr de caractere. Spaţierea datelor se face

folosind caracterul spaţiu (sau orice caracter se doreşte) în cazul în care datele ocupă mai puţine

caractele decât lăţimea specificată pentru coloana respectivă.

Page 4: 1_Introducere

4

Exemplu de fişier text în care lăţimea primei coloane este de 25 de caractere, celei de-a doua de

10 caractere şi cea de-a treia de 12 caractere.

Nume Judet Telefon

Popescu Maria VL 0250277189

Ionescu Damian DJ 0251767868

Diamandescu Victor DB 0245876590

Într-un fişier text delimitat fiecare linie de text reprezintă o înregistrare, iat câmpurile sunt

separate prin caractere cunoscute. Delimitatori frecvent utilizaţi sunt caracterul tab (\t) sau

diferite caractere de punctuaţie. Delimitatorul trebuie întotdeuna să fie un caracter care nu se

regăseşte în date.

Astfel de fişiere se pot crea facil folosind aplicaţii de calcul tabelar sau pentru baze de date (ex.

Microsoft Excel, Microsoft Access). Spre exemplu, în Excel: File –> Save AS, Text (Tab

delimited).

Considerăm un fişier text care conţine numele, prenumele şi vârsta persoanelor, delimitate prin

simbolul linie verticală (|):

Popescu|Maria|35

Ionescu|Damian|42

Diamandescu|Victor|29

Date compatibile cu standardul ODBC şi OLE DB

ODBC (Open DataBase Connectivity) este o metodă standard de accesare a bazelor de date care

permite accesul la orice date din cadrul oricărei aplicaţii, indiferent de sistemul de gestiune a

bazelor de date care gestionează datele. ODBC realizează acest lucru prin inserarea unui strat de

mijloc (middle layer), numit driver de baze de date, între aplicaţie şi SGBD. Scopul acestui strat

este de a transforma interogările de date ale aplicaţiei în comenzi pe care un SGBD le înţelege. În

acest sens, atât aplicaţia, cât şi SGBD-ul trebuie să fie compatibile ODBC, adică aplicaţia trebuie

să fie capabilă să genereze comenzi ODBC, iar SGBD-ul trebuie să fie capabil să răspundă la

acestea. OLE DB (Object Linking and Embedding, Database) este o interaţă API proiectată de

Microsoft pentru accesarea diferitelor tipuri de date stocate într-o manieră uniformă. OLE DB

include şi capabilităţile ODBC.

Tabele SAS, Foi de calcul Microsoft Excel, Fişiere dBase, Tabele HTML, Tabele Microsoft

Access

Tabele de date SAS

Pentru a putea fi accesate de SAS EG, datele trebuie să fie reprezentate în format tabelar (ca o

mulţime de linii şi coloane). O linie reprezintă o instanţă a unei entităţi. Entitatea poate fi un

produs, un client, o comandă sau orice alt lucru. Fiecare coloană descrie caracteristicile entităţii,

cum ar fi codul de identificare a unui produs, numele clientului sau cantitatea vândută.

Toate coloanele trebuie să aibă un nume, un tip şi o lungime. Numele pot avea o lungime de la 1

la 32 de caractere. Eticheta ataşată unei coloane poate avea lungimea de maxim 265 de caractere.

Page 5: 1_Introducere

5

Unul dintre cele mai importante lucruri pe care trebuie să le ştiţi despre date este ce tip de date

conţine fiecare coloană (sau variabilă). SAS priveşte datele ca fiind fie de tip caracter, fie de tip

numeric. În cazul în care datele dintr-o coloană conţin doar litere, aceasta are date de tip caracter.

În cazul în care datele dintr-o coloană conţin numere, aceasta poate fi de tip caracter sau

numeric. Datele numerice sunt grupate în patru categorii de date, în funcţie de modul în care

acestea sunt afişate. Tabela arată ce simbol este asociat fiecărui tip de dată. Aceste pictograme

apar în titlurile de coloană ale tabelei de date. De asemenea, aceste pictograme se pot vedea

atunci când se rulează o prelucrare. Aceste simboluri constituie un indiciu despre modul în care

pot fi folosite coloanele sau varibilele în prelucrări.

Formate de afişare

Un format de afişare (Format) este o „instrucţiune” care se aplică unei coloane, indicând

produsului SAS Enterprise Guide cum să afişeze valorile datelor.

Formate de intrare

Formatele de intrare (Informat) sunt, de obicei, folosite pentru a citi într-o variabilă date din

surse externe numite fişiere flat (fişiere text, fişiere ASCII sau fişiere secvenţiale).

Notă: Fişierele flat conţin înregistrări între care nu există nici o interrelaţionare. Avantajul este

acela că ocupă mai mult spaţiu decât fişierele structurate. Totuşi, necesită ca aplicaţia care le

foloseşte să cunoască modul în care datele sunt orgaizate în fişier.

Formatele de intrare instruiesc aplicaţiile SAS despre modul în care trebuie să citească datele

într-o variabilă SAS. Sunt, de obicei, grupate în trei categorii: caracter, numeric şi dată/timp.

Formatele de intrare au următoarea sintaxă:

Formate de intrare caracter: $INFORMATw.

Formate de intrare numerice: INFORMATw.d

Formate de intare dată/timp: INFORMATw.

Semnificaţia simbolurilor folosite de formatele de intrare:

$ indică prezenţa unui caracter

w semnifică lăţimea unei variabile (în octeţi sau număr de coloane)

INFORMAT este un nume opţional de format de intrare SAS

d este folosit în cazul datelor numerice pentru a specifica numărul

de cifre ale părţii zecimale.

Toate formatele de intare trebuie să conţină punctul zecimal (.), astfel încât să se poată face

diferenţa între un format de intrare şi o variabilă SAS.

Valori lipsă

În SAS Enterprise Guide sunt multe funcţii care furnizează opţiuni pentru modul de manipulare a

valorilor lipsă, în scopul raportării sau analizei.

Page 6: 1_Introducere

6

Accesarea datelor locale

Multe formate de fişiere care memorează date sub formă tabelară includ metadate ca parte a

tabelei. Metadatele reprezintă informaţii despre datele în sine, cum ar fi originea/sursa datelor,

dimensiunea sau formatul lor. Tabelele SAS, MS Access sau dBASE sunt exemple de fişiere

care conţin metadate stocate în interiorul lor. Atunci când accesează un astfel de fişier, SAS EG

poate accesa metadatele pentru a determina numele unei coloane, tipul (caracter sau numeric) şi

lungimea (dimensiunea). Există şi cîteva formate de fişiere, cum ar fi foile de calcul, tabelele

HTML sau fişierele text care nu conţin metadate. Pentru aceste tipuri de fişiere, SAS EG trebuie

să facă anumite deducţii referitoare la atributele fiecărei coloane. Implicit, SAS EG caută numele

coloanei în primul rând al fişierului şi analizează valorile stocate în câmpuri sau celule pentru a

stabili dacă o anumită coloană trebuie memorată ca şir de caractere sau ca număr. Dacă se

stabileşte că o coloană este de tip caracter, atunci lungimea ei este setată în mod automat ca fiind

255 (octeţi), care este numărul maxim de caractere permis de motorul de baze de date Microsoft

Jet