1_Introducere
Click here to load reader
-
Upload
catalin4ever -
Category
Documents
-
view
114 -
download
2
description
Transcript of 1_Introducere
1
1. Pachetul software integrat SAS
SAS este un produs software integrat furnizat de SAS Institute Inc, care oferă utilizatorilor
facilităţi precum:
introducerea, accesarea şi managementul datelor
data mining (extragerea de informaţii din date)
realizarea de rapoarte şi grafice
analize statistice
planificarea afacerilor, prognoză şi suport de decizie
cercetări operaţionale şi managementul proiectelor
dezvoltarea de aplicaţii
“data warehousing” (lucrul cu depozite de date)
lucrul independent de platforma hardware şi de locaţie
În plus, SAS oferă multe soluţii de business şi soluţii software pentru domenii cum ar fi
managementul IT, managementul resurselor umane, management financiar, business
intelligence, managementul relaţiilor cu clienţii etc.
Componentele produsului SAS
SAS constă dintr-un număr mare de componente, pe care organizaţiile le pot achiziţiona şi
instala separat, în funcţie de necesităţi. În centrul soluţiilor SAS se află produsul software Base
SAS. Acesta este un mediu software integrat, având facilităţi pentru accesul la date, analiza
datelor, crearea de rapoarte etc. Base SAS beneficiază şi de suportul unui limbaj de programare
proprietar de generaţia a patra (Notă: Limbajele de generaţia a patra sunt orientate pe rezolvarea
unei anumite clase de probleme. Exemple sunt SQL sau PL/SQL sau cele folosite de alte pachete
software ca Matlab sau SPSS). Bibliotecile SAS/STAT, SAS/Graph şi SAS/OR extind
capabilităţile motorului de bază Base SAS.
SAS/STAT oferă o gamă largă de instrumente pentru analiza statistică a datelor.
SAS/Graph este modulul care permite vizualizarea datelor sub formă de grafice sau hărţi.
SAS/OR este o componentă care are ca scop susţinerea procesului decizional prin intermediul
unor tehnici de optimizare, simulare sau planificare a proiectelor.
SAS Add-inn for MS Office permite utilizatorilor să beneficieze de facilităţile analitice, de
raportare şi pentru accesul la date oferite de SAS direct din Microsoft Office prin intermediul
unor meniuri şi bare de instrumente integrate în produsele Office.
SAS Enterprise Guide este o aplicaţie client pentru Microsoft Windows care va fi prezentată pe
larg în partea a doua a cursului.
Prelucrări bazate pe date
Accesarea datelor se referă la obţinerea accesului la datele cerute de aplicaţie.
Managementul datelor presupune pregătirea datelor astfel încât acestea să aibă forma cerută de
aplicaţie.
2
Analiza datelor rezumă sau transformă datele primare în informaţii utile şi care au o
semnificaţie pentru analist.
Prezentarea datelor comunică informaţiile într-o manieră care demonstrează clar semnificaţia
acestora.
Transformarea datelor în informaţii
Produsul lucrează prin intermediul programelor SAS (programe scrise într-un limbaj specific, aşa
cum aminteam şi mai devreme) care definesc o succesiune de operaţii ce trebuiesc efectuate
asupra datelor stocate în tabele. Un program SAS este compus din trei părţi majore, secţiunea de
DATE, secţiunile de PROCEDURI, precum şi un limbaj macro. Deşi există interfeţe grafice
destinate utilizatorilor care nu deţin cunoştinţe de programare SAS (cum este SAS Enterprise
Guide), de cele mai multe ori aceste interfeţe sunt doar un mijloc pentru a automatiza sau a
facilita generarea de programe SAS.
SAS Enterprise Guide
SAS Enterprise Guide este o aplicaţie Windows uşor de utilizat care furnizează următoarele
facilităţi:
o interfaţă vizuală intuitivă
acces la modulele SAS
acces transparent la date
prelucrări pentru analiză şi raportare
exportul facil al datelor şi al rezultatelor în alte aplicaţii
facilităţi de scripting şi automatizare
Utilizatorii având diverse niveluri de experienţă (de la începători până la experţi) pot utiliza SAS
Enterprise Guide pentru a obţine rapid rezultate semnificative.
Interfaţa de ultimă generaţie a SAS Enterprise Guide oferă:
funcţionalitate de tip drag-and-drop
ferestre de dialog pentru introducerea parametrilor prelucrărilor şi efectuarea de setări
instrumente de tip wizard
editor de sintaxă pentru scrierea programelor, cu evidenţierea în culori diferite a elementelor
codului
facilităţi de Help Online, help senzitiv la context şi tutorial de iniţiere
Interfaţa de programare
Utilizând SAS Enterprise Guide, se pot accesa modulele SAS fără să fie nevoie să se înveţe
limbajul de programare SAS. Dacă utilizatorul este programator SAS, el poate utiliza editorul de
cod al pachetului de programe pentru a crea cod nou sau pentru a modifica programe SAS
existente.
3
Ceea ce nu se vede
Pe măsură pe accesaţi date şi realizaţi prelucrări, SAS Enterprise Guide generează cod SAS.
Atunci când rulaţi o prelucrare, codul generat este primis motorului SAS pentru procesare, iar
rezultatele sunt returnate către SAS Enterprise Guide. Pachetul se poate conecta la motorul SAS
pe calculatorul local, sau pe un alt calculator numit server SAS.
Utilizatorul poate modifica codul SAS generat de pachet pentru a personaliza rezultatele şi
pentru a accesa facilităţile SAS care nu sunt disponibile în cadrul interfeţei grafice. De
asemenea, utilizatorul poate salva codul şi să îl execute într-un mediu de tip batch.
Zonele de lucru
Implicit, SAS Enterprise Guide afişează trei ferestre principale. Acestea sunt: fereastra arborelui
proiectului (Project Tree), fereastra fluxului de proces (Process Flow) şi fereastra prelucrărilor
(Task Status).
Ferestra Project Tree afişează o structură ierarhică a proiectului activ. Atunci când creaţi un nou
proiect, ferestra Project Tree este goală. Pe măsură ce adăugaţi date, rulaţi prelucrări sau generaţi
rezultate, în această ferestră vor fi adăugate iconiţe pentru fiecare dintre aceste obiecte. Ele sunt
văzute ca obiecte ale unui proiect.
Obiectele unui proiect
SAS EG are la un moment dat un singur proiect activ. Fiecare proiect conţine unul sau mai multe
fluxuri de proces. Un flux de proces reprezintă vizual relaţiile dintre obiectele unui proiect. Într-
un proiect se pot crea noi fluxuri pe proces şi se pot muta sau copia obiecte între fluxurile de
proces. De asemenea, se poate executa doar o porţiune a unui flux de proces, sau întregul flux.
2. Lucrul cu date într-un proiect
Înainte de a realiza orice în SAS EG este necesar să adăugaţi datele pe care doriţi să le analizaţi
în proiect. Pe lângă fişierele de date SAS, SAS EG poate citi majoritatea tipurilor de fişiere de
date ca HTML, Microsoft Access, dBASE sau Microsoft Excel. Aveţi posibilitatea să deschideţi
date care se află local pe calculatorul vostru sau pe orice alt server pe care sunteţi autorizat să îl
accesaţi.
SAS Enterprise Guide poate citi şi utiliza date dintr-o variatate de formate:
Fişiere text cu laţime fixă şi fişiere text delimitate
Un fişier text cu lăţime fixă are un format specific care permite salvarea datelor/informaţiilor
textuale într-o manieră organizată. Este un tip special de fişier în care formatul este definit de
lăţimea coloanei, de caracterele folosite pentru spaţiere şi de alinierea la stânga sau dreapta.
Lăţimea coloanei este specificată sub forma unui număr de caractere. Spaţierea datelor se face
folosind caracterul spaţiu (sau orice caracter se doreşte) în cazul în care datele ocupă mai puţine
caractele decât lăţimea specificată pentru coloana respectivă.
4
Exemplu de fişier text în care lăţimea primei coloane este de 25 de caractere, celei de-a doua de
10 caractere şi cea de-a treia de 12 caractere.
Nume Judet Telefon
Popescu Maria VL 0250277189
Ionescu Damian DJ 0251767868
Diamandescu Victor DB 0245876590
Într-un fişier text delimitat fiecare linie de text reprezintă o înregistrare, iat câmpurile sunt
separate prin caractere cunoscute. Delimitatori frecvent utilizaţi sunt caracterul tab (\t) sau
diferite caractere de punctuaţie. Delimitatorul trebuie întotdeuna să fie un caracter care nu se
regăseşte în date.
Astfel de fişiere se pot crea facil folosind aplicaţii de calcul tabelar sau pentru baze de date (ex.
Microsoft Excel, Microsoft Access). Spre exemplu, în Excel: File –> Save AS, Text (Tab
delimited).
Considerăm un fişier text care conţine numele, prenumele şi vârsta persoanelor, delimitate prin
simbolul linie verticală (|):
Popescu|Maria|35
Ionescu|Damian|42
Diamandescu|Victor|29
Date compatibile cu standardul ODBC şi OLE DB
ODBC (Open DataBase Connectivity) este o metodă standard de accesare a bazelor de date care
permite accesul la orice date din cadrul oricărei aplicaţii, indiferent de sistemul de gestiune a
bazelor de date care gestionează datele. ODBC realizează acest lucru prin inserarea unui strat de
mijloc (middle layer), numit driver de baze de date, între aplicaţie şi SGBD. Scopul acestui strat
este de a transforma interogările de date ale aplicaţiei în comenzi pe care un SGBD le înţelege. În
acest sens, atât aplicaţia, cât şi SGBD-ul trebuie să fie compatibile ODBC, adică aplicaţia trebuie
să fie capabilă să genereze comenzi ODBC, iar SGBD-ul trebuie să fie capabil să răspundă la
acestea. OLE DB (Object Linking and Embedding, Database) este o interaţă API proiectată de
Microsoft pentru accesarea diferitelor tipuri de date stocate într-o manieră uniformă. OLE DB
include şi capabilităţile ODBC.
Tabele SAS, Foi de calcul Microsoft Excel, Fişiere dBase, Tabele HTML, Tabele Microsoft
Access
Tabele de date SAS
Pentru a putea fi accesate de SAS EG, datele trebuie să fie reprezentate în format tabelar (ca o
mulţime de linii şi coloane). O linie reprezintă o instanţă a unei entităţi. Entitatea poate fi un
produs, un client, o comandă sau orice alt lucru. Fiecare coloană descrie caracteristicile entităţii,
cum ar fi codul de identificare a unui produs, numele clientului sau cantitatea vândută.
Toate coloanele trebuie să aibă un nume, un tip şi o lungime. Numele pot avea o lungime de la 1
la 32 de caractere. Eticheta ataşată unei coloane poate avea lungimea de maxim 265 de caractere.
5
Unul dintre cele mai importante lucruri pe care trebuie să le ştiţi despre date este ce tip de date
conţine fiecare coloană (sau variabilă). SAS priveşte datele ca fiind fie de tip caracter, fie de tip
numeric. În cazul în care datele dintr-o coloană conţin doar litere, aceasta are date de tip caracter.
În cazul în care datele dintr-o coloană conţin numere, aceasta poate fi de tip caracter sau
numeric. Datele numerice sunt grupate în patru categorii de date, în funcţie de modul în care
acestea sunt afişate. Tabela arată ce simbol este asociat fiecărui tip de dată. Aceste pictograme
apar în titlurile de coloană ale tabelei de date. De asemenea, aceste pictograme se pot vedea
atunci când se rulează o prelucrare. Aceste simboluri constituie un indiciu despre modul în care
pot fi folosite coloanele sau varibilele în prelucrări.
Formate de afişare
Un format de afişare (Format) este o „instrucţiune” care se aplică unei coloane, indicând
produsului SAS Enterprise Guide cum să afişeze valorile datelor.
Formate de intrare
Formatele de intrare (Informat) sunt, de obicei, folosite pentru a citi într-o variabilă date din
surse externe numite fişiere flat (fişiere text, fişiere ASCII sau fişiere secvenţiale).
Notă: Fişierele flat conţin înregistrări între care nu există nici o interrelaţionare. Avantajul este
acela că ocupă mai mult spaţiu decât fişierele structurate. Totuşi, necesită ca aplicaţia care le
foloseşte să cunoască modul în care datele sunt orgaizate în fişier.
Formatele de intrare instruiesc aplicaţiile SAS despre modul în care trebuie să citească datele
într-o variabilă SAS. Sunt, de obicei, grupate în trei categorii: caracter, numeric şi dată/timp.
Formatele de intrare au următoarea sintaxă:
Formate de intrare caracter: $INFORMATw.
Formate de intrare numerice: INFORMATw.d
Formate de intare dată/timp: INFORMATw.
Semnificaţia simbolurilor folosite de formatele de intrare:
$ indică prezenţa unui caracter
w semnifică lăţimea unei variabile (în octeţi sau număr de coloane)
INFORMAT este un nume opţional de format de intrare SAS
d este folosit în cazul datelor numerice pentru a specifica numărul
de cifre ale părţii zecimale.
Toate formatele de intare trebuie să conţină punctul zecimal (.), astfel încât să se poată face
diferenţa între un format de intrare şi o variabilă SAS.
Valori lipsă
În SAS Enterprise Guide sunt multe funcţii care furnizează opţiuni pentru modul de manipulare a
valorilor lipsă, în scopul raportării sau analizei.
6
Accesarea datelor locale
Multe formate de fişiere care memorează date sub formă tabelară includ metadate ca parte a
tabelei. Metadatele reprezintă informaţii despre datele în sine, cum ar fi originea/sursa datelor,
dimensiunea sau formatul lor. Tabelele SAS, MS Access sau dBASE sunt exemple de fişiere
care conţin metadate stocate în interiorul lor. Atunci când accesează un astfel de fişier, SAS EG
poate accesa metadatele pentru a determina numele unei coloane, tipul (caracter sau numeric) şi
lungimea (dimensiunea). Există şi cîteva formate de fişiere, cum ar fi foile de calcul, tabelele
HTML sau fişierele text care nu conţin metadate. Pentru aceste tipuri de fişiere, SAS EG trebuie
să facă anumite deducţii referitoare la atributele fiecărei coloane. Implicit, SAS EG caută numele
coloanei în primul rând al fişierului şi analizează valorile stocate în câmpuri sau celule pentru a
stabili dacă o anumită coloană trebuie memorată ca şir de caractere sau ca număr. Dacă se
stabileşte că o coloană este de tip caracter, atunci lungimea ei este setată în mod automat ca fiind
255 (octeţi), care este numărul maxim de caractere permis de motorul de baze de date Microsoft
Jet