Master at Tt

57
1 CAP. 9. CUTAREA INFORMAIEI PE INTERNET Curs: Tehnologia informaiei în cercetare Mat. Gabriela MAILAT Ing. Corina POP Prof.dr.ing. Elena HELEREA

Transcript of Master at Tt

1

CAP. 9. C�UTAREA INFORMA�IEI PE INTERNET

Curs: Tehnologia informa�ieiîn cercetare

Mat. Gabriela MAILATIng. Corina POPProf.dr.ing. Elena HELEREA

2

CUPRINS

1. Introducere2. Ce este o „baz� de date Web” 3. Metode de indexare4. Programe de selectare5. Unelte pentru c�utarea informa�iei pe

internet6. Concluzii

3

Introducere

� World Wide Web, prescurtat WWW, este cea mai important� component� a Internetului.

� Este o interfa�� multimedia ce presupune posibilitatea accesului la surse ce includ grafice �i figuri, imagini, sunete �i filme –�bazate pe tehnologia hypertext.

� Leag� documentele între ele prin conexiuni, formând un p�ienjeni� (web).

4

� G�sirea documentelor pe Web este dificil�:– nu exist� un format standard de descriere

a resurselor din Internet– Exist� diferite instrumente de c�utare care

opereaz� în moduri diferite.

Nu este o metod� indicat� pentru reg�sirea informa�iilor referitoare la un anumit subiect.

Introducere

5

� Instrumentele de c�utare folosesc urm�toarele metode de reg�sire a informa�iilor: c�utarea dup� cuvinte cheie sau expresii, mecanismele booleene, proximitatea, trunchierea etc.

� Reg�sirea unei resurse folosind adresa (URL) este util� �i rapid� dar exist�posibilitatea modific�rii URL-ului datorit� caracterului dinamic al Internet-ului.

Introducere

6

Ce este o „baz� de date Web” (Web database) ?

O „baz� de date Web” este o list� organizat�de pagini web. O astfel de list� poate fiimaginat� ca un gigantic repertoar ce con�ineun “surogat” al fiec�rei pagini înregistrate înlist� (practic p�r�i mici din acea pagin�, cum ar fi titlul, antetul etc).

7

Ce este o „baz� de date Web” (Web database) ?

Crearea acestei liste cu surogate ale paginilor poart� numele de indexare �ifiecare baz� de date web o realizeaz� înstilul s�u caracteristic.

8

Ce este o „baz� de date Web” (Web database) ?

Pentru utilizatorul final, baza de date web furnizeaz� o interfa�� ce are ca �icaracteristic� fie

� un “câmp” special în care utilizatorul tasteaz�cuvintele dup� care va efectua c�utarea(vezi interfa�a cu utilizatorul de la Google),

� o list� cu “directoare” din care utilizatorulpoate alege leg�tura dorit� (vezi Yahoo directories).

9

Metode de indexare

Exist� dou� modalit��i mai importante de indexare a informa�iei în timpul gener�riibazelor de date web: – indexarea full-text– indexarea “manual�”.

10

Metode de indexare

Indexarea full-text se caracterizeaz� prinincluderea tuturor cuvintelor dintr-o pagin� înbaza de date pentru c�utare, cu ajutorul unorprograme speciale de calculator numite“p�ianjeni sau robo�i” (spiders sau robots). Altavista �i Google folosesc pe scar� larg�aceast� tehnic� de indexare.Indexarea full-text permite s� reg�sim toatereferirile la un anumit termen din documentulindexat.

11

Metode de indexare

Indexarea “manual�”În acest caz o persoan� examineaz� paginile ceurmeaz� a fi indexate �i decide asupra câtorvacuvinte (fraze) cheie ce descriu cel mai bineinforma�ia con�inut� în respectiva pagin�. Permite utilizatorului s� reg�seasc� mai multeleg�turi utile în urma c�ut�rii, tocmai pentru c�un om �i nu o ma�in� a ales cuvintele cheie ceau fost incluse în indexul bazei de date.

12

Metode de indexare

Aceast� tehnic� de indexare este folosit� încazul serviciilor de directoare de pe web(Yahoo directories sau Magellan).

13

Programe de selectare(Cum selecteaz� bazele de date web cepagini vor fi indexate ?)

Foarte multe servicii de c�utare folosescprograme automate, numite "spiders" sau"robots" (p�ianjeni sau robo�i), ce c�l�torescde la site la site ( = a se citi colec�íi de paginiweb) c�utând pagini WWW nou ap�rute saumodificate substan�ial.

14

Programe de selectare

Exist� trei clase de baze de date web:� baze de date ce monitorizeaz� TOATE categoriile

de pagini WWW ;� baze de date ce monitorizeaz� NUMAI paginile

WWW considerate populare (în principiu cele cu num�r mare de vizitatori);

� baze de date ce monitorizeaz� NUMAI paginileWWW ce îndeplinesc anumite criterii (legate fie de calitatea informa�iei furnizate, fie de tipul deinforma�ie urm�rit – ex. medical�, �tiin�ific�, �tiri etc).

15

Unelte pentru c�utarea informa�iei pe Internet

i. Motoare de c�utareii. Directoare web (anuare online, repertoare

tematice)iii. Biblioteci virtualeiv. Invisible (deep) Webv. Motoare de meta-c�utare (metasearch engine)vi. Utilitare de c�utare de tip desktop

16

Unelte pentru c�utarea informa�iei pe Internet

i. Motoare de c�utareUn motor de c�utare este definit ca un “serviciu” de reg�sire a informa�iilor stocate în bazele lor de date, care descrie principalele resurse din Web.

O alt� defini�ie:

17

Un motor de c�utare este o baz� de date con�inând pagini Web ce pot fi reg�site pebaza unor cuvinte cheie �i care continu� s�scaneze Internetul, cu ajutorul unorprograme automate (spiders, robots) înc�utare de pagini noi. Informa�ia rezultat� înurma activit��ii robo�ilor este apoi indexat� �istocat� în baza de date.

Unelte pentru c�utarea informa�iei pe Internet

18

� La lansarea unei c�ut�ri se exploreaz� de fapt con�inutul bazelor de date, în care sunt stocate informa�ii colectate automat de robo�i �i nu Web-ul în mod direct.

� Se recomand� utilizarea a cel pu�in dou� utilitare pentru aceea�i cerere formulat� datorit� modului propriu de func�ionare a fiec�rui motor de c�utare �i a paginilor web existente (diferite de la un utilitar la altul).

Unelte pentru c�utarea informa�iei pe Internet

19

Motoarele de c�utare se împart în dou� categorii: 1. Motoare care func�ioneaz� dup� modelul

directorului (arborelui de subiecte), de fapt dup� un ghid web în care loca�iile sunt organizate pe subiecte �i subsubiecte, într-o structur� ierarhic�, pornind de la un subiect general �i ajungând la subiecte cu caracter din ce în ce mai specifice.

Unelte pentru c�utarea informa�iei pe Internet

20

2. Motoare care func�ioneaz� dup� modelul indexului de c�utare, în cazul c�rora soft-urile sunt cale care efectueaz� c�utarea dup� cuvinte cheie, bazându-se pe tehnici de indexare computeriate, rezultatele ob�inute fiind prezentate într-una sau mai multe pagini web, care ofer� o list� de loca�ii aranjat� în ordinea probabilit��ii de potrivire a ceea ce se caut�.

Unelte pentru c�utarea informa�iei pe Internet

21

Unelte pentru c�utarea informa�iei pe Internet

Motoare de c�utare renumite:Google (www.google.com)AlltheWeb (www.alltheweb.com)MSN (www.msn.com)Teoma (www.teoma.com)AltaVista (www.altavista.com)WiseNut (www.wisenut.com)

22

Unelte pentru c�utarea informa�iei pe Internet

ii. Directoare web (anuare online, repertoaretematice)

Un serviciu de directoare web este o colec�ie de pagini Web selec�ionate �i organizate ierarhic încategorii de subiecte de c�tre un editor uman. Un concept mai selectiv este cel de bibliotec�virtual�, care este un director web ce include leg�turispre pagini cu informa�ie de înalt� specializare, pedomenii alese de editor.

23

Unelte pentru c�utarea informa�iei pe Internet

Serviciile de directoare acoper� �i indexeaz�o por�iune mult mai mic� din paginile WEB existente, comparativ cu motoarele de c�utare. Dar folosirea lor poate duce la reg�sirea unor rezultate ale c�ut�rii mult mairelevante pentru utilizator.

24

Unelte pentru c�utarea informa�iei pe Internet

Cele mai extinse servicii de directoare web indexeaz� cel mult câteva milioane de pagini, comparativ cu cele cîteva miliardeindexate de c�tre motoarele de c�utare maiimportante. Serviciile de directoare NU interogheaz� direct paginile WEB, ci caut� îninteriorul bazei lor de date. Rezultatul c�ut�riipoate duce la returnarea unor rezultate, care nu mai au relevan��.

25

Unelte pentru c�utarea informa�iei pe Internet

O serie de motoare de c�utare sunt de faptunelte hibride, fiind în acela�i timp atâtmotoare de c�utare cât �i servicii de directoare (Google™, de exemplu, unuldintre cele mai cunoscute motoare de c�utare, are �i un serviciu de directoare, bazat pe solu�ia Open Directory Project).

26

Unelte pentru c�utarea informa�iei pe Internet

Dintre serviciile de directoare web, maicunoscute sunt :

Yahoo! (www.yahoo.com)Google™ Directory (www.google.com)Open Directory Project (ODP) (http://dmoz.org)Zeal (www.zeal.com)JoeAnt (www.joeant.com)Gimpsy (www.gimpsy.com)

27

Unelte pentru c�utarea informa�iei pe Internet

Motoare de c�utare versus servicii de directoareCele� ���� ����� �� �����i de accesare a paginilor WEB� �������sesc în a�a numitele motoare de c�utare, respectiv în a�a numitele directoare web.

28

Unelte pentru c�utarea informa�iei pe Internet

Modalit��i de c�utare a informa�iei

Motoarele de c�utare permit utilizatorului s� foloseasc� orice termeni de c�utare (combina�ie de termeni) dore�te, motorul c�utând ace�ti termeni în baza de date �i returnând paginile care con�in aceste combina�ii de termeni.

29

Unelte pentru c�utarea informa�iei pe Internet

Servicii de directoare web

Serviciile de directoare web au paginileorganizate în baza de date pe subiecte.Paginile cu informa�ia dorit� pot fiselectate navigând prin acest arbore de directoare.

30

Unelte pentru c�utarea informa�iei pe Internet

Navigarea prin structura directoarelor webpoate fi un foarte bun început pentru c�utareainforma�iei dorite, cu condi�ia ca topicul ales safie considerat ca subiect pentru o arborescen�� de directoare.

31

Unelte pentru c�utarea informa�iei pe Internet

v

Site-ul Yahoo include atât un motor de c�utare cât �i un arbore de directoare web.Diferen�a fa�� de un motor de c�utareobi�nuit este dat� de faptul c� motorul de c�utare al Yahoo caut� cuvintele cheie doarîn interiorul directoarelor web din baza de date a Yahoo.

32

Unelte pentru c�utarea informa�iei pe Internet

Din acest motiv motorul de c�utare al site-ului poate fi folosit cel mult pentru a identificazona din arborele de directoare ce con�ineinforma�ia dorit�.

33

Unelte pentru c�utarea informa�iei pe Internet

Prezentarea rezultatelor

Odat� ce au fost introdu�i termenii de c�utare, serverul îi caut� în baza de date web indexat� �ireturneaz� lista cu rezultate. Din cauza multitudinii de leg�turi cu informa�ienerelevant� pentru utilizatorul ce a efectuatc�utarea, trebuie subliniate dou� concepte deosebitde importante în evaluarea listei cu rezultate ale c�ut�rii: rata de relevan�� (relevancy ranking),respectiv rezumatul (abstract) ce înso�e�te leg�turac�tre pagin�.

34

Unelte pentru c�utarea informa�iei pe Internet

Paginile g�site în urma c�ut�rii suntaproape întotdeauna prezentate înordinea relevan�ei lor, în conformitate cu termenii dup� care s-a efectuat c�utarea.

35

Unelte pentru c�utarea informa�iei pe Internet

În cazul celor mai multe servicii de c�utareweb se poate observa c� aproape fiecareleg�tur� spre o pagin� considerat� relevant�este înso�it� de un scurt rezumat al con�inutului, multe servicii recurgând chiar la sublinierea (îngo�area) termenilor folosi�i înrespectivul rezumat.

36

iii. Biblioteci virtualea) Biblioteci virtuale de „uz general”:

Librarians' Index to the Internet (www.lii.org)INFOMINE (www.infomine.com)Internet Public Library (www.ipl.org)The WWW Virtual Library (vlib.org)Academic Info (www.academicinfo.net)Internet Scout Project (scout.wisc.edu)BUBL Link (academic resources) (bubl.ac.uk/link/)

Unelte pentru c�utarea informa�iei pe Internet

37

b) Biblioteci virtuale de specialitate(orientate spre anumite domenii):

Project Gutenberg (www.gutenberg.org) - beletristic�National Academies Press (www.nap.edu) - �tiin��Free books for doctors (www.fb4d.com) - medicin�The free management library

(www.managementhelp.org) - management

Unelte pentru c�utarea informa�iei pe Internet

38

iv. Invisible (deep) Web

Reprezint� colec�ii de informa�ii online stocate în baze de date accesibile pe Web, dar care, din diferite motive, nu sunt indexatede motoarele de c�utare tradi�ionale. Acesteservicii pot fi întâlnite �i sub numele de servicii speciale de c�utare (specially search engines).

Unelte pentru c�utarea informa�iei pe Internet

39

ProFusion (www.profusion.com)Invisible-web (www.invisible-web.net)Complete Planet (www.completeplanet.com)Resource Discovery Network

(www.rdn.ac.uk)Direct Search

(http://www.freepint.com/gary/direct.htm) http://www.resourceshelf.com/

Unelte pentru c�utarea informa�iei pe Internet

40

v. Motoare de meta-c�utare(metasearch engine)

Un motor de meta-c�utare este o unealt� de c�utare care trimite cerea dumneavoastr�simultan c�tre mai multe motoare de c�utareclasice, servicii de directoare web �i uneorispre colec�ii de tip invisible web.

Unelte pentru c�utarea informa�iei pe Internet

41

Dup� colectarea rezultatelor c�ut�rii de la toateserviciile apelate, motoarele de meta-c�utare elimin�leg�turile aflate în duplicat �i, conform unui algoritmpropriu combin� rezultatele într-o singur� list�, acordându-le �i o rat� de relevan��.Majoritatea motoarelor de meta-c�utare iau înconsiderare numai primele 10-20 de leg�turi din listafurnizat� de fiecare motor de c�utare apelat, rezultatele c�ut�rii vor fi foarte bune, din punctul de vedere al relevan�ei.

Unelte pentru c�utarea informa�iei pe Internet

42

Motoarele de meta-c�utare NU au propriilebaze de date web, ci le folosesc pe cele ale serviciilor apelate. Motoarele de meta-c�utare nu permit înscrierea manual� a unei pagini (site) în bazade date.

Unelte pentru c�utarea informa�iei pe Internet

43

Unele dintre cele mai cunoscute motoare de meta-c�utare sunt:Metasearch (www.metasearch.com)ez2Find (www.ez2find.com)Vivisimo (www.vivisimo.com)MetaCrawler (www.metacrawler.com)InfoGrid (www.infogrid.com)Infonetware (www.infonetware.com)iBoogie (www.iboogie.tv)

Unelte pentru c�utarea informa�iei pe Internet

44

vi. Utilitare de c�utare de tip desktop

Un tip special de motoare de meta-c�utare suntutilitarele de c�utare de tip desktop (client side search software). Aceste utilitare sunt programe cepot fi desc�rcate de pe Internet �i instalate pepropriul calculator (local). Principiul lor de func�ionare este oarecum similar cu al motoarelor de meta-c�utare.

Unelte pentru c�utarea informa�iei pe Internet

45

Câteva dintre cele mai utilizate utilitare de acest fel sunt:Google Desktop (desktop.google.com)Copernic (www.copernic.com)Arrow Search (www.rt-software.co.uk/arrow_search/)WebFerret (www.ferretsoft.com/download.htm)ProtoSearch(www.npccenterprises.com/products/protosearch2.shtml)

Unelte pentru c�utarea informa�iei pe Internet

46

Motoarele de meta-c�utare sunt uneltecomplementare excelente, îns� datorit� unorconsiderente (num�r relativ mic de leg�turiluate în considerare de la fiecare serviciuapelat, imposibilitatea de a folosi eficienttehnici avansate de c�utare etc. ) NU pot elimina necesitatea folosirii unor motoare de c�utare clasice.

Unelte pentru c�utarea informa�iei pe Internet

47

CE UNELTE DE C�UTARE SE FOLOSESC ?1. Dac� cunoa�te�i exact ce tip de informa�ie dori�i

s� afla�i, este recomandat� folosirea motoarelorde c�utare. De exemplu pentru a g�si informa�ii despre pal sauwood pute�i folosi motoarele de c�utare, deoareceinforma�ia nu este suficient de specific� pentru a fisubiectul unui arbore de directoare, dar domeniuleste suficient de bine conturat pentru a nu finecesar� recurgerea la un motor de meta-c�utare.

Unelte pentru c�utarea informa�iei pe Internet

48

2. Dac� ve�i c�uta informa�ii despre un anumit termen sau o combina�ie de termeni �i dori�i o analiz� exhaustiv� a temei analizate, este de preferat recurgereala motoare de meta-c�utare, ce pot apelasimultan mai multe servicii web (10 -12 motoare de c�utare sau directoare web).De exemplu, c�utarea dup� termenulcomposite (vezi composite plates)

Unelte pentru c�utarea informa�iei pe Internet

49

3. Dac� dori�i s� c�uta�i informa�ii generale despresubiecte cu grad ridicat de popularitate, esteindicat� folosirea serviciilor de directoare web. Astfel dac� dori�i informa�ii despre industrial plants, este mult mai indicat s� folositi serviciul de directoare Yahoo, în care pute�i naviga cu u�urin��, informa�ia este bine organizat� �i exist� �i facilit��ide c�utare prin arborele de directoare.

Unelte pentru c�utarea informa�iei pe Internet

50

4. Dac� dori�i, informa�ii pertinente legate de anumite domenii ale literaturii, �tiin�eietc. este preferabil� folosirea serviciilor tip bibliotec� virtual�.

Unelte pentru c�utarea informa�iei pe Internet

51

5. Dimpotriv�, dac� dori�i informa�ii în timp real sau informa�ii al c�ror con�inut se schimb� dinamic (�tiri, prognoze meteo, mersul trenurilor) folosi�i baze de date web specializate (invisible or deep web).

Unelte pentru c�utarea informa�iei pe Internet

52

Mul�i dintre de�in�torii de servicii WEB au ales s� î�i diversifice activitatea furnizândmai multe servicii sub aceea�i interfa��utilizator.Astfel s-a cristalizat un nou concept, acela de PORTAL WEB.

Unelte pentru c�utarea informa�iei pe Internet

53

Portalul WebSub acest termen se în�elege în general un site WEB ce ofer� o gam� larg� de servicii �iresurse online, cum ar fi: e-mail, forumuri de discu�ii, motoare de c�utare, directoare web, comer� electronic etc. (a se vedeawww.yahoo.com, unul dintre cele maicunoscute servicii de c�utare, transformatîntr-un portal).

Unelte pentru c�utarea informa�iei pe Internet

54

Concluzii – Motoare de c�utare

Motoarele de c�utare sunt probabil cea mai utilizat� calede accesare a informa�iei stocate în bazele de date Web. Principalii pa�i necesari pentru a utiliza eficient un motor de c�utare sunt urm�torii:1. Formula�i-v� atent nevoia de informare. Încerca�i s�

face�i aceasta cât mai simplu �i specific cu putin��;2. “Sparge�i” cererea de mai sus într-o serie de termeni

de c�utare;3. G�si�i sinonime pentru fiecare termen identificat;

55

4. Atunci când este posibil, recurge�i la fraze (termenispecifica�i în ghilimele);

5. Combina�i sinonimele termenilor de c�utare prinintermediul operatorului OR �i lega�i aceste combina�iiprin intermediul operatorului AND;

6. Analiza�i circa 30 de rezultate înainte de a c�uta din nou;

7. Dac� este posibil, înainte de a reîncepe c�utarea, folosi�i pagini cu informa�ie similar� celei c�utatepentru a identifica noi termeni de c�utare �i sinonimeale acestora.

Concluzii – Motoare de c�utare

56

Concluzii – Directoare web

Directoarele Web sunt locuri excelente de pornire în c�utarea informa�iei pe Internet, cu condi�ia s� g�si�i un arbore de directoare care s� trateze tema c�utat� (subiectul dorit).

Dac� îns� tema c�utat� nu a fost selec�ionat�de editorul serviciului ca „r�d�cin�” pentru un arbore de directoare, este de preferat s�renun�a�i la folosirea acestui tip de serviciu de c�utare �i s� recurge�i la un motor de c�utare.

57

Ca regul� general� este recomandat s� v�începe�i c�utarea informa�iei pe Internet folosind un arbore de directoare �i s�recurge�i abia apoi, dac� este necesar, la un motor de c�utare, ce dispune de mult maimult� informa�ie indexat� în bazele de date, dar necesit� o experien�� mult mai mare din partea utilizatorului, pentru a putea fi utilizateficient.

Concluzii – Directoare web