Master at Tt
Transcript of Master at Tt
1
CAP. 9. C�UTAREA INFORMA�IEI PE INTERNET
Curs: Tehnologia informa�ieiîn cercetare
Mat. Gabriela MAILATIng. Corina POPProf.dr.ing. Elena HELEREA
2
CUPRINS
1. Introducere2. Ce este o „baz� de date Web” 3. Metode de indexare4. Programe de selectare5. Unelte pentru c�utarea informa�iei pe
internet6. Concluzii
3
Introducere
� World Wide Web, prescurtat WWW, este cea mai important� component� a Internetului.
� Este o interfa�� multimedia ce presupune posibilitatea accesului la surse ce includ grafice �i figuri, imagini, sunete �i filme –�bazate pe tehnologia hypertext.
� Leag� documentele între ele prin conexiuni, formând un p�ienjeni� (web).
4
� G�sirea documentelor pe Web este dificil�:– nu exist� un format standard de descriere
a resurselor din Internet– Exist� diferite instrumente de c�utare care
opereaz� în moduri diferite.
Nu este o metod� indicat� pentru reg�sirea informa�iilor referitoare la un anumit subiect.
Introducere
5
� Instrumentele de c�utare folosesc urm�toarele metode de reg�sire a informa�iilor: c�utarea dup� cuvinte cheie sau expresii, mecanismele booleene, proximitatea, trunchierea etc.
� Reg�sirea unei resurse folosind adresa (URL) este util� �i rapid� dar exist�posibilitatea modific�rii URL-ului datorit� caracterului dinamic al Internet-ului.
Introducere
6
Ce este o „baz� de date Web” (Web database) ?
O „baz� de date Web” este o list� organizat�de pagini web. O astfel de list� poate fiimaginat� ca un gigantic repertoar ce con�ineun “surogat” al fiec�rei pagini înregistrate înlist� (practic p�r�i mici din acea pagin�, cum ar fi titlul, antetul etc).
7
Ce este o „baz� de date Web” (Web database) ?
Crearea acestei liste cu surogate ale paginilor poart� numele de indexare �ifiecare baz� de date web o realizeaz� înstilul s�u caracteristic.
8
Ce este o „baz� de date Web” (Web database) ?
Pentru utilizatorul final, baza de date web furnizeaz� o interfa�� ce are ca �icaracteristic� fie
� un “câmp” special în care utilizatorul tasteaz�cuvintele dup� care va efectua c�utarea(vezi interfa�a cu utilizatorul de la Google),
� o list� cu “directoare” din care utilizatorulpoate alege leg�tura dorit� (vezi Yahoo directories).
9
Metode de indexare
Exist� dou� modalit��i mai importante de indexare a informa�iei în timpul gener�riibazelor de date web: – indexarea full-text– indexarea “manual�”.
10
Metode de indexare
Indexarea full-text se caracterizeaz� prinincluderea tuturor cuvintelor dintr-o pagin� înbaza de date pentru c�utare, cu ajutorul unorprograme speciale de calculator numite“p�ianjeni sau robo�i” (spiders sau robots). Altavista �i Google folosesc pe scar� larg�aceast� tehnic� de indexare.Indexarea full-text permite s� reg�sim toatereferirile la un anumit termen din documentulindexat.
11
Metode de indexare
Indexarea “manual�”În acest caz o persoan� examineaz� paginile ceurmeaz� a fi indexate �i decide asupra câtorvacuvinte (fraze) cheie ce descriu cel mai bineinforma�ia con�inut� în respectiva pagin�. Permite utilizatorului s� reg�seasc� mai multeleg�turi utile în urma c�ut�rii, tocmai pentru c�un om �i nu o ma�in� a ales cuvintele cheie ceau fost incluse în indexul bazei de date.
12
Metode de indexare
Aceast� tehnic� de indexare este folosit� încazul serviciilor de directoare de pe web(Yahoo directories sau Magellan).
13
Programe de selectare(Cum selecteaz� bazele de date web cepagini vor fi indexate ?)
Foarte multe servicii de c�utare folosescprograme automate, numite "spiders" sau"robots" (p�ianjeni sau robo�i), ce c�l�torescde la site la site ( = a se citi colec�íi de paginiweb) c�utând pagini WWW nou ap�rute saumodificate substan�ial.
14
Programe de selectare
Exist� trei clase de baze de date web:� baze de date ce monitorizeaz� TOATE categoriile
de pagini WWW ;� baze de date ce monitorizeaz� NUMAI paginile
WWW considerate populare (în principiu cele cu num�r mare de vizitatori);
� baze de date ce monitorizeaz� NUMAI paginileWWW ce îndeplinesc anumite criterii (legate fie de calitatea informa�iei furnizate, fie de tipul deinforma�ie urm�rit – ex. medical�, �tiin�ific�, �tiri etc).
15
Unelte pentru c�utarea informa�iei pe Internet
i. Motoare de c�utareii. Directoare web (anuare online, repertoare
tematice)iii. Biblioteci virtualeiv. Invisible (deep) Webv. Motoare de meta-c�utare (metasearch engine)vi. Utilitare de c�utare de tip desktop
16
Unelte pentru c�utarea informa�iei pe Internet
i. Motoare de c�utareUn motor de c�utare este definit ca un “serviciu” de reg�sire a informa�iilor stocate în bazele lor de date, care descrie principalele resurse din Web.
O alt� defini�ie:
17
Un motor de c�utare este o baz� de date con�inând pagini Web ce pot fi reg�site pebaza unor cuvinte cheie �i care continu� s�scaneze Internetul, cu ajutorul unorprograme automate (spiders, robots) înc�utare de pagini noi. Informa�ia rezultat� înurma activit��ii robo�ilor este apoi indexat� �istocat� în baza de date.
Unelte pentru c�utarea informa�iei pe Internet
18
� La lansarea unei c�ut�ri se exploreaz� de fapt con�inutul bazelor de date, în care sunt stocate informa�ii colectate automat de robo�i �i nu Web-ul în mod direct.
� Se recomand� utilizarea a cel pu�in dou� utilitare pentru aceea�i cerere formulat� datorit� modului propriu de func�ionare a fiec�rui motor de c�utare �i a paginilor web existente (diferite de la un utilitar la altul).
Unelte pentru c�utarea informa�iei pe Internet
19
Motoarele de c�utare se împart în dou� categorii: 1. Motoare care func�ioneaz� dup� modelul
directorului (arborelui de subiecte), de fapt dup� un ghid web în care loca�iile sunt organizate pe subiecte �i subsubiecte, într-o structur� ierarhic�, pornind de la un subiect general �i ajungând la subiecte cu caracter din ce în ce mai specifice.
Unelte pentru c�utarea informa�iei pe Internet
20
2. Motoare care func�ioneaz� dup� modelul indexului de c�utare, în cazul c�rora soft-urile sunt cale care efectueaz� c�utarea dup� cuvinte cheie, bazându-se pe tehnici de indexare computeriate, rezultatele ob�inute fiind prezentate într-una sau mai multe pagini web, care ofer� o list� de loca�ii aranjat� în ordinea probabilit��ii de potrivire a ceea ce se caut�.
Unelte pentru c�utarea informa�iei pe Internet
21
Unelte pentru c�utarea informa�iei pe Internet
Motoare de c�utare renumite:Google (www.google.com)AlltheWeb (www.alltheweb.com)MSN (www.msn.com)Teoma (www.teoma.com)AltaVista (www.altavista.com)WiseNut (www.wisenut.com)
22
Unelte pentru c�utarea informa�iei pe Internet
ii. Directoare web (anuare online, repertoaretematice)
Un serviciu de directoare web este o colec�ie de pagini Web selec�ionate �i organizate ierarhic încategorii de subiecte de c�tre un editor uman. Un concept mai selectiv este cel de bibliotec�virtual�, care este un director web ce include leg�turispre pagini cu informa�ie de înalt� specializare, pedomenii alese de editor.
23
Unelte pentru c�utarea informa�iei pe Internet
Serviciile de directoare acoper� �i indexeaz�o por�iune mult mai mic� din paginile WEB existente, comparativ cu motoarele de c�utare. Dar folosirea lor poate duce la reg�sirea unor rezultate ale c�ut�rii mult mairelevante pentru utilizator.
24
Unelte pentru c�utarea informa�iei pe Internet
Cele mai extinse servicii de directoare web indexeaz� cel mult câteva milioane de pagini, comparativ cu cele cîteva miliardeindexate de c�tre motoarele de c�utare maiimportante. Serviciile de directoare NU interogheaz� direct paginile WEB, ci caut� îninteriorul bazei lor de date. Rezultatul c�ut�riipoate duce la returnarea unor rezultate, care nu mai au relevan��.
25
Unelte pentru c�utarea informa�iei pe Internet
O serie de motoare de c�utare sunt de faptunelte hibride, fiind în acela�i timp atâtmotoare de c�utare cât �i servicii de directoare (Google™, de exemplu, unuldintre cele mai cunoscute motoare de c�utare, are �i un serviciu de directoare, bazat pe solu�ia Open Directory Project).
26
Unelte pentru c�utarea informa�iei pe Internet
Dintre serviciile de directoare web, maicunoscute sunt :
Yahoo! (www.yahoo.com)Google™ Directory (www.google.com)Open Directory Project (ODP) (http://dmoz.org)Zeal (www.zeal.com)JoeAnt (www.joeant.com)Gimpsy (www.gimpsy.com)
27
Unelte pentru c�utarea informa�iei pe Internet
Motoare de c�utare versus servicii de directoareCele� ���� ����� �� �����i de accesare a paginilor WEB� �������sesc în a�a numitele motoare de c�utare, respectiv în a�a numitele directoare web.
28
Unelte pentru c�utarea informa�iei pe Internet
Modalit��i de c�utare a informa�iei
Motoarele de c�utare permit utilizatorului s� foloseasc� orice termeni de c�utare (combina�ie de termeni) dore�te, motorul c�utând ace�ti termeni în baza de date �i returnând paginile care con�in aceste combina�ii de termeni.
29
Unelte pentru c�utarea informa�iei pe Internet
Servicii de directoare web
Serviciile de directoare web au paginileorganizate în baza de date pe subiecte.Paginile cu informa�ia dorit� pot fiselectate navigând prin acest arbore de directoare.
30
Unelte pentru c�utarea informa�iei pe Internet
Navigarea prin structura directoarelor webpoate fi un foarte bun început pentru c�utareainforma�iei dorite, cu condi�ia ca topicul ales safie considerat ca subiect pentru o arborescen�� de directoare.
31
Unelte pentru c�utarea informa�iei pe Internet
v
Site-ul Yahoo include atât un motor de c�utare cât �i un arbore de directoare web.Diferen�a fa�� de un motor de c�utareobi�nuit este dat� de faptul c� motorul de c�utare al Yahoo caut� cuvintele cheie doarîn interiorul directoarelor web din baza de date a Yahoo.
32
Unelte pentru c�utarea informa�iei pe Internet
Din acest motiv motorul de c�utare al site-ului poate fi folosit cel mult pentru a identificazona din arborele de directoare ce con�ineinforma�ia dorit�.
33
Unelte pentru c�utarea informa�iei pe Internet
Prezentarea rezultatelor
Odat� ce au fost introdu�i termenii de c�utare, serverul îi caut� în baza de date web indexat� �ireturneaz� lista cu rezultate. Din cauza multitudinii de leg�turi cu informa�ienerelevant� pentru utilizatorul ce a efectuatc�utarea, trebuie subliniate dou� concepte deosebitde importante în evaluarea listei cu rezultate ale c�ut�rii: rata de relevan�� (relevancy ranking),respectiv rezumatul (abstract) ce înso�e�te leg�turac�tre pagin�.
34
Unelte pentru c�utarea informa�iei pe Internet
Paginile g�site în urma c�ut�rii suntaproape întotdeauna prezentate înordinea relevan�ei lor, în conformitate cu termenii dup� care s-a efectuat c�utarea.
35
Unelte pentru c�utarea informa�iei pe Internet
În cazul celor mai multe servicii de c�utareweb se poate observa c� aproape fiecareleg�tur� spre o pagin� considerat� relevant�este înso�it� de un scurt rezumat al con�inutului, multe servicii recurgând chiar la sublinierea (îngo�area) termenilor folosi�i înrespectivul rezumat.
36
iii. Biblioteci virtualea) Biblioteci virtuale de „uz general”:
Librarians' Index to the Internet (www.lii.org)INFOMINE (www.infomine.com)Internet Public Library (www.ipl.org)The WWW Virtual Library (vlib.org)Academic Info (www.academicinfo.net)Internet Scout Project (scout.wisc.edu)BUBL Link (academic resources) (bubl.ac.uk/link/)
Unelte pentru c�utarea informa�iei pe Internet
37
b) Biblioteci virtuale de specialitate(orientate spre anumite domenii):
Project Gutenberg (www.gutenberg.org) - beletristic�National Academies Press (www.nap.edu) - �tiin��Free books for doctors (www.fb4d.com) - medicin�The free management library
(www.managementhelp.org) - management
Unelte pentru c�utarea informa�iei pe Internet
38
iv. Invisible (deep) Web
Reprezint� colec�ii de informa�ii online stocate în baze de date accesibile pe Web, dar care, din diferite motive, nu sunt indexatede motoarele de c�utare tradi�ionale. Acesteservicii pot fi întâlnite �i sub numele de servicii speciale de c�utare (specially search engines).
Unelte pentru c�utarea informa�iei pe Internet
39
ProFusion (www.profusion.com)Invisible-web (www.invisible-web.net)Complete Planet (www.completeplanet.com)Resource Discovery Network
(www.rdn.ac.uk)Direct Search
(http://www.freepint.com/gary/direct.htm) http://www.resourceshelf.com/
Unelte pentru c�utarea informa�iei pe Internet
40
v. Motoare de meta-c�utare(metasearch engine)
Un motor de meta-c�utare este o unealt� de c�utare care trimite cerea dumneavoastr�simultan c�tre mai multe motoare de c�utareclasice, servicii de directoare web �i uneorispre colec�ii de tip invisible web.
Unelte pentru c�utarea informa�iei pe Internet
41
Dup� colectarea rezultatelor c�ut�rii de la toateserviciile apelate, motoarele de meta-c�utare elimin�leg�turile aflate în duplicat �i, conform unui algoritmpropriu combin� rezultatele într-o singur� list�, acordându-le �i o rat� de relevan��.Majoritatea motoarelor de meta-c�utare iau înconsiderare numai primele 10-20 de leg�turi din listafurnizat� de fiecare motor de c�utare apelat, rezultatele c�ut�rii vor fi foarte bune, din punctul de vedere al relevan�ei.
Unelte pentru c�utarea informa�iei pe Internet
42
Motoarele de meta-c�utare NU au propriilebaze de date web, ci le folosesc pe cele ale serviciilor apelate. Motoarele de meta-c�utare nu permit înscrierea manual� a unei pagini (site) în bazade date.
Unelte pentru c�utarea informa�iei pe Internet
43
Unele dintre cele mai cunoscute motoare de meta-c�utare sunt:Metasearch (www.metasearch.com)ez2Find (www.ez2find.com)Vivisimo (www.vivisimo.com)MetaCrawler (www.metacrawler.com)InfoGrid (www.infogrid.com)Infonetware (www.infonetware.com)iBoogie (www.iboogie.tv)
Unelte pentru c�utarea informa�iei pe Internet
44
vi. Utilitare de c�utare de tip desktop
Un tip special de motoare de meta-c�utare suntutilitarele de c�utare de tip desktop (client side search software). Aceste utilitare sunt programe cepot fi desc�rcate de pe Internet �i instalate pepropriul calculator (local). Principiul lor de func�ionare este oarecum similar cu al motoarelor de meta-c�utare.
Unelte pentru c�utarea informa�iei pe Internet
45
Câteva dintre cele mai utilizate utilitare de acest fel sunt:Google Desktop (desktop.google.com)Copernic (www.copernic.com)Arrow Search (www.rt-software.co.uk/arrow_search/)WebFerret (www.ferretsoft.com/download.htm)ProtoSearch(www.npccenterprises.com/products/protosearch2.shtml)
Unelte pentru c�utarea informa�iei pe Internet
46
Motoarele de meta-c�utare sunt uneltecomplementare excelente, îns� datorit� unorconsiderente (num�r relativ mic de leg�turiluate în considerare de la fiecare serviciuapelat, imposibilitatea de a folosi eficienttehnici avansate de c�utare etc. ) NU pot elimina necesitatea folosirii unor motoare de c�utare clasice.
Unelte pentru c�utarea informa�iei pe Internet
47
CE UNELTE DE C�UTARE SE FOLOSESC ?1. Dac� cunoa�te�i exact ce tip de informa�ie dori�i
s� afla�i, este recomandat� folosirea motoarelorde c�utare. De exemplu pentru a g�si informa�ii despre pal sauwood pute�i folosi motoarele de c�utare, deoareceinforma�ia nu este suficient de specific� pentru a fisubiectul unui arbore de directoare, dar domeniuleste suficient de bine conturat pentru a nu finecesar� recurgerea la un motor de meta-c�utare.
Unelte pentru c�utarea informa�iei pe Internet
48
2. Dac� ve�i c�uta informa�ii despre un anumit termen sau o combina�ie de termeni �i dori�i o analiz� exhaustiv� a temei analizate, este de preferat recurgereala motoare de meta-c�utare, ce pot apelasimultan mai multe servicii web (10 -12 motoare de c�utare sau directoare web).De exemplu, c�utarea dup� termenulcomposite (vezi composite plates)
Unelte pentru c�utarea informa�iei pe Internet
49
3. Dac� dori�i s� c�uta�i informa�ii generale despresubiecte cu grad ridicat de popularitate, esteindicat� folosirea serviciilor de directoare web. Astfel dac� dori�i informa�ii despre industrial plants, este mult mai indicat s� folositi serviciul de directoare Yahoo, în care pute�i naviga cu u�urin��, informa�ia este bine organizat� �i exist� �i facilit��ide c�utare prin arborele de directoare.
Unelte pentru c�utarea informa�iei pe Internet
50
4. Dac� dori�i, informa�ii pertinente legate de anumite domenii ale literaturii, �tiin�eietc. este preferabil� folosirea serviciilor tip bibliotec� virtual�.
Unelte pentru c�utarea informa�iei pe Internet
51
5. Dimpotriv�, dac� dori�i informa�ii în timp real sau informa�ii al c�ror con�inut se schimb� dinamic (�tiri, prognoze meteo, mersul trenurilor) folosi�i baze de date web specializate (invisible or deep web).
Unelte pentru c�utarea informa�iei pe Internet
52
Mul�i dintre de�in�torii de servicii WEB au ales s� î�i diversifice activitatea furnizândmai multe servicii sub aceea�i interfa��utilizator.Astfel s-a cristalizat un nou concept, acela de PORTAL WEB.
Unelte pentru c�utarea informa�iei pe Internet
53
Portalul WebSub acest termen se în�elege în general un site WEB ce ofer� o gam� larg� de servicii �iresurse online, cum ar fi: e-mail, forumuri de discu�ii, motoare de c�utare, directoare web, comer� electronic etc. (a se vedeawww.yahoo.com, unul dintre cele maicunoscute servicii de c�utare, transformatîntr-un portal).
Unelte pentru c�utarea informa�iei pe Internet
54
Concluzii – Motoare de c�utare
Motoarele de c�utare sunt probabil cea mai utilizat� calede accesare a informa�iei stocate în bazele de date Web. Principalii pa�i necesari pentru a utiliza eficient un motor de c�utare sunt urm�torii:1. Formula�i-v� atent nevoia de informare. Încerca�i s�
face�i aceasta cât mai simplu �i specific cu putin��;2. “Sparge�i” cererea de mai sus într-o serie de termeni
de c�utare;3. G�si�i sinonime pentru fiecare termen identificat;
55
4. Atunci când este posibil, recurge�i la fraze (termenispecifica�i în ghilimele);
5. Combina�i sinonimele termenilor de c�utare prinintermediul operatorului OR �i lega�i aceste combina�iiprin intermediul operatorului AND;
6. Analiza�i circa 30 de rezultate înainte de a c�uta din nou;
7. Dac� este posibil, înainte de a reîncepe c�utarea, folosi�i pagini cu informa�ie similar� celei c�utatepentru a identifica noi termeni de c�utare �i sinonimeale acestora.
Concluzii – Motoare de c�utare
56
Concluzii – Directoare web
Directoarele Web sunt locuri excelente de pornire în c�utarea informa�iei pe Internet, cu condi�ia s� g�si�i un arbore de directoare care s� trateze tema c�utat� (subiectul dorit).
Dac� îns� tema c�utat� nu a fost selec�ionat�de editorul serviciului ca „r�d�cin�” pentru un arbore de directoare, este de preferat s�renun�a�i la folosirea acestui tip de serviciu de c�utare �i s� recurge�i la un motor de c�utare.
57
Ca regul� general� este recomandat s� v�începe�i c�utarea informa�iei pe Internet folosind un arbore de directoare �i s�recurge�i abia apoi, dac� este necesar, la un motor de c�utare, ce dispune de mult maimult� informa�ie indexat� în bazele de date, dar necesit� o experien�� mult mai mare din partea utilizatorului, pentru a putea fi utilizateficient.
Concluzii – Directoare web