Motoare de cautare
description
Transcript of Motoare de cautare
Motoare de cautare
Masterand: Valerian StanciuIISC
Profesor: Stefan Stancescu
2
CUPRINS
1. Introducere2. Motoare de cautare3. Web Crawling4. Indexare Web5. Interogari de cautare Web6. Concluzii
3
1. IntroducereSoftware proiectat pentru cautare de
informatii pe WWWPagini web, imagini, etcInitial cautau in site-uri FTP (fisiere share-
uite)Faciliteaza accesul si cautare ape InternetArchie: primul motor de cautare (Alan Emtage,
1990)Operatori booleeni: OR, AND, NOT
4
2. Motoare de cautare
5
Arhitectura unui motor de cautare
Proces front-end: se introduc cuvintele cheie, se parseaza cererea intr-o forma inteleasa de motorul de cautare, se cauta prin fisierele indexate, se returneaza rezultate, conform rankingului
Proces back-end: un spider realizeaza crawling, sunt parsate paginile si stocate sub forma de indecsi
6
Functionarea motoarelor de cautare
Stocheaza informatii despre multe pagini Web, regasite in codul HTML
Efectivitate: calitatea rezultatelorEficienta: timp de raspuns si cantitatea
rezultatelorCrawling, indexare, cautare
7
Functionarea motoarelor de cautare
Un crawler (spider) cauta paginileContinutul paginilor este parsat (titlurile
paginilor, continut, heading-uri, URL-uri, meta-tag-uri)
Indexul ajuta la gasirea rapida a informatiilor
Noi procese de crawling se fac periodic sau in timp real
8
3. Crawling
9
CrawlingDificultati in construirea unui crawler cu
adevarat eficient: design, I/O, robustete, flexibilitate
Detaliile acestora sunt pastrate secreteSe cauta cuvintele din pagina si locul unde au
fost gasitePuncte de plecare: servere foarte populare
10
CrawlingPolitica de selectie: care paginiPolitica de revizitare: cat de desPolitica de “politete”: pentru a evita
suprasolicitare paginilor prin cautarea URL-urilor
Politica de paralelizare: coordonarea crawler-elor distribuite
2005: 40-70% din Web era indexat
11
CrawlingParcurgere in latime (Breadth-first search):
Sunt parcurse intai nodurile de la nivelul curentPrin vizitarea unui link, se obtine acces la vecinii
acestuiaNu diferentiaza in functie de subiect sau calitate
Metoda PageRankInventata de Larry PageOfera ponderi link-urilor dintr-un set (WWW) pentru a
masura importanta relativaPageRank-ul unei pagini Web: probabilitatea ca printr-
un click random in WWW sa se acceseze acea pagina
12
4. IndexareColectarea, parsarea si stocarea datelorMajoritatea motoarelor de cautare: indexare
in intregime a textului documentelorIndexare: documente text, audio, video,
grafice, etcMetasearch engine: cauta in mai multe
motoare; nu stocheaza indecsi localiIndexare reduce foarte mult timpul de
cautare
13
Indexare inversata
Poate determina doar daca un cuvant se afla intr-o pagina web, nu ofera ranking documentelor gasite
Indexul inversat: matrice bidimensionala sparse (imprastiata)
O forma de hash table
Cuvinte Documente
Vaca Documentul 1, Documentul 3, Documentul 7
face Documentul 2, Documentul 4
muu Documentul 5
14
Indexare directa
Este mai bine sa se stocheze direct cuvintele din fiecare document
Este o lista de perechi documente-cuvinteAcest index se poate transforma in index inversat
prin gruparea perechilor dupa cuvinte
Document Cuvinte
Documentul 1 Vaca, face, muu
Documentul 2 Pisica, si, palaria
Documentul 3 Ana, are, mere
15
5. Interogari de cautare WebInterogari introduse de utilizatori in motoare
de cautare pentru a regasi informatii pe WWW
Pot avea operatori booleeni (AND, OR, NOT)Interogari informationale: subiect largInterogari navigationale: o pagina Web anumeInterogari tranzactionale: intentia de a indeplini o actiuneInterogari de conectivitate: referitoare la conectivitatea
grafului web indexat
16
6. ConcluziiO mica parte de termeni sunt folositi la
majoritatea cautarilorLungimea medie a interogarilor cresteGoogle ramane lider de piata (82.80% in
2011)Motoarele de cautare raman principala
“unealta” de navigare pe Internet SEO – Search Engine Optimization