CLIW 2014—2015 (6/12): Căutarea resurselor Web

200
Dr. Sabin Buragawww.purl.org/net/busaco Dezvoltarea aplicațiilor Web la nivel de client (re)găsirea resurselor Web de la motoare de căutare și SEO la date structurate

Transcript of CLIW 2014—2015 (6/12): Căutarea resurselor Web

Page 1: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Dezvoltarea aplicațiilor Webla nivel de client

(re)găsirea resurselor Web

de la motoare de căutare și SEO la date structurate

Page 2: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

“A well-defined problem is half solved.”

Michael Osborne

Page 3: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum prezentăm conținutulaltor clienți – diferiți de cei umani?

Page 4: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Am putea recurge la extragerea automatăa datelor expuse pe Web?

Page 5: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

spiders, crawlers, Web bots

Page 6: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

robot Web navigator Web

Page 7: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Roboți

pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite

acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de

legăturile existente în cadrul reprezentării

Page 8: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Roboți

pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite

acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de

legăturile existente în cadrul reprezentării

acțiuni: extragere, copiere, sumarizare,agregare de conținut, monitorizare etc.

Page 9: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Operarea în foc rapid (rapid-fire)

trafic de rețea

supraîncărcarea serverelor Webdenial of service

Page 10: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

Page 11: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

necesitatea specificării timpului de revizitare a situluide către robotul Web

<meta name="Revisit-After" content="30 Days" />

Page 12: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Exploatarea (ne)controlată de către utilizatori

atacuri „brute”

Page 13: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Intrarea în „găurile negre”

Page 14: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Accesarea unor date nerelevante

Page 15: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

uzual, va fi folosit câmpul User-Agent

din antetul unei cereri HTTP

Page 16: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

19539 de roboți Web – statistica din 2013Alexa (7004), Bing/MSN (100), Facebook (60),

Googlebot (6085), Twitter (84) + neidentificați (374730) conform www.botsvsbrowsers.com

search engines51%

scrapers8%

hacking tools7%

spammers1%

others33%

Page 17: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți personali(e.g., motoare experimentale, software de oglindire)

BackRub (pre-Google)wget – http://www.gnu.org/software/wget/

etc.

Page 18: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți ai motoarelor de căutare majore

Baiduspider – www.baidu.com/search/spider.html

bingbot – www.bing.com/bingbot.htm

Googlebot – www.google.com/bot.html

Slurp – http://help.yahoo.com/help/us/ysearch/slurp

YandexBot – yandex.com/bots

Page 19: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți specializați(e.g., validarea codului HTML, scurtarea lungimii

URL-urilor, scanare de vulnerabilități, statistici,…)

exemplificări: citeseerxbot,Page2RSS, extensii Nagios, W3C Validator

Page 20: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

173.199.116.75 - - [11/Dec/2012:00:46:02 +0200] "GET /~web/2012/ HTTP/1.1" 404 193 "-" "Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)"

180.76.5.101 - - [11/Dec/2012:06:50:09 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

98.137.206.250 - - [11/Dec/2012:11:08:25 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"

207.46.199.167 - - [11/Dec/2012:11:08:26 +0200] "GET ....jpg HTTP/1.1" 200 3394 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"

66.249.75.44 - - [11/Dec/2012:11:12:26 +0200] "GET ….png HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"

178.154.174.252 - - [11/Dec/2012:11:22:05 +0200] "GET … HTTP/1.1" 301 206 "-""Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)“

66.249.75.22 - - [11/Dec/2012:11:30:47 +0200] "GET /~seminar/… HTTP/1.1" 200 683 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

66.249.75.44 - - [11/Dec/2012:11:29:51 +0200] "GET … HTTP/1.1" 200 1104 "-" "Mozilla/5.0 (iPhone; U; en-us) … Mobile/8B117 (compatible; Googlebot-Mobile/2.1)"

65.55.24.244 - - [11/Dec/2012:11:31:46 +0200] "GET /mw/index.php HTTP/1.1" 200 4408 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)“

78.46.238.220 - - [11/Dec/2012:11:33:32 +0200] "GET /~cyp/test HTTP/1.1" 200 6 "-""check_http/v1.4.15 (nagios-plugins 1.4.15)"

128.30.52.70 - - [11/Dec/2012:12:02:14 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "W3C_Validator/1.3"

cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)

Page 21: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum putem „instrui” roboții Websă nu viziteze anumite zone ale sitului?

Page 22: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

Page 23: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

detalii la http://www.robotstxt.org/robotstxt.html

Page 24: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

# /robots.txt pentru http://www.info.uaic.ro User-agent: * # toți roboții Crawl-delay: 20 # 20 sec. între cereriDisallow: /tmp/ # date temporareDisallow: /xwiki/bin/xmlrpc/ # director privat

Page 25: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

de studiat câteva exemple reale:http://www.amazon.com/robots.txt

http://facebook.com/robots.txt

http://www.google.com/robots.txt

Page 26: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

evitarea indexării conținutului:

<meta name="robots" content="noindex, nofollow" />

Page 27: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Ce activități realizează un motor de căutare?

Page 28: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Scop:localizarea resurselor existente pe Web

Page 29: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera tradițională:

pe bază de indecși (crawling & indexing)

Lycos – 1994AltaVista – 1995

Page 30: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera tradițională:

pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)

Yahoo! – Yet Another Hierarchical Officious Oracle1994

Page 31: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera tradițională:

hibrideindecși + taxonomiiportal Web

Excite – 1994

Page 32: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera tradițională:

pe baza legăturilor hipertext(hyperlink analysis)

Google – 1996

Page 33: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera modernă:

pe baza datelor structurate(determinare și extragere de meta-date & concepte)

Microsoft Satori Entity Engine (bazat pe Trinity)http://research.microsoft.com/en-us/projects/trinity/

Google Knowledge Graph (utilizează Freebase, Wikipedia)www.google.com/insidesearch/features/search/knowledge.html

Page 34: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului

(user information-seeking)

Page 35: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Localizarea & indexarea resurselor se pot realiza:

automat – via roboți Webmanual – recurgând la experți umani

hibrid

Page 36: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Localizarea & indexarea resurselor

strategii:data/relation mining

topic distillationmeta-data search

social search…

Page 37: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

scop

căutarea oricărei resurse existente

Page 38: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

viteză

rezultatele să fie disponibile imediat

direcție de interes major: real-time Web search

Page 39: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

disponibilitate

actualizarea permanentă(orice modificare să fie indexată „instantaneu”)

Page 40: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

recall

găsirea tuturor resurselor relevantepentru o cerere dată

Page 41: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

precizie

rezultatul conține doar documente relevante

Page 42: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

ranking

cele mai relevante documentesunt plasate primele

Page 43: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Care sunt principalele componenteale unui motor de căutare?

Page 44: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Robot Webextrage informații

Index (catalog)stochează – în mod persistent – (meta)date

despre resursele existente pe Web

Mecanism de evaluare (ranking)pe baza cererii utilizatorului, oferă răspunsuri

Page 45: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Diferențele dintre motoarele de căutare actualesunt date de fiecare componentă în parte

Page 46: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

structura generică a unui motor de căutare(Chakrabarti, 2003)

Page 47: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Activitatea generală a unui robot (crawler) simplu:

F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p

dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată

adaugă v la F

Page 48: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Bazată pe învățare

data mining

(de exemplu, reinforcement learning)

detalii la master

Page 49: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Conținutul ce trebuie indexat nu e doar textual

hiper-informația:INFORMATION = HYPERINFO + TEXTINFO

dependența de legături

ordonarea legăturilor(alegerea unor criterii vizând importanța)

Page 50: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată

sau doar verificată

Page 51: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

rezoluția adreselor Web(nume de domeniiadrese IP)

DNS caching, pre-fetching & resolution

Page 52: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

realizarea cererilor concurente

Page 53: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

extragerea legăturilor

e.g., normalizarea URI-urilor:www.InfoIasi.Ro:80www.info.uaic.ro

Page 54: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

eliminarea adreselor deja vizitate

evitarea „găurilor negre”

Page 55: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

monitorizarea accesărilor

load monitoring & managing(evitarea supra-solicitării serverelor Web)

Page 56: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

strategii de revizitare/reîmprospătarea conținutului resurselor Web

Page 57: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

Page 58: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

modele non-relaționale de stocare – „mișcarea” NoSQL

printre primele abordări: BigTable (Chang et al., 2006)http://labs.google.com/papers/bigtable.html

Page 59: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

arhivarea datelor indexate

e.g., recurgerea la algoritmul de compresie bzip2(cazul Google)

Page 60: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum se realizează indexarea?

Page 61: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor

e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări,…

Page 62: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Indexare bazată pe cuvinte-cheierelevanță, plasament, meta-date,...

versus

indexare semantică – bazată pe concepteAtom/RSS, social tagging,

microformate, microdate HTML5, Web semantic (RDF, RDFa),...

Page 63: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

O importanță mare o au: maniera de structurare a informației și„relația” unei pagini cu altele înrudite

Page 64: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Cererile sunt formulate via o interfață Web

Page 65: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Cererile sunt formulate via o interfață Web

unele motoare de căutare acceptăfolosirea unor operatori specifici

Page 66: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Cererile sunt formulate via o interfață Web

exemplificare: o parte dintre operatorii Google

"expresie" ~termen –termen

numar1 .. numar2 related: URL cache: URL

intitle: termen(i) intext: termen(i) inurl: termen(i)

link: URL site: domeniu info: domeniu

define: termen filetype: extensie unit1 in unit2

detalii la www.googleguide.com/advanced_operators_reference.html

Page 67: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

digital camera $700 .. 1400

~book

Apache logo filetype: png

intitle: design –intitle: web

"burse de merit" site: uaic.ro inurl: edit

Page 68: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

grad mare de subiectivitate

e.g., “miserable failure”

Page 69: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

depind de contextul social/cultural

exemple:“pants” în UK versus US

“madonna and child”

Page 70: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

dependente de scop

informațional (listă, locație, sfat)

navigațional

vizând accesarea resurselor(download, amuzament, interactivitate,…)

Page 71: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Remarci:

utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”

exemplu:“hotels located in Bucharest and Iasi”

Page 72: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Remarci:

interogările uzual sunt scurte (media: 2,6 cuvinte),dar focalizate – e.g., 25% pe business (conform Yahoo!)

vezi și http://labs.yahoo.com/publication/?area=web-mining-search

Page 73: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Remarci:

apar confuzii:URI vs. text,

lipsa spațiilor,vocabular

etc.

Page 74: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Remarci:

implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web

e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”

motoare: interogarea

Page 75: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Interogări formulate în limbaj natural:

eliminarea ambiguităților (dezambiguizarea)

filtrarea cuvintelor nerelevante

expandarea interogării: sinonime, forme derivate,…

Page 76: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Evaluarea cererii – schema generală:1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor & sortarea6. Afișarea primelor N documente relevante

(URI + alte informații)

Page 77: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Conținutul fiecărui document extraseste analizat și divizat în token-uri

Page 78: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Unele construcții se ignoră/constrâng

e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”

procesare de bază a conținutului textual

Page 79: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Fiecărui token i se reține și poziția aparițieiîn document

poziția poate fi folosităla determinarea relevanței termenului

Page 80: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe clasificare umană

resurse clasificate de oameni

Page 81: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe informații privitoarela utilizarea unei resurse

timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.

Page 82: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe conectivitate

analiza relațiilor (legăturilor hipertext) cu alte pagini

eventual, în funcție de reputațiee.g., importanța domeniului Internet

(sunt luați în calcul factori ca vechimea, localizarea,…)

Page 83: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Calculul relevanței:

tehnici privind IR (Information Retrieval)

cautări bazate pe similaritate – similarity search

cautări bazate pe învățare automată (machine learning)

clasificarea conținutului hipermedia

social network analysis – bibliometrie, prestigiu,…

Page 84: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)

evaluarea relevanței pe baza contextului de apariție

Page 85: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)

exploatarea relațiilor dintre diferite pagini Web

Page 86: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)

recurgerea la tehnici adaptive, euristice

Page 87: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)

determinarea corelației dintre relevanța calculatăautomat de sistem și cea precizată (in)direct

de către utilizator

Page 88: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)(Larry Page & Sergey Brin, 1996 – doctorat la Stanford)

se baza inițial pe structura hipertext

o legătură de la pagina A la B reprezintăun vot dat paginii B de către A

cu cât un sit este mai important,cu atât page rank-ul asociat lui e mai mare

Page 89: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Alternative la Page Rank:

TrustRank (Friesen, 2007)

folosește domenii Web de încredere selectate de oameni

Page 90: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Alternative la Page Rank:

TrustRank (Friesen, 2007)

cu cât un sit e mai aproape (în termeni de legături Web)de siturile evaluate și considerate de încredere

de către oameni, cu atât va avea o importanță mai mare

vizează un sit (domeniu), nu o pagină Web

Page 91: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Alternative la Page Rank:

utilizarea tehnologiilor Web-ului semantic

se iau în considerație concepte (cunoștințe), nu cuvinte

Page 92: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Evifolosirea

inferențelorpentru

a răspunde la întrebările

utilizatorului

Page 93: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

perioadă de timp strategie

înainte de 2000conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)

2000—2010conținutautoritate (via legături)

2010—prezent

conținutautoritatepersonalizare (social media +informații personale)

2012—prezent

conținutautoritatepersonalizareconcepte (date-structurate + Web of data)

adaptare după (K. Bodnar & J. Hopkins, 2011)

Page 94: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,…

regionaleBaidu (China), Daum (Coreea), Goo (Japonia),

Guruji (India), Rambler (Rusia) etc.

meta-căutare Dogpile, Excite, Mamma, Yippy

enterprise search Apache Solr, ElasticSearch, OpenSearchServer,…

răspunsuri(answer-based)

umane: Stack Overflow, Yahoo! Answers, Quora

automate: AskMeNow, Evi, Wolfram Alpha

news search BingNews, Daylife, Topix, Yahoo! News,…

hărți (maps) Nokia HERE, OpenStreetMap, WikiMapia etc.

cod-sursă Google Code Search, Koders, Krugle

căutare pe baza P2P FAROO, Seeks, YaCy

desktop search DocFetcher, Recoll, Tropes Zoom

pentru dezvoltatori: Apache Lucene, Apache Nutch, mnoGoSearch, Namazu, Xapian,…

Page 95: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

2056 de API-uri (7 noiembrie 2014)privind căutarea resurselor Web:

http://www.programmableweb.com/category/search

Page 96: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motoarele tind să „recompenseze” siturile:

de mari dimensiuni

cu viață lungă

specializate, de „nișă”

aparținând unor autorități de încredere

motoare: interogarea

Page 97: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

SERP (Search Engine Result Page)

specifică maniera de redare a rezultateloroferite de motorul de căutare

motoare: afișarea rezultatelor

Page 98: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

SERP (Search Engine Result Page)

se includ recomandări pe baza:preferințelor utilizatorului

istoricului căutărilorURL-urilor partajate via rețele sociale

meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocației geografice (local search)

motoare: afișarea rezultatelor

Page 99: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

“At any one time you rank #1 or #8 or #40based on who is searching, where they search,

and what is happening.”

K. Bodnar & J. Hopkins, 2011

Page 100: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum putem proiectamijloacele de căutare internă?

Page 101: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

oferirea de sugestii utilizatorului

e.g., spelling suggestions,sinonime (car automobile, truck,…)

Page 102: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

sugestii de soluții

de exemplu, răspunsuri la cele mai frecvente întrebări

Page 103: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

îmbunătățirea interacțiunii – utilizabilitatea

integrarea în designul general al sitului

tactici: oferirea unui următor pas de realizat(mai ales când nu există rezultate),

sugestii privind căutarea, exemple, rafinarea cererii etc.

Page 104: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Page 105: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

în pagina de redare a rezultatelor, va fi afișată șiinterogarea inițială, cu posibilitatea modificării ei

oferirea a cel puțin N rezultate/pagină +indicarea numărului total de pagini de rezultate

sau încărcarea progresivă a următoarelor rezultate

Page 106: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

calitatea rezultatelor oferite e dependentăși de modul de structurare a datelor

fiecare rezultat să includă informații utilefolosirea unui vocabular înțeles de către vizitator,

utilizarea unor tehnici de vizualizare intuitivă,facilitarea filtrării & sortării datelor etc.

Page 107: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Page 108: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

utilizatorul să aibă libertatea de a efectuaoricând o nouă interogare

evitarea „fundăturilor” – oferirea de ajutor, sugestii,…

Page 109: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum trebuie scris codul HTMLpentru a obține o relevanță bună a conținutului?

Page 110: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

SEO – Search Engine Optimization

suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate

a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate

cu un instrument de căutare

Page 111: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă a documentelor Web

Structurarea conținutului

Structurarea legăturilor cu alte pagini

Page 112: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

documentul trebuie să fie bine-formatat

Page 113: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

includerea de meta-date:în antet – elementul <meta />

conținut textual alternativ pentru imagini(<img alt="..." />), multimedia, legături (<a title="...">),

tabele (<table summary="...">) etc.

atașarea de meta-date externe via elementul <link />

Page 114: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

a nu se folosi:cadre (frame-uri)

sauelemente învechite sau proprietare

(e.g., <blink> ori <marquee>)

Page 115: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

conținutul primează (“content is king”)

alegerea judicioasă a cuvintelor-cheie în <meta>

criterii: relevanță, densitate, internaționalizare

o importanță majoră o are titlul paginii

Page 116: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

situl trebuie actualizat periodic, frecvent

un criteriu important: timpul de încărcare

despre performanțaaplicațiilor Web

într-un curs viitor

Page 117: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea conținutului

codul trebuie structurat conform semnificației logicePOSH (Plain Old Semantic HTML)

Page 118: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea conținutului

conținutul relavant trebuie plasat ierarhicvia <h1>, <h2>,...

pentru HTML5, de utilizat noile elementevizând structura: <article>, <header>, <footer>, <nav> etc.

layout bazat pe CSS și nu pe marcaje tabelare

Page 119: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea conținutului

conținuturile multimedia binaretrebuie să aibă alternative textuale

anumite date pot fi „ascunse” de roboți via robots.txt

Page 120: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea conținutului

numele fișierelor (imagini, stiluri,…) contează

human friendly URLs

Page 121: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

obligatoriu, de inclus legături spre alte pagini(ale sitului ori ale altor situri)

Page 122: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

tehnici clasice (considerate „demodate”):interschimb de link-uri – banner-e, blogroll-uri,

marketing bazat pe context

Page 123: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

recurgerea la aplicații Web sociale

SMO (Social Media Optimization)

Page 124: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

de verificat și menținut structura hipertext!

Page 125: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

a se evita spam-ul

e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri

motoarele detectează & penalizează spam-ul!http://searchenginewatch.com/topic/web_spam_detection

Page 126: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Utilizarea elementului <meta>

descrierea paginii – description

cuvintele-cheie – keywords

controlul roboților Web – robots

alte informații de interes:tipul conținutului, relația cu alte pagini,…

seo: strategii

Page 127: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Paginile de „acoperire” (page cloaking)

scop: oferirea de conținut diferit,în funcție de un anumit criteriu

(aici, conținut special pentru roboții de căutare)

seo: strategii

Page 128: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

black-hat page cloakingtehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q

seo: strategii

Page 129: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

distincția dintre conținutul static și cel dinamic(componenta query_string de la finalul unui URL)

detectarea simbolurilor “?” și “&” doc.php?var=sda4312&var2=643f545342

seo: strategii

Page 130: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

indexarea conținutului dinamic poate fi limitatăori poate fi realizată mult mai lent

numele variabilelor transmise via GET trebuie să aibă o anumită semnificație

seo: strategii

Page 131: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

evitarea numerelor de sesiune (SID) din URL

uzual, roboții ignoră cookie-urile

seo: strategii

Page 132: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

evitarea numerelor de sesiune (SID) din URL

la nivel de server Web, se poate activa rescriereaURL-urilor – e.g., utilizarea mod_rewrite la Apache

la nivel de server de aplicații, inhibarea transferuluiSID-ului prin URL (PHP: php_flag sesssion.use_trans_sid off)

seo: strategii

Page 133: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

„mascarea” URL-urilor oferind conținut dinamic

exemplificare:www.penguin.info/species/tux.html – pare static

www.penguin.info/species.php?type=tux – în realitate

seo: strategii

Page 134: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Rezultatul returnat clientului

de evitat paginile de eroare – e.g., 404

orice pagină de eroare poate fi convertităîntr-o resursă folositoare omului/robotului

exemple: harta sitului, legături relevante,…

seo: strategii

Page 135: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Rezultatul returnat clientului

se folosesc facilitățile oferite de serverul Webpentru specificarea de pagini proprii de eroare

e.g., directiva ErrorDocument la Apache

seo: strategii

Page 136: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Navigarea bazată pe interacțiunea cu utilizatorul

legături spre alte resurserealizate exclusiv via Javascript, Flash sau Silverlight

<p>informații despre burse <a href="javascript:sari(1);">aici</a></p>

de evitat

greșit!

Page 137: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Oferirea de conținut via documenteadoptând formate de date nestandardizate

de evitat

Page 138: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Titluri identice pentru toate paginile unui sit

de evitat

Page 139: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Pagini de eroare care sunt oferite de servervia codul de stare HTTP 200 Ok

de evitat

Page 140: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Redirecționări incorecte și/sau abuzive

de evitat

Page 141: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Ignorarea utilizatorilor cu nevoi speciale

web accessibility

http://webaim.org/

de evitat

Page 142: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Abuzul de transferuri asincrone prin Ajax

de evitat

Page 143: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Crearea documentului sitemap.xml

pentru a-l expedia la Google Sitemaps

complementar fișierului robots.txt

furnizează structura hipertext a unui sit Web

formate acceptate: text obișnuit, XML, RSS, Atom

detalii la http://sitemaps.org/

seo: instrumente

Page 144: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Strategii generale:Google Webmaster Central

http://www.google.com/webmasters/

Studierea accesului (specificării/alegerii unor metrici):Google Analytics, NetTracker, Urchin, WebTrends,…

Rafinarea cuvintelor-cheie:KeywordDiscovery, WordTracker, Google Suggest

Optimizări: Google Optimizer, YSlow Smush.it

seo: instrumente – exemple

Page 145: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Imposibilitatea accesării unor date transmise„în fundal” pe parcursul interacțiunii Web

motoarele de căutare nu pot indexa conținutul primit(asincron) de la server – e.g., prin Ajax

traficul „subteran” nu poate fi accesat în mod normal

roboții Web clasici nu pot interpreta programe JavaScript

seo vs. ajax

Page 146: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Imposibilitatea accesării unor date transmise„în fundal” pe parcursul interacțiunii Web

soluție posibilă:propunerea “Making Ajax crawlable” (Google, 2009)

disponibilă începând cu 2012

https://developers.google.com/webmasters/ajax-crawling/

seo vs. ajax

Page 147: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Resurse de interes

http://www.seomoz.org/resources

http://searchenginewatch.com/

http://www.slideshare.net/randfish/presentations

http://videolectures.net/Top/Computer_Science/Search_Engines

Page 148: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Invisible Web (Deep Web)

acea parte a spațiului World Wide Webcare nu este detectată de motoarele de căutare saude alte tipuri de aplicații de regăsire a resurselor

disponibile pe Web

Page 149: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat „inteligent”?

Page 150: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Idee:specificarea unor meta-date (date privind datele)

direct în cadrul documentelor HTML

Page 151: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Idee:specificarea unor meta-date (date privind datele)

direct în cadrul documentelor HTML

microformatescheme de microdate HTML5

RDFa

la master

Page 152: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate(Tantek Çelik & Kevin Marks, 2004)

www.microformats.org

Page 153: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate

utilizarea de marcaje (X)HTML pentru a desemnasemantica și/sau structura conținutului

“curentul” POSH (Plain Old Semantic HTML)

Page 154: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate

reutilizarea unor vocabulare de termeni,disponibile liber și standardizate

Page 155: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate

reutilizarea unor vocabulare de termeni,disponibile liber și standardizate

realizarea de adnotări semantice direct în HTMLși alte limbaje similare

prelucrare mai facilă a reprezentărilor resurselor

Page 156: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

marcaje HTML (<div>, <span>)pentru specificarea datelor &structurii lor

„clase” CSS pentru prezentareși asocierea de descrieriale meta-datelor

structurareapaginilor Web:

precizareaînțelesului

(semanticii)conținutului

Page 157: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate

elementare – desemnează o caracteristică unică+

compuse – specifică mai multe proprietățicare modelează un aspect de interes

– e.g., un concept (entitate): persoană, eveniment,…

Page 158: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

rel-tag

asociază unei legături hipertext un termen (tag)– cuvânt-cheie ori subiect – ales liber de autor

(tagging content)

Page 159: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

rel-tag

<p>Tutorial despre <a href="http://www.slideshare.net/tag/web"

rel="tag">www</a>.</p>

<p>Expertiză: <a href="http://en.wikipedia.com/wiki/Unix"

rel="tag" class="skill">UNIX</a>.</p>

<a href="http://flickr.com/photos/tags/Penguin" rel="tag">

<img src="tux.jpg" alt="Foto cu un pinguin" /></a>

Page 160: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

XFN (XHTML Friend Network)

relații între „prieteni”: colaboratori, rude, cunoscuți,…

<a href="http://www.infoiasi.ro/~dlucanu/"

rel="met, colleague, co-worker, neighbor">

Dorel Lucanu</a>

Page 161: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

recurgerea la XFN în cadrul sistemului WordPress

Page 162: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hCalendar

desemnează evenimente & orare

vezi formatul iCalendar – RFC 2445

Page 163: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hCalendar

<div class="vevent">

<a class="url" href="http://designjamiasi2014.eventbrite.com/

<abbr class="dtstart" title="20141031">October 31</abbr> --

<abbr class="dtend" title="20141101">November 01, 2014</abbr>

<span class="summary">Design Jam Iasi #3</span> la

<span class="location">FII, UAIC Iasi</span></a>

<div class="description">Un atelier de lucru vizând designul Web</div>

</div>

Page 164: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hCard

informații de contact despre persoane, organizații etc.

în conformitate cu formatul vCard – RFC 2426

Page 165: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

specificarea informațiilor despre o persoană via hCard

Page 166: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hResume

modelează informații despre un CV

folosit în conjuncție cu hCard și hCalendar

Page 167: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hReview

desemnează opinii emise despre „ceva” – o entitate(produs, locație, eveniment, persoană,…)

Page 168: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<div class="hreview">

<!-- resursa recenzată -->

<h1 class="item">Recenzie despre <a class="fn url" title="Situl FII"

href="http://www.info.uaic.ro/">situl Web al FII</a></h1>

<p> <!-- 'punctajul' obținut (5 din 5), sumarul & data recenziei -->

<abbr class="rating stars" title="5">* * * * *</abbr>

<span class="summary title">Modern</span>,

<abbr class="dtreviewed"

title="2010-05-18T22:45:00">18 mai</abbr>

</p>

<!-- autorul recenziei marcat prin hCard -->

<p class="reviewer">Autor al recenziei: <span class="vcard">

<a class="url fn n" href="http://www.purl.org/net/busaco"

title="Spre situl Web al lui Sabin Buraga">

<span class="given-name">Sabin</span>

<span class="family-name">Buraga</span></a></span></p>

<div class="description"> <!-- detalii despre recenzie --> </div>

</div>

Page 169: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Page 170: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate 2

simplifică maniera de specificare (2012)

http://microformats.org/wiki/microformats2

Page 171: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate 2

vocabularele sunt definite pe baza unor prefixe

h- includerea unui microformatp- specificarea unei proprietăți simpleu- desemnarea unui URLdt- definirea de valori privind data & timpule- specificarea de proprietăți compuse

Page 172: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<div class="h-card vcard">

<img src="/content/content_about-experts/brendaneich.jpg"

alt="Brendan Eich">

<h5><a href="http://brendaneich.com/"

class="p-name fn u-url url">Brendan Eich</a></h5>

<p class="p-note note">

Created JavaScript, co-founded the mozilla.org project…</p>

<span class="p-category category">Technology</span>

</div>

exemplu de utilizare a microformatului hCard(în ambele versiuni)

Page 173: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate 2

vocabulare predefinite – unele în stadiu de ciornă:

h-adr h-card h-entry h-event

h-geo h-item h-product h-recipe

h-resume h-review h-review-aggregate

Page 174: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<!-- specificarea unui eveniment via microformate versiunea 2 -->

<section class="h-event">

<a class="p-name u-url" href="http://designjamiasi2014.eventbrite.com/">

Design Jam Iasi #3</a>

de la <time class="dt-start">2014-10-31</time>

până la <time class="dt-end">2014-11-01</time>, fiind organizat la

<span class="p-location h-card">

<a class="p-name p-org u-url" href="http://www.info.uaic.ro/">

Facultatea de Informatică</a>,

<span class="p-street-address">Strada Berthelot, 16</span>,

<span class="p-locality">Iași</span>,

<abbr class="p-region" title="Iași">IS</abbr>

</span>

</section>

Page 175: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

microformate: utilizări

GoogleIntel

MicrosoftSix Apart

Yahoo!XWiki

și multe altele

detalii la http://microformats.org/wiki/implementors

Page 176: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

microformate: utilizări

detectarea și exportul de microformate cu extensia Operator pentru Firefox

Page 177: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

alternativă la microformate

specificație W3C – Working Draft (octombrie 2013)

www.w3.org/TR/microdata/

Page 178: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

posibilitatea de a specifica perechi de proprietăți(nume, valoare) „scufundate” în HTML

Page 179: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

Page 180: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

creare via atributul itemscope

specificarea unei proprietăți prin atributul itemprop

referire cu ajutorul atributului itemref

Page 181: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

asocierea unui tip de date se face cu atributul itemtype

pentru identificarea unui item se folosește itemid

Page 182: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

ca tipuri de date se pot folosi microformatele

Page 183: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<section itemscope itemtype="http://microformats.org/profile/hcard"><h1 itemprop="fn">

<span itemprop="n" itemscope> <span itemprop="given-name">Tuxy</span> <span itemprop="family-name">Pinguinescu</span>

</span> </h1><img itemprop="photo" alt="Portretul lui Tux" src="tux.jpg"><p itemprop="org" itemscope>

<span itemprop="organization-name">Linux</span></p><h2>Detalii & contact:</h2>

<ul><li><a itemprop="url" href="http://en.wikipedia.org/wiki/Tux">

Wikipedia</a></li><li itemprop="email"><a href="mailto:[email protected]">

tux AT penguin.org</a></li></ul><address><span itemprop="adr" itemscope>

<span itemprop="street-address">Penguins Blv., 33</span> <span itemprop="locality">Penguin City</span>, <span itemprop="postal-code">740033</span> </span> </address>

</section>

Page 184: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Există o serie de modele de date(exprimate via microformate sau microdate)

ce pot fi indexate și folositede actualele motoare de căutare?

Page 185: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

Page 186: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

modeleconceptuale

Page 187: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

a se studia și http://www.w3.org/wiki/WebSchemas

Page 188: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

tipurile primare de date definite de schema.org

Page 189: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

diverse proprietăți ce relaționează Integer cu alte concepte

Page 190: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Thing – schema cea mai generală, incluzând conceptualizăriAction

BroadcastService

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Class

Property

modelare de cunoștințe

(via o ontologie)

Page 191: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Person – modelează conceptul „persoană”http://schema.org/Person

Page 192: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

schema.org

relațiile dintre entități sunt precizate via proprietăți

Page 193: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<body itemscope itemtype="http://schema.org/WebPage"><header>

<h1 itemprop="name"><a href="index.html" title="…">Dezvoltarea aplicațiilor Web</a>

</h1><p class="slogan" itemprop="description">prezentările aferente cursului</p>

</header><article>

<!-- conținut propriu-zis --></article><footer>

<h6><span itemscope itemtype="http://schema.org/Person">

<a href="http://www.purl.org/net/busaco" title="…" itemprop="url" accesskey="S"><span itemprop="name">Sabin Buraga</span>

</a></span>

</h6></footer>

</body>

specificarea faptului că Sabin Buraga este o persoană

recurgerea la elemente structurale și scheme de microdate HTML5

Page 194: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<!-- microformate (utilizarea microformatului hCard) --><div class="vcard">

<p>Nume: <span class="fn">Sabin Buraga</span></p><p>Titlu academic: <span class="title">Dr.</span></p>

</div>

<!-- microdate HTML5 --><div itemscope itemtype="http://schema.org/Person">

<p>Nume: <span itemprop="name">Sabin Buraga</span></p><p>Titlu academic: <span itemprop="title">Dr.</span></p>

</div>

microformate↔microdateadaptare după Marco Lisci & Luisa Scarlata (2011)

Page 195: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Alte resurse de interes,inclusiv instrumente de validare și conversie,

sunt oferite de situl Webhttp://getschema.org/

Page 196: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformatele și microdatele HTML5sunt indexate de motoarele de căutare

Bing – http://tinyurl.com/b9mx2f2

Google rich snippets – http://tinyurl.com/3c6naq7

Yahoo! BOSS (Build your Own Search Service)http://developer.yahoo.com/search/boss/

Page 197: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

extragerea/verificarea de date structurate via Structured Data Testing Tool

http://www.google.com/webmasters/tools/richsnippets

Page 198: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

extragere & export de microformate, microdate HTML5 și RDFa cu extensia POSHex – Tiberiu Pasat (2013)

http://students.info.uaic.ro/~constantin.pasat/wad/

Page 199: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum ar putea fi detectate și penalizatesiturile Web care „trișează” în ceea ce privește

tehnicile SEO, eventual recurgând lamicroformate/microdate HTML5?

discuție (pentru acasă)

Page 200: CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

episodul viitor: limbajul JavaScript