CLIW 2014—2015 (6/12): Căutarea resurselor Web

Post on 22-Aug-2015

265 views 2 download

Transcript of CLIW 2014—2015 (6/12): Căutarea resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Dezvoltarea aplicațiilor Webla nivel de client

(re)găsirea resurselor Web

de la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

“A well-defined problem is half solved.”

Michael Osborne

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum prezentăm conținutulaltor clienți – diferiți de cei umani?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Am putea recurge la extragerea automatăa datelor expuse pe Web?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

spiders, crawlers, Web bots

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

robot Web navigator Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Roboți

pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite

acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de

legăturile existente în cadrul reprezentării

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Roboți

pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite

acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de

legăturile existente în cadrul reprezentării

acțiuni: extragere, copiere, sumarizare,agregare de conținut, monitorizare etc.

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Operarea în foc rapid (rapid-fire)

trafic de rețea

supraîncărcarea serverelor Webdenial of service

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

necesitatea specificării timpului de revizitare a situluide către robotul Web

<meta name="Revisit-After" content="30 Days" />

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Exploatarea (ne)controlată de către utilizatori

atacuri „brute”

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Intrarea în „găurile negre”

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: pericole

Accesarea unor date nerelevante

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

uzual, va fi folosit câmpul User-Agent

din antetul unei cereri HTTP

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

19539 de roboți Web – statistica din 2013Alexa (7004), Bing/MSN (100), Facebook (60),

Googlebot (6085), Twitter (84) + neidentificați (374730) conform www.botsvsbrowsers.com

search engines51%

scrapers8%

hacking tools7%

spammers1%

others33%

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți personali(e.g., motoare experimentale, software de oglindire)

BackRub (pre-Google)wget – http://www.gnu.org/software/wget/

etc.

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți ai motoarelor de căutare majore

Baiduspider – www.baidu.com/search/spider.html

bingbot – www.bing.com/bingbot.htm

Googlebot – www.google.com/bot.html

Slurp – http://help.yahoo.com/help/us/ysearch/slurp

YandexBot – yandex.com/bots

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți specializați(e.g., validarea codului HTML, scurtarea lungimii

URL-urilor, scanare de vulnerabilități, statistici,…)

exemplificări: citeseerxbot,Page2RSS, extensii Nagios, W3C Validator

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

173.199.116.75 - - [11/Dec/2012:00:46:02 +0200] "GET /~web/2012/ HTTP/1.1" 404 193 "-" "Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)"

180.76.5.101 - - [11/Dec/2012:06:50:09 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

98.137.206.250 - - [11/Dec/2012:11:08:25 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"

207.46.199.167 - - [11/Dec/2012:11:08:26 +0200] "GET ....jpg HTTP/1.1" 200 3394 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"

66.249.75.44 - - [11/Dec/2012:11:12:26 +0200] "GET ….png HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"

178.154.174.252 - - [11/Dec/2012:11:22:05 +0200] "GET … HTTP/1.1" 301 206 "-""Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)“

66.249.75.22 - - [11/Dec/2012:11:30:47 +0200] "GET /~seminar/… HTTP/1.1" 200 683 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

66.249.75.44 - - [11/Dec/2012:11:29:51 +0200] "GET … HTTP/1.1" 200 1104 "-" "Mozilla/5.0 (iPhone; U; en-us) … Mobile/8B117 (compatible; Googlebot-Mobile/2.1)"

65.55.24.244 - - [11/Dec/2012:11:31:46 +0200] "GET /mw/index.php HTTP/1.1" 200 4408 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)“

78.46.238.220 - - [11/Dec/2012:11:33:32 +0200] "GET /~cyp/test HTTP/1.1" 200 6 "-""check_http/v1.4.15 (nagios-plugins 1.4.15)"

128.30.52.70 - - [11/Dec/2012:12:02:14 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "W3C_Validator/1.3"

cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum putem „instrui” roboții Websă nu viziteze anumite zone ale sitului?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

detalii la http://www.robotstxt.org/robotstxt.html

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

# /robots.txt pentru http://www.info.uaic.ro User-agent: * # toți roboții Crawl-delay: 20 # 20 sec. între cereriDisallow: /tmp/ # date temporareDisallow: /xwiki/bin/xmlrpc/ # director privat

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

de studiat câteva exemple reale:http://www.amazon.com/robots.txt

http://facebook.com/robots.txt

http://www.google.com/robots.txt

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Orice robot trebuie să respectestandardul de excludere

evitarea indexării conținutului:

<meta name="robots" content="noindex, nofollow" />

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Ce activități realizează un motor de căutare?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Scop:localizarea resurselor existente pe Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera tradițională:

pe bază de indecși (crawling & indexing)

Lycos – 1994AltaVista – 1995

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera tradițională:

pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)

Yahoo! – Yet Another Hierarchical Officious Oracle1994

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera tradițională:

hibrideindecși + taxonomiiportal Web

Excite – 1994

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera tradițională:

pe baza legăturilor hipertext(hyperlink analysis)

Google – 1996

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Tipuri de căutări – maniera modernă:

pe baza datelor structurate(determinare și extragere de meta-date & concepte)

Microsoft Satori Entity Engine (bazat pe Trinity)http://research.microsoft.com/en-us/projects/trinity/

Google Knowledge Graph (utilizează Freebase, Wikipedia)www.google.com/insidesearch/features/search/knowledge.html

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului

(user information-seeking)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Localizarea & indexarea resurselor se pot realiza:

automat – via roboți Webmanual – recurgând la experți umani

hibrid

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Localizarea & indexarea resurselor

strategii:data/relation mining

topic distillationmeta-data search

social search…

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

scop

căutarea oricărei resurse existente

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

viteză

rezultatele să fie disponibile imediat

direcție de interes major: real-time Web search

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

disponibilitate

actualizarea permanentă(orice modificare să fie indexată „instantaneu”)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

recall

găsirea tuturor resurselor relevantepentru o cerere dată

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

precizie

rezultatul conține doar documente relevante

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Caracteristici ale unui motor de căutare ideal

ranking

cele mai relevante documentesunt plasate primele

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Care sunt principalele componenteale unui motor de căutare?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Robot Webextrage informații

Index (catalog)stochează – în mod persistent – (meta)date

despre resursele existente pe Web

Mecanism de evaluare (ranking)pe baza cererii utilizatorului, oferă răspunsuri

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Diferențele dintre motoarele de căutare actualesunt date de fiecare componentă în parte

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

structura generică a unui motor de căutare(Chakrabarti, 2003)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Activitatea generală a unui robot (crawler) simplu:

F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p

dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată

adaugă v la F

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Bazată pe învățare

data mining

(de exemplu, reinforcement learning)

detalii la master

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Conținutul ce trebuie indexat nu e doar textual

hiper-informația:INFORMATION = HYPERINFO + TEXTINFO

dependența de legături

ordonarea legăturilor(alegerea unor criterii vizând importanța)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată

sau doar verificată

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

rezoluția adreselor Web(nume de domeniiadrese IP)

DNS caching, pre-fetching & resolution

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

realizarea cererilor concurente

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

extragerea legăturilor

e.g., normalizarea URI-urilor:www.InfoIasi.Ro:80www.info.uaic.ro

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

eliminarea adreselor deja vizitate

evitarea „găurilor negre”

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

monitorizarea accesărilor

load monitoring & managing(evitarea supra-solicitării serverelor Web)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: căutarea

Aspect de interes:

strategii de revizitare/reîmprospătarea conținutului resurselor Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

modele non-relaționale de stocare – „mișcarea” NoSQL

printre primele abordări: BigTable (Chang et al., 2006)http://labs.google.com/papers/bigtable.html

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

arhivarea datelor indexate

e.g., recurgerea la algoritmul de compresie bzip2(cazul Google)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum se realizează indexarea?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor

e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări,…

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

Indexare bazată pe cuvinte-cheierelevanță, plasament, meta-date,...

versus

indexare semantică – bazată pe concepteAtom/RSS, social tagging,

microformate, microdate HTML5, Web semantic (RDF, RDFa),...

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: indexarea

O importanță mare o au: maniera de structurare a informației și„relația” unei pagini cu altele înrudite

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Cererile sunt formulate via o interfață Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Cererile sunt formulate via o interfață Web

unele motoare de căutare acceptăfolosirea unor operatori specifici

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Cererile sunt formulate via o interfață Web

exemplificare: o parte dintre operatorii Google

"expresie" ~termen –termen

numar1 .. numar2 related: URL cache: URL

intitle: termen(i) intext: termen(i) inurl: termen(i)

link: URL site: domeniu info: domeniu

define: termen filetype: extensie unit1 in unit2

detalii la www.googleguide.com/advanced_operators_reference.html

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

digital camera $700 .. 1400

~book

Apache logo filetype: png

intitle: design –intitle: web

"burse de merit" site: uaic.ro inurl: edit

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

grad mare de subiectivitate

e.g., “miserable failure”

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

depind de contextul social/cultural

exemple:“pants” în UK versus US

“madonna and child”

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

dependente de scop

informațional (listă, locație, sfat)

navigațional

vizând accesarea resurselor(download, amuzament, interactivitate,…)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Remarci:

utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”

exemplu:“hotels located in Bucharest and Iasi”

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Remarci:

interogările uzual sunt scurte (media: 2,6 cuvinte),dar focalizate – e.g., 25% pe business (conform Yahoo!)

vezi și http://labs.yahoo.com/publication/?area=web-mining-search

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Remarci:

apar confuzii:URI vs. text,

lipsa spațiilor,vocabular

etc.

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Remarci:

implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web

e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”

motoare: interogarea

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Interogări formulate în limbaj natural:

eliminarea ambiguităților (dezambiguizarea)

filtrarea cuvintelor nerelevante

expandarea interogării: sinonime, forme derivate,…

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Evaluarea cererii – schema generală:1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor & sortarea6. Afișarea primelor N documente relevante

(URI + alte informații)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Conținutul fiecărui document extraseste analizat și divizat în token-uri

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Unele construcții se ignoră/constrâng

e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”

procesare de bază a conținutului textual

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Fiecărui token i se reține și poziția aparițieiîn document

poziția poate fi folosităla determinarea relevanței termenului

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe clasificare umană

resurse clasificate de oameni

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe informații privitoarela utilizarea unei resurse

timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe conectivitate

analiza relațiilor (legăturilor hipertext) cu alte pagini

eventual, în funcție de reputațiee.g., importanța domeniului Internet

(sunt luați în calcul factori ca vechimea, localizarea,…)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Calculul relevanței:

tehnici privind IR (Information Retrieval)

cautări bazate pe similaritate – similarity search

cautări bazate pe învățare automată (machine learning)

clasificarea conținutului hipermedia

social network analysis – bibliometrie, prestigiu,…

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)

evaluarea relevanței pe baza contextului de apariție

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)

exploatarea relațiilor dintre diferite pagini Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)

recurgerea la tehnici adaptive, euristice

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)

determinarea corelației dintre relevanța calculatăautomat de sistem și cea precizată (in)direct

de către utilizator

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Page Rank (Google)(Larry Page & Sergey Brin, 1996 – doctorat la Stanford)

se baza inițial pe structura hipertext

o legătură de la pagina A la B reprezintăun vot dat paginii B de către A

cu cât un sit este mai important,cu atât page rank-ul asociat lui e mai mare

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Alternative la Page Rank:

TrustRank (Friesen, 2007)

folosește domenii Web de încredere selectate de oameni

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Alternative la Page Rank:

TrustRank (Friesen, 2007)

cu cât un sit e mai aproape (în termeni de legături Web)de siturile evaluate și considerate de încredere

de către oameni, cu atât va avea o importanță mai mare

vizează un sit (domeniu), nu o pagină Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

motoare: interogarea

Alternative la Page Rank:

utilizarea tehnologiilor Web-ului semantic

se iau în considerație concepte (cunoștințe), nu cuvinte

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Evifolosirea

inferențelorpentru

a răspunde la întrebările

utilizatorului

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

perioadă de timp strategie

înainte de 2000conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)

2000—2010conținutautoritate (via legături)

2010—prezent

conținutautoritatepersonalizare (social media +informații personale)

2012—prezent

conținutautoritatepersonalizareconcepte (date-structurate + Web of data)

adaptare după (K. Bodnar & J. Hopkins, 2011)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,…

regionaleBaidu (China), Daum (Coreea), Goo (Japonia),

Guruji (India), Rambler (Rusia) etc.

meta-căutare Dogpile, Excite, Mamma, Yippy

enterprise search Apache Solr, ElasticSearch, OpenSearchServer,…

răspunsuri(answer-based)

umane: Stack Overflow, Yahoo! Answers, Quora

automate: AskMeNow, Evi, Wolfram Alpha

news search BingNews, Daylife, Topix, Yahoo! News,…

hărți (maps) Nokia HERE, OpenStreetMap, WikiMapia etc.

cod-sursă Google Code Search, Koders, Krugle

căutare pe baza P2P FAROO, Seeks, YaCy

desktop search DocFetcher, Recoll, Tropes Zoom

pentru dezvoltatori: Apache Lucene, Apache Nutch, mnoGoSearch, Namazu, Xapian,…

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

2056 de API-uri (7 noiembrie 2014)privind căutarea resurselor Web:

http://www.programmableweb.com/category/search

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motoarele tind să „recompenseze” siturile:

de mari dimensiuni

cu viață lungă

specializate, de „nișă”

aparținând unor autorități de încredere

motoare: interogarea

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

SERP (Search Engine Result Page)

specifică maniera de redare a rezultateloroferite de motorul de căutare

motoare: afișarea rezultatelor

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

SERP (Search Engine Result Page)

se includ recomandări pe baza:preferințelor utilizatorului

istoricului căutărilorURL-urilor partajate via rețele sociale

meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocației geografice (local search)

motoare: afișarea rezultatelor

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

“At any one time you rank #1 or #8 or #40based on who is searching, where they search,

and what is happening.”

K. Bodnar & J. Hopkins, 2011

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum putem proiectamijloacele de căutare internă?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

oferirea de sugestii utilizatorului

e.g., spelling suggestions,sinonime (car automobile, truck,…)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

sugestii de soluții

de exemplu, răspunsuri la cele mai frecvente întrebări

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

îmbunătățirea interacțiunii – utilizabilitatea

integrarea în designul general al sitului

tactici: oferirea unui următor pas de realizat(mai ales când nu există rezultate),

sugestii privind căutarea, exemple, rafinarea cererii etc.

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

în pagina de redare a rezultatelor, va fi afișată șiinterogarea inițială, cu posibilitatea modificării ei

oferirea a cel puțin N rezultate/pagină +indicarea numărului total de pagini de rezultate

sau încărcarea progresivă a următoarelor rezultate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

calitatea rezultatelor oferite e dependentăși de modul de structurare a datelor

fiecare rezultat să includă informații utilefolosirea unui vocabular înțeles de către vizitator,

utilizarea unor tehnici de vizualizare intuitivă,facilitarea filtrării & sortării datelor etc.

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Motor de căutare internă (la nivel de sit)

utilizatorul să aibă libertatea de a efectuaoricând o nouă interogare

evitarea „fundăturilor” – oferirea de ajutor, sugestii,…

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum trebuie scris codul HTMLpentru a obține o relevanță bună a conținutului?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

SEO – Search Engine Optimization

suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate

a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate

cu un instrument de căutare

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă a documentelor Web

Structurarea conținutului

Structurarea legăturilor cu alte pagini

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

documentul trebuie să fie bine-formatat

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

includerea de meta-date:în antet – elementul <meta />

conținut textual alternativ pentru imagini(<img alt="..." />), multimedia, legături (<a title="...">),

tabele (<table summary="...">) etc.

atașarea de meta-date externe via elementul <link />

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

a nu se folosi:cadre (frame-uri)

sauelemente învechite sau proprietare

(e.g., <blink> ori <marquee>)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

conținutul primează (“content is king”)

alegerea judicioasă a cuvintelor-cheie în <meta>

criterii: relevanță, densitate, internaționalizare

o importanță majoră o are titlul paginii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea codului-sursă – SEO la nivel de pagină

situl trebuie actualizat periodic, frecvent

un criteriu important: timpul de încărcare

despre performanțaaplicațiilor Web

într-un curs viitor

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea conținutului

codul trebuie structurat conform semnificației logicePOSH (Plain Old Semantic HTML)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea conținutului

conținutul relavant trebuie plasat ierarhicvia <h1>, <h2>,...

pentru HTML5, de utilizat noile elementevizând structura: <article>, <header>, <footer>, <nav> etc.

layout bazat pe CSS și nu pe marcaje tabelare

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea conținutului

conținuturile multimedia binaretrebuie să aibă alternative textuale

anumite date pot fi „ascunse” de roboți via robots.txt

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea conținutului

numele fișierelor (imagini, stiluri,…) contează

human friendly URLs

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

obligatoriu, de inclus legături spre alte pagini(ale sitului ori ale altor situri)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

tehnici clasice (considerate „demodate”):interschimb de link-uri – banner-e, blogroll-uri,

marketing bazat pe context

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

recurgerea la aplicații Web sociale

SMO (Social Media Optimization)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

de verificat și menținut structura hipertext!

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Structurarea legăturilor – SEO la nivel de sit

a se evita spam-ul

e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri

motoarele detectează & penalizează spam-ul!http://searchenginewatch.com/topic/web_spam_detection

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Utilizarea elementului <meta>

descrierea paginii – description

cuvintele-cheie – keywords

controlul roboților Web – robots

alte informații de interes:tipul conținutului, relația cu alte pagini,…

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Paginile de „acoperire” (page cloaking)

scop: oferirea de conținut diferit,în funcție de un anumit criteriu

(aici, conținut special pentru roboții de căutare)

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

black-hat page cloakingtehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

distincția dintre conținutul static și cel dinamic(componenta query_string de la finalul unui URL)

detectarea simbolurilor “?” și “&” doc.php?var=sda4312&var2=643f545342

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

indexarea conținutului dinamic poate fi limitatăori poate fi realizată mult mai lent

numele variabilelor transmise via GET trebuie să aibă o anumită semnificație

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

evitarea numerelor de sesiune (SID) din URL

uzual, roboții ignoră cookie-urile

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

evitarea numerelor de sesiune (SID) din URL

la nivel de server Web, se poate activa rescriereaURL-urilor – e.g., utilizarea mod_rewrite la Apache

la nivel de server de aplicații, inhibarea transferuluiSID-ului prin URL (PHP: php_flag sesssion.use_trans_sid off)

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

„Estetica” URL-urilor

„mascarea” URL-urilor oferind conținut dinamic

exemplificare:www.penguin.info/species/tux.html – pare static

www.penguin.info/species.php?type=tux – în realitate

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Rezultatul returnat clientului

de evitat paginile de eroare – e.g., 404

orice pagină de eroare poate fi convertităîntr-o resursă folositoare omului/robotului

exemple: harta sitului, legături relevante,…

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Rezultatul returnat clientului

se folosesc facilitățile oferite de serverul Webpentru specificarea de pagini proprii de eroare

e.g., directiva ErrorDocument la Apache

seo: strategii

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Navigarea bazată pe interacțiunea cu utilizatorul

legături spre alte resurserealizate exclusiv via Javascript, Flash sau Silverlight

<p>informații despre burse <a href="javascript:sari(1);">aici</a></p>

de evitat

greșit!

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Oferirea de conținut via documenteadoptând formate de date nestandardizate

de evitat

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Titluri identice pentru toate paginile unui sit

de evitat

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Pagini de eroare care sunt oferite de servervia codul de stare HTTP 200 Ok

de evitat

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Redirecționări incorecte și/sau abuzive

de evitat

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Ignorarea utilizatorilor cu nevoi speciale

web accessibility

http://webaim.org/

de evitat

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Abuzul de transferuri asincrone prin Ajax

de evitat

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Crearea documentului sitemap.xml

pentru a-l expedia la Google Sitemaps

complementar fișierului robots.txt

furnizează structura hipertext a unui sit Web

formate acceptate: text obișnuit, XML, RSS, Atom

detalii la http://sitemaps.org/

seo: instrumente

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Strategii generale:Google Webmaster Central

http://www.google.com/webmasters/

Studierea accesului (specificării/alegerii unor metrici):Google Analytics, NetTracker, Urchin, WebTrends,…

Rafinarea cuvintelor-cheie:KeywordDiscovery, WordTracker, Google Suggest

Optimizări: Google Optimizer, YSlow Smush.it

seo: instrumente – exemple

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Imposibilitatea accesării unor date transmise„în fundal” pe parcursul interacțiunii Web

motoarele de căutare nu pot indexa conținutul primit(asincron) de la server – e.g., prin Ajax

traficul „subteran” nu poate fi accesat în mod normal

roboții Web clasici nu pot interpreta programe JavaScript

seo vs. ajax

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Imposibilitatea accesării unor date transmise„în fundal” pe parcursul interacțiunii Web

soluție posibilă:propunerea “Making Ajax crawlable” (Google, 2009)

disponibilă începând cu 2012

https://developers.google.com/webmasters/ajax-crawling/

seo vs. ajax

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Resurse de interes

http://www.seomoz.org/resources

http://searchenginewatch.com/

http://www.slideshare.net/randfish/presentations

http://videolectures.net/Top/Computer_Science/Search_Engines

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Invisible Web (Deep Web)

acea parte a spațiului World Wide Webcare nu este detectată de motoarele de căutare saude alte tipuri de aplicații de regăsire a resurselor

disponibile pe Web

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat „inteligent”?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Idee:specificarea unor meta-date (date privind datele)

direct în cadrul documentelor HTML

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Idee:specificarea unor meta-date (date privind datele)

direct în cadrul documentelor HTML

microformatescheme de microdate HTML5

RDFa

la master

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate(Tantek Çelik & Kevin Marks, 2004)

www.microformats.org

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate

utilizarea de marcaje (X)HTML pentru a desemnasemantica și/sau structura conținutului

“curentul” POSH (Plain Old Semantic HTML)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate

reutilizarea unor vocabulare de termeni,disponibile liber și standardizate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate

reutilizarea unor vocabulare de termeni,disponibile liber și standardizate

realizarea de adnotări semantice direct în HTMLși alte limbaje similare

prelucrare mai facilă a reprezentărilor resurselor

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

marcaje HTML (<div>, <span>)pentru specificarea datelor &structurii lor

„clase” CSS pentru prezentareși asocierea de descrieriale meta-datelor

structurareapaginilor Web:

precizareaînțelesului

(semanticii)conținutului

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate

elementare – desemnează o caracteristică unică+

compuse – specifică mai multe proprietățicare modelează un aspect de interes

– e.g., un concept (entitate): persoană, eveniment,…

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

rel-tag

asociază unei legături hipertext un termen (tag)– cuvânt-cheie ori subiect – ales liber de autor

(tagging content)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

rel-tag

<p>Tutorial despre <a href="http://www.slideshare.net/tag/web"

rel="tag">www</a>.</p>

<p>Expertiză: <a href="http://en.wikipedia.com/wiki/Unix"

rel="tag" class="skill">UNIX</a>.</p>

<a href="http://flickr.com/photos/tags/Penguin" rel="tag">

<img src="tux.jpg" alt="Foto cu un pinguin" /></a>

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

XFN (XHTML Friend Network)

relații între „prieteni”: colaboratori, rude, cunoscuți,…

<a href="http://www.infoiasi.ro/~dlucanu/"

rel="met, colleague, co-worker, neighbor">

Dorel Lucanu</a>

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

recurgerea la XFN în cadrul sistemului WordPress

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hCalendar

desemnează evenimente & orare

vezi formatul iCalendar – RFC 2445

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hCalendar

<div class="vevent">

<a class="url" href="http://designjamiasi2014.eventbrite.com/

<abbr class="dtstart" title="20141031">October 31</abbr> --

<abbr class="dtend" title="20141101">November 01, 2014</abbr>

<span class="summary">Design Jam Iasi #3</span> la

<span class="location">FII, UAIC Iasi</span></a>

<div class="description">Un atelier de lucru vizând designul Web</div>

</div>

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hCard

informații de contact despre persoane, organizații etc.

în conformitate cu formatul vCard – RFC 2426

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

specificarea informațiilor despre o persoană via hCard

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hResume

modelează informații despre un CV

folosit în conjuncție cu hCard și hCalendar

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

hReview

desemnează opinii emise despre „ceva” – o entitate(produs, locație, eveniment, persoană,…)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<div class="hreview">

<!-- resursa recenzată -->

<h1 class="item">Recenzie despre <a class="fn url" title="Situl FII"

href="http://www.info.uaic.ro/">situl Web al FII</a></h1>

<p> <!-- 'punctajul' obținut (5 din 5), sumarul & data recenziei -->

<abbr class="rating stars" title="5">* * * * *</abbr>

<span class="summary title">Modern</span>,

<abbr class="dtreviewed"

title="2010-05-18T22:45:00">18 mai</abbr>

</p>

<!-- autorul recenziei marcat prin hCard -->

<p class="reviewer">Autor al recenziei: <span class="vcard">

<a class="url fn n" href="http://www.purl.org/net/busaco"

title="Spre situl Web al lui Sabin Buraga">

<span class="given-name">Sabin</span>

<span class="family-name">Buraga</span></a></span></p>

<div class="description"> <!-- detalii despre recenzie --> </div>

</div>

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate 2

simplifică maniera de specificare (2012)

http://microformats.org/wiki/microformats2

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate 2

vocabularele sunt definite pe baza unor prefixe

h- includerea unui microformatp- specificarea unei proprietăți simpleu- desemnarea unui URLdt- definirea de valori privind data & timpule- specificarea de proprietăți compuse

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<div class="h-card vcard">

<img src="/content/content_about-experts/brendaneich.jpg"

alt="Brendan Eich">

<h5><a href="http://brendaneich.com/"

class="p-name fn u-url url">Brendan Eich</a></h5>

<p class="p-note note">

Created JavaScript, co-founded the mozilla.org project…</p>

<span class="p-category category">Technology</span>

</div>

exemplu de utilizare a microformatului hCard(în ambele versiuni)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformate 2

vocabulare predefinite – unele în stadiu de ciornă:

h-adr h-card h-entry h-event

h-geo h-item h-product h-recipe

h-resume h-review h-review-aggregate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<!-- specificarea unui eveniment via microformate versiunea 2 -->

<section class="h-event">

<a class="p-name u-url" href="http://designjamiasi2014.eventbrite.com/">

Design Jam Iasi #3</a>

de la <time class="dt-start">2014-10-31</time>

până la <time class="dt-end">2014-11-01</time>, fiind organizat la

<span class="p-location h-card">

<a class="p-name p-org u-url" href="http://www.info.uaic.ro/">

Facultatea de Informatică</a>,

<span class="p-street-address">Strada Berthelot, 16</span>,

<span class="p-locality">Iași</span>,

<abbr class="p-region" title="Iași">IS</abbr>

</span>

</section>

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

microformate: utilizări

GoogleIntel

MicrosoftSix Apart

Yahoo!XWiki

și multe altele

detalii la http://microformats.org/wiki/implementors

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

microformate: utilizări

detectarea și exportul de microformate cu extensia Operator pentru Firefox

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

alternativă la microformate

specificație W3C – Working Draft (octombrie 2013)

www.w3.org/TR/microdata/

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

posibilitatea de a specifica perechi de proprietăți(nume, valoare) „scufundate” în HTML

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

creare via atributul itemscope

specificarea unei proprietăți prin atributul itemprop

referire cu ajutorul atributului itemref

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

asocierea unui tip de date se face cu atributul itemtype

pentru identificarea unui item se folosește itemid

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microdata HTML 5

ca tipuri de date se pot folosi microformatele

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<section itemscope itemtype="http://microformats.org/profile/hcard"><h1 itemprop="fn">

<span itemprop="n" itemscope> <span itemprop="given-name">Tuxy</span> <span itemprop="family-name">Pinguinescu</span>

</span> </h1><img itemprop="photo" alt="Portretul lui Tux" src="tux.jpg"><p itemprop="org" itemscope>

<span itemprop="organization-name">Linux</span></p><h2>Detalii & contact:</h2>

<ul><li><a itemprop="url" href="http://en.wikipedia.org/wiki/Tux">

Wikipedia</a></li><li itemprop="email"><a href="mailto:tux@penguin.org">

tux AT penguin.org</a></li></ul><address><span itemprop="adr" itemscope>

<span itemprop="street-address">Penguins Blv., 33</span> <span itemprop="locality">Penguin City</span>, <span itemprop="postal-code">740033</span> </span> </address>

</section>

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Există o serie de modele de date(exprimate via microformate sau microdate)

ce pot fi indexate și folositede actualele motoare de căutare?

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

modeleconceptuale

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

a se studia și http://www.w3.org/wiki/WebSchemas

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

tipurile primare de date definite de schema.org

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

diverse proprietăți ce relaționează Integer cu alte concepte

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Thing – schema cea mai generală, incluzând conceptualizăriAction

BroadcastService

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Class

Property

modelare de cunoștințe

(via o ontologie)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Person – modelează conceptul „persoană”http://schema.org/Person

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

schema.org

relațiile dintre entități sunt precizate via proprietăți

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<body itemscope itemtype="http://schema.org/WebPage"><header>

<h1 itemprop="name"><a href="index.html" title="…">Dezvoltarea aplicațiilor Web</a>

</h1><p class="slogan" itemprop="description">prezentările aferente cursului</p>

</header><article>

<!-- conținut propriu-zis --></article><footer>

<h6><span itemscope itemtype="http://schema.org/Person">

<a href="http://www.purl.org/net/busaco" title="…" itemprop="url" accesskey="S"><span itemprop="name">Sabin Buraga</span>

</a></span>

</h6></footer>

</body>

specificarea faptului că Sabin Buraga este o persoană

recurgerea la elemente structurale și scheme de microdate HTML5

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

<!-- microformate (utilizarea microformatului hCard) --><div class="vcard">

<p>Nume: <span class="fn">Sabin Buraga</span></p><p>Titlu academic: <span class="title">Dr.</span></p>

</div>

<!-- microdate HTML5 --><div itemscope itemtype="http://schema.org/Person">

<p>Nume: <span itemprop="name">Sabin Buraga</span></p><p>Titlu academic: <span itemprop="title">Dr.</span></p>

</div>

microformate↔microdateadaptare după Marco Lisci & Luisa Scarlata (2011)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Alte resurse de interes,inclusiv instrumente de validare și conversie,

sunt oferite de situl Webhttp://getschema.org/

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Microformatele și microdatele HTML5sunt indexate de motoarele de căutare

Bing – http://tinyurl.com/b9mx2f2

Google rich snippets – http://tinyurl.com/3c6naq7

Yahoo! BOSS (Build your Own Search Service)http://developer.yahoo.com/search/boss/

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

extragerea/verificarea de date structurate via Structured Data Testing Tool

http://www.google.com/webmasters/tools/richsnippets

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

extragere & export de microformate, microdate HTML5 și RDFa cu extensia POSHex – Tiberiu Pasat (2013)

http://students.info.uaic.ro/~constantin.pasat/wad/

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

Cum ar putea fi detectate și penalizatesiturile Web care „trișează” în ceea ce privește

tehnicile SEO, eventual recurgând lamicroformate/microdate HTML5?

discuție (pentru acasă)

Dr.

Sab

in B

ura

ga

www.purl.org/net/busa

co

episodul viitor: limbajul JavaScript