Impactul similaritat¸ii documentelor web˘ asupra...

Post on 12-Feb-2020

3 views 0 download

Transcript of Impactul similaritat¸ii documentelor web˘ asupra...

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

Impactul similaritatii documentelor webasupra traficului

Absolvent: Diana - Florina HALITACoordonator stiintific: Lect. Dr. Darius - Vasile BUFNEA

Universitatea ”Babes-Bolyai” Cluj-Napoca

1 Iulie 2014

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

CUPRINS

1 MIGRAREA UNUI SITE WEB

De ce?ProvocariSolutiiRezultate

2 SIMILARITATE SI BOUNCERATE

De ce?SolutiiRezultate

3 SCRAPER SITE

De ce?SolutiiRezultate

4 CONCLUZII

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

DE CE?

De ce sa alegem un CMS?

� Intretinerea facila - web;

� Independentacontinutului deprezentare;

� Update-uri periodice desecuritate;

� Roluri multiple pentruutilizatori;

De ce este necesara migrarea?

� CMS-ul vechi esteconsiderat ınvechit;

� CMS open source;

� Scalabilitatea CMS-uluinou;

� Fructificarea noilortehnologii web: CSS3,Ajax, HTML5.

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

PROVOCARI

� expunerea continutuluisite-ului web la un URLnou

� cresterea numarului devizitatori care sunt indusiın eroare

� pierderea diverselorbeneficii castigate ın timp

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

SOLUTII

Solutii posibile:

� migrarea automata sau manuala;

� estimarea timpului necesar migrarii;

� evaluarea procesului de migrare.

Solutii propuse de altii:

� plugin-uri care tin cont de comportamentul utilizatorilorın timp.

Solutia propusa:

� potrivirea perechilor de URL-uri;

� AVANTAJ:algoritmul se utilizeaza ınaintea lansarii site-ului.

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Batch processing

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Vechiul site: numarulde pagini accesate de catre unreferrer extern si numarul depagini care au generat eroarea404 si au fost accesate de catreun referrer extern

Figure : Noul site: numarul depagini accesate de catre unreferrer extern si numarul depagini care au generat eroarea404 si au fost accesate de catreun referrer extern

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Vechiul site: procentulpaginilor ce au generat eroare404 si au fost accesate de catreun referrer extern

Figure : Noul site: procentulpaginilor ce au generat eroare404 si au fost accesate de catreun referrer extern

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Noul site: adaptareamotoarelor de cautare la nouastructura a site-ului

Figure : Noul site: majoritateaerorilor 404 sunt generate decatre utilizatorii care vin de lareferreri 3rd party

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Noul site: procentulpaginilor ce genereaza eroarea404 si procentul paginilor cegenereaza eroarea 404 si vin dela motoarele de cautare sau dela referreri 3rd party

Figure : Procentul paginilor cegenereaza eroarea 404 avandun referrer extern, odata ce afost activat layer-ul suportpropus

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

DE CE?

Link-urile sunt folosite abuziv:

Scop:

� cresterea page rank-ului domeniului destinatie;

Rezultat:

� utilizatorului nu ıi este prezentata o informatie de care safie interesat;

Locatie:

� sunt localizate fie sitewide, fie ın cadrul continutuluiabsolut.

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

SOLUTII

Tehnici de detectare alink-urilor abuzive:

� analiza continutului

� analiza link-urilor

� analizacomportamentuluiutilizatorilor

� metode de clasificareautomata, supervizatasau nesupervizata

Acuratete:

� 80% din paginile carecontin link-uri abuzivesunt detectate

Recomandare:

� combinarea tehnicilor ⇒creste procentul de paginiabuzive detectate

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Similaritate ideala

� similaritate mare ⇒ ratade respingere mica

� similaritate mica ⇒ ratade respingere mare

� cea mai buna functie desimilaritate:conditii: suma

∑ |xi + yi − 100|√2

este minima

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

0

20

40

60

80

100

0 20 40 60 80 100

bo

un

cera

te

similarity

Cosine Similarity - absolute content100-x

Figure : Similariatea Cosinus

0

20

40

60

80

100

0 20 40 60 80 100

bo

un

cera

te

similarity

Jaccard Similarity - absolute content100-x

Figure : Similaritatea Jaccard

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

0

20

40

60

80

100

0 20 40 60 80 100

bo

un

cera

te

similarity

Sorensen Similarity - absolute content100-x

Figure : Similariatea Sorensen

0

20

40

60

80

100

0 20 40 60 80 100

bo

un

cera

te

similarity

Jaro Winkler Similarity - absolute content100-x

Figure : Similaritatea JaroWinkler

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Functie de similaritate Metoda Valoarea sumei

Cosinus continut absolut 1804.476000579978Jaccard continut absolut 1414.03085464388

Sorensen continut absolut 1769.3699189543242Jaro-Winkler continut absolut 1528.5359097516346

Table : Suma distantelor de la toate punctele de pe grafic la dreaptade ecuatie y = x − 100

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

DE CE?

Probleme:

Prezenta ın SERP a unor site-uri care:

� directioneaza gresit utilizatorii;

� directioneaza utilizatorii spre un scraper site.

Consecinte:

� scaderea performantei motoarelor de cautare;

� nemultumirea utilizatorilor referitoare la informatia gasita

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

SOLUTII

Identificarea scraper site-urilor:

� algoritmi automati;

� pe baza feedback-ului utilizatorilor - programe de ınvatareautomata;

� pe baza similaritatii dintre continutul aflat la pagina careface parte dintr-un scraper site si pagina sursa de la care afost preluat continutul.

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Scraper site:Similaritatea Cosinus - ǫ = 0.05

Figure : Non-Scraper site:Similaritatea Cosinus - ǫ = 0.05

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

CONCLUZII

Migrarea unui site web

� ponderarea proprietatilor continutului prezentat la unanumit URL;

� redirectionarea vizitatorului spre o pagina similara cu ceaa referrer-ului.

Similaritate si bouncerate

� analiza similaritatii continuturilor⇒ (referrer, ∀ link intern);

� functii de similaritate semantica;

� ponderarea functiilor de similaritate;

� ponderarea unor proprietati specifice ale continutului.

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

Multumesc!

Q & A