Impactul similaritat¸ii documentelor web˘ asupra...

21
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S ¸ I BOUNCERATE SCRAPER SITE CONCLUZII Impactul similarit˘ at ¸ii documentelor web asupra traficului Absolvent: Diana - Florina HALIT ¸ ˘ A Coordonator ¸ stiint¸ific: Lect. Dr. Darius - Vasile BUFNEA Universitatea ”Babe¸ s-Bolyai” Cluj-Napoca 1 Iulie 2014

Transcript of Impactul similaritat¸ii documentelor web˘ asupra...

Page 1: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

Impactul similaritatii documentelor webasupra traficului

Absolvent: Diana - Florina HALITACoordonator stiintific: Lect. Dr. Darius - Vasile BUFNEA

Universitatea ”Babes-Bolyai” Cluj-Napoca

1 Iulie 2014

Page 2: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

CUPRINS

1 MIGRAREA UNUI SITE WEB

De ce?ProvocariSolutiiRezultate

2 SIMILARITATE SI BOUNCERATE

De ce?SolutiiRezultate

3 SCRAPER SITE

De ce?SolutiiRezultate

4 CONCLUZII

Page 3: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

DE CE?

De ce sa alegem un CMS?

� Intretinerea facila - web;

� Independentacontinutului deprezentare;

� Update-uri periodice desecuritate;

� Roluri multiple pentruutilizatori;

De ce este necesara migrarea?

� CMS-ul vechi esteconsiderat ınvechit;

� CMS open source;

� Scalabilitatea CMS-uluinou;

� Fructificarea noilortehnologii web: CSS3,Ajax, HTML5.

Page 4: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

PROVOCARI

� expunerea continutuluisite-ului web la un URLnou

� cresterea numarului devizitatori care sunt indusiın eroare

� pierderea diverselorbeneficii castigate ın timp

Page 5: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

SOLUTII

Solutii posibile:

� migrarea automata sau manuala;

� estimarea timpului necesar migrarii;

� evaluarea procesului de migrare.

Solutii propuse de altii:

� plugin-uri care tin cont de comportamentul utilizatorilorın timp.

Solutia propusa:

� potrivirea perechilor de URL-uri;

� AVANTAJ:algoritmul se utilizeaza ınaintea lansarii site-ului.

Page 6: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Batch processing

Page 7: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Vechiul site: numarulde pagini accesate de catre unreferrer extern si numarul depagini care au generat eroarea404 si au fost accesate de catreun referrer extern

Figure : Noul site: numarul depagini accesate de catre unreferrer extern si numarul depagini care au generat eroarea404 si au fost accesate de catreun referrer extern

Page 8: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Vechiul site: procentulpaginilor ce au generat eroare404 si au fost accesate de catreun referrer extern

Figure : Noul site: procentulpaginilor ce au generat eroare404 si au fost accesate de catreun referrer extern

Page 9: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Noul site: adaptareamotoarelor de cautare la nouastructura a site-ului

Figure : Noul site: majoritateaerorilor 404 sunt generate decatre utilizatorii care vin de lareferreri 3rd party

Page 10: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Noul site: procentulpaginilor ce genereaza eroarea404 si procentul paginilor cegenereaza eroarea 404 si vin dela motoarele de cautare sau dela referreri 3rd party

Figure : Procentul paginilor cegenereaza eroarea 404 avandun referrer extern, odata ce afost activat layer-ul suportpropus

Page 11: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

DE CE?

Link-urile sunt folosite abuziv:

Scop:

� cresterea page rank-ului domeniului destinatie;

Rezultat:

� utilizatorului nu ıi este prezentata o informatie de care safie interesat;

Locatie:

� sunt localizate fie sitewide, fie ın cadrul continutuluiabsolut.

Page 12: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

SOLUTII

Tehnici de detectare alink-urilor abuzive:

� analiza continutului

� analiza link-urilor

� analizacomportamentuluiutilizatorilor

� metode de clasificareautomata, supervizatasau nesupervizata

Acuratete:

� 80% din paginile carecontin link-uri abuzivesunt detectate

Recomandare:

� combinarea tehnicilor ⇒creste procentul de paginiabuzive detectate

Page 13: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Similaritate ideala

� similaritate mare ⇒ ratade respingere mica

� similaritate mica ⇒ ratade respingere mare

� cea mai buna functie desimilaritate:conditii: suma

∑ |xi + yi − 100|√2

este minima

Page 14: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

0

20

40

60

80

100

0 20 40 60 80 100

bo

un

cera

te

similarity

Cosine Similarity - absolute content100-x

Figure : Similariatea Cosinus

0

20

40

60

80

100

0 20 40 60 80 100

bo

un

cera

te

similarity

Jaccard Similarity - absolute content100-x

Figure : Similaritatea Jaccard

Page 15: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

0

20

40

60

80

100

0 20 40 60 80 100

bo

un

cera

te

similarity

Sorensen Similarity - absolute content100-x

Figure : Similariatea Sorensen

0

20

40

60

80

100

0 20 40 60 80 100

bo

un

cera

te

similarity

Jaro Winkler Similarity - absolute content100-x

Figure : Similaritatea JaroWinkler

Page 16: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Functie de similaritate Metoda Valoarea sumei

Cosinus continut absolut 1804.476000579978Jaccard continut absolut 1414.03085464388

Sorensen continut absolut 1769.3699189543242Jaro-Winkler continut absolut 1528.5359097516346

Table : Suma distantelor de la toate punctele de pe grafic la dreaptade ecuatie y = x − 100

Page 17: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

DE CE?

Probleme:

Prezenta ın SERP a unor site-uri care:

� directioneaza gresit utilizatorii;

� directioneaza utilizatorii spre un scraper site.

Consecinte:

� scaderea performantei motoarelor de cautare;

� nemultumirea utilizatorilor referitoare la informatia gasita

Page 18: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

SOLUTII

Identificarea scraper site-urilor:

� algoritmi automati;

� pe baza feedback-ului utilizatorilor - programe de ınvatareautomata;

� pe baza similaritatii dintre continutul aflat la pagina careface parte dintr-un scraper site si pagina sursa de la care afost preluat continutul.

Page 19: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

REZULTATE

Figure : Scraper site:Similaritatea Cosinus - ǫ = 0.05

Figure : Non-Scraper site:Similaritatea Cosinus - ǫ = 0.05

Page 20: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

CONCLUZII

Migrarea unui site web

� ponderarea proprietatilor continutului prezentat la unanumit URL;

� redirectionarea vizitatorului spre o pagina similara cu ceaa referrer-ului.

Similaritate si bouncerate

� analiza similaritatii continuturilor⇒ (referrer, ∀ link intern);

� functii de similaritate semantica;

� ponderarea functiilor de similaritate;

� ponderarea unor proprietati specifice ale continutului.

Page 21: Impactul similaritat¸ii documentelor web˘ asupra traficuluidiana.sotropa/files/research/prezentaredisertatie... · INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE S¸I BOUNCERATE

INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII

Multumesc!

Q & A