Impactul similaritat¸ii documentelor web˘ asupra...
Transcript of Impactul similaritat¸ii documentelor web˘ asupra...
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
Impactul similaritatii documentelor webasupra traficului
Absolvent: Diana - Florina HALITACoordonator stiintific: Lect. Dr. Darius - Vasile BUFNEA
Universitatea ”Babes-Bolyai” Cluj-Napoca
1 Iulie 2014
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
CUPRINS
1 MIGRAREA UNUI SITE WEB
De ce?ProvocariSolutiiRezultate
2 SIMILARITATE SI BOUNCERATE
De ce?SolutiiRezultate
3 SCRAPER SITE
De ce?SolutiiRezultate
4 CONCLUZII
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
DE CE?
De ce sa alegem un CMS?
� Intretinerea facila - web;
� Independentacontinutului deprezentare;
� Update-uri periodice desecuritate;
� Roluri multiple pentruutilizatori;
De ce este necesara migrarea?
� CMS-ul vechi esteconsiderat ınvechit;
� CMS open source;
� Scalabilitatea CMS-uluinou;
� Fructificarea noilortehnologii web: CSS3,Ajax, HTML5.
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
PROVOCARI
� expunerea continutuluisite-ului web la un URLnou
� cresterea numarului devizitatori care sunt indusiın eroare
� pierderea diverselorbeneficii castigate ın timp
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
SOLUTII
Solutii posibile:
� migrarea automata sau manuala;
� estimarea timpului necesar migrarii;
� evaluarea procesului de migrare.
Solutii propuse de altii:
� plugin-uri care tin cont de comportamentul utilizatorilorın timp.
Solutia propusa:
� potrivirea perechilor de URL-uri;
� AVANTAJ:algoritmul se utilizeaza ınaintea lansarii site-ului.
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
Figure : Batch processing
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
Figure : Vechiul site: numarulde pagini accesate de catre unreferrer extern si numarul depagini care au generat eroarea404 si au fost accesate de catreun referrer extern
Figure : Noul site: numarul depagini accesate de catre unreferrer extern si numarul depagini care au generat eroarea404 si au fost accesate de catreun referrer extern
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
Figure : Vechiul site: procentulpaginilor ce au generat eroare404 si au fost accesate de catreun referrer extern
Figure : Noul site: procentulpaginilor ce au generat eroare404 si au fost accesate de catreun referrer extern
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
Figure : Noul site: adaptareamotoarelor de cautare la nouastructura a site-ului
Figure : Noul site: majoritateaerorilor 404 sunt generate decatre utilizatorii care vin de lareferreri 3rd party
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
Figure : Noul site: procentulpaginilor ce genereaza eroarea404 si procentul paginilor cegenereaza eroarea 404 si vin dela motoarele de cautare sau dela referreri 3rd party
Figure : Procentul paginilor cegenereaza eroarea 404 avandun referrer extern, odata ce afost activat layer-ul suportpropus
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
DE CE?
Link-urile sunt folosite abuziv:
Scop:
� cresterea page rank-ului domeniului destinatie;
Rezultat:
� utilizatorului nu ıi este prezentata o informatie de care safie interesat;
Locatie:
� sunt localizate fie sitewide, fie ın cadrul continutuluiabsolut.
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
SOLUTII
Tehnici de detectare alink-urilor abuzive:
� analiza continutului
� analiza link-urilor
� analizacomportamentuluiutilizatorilor
� metode de clasificareautomata, supervizatasau nesupervizata
Acuratete:
� 80% din paginile carecontin link-uri abuzivesunt detectate
Recomandare:
� combinarea tehnicilor ⇒creste procentul de paginiabuzive detectate
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
Figure : Similaritate ideala
� similaritate mare ⇒ ratade respingere mica
� similaritate mica ⇒ ratade respingere mare
� cea mai buna functie desimilaritate:conditii: suma
∑ |xi + yi − 100|√2
este minima
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
0
20
40
60
80
100
0 20 40 60 80 100
bo
un
cera
te
similarity
Cosine Similarity - absolute content100-x
Figure : Similariatea Cosinus
0
20
40
60
80
100
0 20 40 60 80 100
bo
un
cera
te
similarity
Jaccard Similarity - absolute content100-x
Figure : Similaritatea Jaccard
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
0
20
40
60
80
100
0 20 40 60 80 100
bo
un
cera
te
similarity
Sorensen Similarity - absolute content100-x
Figure : Similariatea Sorensen
0
20
40
60
80
100
0 20 40 60 80 100
bo
un
cera
te
similarity
Jaro Winkler Similarity - absolute content100-x
Figure : Similaritatea JaroWinkler
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
Functie de similaritate Metoda Valoarea sumei
Cosinus continut absolut 1804.476000579978Jaccard continut absolut 1414.03085464388
Sorensen continut absolut 1769.3699189543242Jaro-Winkler continut absolut 1528.5359097516346
Table : Suma distantelor de la toate punctele de pe grafic la dreaptade ecuatie y = x − 100
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
DE CE?
Probleme:
Prezenta ın SERP a unor site-uri care:
� directioneaza gresit utilizatorii;
� directioneaza utilizatorii spre un scraper site.
Consecinte:
� scaderea performantei motoarelor de cautare;
� nemultumirea utilizatorilor referitoare la informatia gasita
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
SOLUTII
Identificarea scraper site-urilor:
� algoritmi automati;
� pe baza feedback-ului utilizatorilor - programe de ınvatareautomata;
� pe baza similaritatii dintre continutul aflat la pagina careface parte dintr-un scraper site si pagina sursa de la care afost preluat continutul.
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
REZULTATE
Figure : Scraper site:Similaritatea Cosinus - ǫ = 0.05
Figure : Non-Scraper site:Similaritatea Cosinus - ǫ = 0.05
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
CONCLUZII
Migrarea unui site web
� ponderarea proprietatilor continutului prezentat la unanumit URL;
� redirectionarea vizitatorului spre o pagina similara cu ceaa referrer-ului.
Similaritate si bouncerate
� analiza similaritatii continuturilor⇒ (referrer, ∀ link intern);
� functii de similaritate semantica;
� ponderarea functiilor de similaritate;
� ponderarea unor proprietati specifice ale continutului.
INTRODUCERE MIGRAREA UNUI SITE WEB SIMILARITATE SI BOUNCERATE SCRAPER SITE CONCLUZII
Multumesc!
Q & A