北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)03 Web Spam

NC&IS Web Spam The CCF Advanced Disciplines Lectures 彭波 pb@net.pku.edu.cn 北京大学信息科学技术学院 6/27/2010
Web Spam The CCF Advanced Disciplines Lectures 彭波 pb@net.pku.edu.cn 北京大学信息科学技术学院 6/27/2010

street spam email spam 25名 05 YOUVE GOT MAIL 直招 收72 92
street spam email spam

What Is Web Spam? Spamming any deliberate action solely in order to boost a web page's position in search engine results,incommensurate with page's real value ■ Spam web pages that are the result of spamming "Page 1...It's what we do." Approximately 10-15%of web pages are spam seo age
What Is Web Spam? ◼ Spamming = any deliberate action solely in order to boost a web page’s position in search engine results, incommensurate with page’s real value ◼ Spam = web pages that are the result of spamming ◼ Approximately 10-15% of web pages are spam

Why Web Spam Is Bad We appreciate your taking the time to help us improve our service for your fellow users around the world.By helping us eliminate spam,you're saving millions of people time,effort and energy. Google
Why Web Spam Is Bad We appreciate your taking the time to help us improve our service for your fellow users around the world. By helping us eliminate spam, you're saving millions of people time, effort and energy

Detecting Web Spam Spam detection:a classification problem "根据特征,判别一个网页/网站是否是spam? But what are the "salient features"? ·通过了解spamming技术来寻找特征 Finding the right features is "alchemy",not science ,Spammers也在不停的改进技术-it's an arms race!
Detecting Web Spam ◼ Spam detection: a classification problem ◼ 根据特征,判别一个网页/网站是否是spam? ◼ But what are the “salient features”? ◼ 通过了解spamming技术来寻找特征 ◼ Finding the right features is “alchemy”, not science ◼ Spammers也在不停的改进技术 –it’s an arms race!

NC&IS The Spammer's Toolbox
The Spammer’s Toolbox

Techniques Taxonomy term boosting techniques link hiding
Techniques Taxonomy

Techniques Boosting Term how? term body repetition boosting title techniques dumping hiding meta tag weaving anchor stitching url 32 link
Techniques / Boosting / Term

Term Spamming-What? Web Casino Title Our customers agree that we are the best online gambling site! Body URL Anchor text A great online gambling site
Term Spamming-What?

Weaving Remember not only airfare to say the right plane tickets thing in the right place,but far cheap travel more difficult still,to leave hotel rooms unsaid the wrong thing at vacation the tempting moment. Benjamin Franklin US author diplomat,inventor physicist,politician,printer(1706 -1790)
Remember not only to say the right thing in the right place, but far more difficult still, to leave unsaid the wrong thing at the tempting moment. Benjamin Franklin US author, diplomat, inventor, physicist, politician, & printer (1706 - 1790) Weaving Remember not only airfare to say the right plane tickets thing in the right place, but far cheap travel more difficult still, to leave hotel rooms unsaid the wrong thing at vacation the tempting moment. Benjamin Franklin US author, diplomat, inventor, physicist, politician, & printer (1706 - 1790) Remember not only airfare to say the right plane tickets thing in the right place, but far cheap travel more difficult still, to leave hotel rooms unsaid the wrong thing at vacation the tempting moment. Benjamin Franklin US author, diplomat, inventor, physicist, politician, & printer (1706 - 1790)
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)02 Link Analysis.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)01 Introduction(主讲:彭波)The CCF Advanced Disciplines Lectures.ppt
- 《统计自然语言处理》课程教学资源(PPT课件讲稿)第7章 汉语自动分词与词性标注.ppt
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)搜索引擎技术 SearchEngine.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索概述.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索模型 IRModel.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息过滤(主讲:刘挺).pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)文本分类 Text Categorization(主讲:刘挺).pdf
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Essential Background.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Retrieval Models.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Crawling the Web.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Web Search.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Course Overview(主讲:闫宏飞).ppt
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 01 Introdution(主讲:吉建民).pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 15 智能机器人系统介绍.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 14 Reinforcement Learning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 13 神经网络与深度学习.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 09 AI Planning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 08 First-Order Logic and Inference in FOL.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 11 马尔可夫决策过程.pdf
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)04 Recommendation System.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)05 Infrastructure and Cloud.ppt
- 河南科技学院:信息工程学院本科课程教学大纲汇编(计算机科学与技术专业).pdf
- 广东茂名农林科技职业学院:计算机网络技术人才培养方案(2020级).pdf
- 广东茂名农林科技职业学院:计算机网络技术专业人才培养方案(2021级).pdf
- 广东茂名农林科技职业学院:动漫制作技术专业人才培养方案(2020级).pdf
- 南京农业大学:《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming.pdf
- 广东茂名农林科技职业学院:电子商务专业人才培养方案(2019级).pdf
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第一章 绪论(主讲:袁平波).pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第二章 关系数据库.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第四章 关系数据库设计理论.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第三章 关系数据库标准查询语言SQL.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第五章 数据库的保护.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第六章 数据库设计、第七章 关系数据库管理系统实例、第八章 现代数据库技术及进展.pps
- 《数据库基础》课程教学资源(PPT课件讲稿)Delphi 7.0开发示例.pps
- 《数据库基础》课程教学资源(参考资料)数据库在虚拟机openEuler上安装部署openGauss数据库指导手册(openEuler-openGauss).pdf
- 《数据库基础》课程教学资源(参考资料)数据库在虚拟机CentOS上安装部署openGauss数据库指导手册.pdf
- 中国科学技术大学:《数据结构及算法》课程教学资源(PPT课件讲稿)第2章 线性表.pps
- 中国科学技术大学:《数据结构及算法》课程教学资源(PPT课件讲稿)第3章 栈和队列.pps
- 中国科学技术大学:《数据结构及算法》课程教学资源(PPT课件讲稿)第4章 串和数组.pps