北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)02 Link Analysis

NC&IS Link Analysis The CCF Advanced Disciplines Lectures 彭波 pb@net.pku.edu.cn 北京大学信息科学技术学院 6/27/2010
Link Analysis The CCF Advanced Disciplines Lectures 彭波 pb@net.pku.edu.cn 北京大学信息科学技术学院 6/27/2010

ANS I BBN/GTE CERFnet Ebone MCI Netcom Verlo

Web Graph Apple-Products SMC Ne 4 A ©2003 TouchGraph LLC http://www.touchgraph.com/TGGoogleBrowser.html
Web Graph http://www.touchgraph.com/TGGoogleBrowser.html

Giant Global Graph Zero HP stock MySpace xchng Pinkbike PASA Ride THTB monkey biking Loop'd content Sharing ng 9oogl (portiolio site) reader news cultivate creativity neetup side broject me gro Charlotte yahoo meetings Twitter messaging tran Charlotte Seesmic Gmail frequency depth deeper (eg:site owner.partner) shopping weekly deep (eg:contributor,organizer Last.fm shallow monthly Amazon ebay eg:commenter.tagger) minimal Pandora rarely (eg:maintain a profile】
Giant Global Graph

重要度的度量 刘翔 Paul Erdδs 一阶指标(“入度”) ·知晓关系:社会知名度 ·引用关系:认可程度 ● “高阶指标” ■和一个著名人物“共同发表”论文的“距离”:越短似 乎显得越“有荣誉”(例如,Erdos number,)
重要度的度量 ◼ 一阶指标(“入度”) ◼ 知晓关系:社会知名度 ◼ 引用关系:认可程度 ◼ “高阶指标” ◼ 和一个著名人物“共同发表”论文的“距离”:越短似 乎显得越“有荣誉”(例如,Erdos number,) 刘翔 Paul Erdös

对网页重要性的评价 PageRank算法,HITS(Hyperlink Induced Topic Search)算法 ■都是为了利用HTML网页的链接特 点,改善查询的效果 Larry Page Sergey Brin ,当Spam页面淹没了search enginel的 搜索结果页面时,除了页面内容与 查询的相关性以外,页面本身的质 量/重要性的作用就显现出来 Jon Kleinberg
对网页重要性的评价 ◼ PageRank算法,HITS(Hyperlink Induced Topic Search)算法 ◼ 都是为了利用HTML网页的链接特 点,改善查询的效果 ◼ 当Spam页面淹没了search engine的 搜索结果页面时,除了页面内容与 查询的相关性以外,页面本身的质 量/重要性的作用就显现出来 Larry Page & Sergey Brin Jon Kleinberg

PageRank B 34.3% 39 38.4% 8.1% Why and how it works? +d(PR(B) L(B) +0+)
PageRank Why and how it works?

谁重要一些? 如何用一个模型来刻画这种 感觉,使算出来的“重要性” 反映这种感觉? 0010 E= 1001 0100 认识甲的人可能和认识乙的人一样多,但认识乙的 人都是些“重要人物”,于是通常会认为乙比甲重 要 ■不仅是人,论文也是一样,被重要的文章引用的文 章可能就比较重要些
◼ 认识甲的人可能和认识乙的人一样多,但认识乙的 人都是些“重要人物”,于是通常会认为乙比甲重 要 ◼ 不仅是人,论文也是一样,被重要的文章引用的文 章可能就比较重要些 谁重要一些? 如何用一个模型来刻画这种 感觉,使算出来的“重要性” 反映这种感觉?

声望模型Reputation Model ■给定一个群体S,及其在上面的一个“知晓”关系 R,于是定义了一个有问“关系图”G。用邻接矩 阵E表示,E(,j)=1,当且仅当i听说过”j'(注意这 里没有程度之分,)。我们希望确定():所有个体 i∈S的“声望 模型=:p(=[k,k=1红n 即i在G上的 “入度”,亦即正的第列的1的个数 ·清楚、好计算;但是“不够好” 攀手晓盟人}望第k=1小,即的声望 ·清楚、显得要更“精确些”;但是,好计算吗?
声望模型Reputation Model ◼ 给定一个群体S,及其在上面的一个“知晓”关系 R,于是定义了一个有向“关系图”G。用邻接矩 阵E表示,E(i,j)=1,当且仅当i “听说过” j(注意这 里没有程度之分)。我们希望确定p(i):所有个体 i∈S的“声望” ◼ 模型一:p(i) = ∑E[k,i],k=1,…,n,即i在G上的 “入度”,亦即E的第i列的1的个数 ◼ 清楚、好计算;但是“不够好” ◼ 模型二:p(i) = ∑E[k,i]p(k),k=1,…,n,即i的声望 等于知晓他的人的声望之和 ◼ 清楚、显得要更“精确些” ;但是,好计算吗?

声望模型二 对于所有i,p()=∑E[k,i门p(k),k=1,,n 也就是,记p=(p(1),p(2),,p(n), p=Ep ■问题是: ■这个方程存在解吗? 般来讲:这 ·如果存在,如何得到? 个方程的非0解 ■如果不存在,该怎么办? 是不存在的!
声望模型二 ◼ 对于所有i,p(i) = ∑E[k,i]p(k),k=1,…,n ◼ 也就是,记p = (p(1), p(2), …, p(n))T , p = ETp ◼ 问题是: ◼ 这个方程存在解吗? ◼ 如果存在,如何得到? ◼ 如果不存在,该怎么办? 一般来讲:这 个方程的非0解 是不存在的!
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)01 Introduction(主讲:彭波)The CCF Advanced Disciplines Lectures.ppt
- 《统计自然语言处理》课程教学资源(PPT课件讲稿)第7章 汉语自动分词与词性标注.ppt
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)搜索引擎技术 SearchEngine.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索概述.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索模型 IRModel.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息过滤(主讲:刘挺).pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)文本分类 Text Categorization(主讲:刘挺).pdf
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Essential Background.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Retrieval Models.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Crawling the Web.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Web Search.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Course Overview(主讲:闫宏飞).ppt
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 01 Introdution(主讲:吉建民).pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 15 智能机器人系统介绍.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 14 Reinforcement Learning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 13 神经网络与深度学习.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 09 AI Planning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 08 First-Order Logic and Inference in FOL.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 11 马尔可夫决策过程.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 10 Uncertainty and Bayesian Networks.pdf
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)03 Web Spam.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)04 Recommendation System.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)05 Infrastructure and Cloud.ppt
- 河南科技学院:信息工程学院本科课程教学大纲汇编(计算机科学与技术专业).pdf
- 广东茂名农林科技职业学院:计算机网络技术人才培养方案(2020级).pdf
- 广东茂名农林科技职业学院:计算机网络技术专业人才培养方案(2021级).pdf
- 广东茂名农林科技职业学院:动漫制作技术专业人才培养方案(2020级).pdf
- 南京农业大学:《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming.pdf
- 广东茂名农林科技职业学院:电子商务专业人才培养方案(2019级).pdf
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第一章 绪论(主讲:袁平波).pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第二章 关系数据库.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第四章 关系数据库设计理论.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第三章 关系数据库标准查询语言SQL.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第五章 数据库的保护.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第六章 数据库设计、第七章 关系数据库管理系统实例、第八章 现代数据库技术及进展.pps
- 《数据库基础》课程教学资源(PPT课件讲稿)Delphi 7.0开发示例.pps
- 《数据库基础》课程教学资源(参考资料)数据库在虚拟机openEuler上安装部署openGauss数据库指导手册(openEuler-openGauss).pdf
- 《数据库基础》课程教学资源(参考资料)数据库在虚拟机CentOS上安装部署openGauss数据库指导手册.pdf
- 中国科学技术大学:《数据结构及算法》课程教学资源(PPT课件讲稿)第2章 线性表.pps
- 中国科学技术大学:《数据结构及算法》课程教学资源(PPT课件讲稿)第3章 栈和队列.pps