苏州大学:文档评分与向量空间模型(PPT讲稿)

文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院
文档评分与向量空间模型 主讲人:陈文亮 李正华稍微删减 苏州大学计算机学院

提纲 1.排序式检索 2.词项频率词项频率 3.tf-idf权重计算 4.向量空间模型
提纲 2 1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型

为什么要排序 Ba6百度新网页贴吧组道查乐凰片地圆文库要多 信息检索 百度一下 信息检索,百度百科 信息检索( Information Retrieval)是指信息按一定的方式组织起来, 并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索 就是信息检索过程的后半音分, 起源定义类型主要环节热点捡索原因 baikebaidu.com/2013-10-09 影影 12345678910下-页>(百度为您到相果0
为什么要排序

排序式检索( Ranked retrieval) 迄今为止,我们主要关注的是布尔查询 文档要么匹配要么不匹配 对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 对应用开发来说也非常简单,很容易就可以返回1000多条结果 然而对大多数用户来说不方便 大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 大部分用户不愿意逐条浏览1000多条结果,特别是对web搜索 更是如此 对于刚才的例子,40M的文档,相信大家都不会想去看
5 排序式检索(Ranked retrieval) ▪迄今为止,我们主要关注的是布尔查询 ▪文档要么匹配要么不匹配 ▪对自身需求和文档集性质非常了解的专家而言,布尔查询是不 错的选择 ▪对应用开发来说也非常简单,很容易就可以返回1000多条结果 ▪然而对大多数用户来说不方便 ▪大部分用户不能撰写布尔查询或者他们认为需要大量训练才能 撰写合适的布尔查询 ▪大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索 更是如此 ▪对于刚才的例子,40M的文档,相信大家都不会想去看。 5

布尔搜索的不足:结果过少或者过多 布尔查询常常会倒是过少(=0或者过多(>1000的结果 查询1(布尔或操作):[ standard user d|ink650] →200000个结果-太多 查询2(布尔与操作): Istandard user dlink650 no card found] →0个结果-太少 在布尔检索中,需要大量技巧来生成一个可以获得合适规模结 果的查询
6 布尔搜索的不足: 结果过少或者过多 ▪布尔查询常常会倒是过少(=0)或者过多(>1000)的结果 ▪查询 1 (布尔或操作): [standard user dlink 650] ▪→ 200,000 个结果 – 太多 ▪查询2 (布尔与操作): [standard user dlink 650 no card found] ▪→ 0 个结果 – 太少 ▪在布尔检索中,需要大量技巧来生成一个可以获得合适规模结 果的查询 6

排序式检索 排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多 前提:排序算法真的有效,即相关度大的文档结果会排在相关 度小的文档结果之前
7 排序式检索 ▪排序式检索可以避免产生过多或者过少的结果 ▪大规模的返回结果可以通过排序技术来避免 ▪只需要显示前10条结果 ▪不会让用户感觉到信息太多 ▪前提:排序算法真的有效,即相关度大的文档结果会排在相关 度小的文档结果之前 7

排序式检索中的评分技术 "我们希望,在同一查询下,文档集中相关度高的文档排名高于 相关度低的文档 如何实现? 通常做法是对每个查询文档对赋一个[,1之间的分值 该分值度量了文档和查询的匹配程度 怎么做?
8 排序式检索中的评分技术 ▪我们希望,在同一查询下,文档集中相关度高的文档排名高于 相关度低的文档 ▪如何实现? ▪通常做法是对每个查询-文档对赋一个[0, 1]之间的分值 ▪该分值度量了文档和查询的匹配程度 ▪怎么做? 8

查询-文档匹配评分计算 如何计算查询文档的匹配得分?原则 先从单词项查询开始 若该词项不出现在文档当中,该文档得分应该 为0 该词项在文档中出现越多,则得分越高
9 查询-文档匹配评分计算 ▪如何计算查询-文档的匹配得分?原则 ▪先从单词项查询开始 ▪若该词项不出现在文档当中,该文档得分应该 为0 ▪该词项在文档中出现越多,则得分越高 9

提纲 排序式检索 词项频率 3.t-idf权重计算 4.向量空间模型
提纲 10 1. 排序式检索 2. 词项频率 3. tf-idf权重计算 4. 向量空间模型

二值关联矩阵 Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY 1110111 1111000 0000011 0110011 0010011 1010010 WORSER 每篇文档可以看成是一个二值的向量∈{0,1 11
11 二值关联矩阵 每篇文档可以看成是一个二值的向量 ∈ {0, 1}|V| 11 Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 淮阴工学院:《数据库原理》课程教学资源(PPT课件讲稿)第2章 数据库系统结构.ppt
- 四川大学:《操作系统 Operating System》课程教学资源(PPT课件讲稿)Chapter 5 互斥与同步(Mutual Exclusion and Synchronization)5.3 Semaphores.ppt
- 《编译原理》课程教学资源(PPT课件讲稿)第五章 语法制导的翻译 5.1 语法制导的定义 5.2 S属性定义的自下而上计算.ppt
- 《数字图像处理》课程教学资源(PPT课件讲稿)第7章 图像分割.ppt
- 《人工智能》课程电子教案(PPT课件讲稿)第9章 机器学习与知识发现.ppt
- 赣南师范大学:《计算机网络原理》课程教学资源(PPT课件讲稿)第七章 网络层.ppt
- 四川大学:《计算机操作系统 Operating System Principles》课程教学资源(PPT课件讲稿)第1章 导论(主讲:段磊).ppt
- 搜索引擎技术(PPT讲稿)Web Spam.ppt
- 电子科技大学:《密码理论》课程教学资源(PPT课件讲稿)第2章 流密码.ppt
- 《编译原理》课程教学资源(PPT课件讲稿)语法制导的翻译(Syntax-Directed Translation).pptx
- 《Photoshop CS教程》教学资源(PPT课件)第7章 编辑文字.ppt
- 西南交通大学:《网络性能评估与测试 Network Performance Evaluation and Testing》(PPT课件讲稿)第2讲 网络测试技术基础(主讲:张新有).ppt
- 《数据结构》课程教学资源(PPT课件讲稿)第五章 多维数组与广义表.ppt
- 上海交通大学:超立方体 Hypercube(PPT讲稿)Low-Diameter Architectures.ppt
- 东北大学:《计算机图形学》课程教学资源(PPT课件讲稿,主讲:闻时光).ppt
- 《数据结构》课程教学资源(PPT课件讲稿)第四章 串.ppt
- 《现代操作系统 Modern Operating Systems》课程教学资源(PPT课件讲稿,Third Edition)Chapter 3 内存管理 Memory Management.ppt
- 《网络编程实用教程》课程教学资源(PPT课件讲稿)第2章 套接字网络编程基础.ppt
- 《软件工程》课程教学资源(PPT课件)Lecture 6 设计概念和原则 Design Concepts and Principles.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第6章 数字量输入输出接口(主讲:桂小林).ppt
- 清华大学:Computational Models for Social Network Analysis(PPT讲稿)mining big social networks(Part III:Group and Structure).pptx
- 中国科学技术大学:《网络信息安全 NETWORK SECURITY》课程教学资源(PPT课件讲稿)第一章 计算机网络安全概述2/2(主讲:肖明军).ppt
- 《计算机硬件基础》课程教学资源(PPT课件讲稿)第六章 汇编语言及其程序设计.ppt
- 山东大学:《微机原理及单片机接口技术》课程教学资源(PPT课件讲稿)第四章 指令系统及汇编语言程序设计(4.9-4.11).ppt
- 《C语言程序设计》课程教学资源(PPT课件讲稿)第三章 控制语句.ppt
- 《机器学习》课程教学资源(PPT课件讲稿)第十三章 半监督学习.pptx
- 《数字图像处理》课程教学资源(PPT课件)第三章 灰度直方图.ppt
- 《电子技术》课程教学资源(PPT讲稿资料)玩转Arduino合集.ppt
- 《计算机网络》课程教学资源(PPT课件讲稿)第7章 广域网.ppt
- 电子科技大学:《信息安全概论》课程教学资源(PPT课件讲稿)第一章 概述(秦志光).ppt
- 西安交通大学:《微型计算机硬件技术》课程教学资源(PPT课件讲稿)第三章 总线线驱动与接口(主讲:桂小林).ppt
- 基于分布式哈希表的对等系统关键技术研究(论文PPT).ppt
- 山东大学:《人机交互技术》课程教学资源(PPT课件讲稿)第4章 人机交互技术.ppt
- 《C程序设计》课程电子教案(PPT课件)第四章 数组和结构.ppt
- 华东师范大学:《程序设计》课程教学资源(PPT课件讲稿)第九讲 类与对象(面向对象基础).pptx
- 《计算机视觉》课程教学资源(PPT课件讲稿)第十二章 目标识别 Object Recognition.ppt
- 南京大学:《面向对象技术 OOT》课程教学资源(PPT课件讲稿)引言、背景概述.ppt
- 《数据结构》课程教学资源(PPT课件讲稿)第3章 栈和队列.ppt
- 中国科学技术大学:《计算机体系结构》课程教学资源(PPT课件讲稿)第4章 存储层次结构设计.ppt
- 东南大学:《数据结构》课程教学资源(PPT课件讲稿)分治算法.pptx