中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第6章 检索的评价

信息检索与数据挖掘 2019/3/25 1 信息检索与数据挖掘 第6章检索的评价
信息检索与数据挖掘 2019/3/25 1 信息检索与数据挖掘 第6章 检索的评价

信息检索与数据挖掘 2019/3/25 3 提纲 ①上一讲回顾 ②检索系统的评价概述 3 无序检索结果的评价 ④有序检索结果的评价 ⑤为IR系统构建测试集 6检索结果的展示
信息检索与数据挖掘 2019/3/25 3 提纲 ❶ 上一讲回顾 ❷ 检索系统的评价概述 ❸ 无序检索结果的评价 ❹ 有序检索结果的评价 ❺ 为IR系统构建测试集 ❻ 检索结果的展示

信息检索与数据挖掘 2019/3/25 4 搜索系统组成 用户查询 语言分析器 0 结果 文档 自由文本查询分析器 页面 0 索引器 拼写校正 评分排序 文档缓存 域索引及字 段索引中的 非精确 层次型位置倒 k-gram 评分参数 元数据 topK检索 排索引 索引 训练 索引 机器学习 集合
信息检索与数据挖掘 2019/3/25 4 搜索系统组成 4

信息检索与数据挖掘 2019/3/25 5 综合评分 已经介绍的评分函数有余弦相似度、静态得分、近 邻性等。 ·如何将这些评分组合才是最优的? •通用方法一 机器学习 机器学习有下面几种定义:“机器学习是一门人工智能的科学,该领域的主要 研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。“机 器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据 或以往的经验,以此优化计算机程序的性能标准。”一种经常引用的英文定义 A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P,if its performance at tasks in T,as measured by P,improves with experience E
信息检索与数据挖掘 2019/3/25 5 综合评分 • 已经介绍的评分函数有余弦相似度、静态得分、近 邻性等。 • 如何将这些评分组合才是最优的? • 通用方法——机器学习 5 机器学习有下面几种定义: “机器学习是一门人工智能的科学,该领域的主要 研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机 器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据 或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义 是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E

信息检索与数据挖掘 2019/3/25 6 提纲 ①上一讲回顾 检索系统的评价概述 3 无序检索结果的评价 ④有序检索结果的评价 ⑤为IR系统构建测试集 6检索结果的展示
信息检索与数据挖掘 2019/3/25 6 提纲 ❶ 上一讲回顾 ❷ 检索系统的评价概述 ❸ 无序检索结果的评价 ❹ 有序检索结果的评价 ❺ 为IR系统构建测试集 ❻ 检索结果的展示

信息检索与数据挖掘 2019/3/25 8 为什么要评价R? ·前面各章介绍了信息检索系统设计中的各种方法。 怎样才能知道其中哪些技术在哪些应用中有效? ·信息检索已经发展成为一门高度经验性的学科,需要在 具有代表性的文档集上进行全面细致的评价,从而论证 新技术的应用所带来的性能提升。 ·通过评价可以判断不同技术的优劣,不同因素对系 统的影响,从而促进本领域研究水平的不断提高 ·信息检索系统的日标是较少消耗情况下尽快、全面 返回准确的结果。 8
信息检索与数据挖掘 2019/3/25 8 为什么要评价IR? • 前面各章介绍了信息检索系统设计中的各种方法。 怎样才能知道其中哪些技术在哪些应用中有效? • 信息检索已经发展成为一门高度经验性的学科,需要在 具有代表性的文档集上进行全面细致的评价,从而论证 新技术的应用所带来的性能提升。 • 通过评价可以判断不同技术的优劣,不同因素对系 统的影响,从而促进本领域研究水平的不断提高。 • 信息检索系统的目标是较少消耗情况下尽快、全面 返回准确的结果。 8

信息检索与数据挖掘 2019/3/25 9 搜索引擎的评价 ·建立索引的速度 。查询语言的表达能力 ·每小时索引的文档数量 ·是否能表达复杂的信息需求 。平均的文档大小 ·对复杂查询的处理速度 。搜索的速度 ·流畅和清晰的用户界面 。和索引大小相关 。是否免费? User Interface Text query Text operations Logical User Query Indexing Collection feedback Operations Manager Query R Searching Text R Text Ranked Retrieved Collection Docs Ranking Docs
信息检索与数据挖掘 2019/3/25 9 搜索引擎的评价 • 建立索引的速度 • 每小时索引的文档数量 • 平均的文档大小 • 搜索的速度 • 和索引大小相关 • 查询语言的表达能力 • 是否能表达复杂的信息需求 • 对复杂查询的处理速度 • 流畅和清晰的用户界面 • 是否免费?

信息检索与数据挖掘 2019/3/25 10 搜索引擎的评价 ·上述的评价标准都是可以定量的 ·我们可以测量速度或者索引大小 ·关键的评价标准:用户满意度 ·用户满意度如何定义? ·搜索引擎响应速度和索引的覆盖范围是要考虑的因素 ·但是如果结果不能让用户满意,响应速度再快,也是没 有意义的 ·需要一种定量的方法来衡量用户满意度 如何用客观的measurement给出主观的满意度
信息检索与数据挖掘 2019/3/25 10 搜索引擎的评价 • 上述的评价标准都是可以定量的 • 我们可以测量速度或者索引大小 • 关键的评价标准:用户满意度 • 用户满意度如何定义? • 搜索引擎响应速度和索引的覆盖范围是要考虑的因素 • 但是如果结果不能让用户满意,响应速度再快,也是没 有意义的 • 需要一种定量的方法来衡量用户满意度 如何用客观的 measurement 给出主观的满意度

信息检索与数据挖掘 2019/3/25 11 用户满意度的衡量 ·关键问题:我们要使哪种用户满意? ·根据搜索服务的不同定位而异 ·Web搜索引擎 ·用户通过搜索引擎发现自己想要的东西,以后会继续使用这个 搜索引擎 ·可以统计用户的“回头率” ·电子商务网站 ·用户发现自己想要的东西,就会购买 。可以统计用户购买所花费时间,以及统计购买的用户占总的搜索的用 户的百分比 ·企业:关心“用户的生产力” ·用户使用搜索引擎寻找信息,能节省多少时间? ·也需要考虑其他的准则:访问的安全性,访问的广度
信息检索与数据挖掘 2019/3/25 11 用户满意度的衡量 • 关键问题:我们要使哪种用户满意? • 根据搜索服务的不同定位而异 • Web搜索引擎 • 用户通过搜索引擎发现自己想要的东西,以后会继续使用这个 搜索引擎 • 可以统计用户的“回头率” • 电子商务网站 • 用户发现自己想要的东西,就会购买 • 可以统计用户购买所花费时间,以及统计购买的用户占总的搜索的用 户的百分比 • 企业:关心“用户的生产力” • 用户使用搜索引擎寻找信息,能节省多少时间? • 也需要考虑其他的准则:访问的安全性,访问的广度

信息检索与数据挖掘 2019/3/25 12 满意度是很难衡量的 ·最通常的度量:搜索结果的相关度 ·用搜索结果的相关度这个客观度量来替代对满意度的评 估 。→如何衡量相关度? ·衡量相关度需要3个要素: 1.评测文档集合 2.评测查询集合 3.对每个查询的每个返回文档做出“相关”或者“不相关” 的评价(有些也可能不是二值的)
信息检索与数据挖掘 2019/3/25 12 满意度是很难衡量的 • 最通常的度量:搜索结果的相关度 • 用搜索结果的相关度这个客观度量来替代对满意度的评 估 • 如何衡量相关度? • 衡量相关度需要3个要素: 1. 评测文档集合 2. 评测查询集合 3. 对每个查询的每个返回文档做出“相关”或者“不相关” 的评价(有些也可能不是二值的)
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第5章 向量模型及检索系统 5.2 检索系统.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第5章 向量模型及检索系统 5.1 向量模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第4章 索引构建与索引压缩 4.2 索引压缩.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第4章 索引构建与索引压缩 4.1 索引构建.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第3章 词项词典和倒排记录表.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第2章 布尔检索和倒排索引.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第1章 绪论(主讲:陈晓辉).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)SSD Single Shot MultiBox Detector.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Neural Ordinary Differential Equations.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Memory - Augmented Monte Carlo Tree Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)FOTS - Fast oriented Text Spotting with a Unified Network.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)BitFunnel Revisiting Signatures for Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Beliefs and Biases in Web Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Accelerating Innovation Through Analogy Mining.pdf
- 厦门大学:《智能语音技术》课程教学资源(PPT课件讲稿)第2章 语音信号基础(洪青阳).pdf
- 大连民族大学(大连民族学院):《工程管理信息系统》课程教学资源(PPT课件讲稿)第二章 工程管理信息系统的开发.ppt
- 《现代音响与调音技术》课程教学资源(PPT课件讲稿)第2章 传声器.ppt
- 华中农业大学:《信息检索与利用》课程教学资源(PPT课件讲稿)第一章 信息资源与信息素养概述(主讲:宛章齐).ppt
- 房地产投资决策信息系统的开发(PPT课件讲稿).ppt
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第7章 相关反馈和查询扩展.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第8章 概率模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第9章 基于语言建模的检索模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)课程要求(论文阅读&研讨).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)矩阵分解在信息检索中的应用.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(文本分类及朴素贝叶斯方法).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(基于向量空间的文本分类).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(支持向量机及机器学习方法).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)概率图及主题模型 Probabilistic Graphical Models Topic Model.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第11章 文本聚类.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)图像分类的算法思想.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)数据挖掘经典算法概述.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第12章 Web搜索.pdf
- 长沙医学院:信息工程学院课程简介.pdf
- 南京大学:《信息与计算科学导论》课程教学资源(课件讲稿)集合与关系 Sets-and-Relations.pdf
- 南京大学:《信息与计算科学导论》课程教学资源(课件讲稿)递归算法与递归方程 Recursive Algorithm and Recurrence Relations.pdf
- 《管理信息系统》课程教学资源(书籍教材)第2章 管理信息系统的技术基础.pdf
- 国家中医药管理局:中医医院信息系统基本功能规范(修订,征求意见稿,2019年3月).pdf
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第1章 绪论 Introduction to Data Science(主讲:韩爱庆).pptx
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第2章 计算机基础.pptx