《数据把掘概念与技术》第九章 根据内容检索

第9章根据内容检索 本章目标 介绍根据内容检索的基本概念。 介绍检索系统的评介方法。 讨论针对文本数据的根据内容检索问题, 集中讨论向量空间表示,以及文档中匹配 查询的算法、隐含语义索引和文档分类。 介绍用于对个人偏好建模的自动推荐系统
第9章 根据内容检索 本章目标 ◼ 介绍根据内容检索的基本概念。 ◼ 介绍检索系统的评介方法。 ◼ 讨论针对文本数据的根据内容检索问题, 集中讨论向量空间表示,以及文档中匹配 查询的算法、隐含语义索引和文档分类。 ◼ 介绍用于对个人偏好建模的自动推荐系统

第9章根据内容检索 本章目标 讨论图像检索算法中表示和检索问题。 绍匹配时间序列和序列的基本概念
第9章 根据内容检索 本章目标 ◼ 讨论图像检索算法中表示和检索问题。 ◼ 介绍匹配时间序列和序列的基本概念

9.1简介 ■传统的数据库查询定义为:查询是一种返回 精确匹配指定要求的记录集合(或表项集合)的 操作。例如,查询“[ Tlevel= MANAGER] AND[age<30]”,返回的结果是有具有重 要职务的年轻雇员的列表。 但在数据分析时,所感兴趣的是更一般的但 不很精确的查询。 例如,假设已知一个患者的人口统计学信息 比如年龄性别等等)、血液和其他常规检查的 结果,以及生物医学方面的时间序列、Ⅹ光 和图像
9.1 简介 ◼ 传统的数据库查询定义为:查询是一种返回 精确匹配指定要求的记录集合(或表项集合)的 操作。例如,查询“[level=MANAGER] AND [age<30]” , 返回的结果是有具有重 要职务的年轻雇员的列表。 ◼ 但在数据分析时,所感兴趣的是更一般的但 不很精确的查询。 ◼ 例如,假设已知一个患者的人口统计学信息 (比如年龄性别等等)、血液和其他常规检查的 结果,以及生物医学方面的时间序列、X-光 和图像

为了辅助对这个患者进行诊断,医生希望了 解医院数据库中是否包含类似的患者,如果 有类似的患者,那么他们的诊断、治疗方法 和最终结果如何? ■这个问题的难点在于如何根据不同的数据类 型(多元变量、时间序列和图像数据)来判断 各个患者间的相似性。这类问题采用精确匹 配是行不通的,因为数据库中不可能存在各 项指标完全匹配的患者
◼ 为了辅助对这个患者进行诊断,医生希望了 解医院数据库中是否包含类似的患者,如果 有类似的患者,那么他们的诊断、治疗方法 和最终结果如何? ◼ 这个问题的难点在于如何根据不同的数据类 型(多元变量、时间序列和图像数据)来判断 各个患者间的相似性。这类问题采用精确匹 配是行不通的,因为数据库中不可能存在各 项指标完全匹配的患者

因此,需要解决的是在数据库找出和指定查 询或指定对象最相似的k个对象的各种技术问 可以把这种形式的检索看是交互式的数据挖 掘,因为用户直接参与了探索数据集的过 程指定查询并解决匹配过程得到的结果。 ■如果数据集是根据内容批注的,那么检索问 题就简化为标准的数据库索引问题,如果数 据库没有被预先索引,我们仅有要寻找目标 Q(査询模式)的一个实例,根据这个查询模式 Q,我们要推论出数据集中哪些其他对象和 它相近
◼ 因此,需要解决的是在数据库找出和指定查 询或指定对象最相似的k个对象的各种技术问 题。 ◼ 可以把这种形式的检索看是交互式的数据挖 掘,因为用户直接参与了探索数据集的过 程—指定查询并解决匹配过程得到的结果。 ◼ 如果数据集是根据内容批注的,那么检索问 题就简化为标准的数据库索引问题,如果数 据库没有被预先索引,我们仅有要寻找目标 Q(查询模式)的一个实例,根据这个查询模式 Q,我们要推论出数据集中哪些其他对象和 它相近

■这种检索方法被称为根据内容检索( retrieval by content),它的最著名应用是在文本中 检索。在文本检索中,查询模式Q通常是很 短的(查询词汇列表),然后在很大的文档 合匹配这个模式。 ■这类问题由三个基本部分组成: 1如何定义对象间的相似尺度; 2如何实现高计算效率的搜索算法(对于给定的 相似尺度); 3如何在检索过程中融入用户的反馈并迸行交 互
◼ 这种检索方法被称为根据内容检索(retrieval by content),它的最著名应用是在文本中 检索。在文本检索中,查询模式Q通常是很 短的(查询词汇列表),然后在很大的文档集 合匹配这个模式。 ◼ 这类问题由三个基本部分组成: 1.如何定义对象间的相似尺度; 2.如何实现高计算效率的搜索算法(对于给定的 相似尺度); 3.如何在检索过程中融入用户的反馈并进行交 互

本章主要讨论第和第三个问题,第二个问 题通常是一种索引问题(一个好的索引可以极 大提高效率)。 在下面的分析中,我们使用“相似”这个词, 又使用“距离”这个词。对应的是相似尺度 最大化和距离尺度最小化,其他章节的相似 度和相异度 根据内容检索需要解决的几个问题 1.如何客观地评估特定检索算法的性能。 2如何决定用以计算相似尺度的表示
◼ 本章主要讨论第一和第三个问题,第二个问 题通常是一种索引问题(一个好的索引可以极 大提高效率)。 ◼ 在下面的分析中,我们使用“相似”这个词, 又使用“距离”这个词。对应的是相似尺度 最大化和距离尺度最小化,其他章节的相似 度和相异度。 ◼ 根据内容检索需要解决的几个问题: 1.如何客观地评估特定检索算法的性能。 2.如何决定用以计算相似尺度的表示

例如,通常用颜色、纹理和相似特征来地、 表示图像;用单词的出现次数来表示文本
◼ 例如,通常用颜色、纹理和相似特征来地、 表示图像;用单词的出现次数来表示文本

92检索系统的评价 评价检索性能的难之 在分类和回归中,总能以一种客观的方式 来评判模型的性能。然而,对于根据内容 检索来说,评价一个特定算法或技术的性 能要复杂和棘手的多。 主要的难点是检索系统的最终性能尺度是 由检索出的信息对用户的实用性来决定的。 检索是一种以人为中心的交互过程,这给 评价检索性能带来了很大困难
9.2 检索系统的评价 一、评价检索性能的困难之处 ◼ 在分类和回归中,总能以一种客观的方式 来评判模型的性能。然而,对于根据内容 检索来说,评价一个特定算法或技术的性 能要复杂和棘手的多。 ◼ 主要的难点是检索系统的最终性能尺度是 由检索出的信息对用户的实用性来决定的。 检索是一种以人为中心的交互过程,这给 评价检索性能带来了很大困难

首先我们假定相对一个特定的查询,可以把 对象标记为相关或不相关。换句话来说,对 于任一个查询Q,我们假定存在一个二值分类 标签的集合,该集合对应数据中的所有对象 指出哪个对象是相关的,哪个是不相关的。 最后我们假定已经以某种方式为每个对象附 加标签(假定是以一种比较客观并与人类判相 致的方式)。 基于这些假定,就可以把检索问题看作一种 特殊形式的分类问题—类标签依赖于查询Q
◼ 首先我们假定相对一个特定的查询,可以把 对象标记为相关或不相关。换句话来说,对 于任一个查询Q,我们假定存在一个二值分类 标签的集合,该集合对应数据中的所有对象, 指出哪个对象是相关的,哪个是不相关的。 最后我们假定已经以某种方式为每个对象附 加标签(假定是以一种比较客观并与人类判相 一致的方式)。 ◼ 基于这些假定,就可以把检索问题看作一种 特殊形式的分类问题—类标签依赖于查询Q
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《数据把掘概念与技术》第九章(9-3) 文本检索.ppt
- 广东白云学院:《单片机原理与应用》教学大纲.doc
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第7章 常用数字接口电路.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第8章 模拟量的输入输出.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.2 伪指令(4.2.4-4.2.6)4.3 DOS系统功能调用介绍 4.4 汇编语言程序设计基础.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)总复习.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第6章 输入输出和中断技术.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.2 减法指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.1 汇编语言源程序 4.2 伪指令(4.2.1-4.2.3).ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第5章 存储系统.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.5 常见程序设计举例.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.5 程序控制指令 3.3.6 处理器控制指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.1 概述 3.2 8086的寻址方式.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.1 数据传送指令 3.3.2 算术运算指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.3 逻辑运算和移位指令 3.3.4 串操作指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第2章 微型计算机基础.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第1章 基础知识.ppt
- 广东工业大学:《单片机原理与应用 Principles and Application of Microcontroller》课程教学资源(PPT课件讲稿)第8章 MCS-51串行口.ppt
- 广东工业大学:《单片机原理与应用 Principles and Application of Microcontroller》课程教学资源(PPT课件讲稿)第7章 A/D和D/A转换接口技术.ppt
- 广东工业大学:《单片机原理与应用 Principles and Application of Microcontroller》课程教学资源(PPT课件讲稿)第6章 键盘、显示接口技术.ppt
- 《数据把掘概念与技术》第一章 数据挖掘的概念.ppt
- 《数据把掘概念与技术》第七章(7-4) 修剪决策树.ppt
- 《数据把掘概念与技术》第七章 决策树和决策规则.ppt
- 《数据把掘概念与技术》第三章 数据归约.ppt
- 《数据把掘概念与技术》第二章 数据准备.ppt
- 《数据把掘概念与技术》第五章(5-1) 统计推断.ppt
- 《数据把掘概念与技术》第五章(5-5) 方差分析.ppt
- 《数据把掘概念与技术》第八章(8-1) 购物篮分析.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第六章(6-1) 聚类概念.ppt
- 《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类.ppt
- 《数据把掘概念与技术》第四章 从数据中学习.ppt
- 万博科技职业学院:《Visual Basic程序设计》第一章 概论.ppt
- 万博科技职业学院:《Visual Basic程序设计》第三章 BASIC语言基础.ppt
- 万博科技职业学院:《Visual Basic程序设计》第五章 选择结构设计.ppt
- 万博科技职业学院:《Visual Basic程序设计》第四章 程序的输入和输出.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十章 菜单和工具栏.ppt
- 万博科技职业学院:《Visual Basic程序设计》第八章 过程一子程序和函数.ppt
- 万博科技职业学院:《Visual Basic程序设计》第六章 循环程序结构.ppt