中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第8章 概率模型

信息检索与数据挖掘 2019/3/31 1 信息检索与数据挖掘 第8章概率模型
信息检索与数据挖掘 2019/3/31 1 信息检索与数据挖掘 第8章 概率模型

信息检索与数据挖掘 2019/3/31 2 书上第10章XML检索[自学] ·上世纪90年代末,使用不同的数据管理系统来存储 和搜索他们的关键数据。 ·2001年进入了XML时代。分析企业中的非结构化 和半结构化数据的时代诞生。 如今,所有类型数据的激增。我们处于另一个演化 方向的顶端,通常称为大数据 。 表10-1RDB搜索、非结构化IR及结构化IR。对于结构化检索来说,尽管很多学者都认为Xquery(10.5 节)将会成为结构化查询的标准,但是关于这一点目前还没有最后定论 RDB搜索 非结构化检索 结构化检索 对象 记录 非结构化文档 以文本为叶节点的树 模型 关系模型 向量空间或其他 主要数据结构 表格 倒排索引 查询语言 SQL查询 自由文本查询 http://www.ibm.com/developerworks/cn/bigdata/ebook/
信息检索与数据挖掘 2019/3/31 2 书上第10章 XML检索[自学] • 上世纪 90 年代末,使用不同的数据管理系统来存储 和搜索他们的关键数据。 • 2001 年进入了 XML 时代。分析企业中的非结构化 和半结构化数据的时代诞生。 • 如今,所有类型数据的激增。我们处于另一个演化 方向的顶端,通常称为大数据。 http://www.ibm.com/developerworks/cn/bigdata/ebook/

信息检索与数据挖掘 2019/3/313 is0(1) org MIB(management information base) dod 树形结构的数据随 internet 处可见,人们习惯 mgmt private 于有序地组织所有 17 的数据。这类数据 mib-2 enterprises 的检索既不同于传 11 140 统的RDMS,也不 system snmp bea 同于自由文本检索。 个不 个 305 beaDomainList 300 200 beaSystem bealntAgt tuxedo 不 .1.3.6.1.4.1.140.300 absolute OID for "tuxedo"MIB
信息检索与数据挖掘 2019/3/31 3 MIB(management information base) 树形结构的数据随 处可见,人们习惯 于有序地组织所有 的数据。这类数据 的检索既不同于传 统的RDMS,也不 同于自由文本检索

信息检索与数据挖掘 2019/3/314 使用流计算,执行一种类似于持 V3→V4 续查询,得到持续更新的结果 80%的信息是非结构化的。 非结构化信息正在以15倍孑 结构化和非结 结构化信息的速率增长。 构化 批量数据 ariety Big Vel ocity Value 结构化 Data 流数据 TB ZB 1 Terabyte(TB)=1024 GL 1 Petabyte(PB)=1024 TB Volume 1 Exabyte(EB)=1024 PB 1 Zettabyte(ZB)=1024 EB 可用3个特征来定义大数据:数量、种类和速度
信息检索与数据挖掘 2019/3/31 4 V 3V 4 可用 3 个特征来定义大数据:数量、种类和速度 1 Terabyte (TB) = 1024 GB 1 Petabyte (PB) = 1024 TB 1 Exabyte (EB) = 1024 PB 1 Zettabyte (ZB) = 1024 EB 使用流计算,执行一种类似于持 续查询,得到持续更新的结果 80% 的信息是非结构化的。 非结构化信息正在以 15 倍于 结构化信息的速率增长。 Value

信息检索与数据挖掘 2019/3/315 信息检索与数据挖掘 第8章概率模型
信息检索与数据挖掘 2019/3/31 5 信息检索与数据挖掘 第8章 概率模型

信息检索与数据挖掘 2019/3/316 回顾:词项-文档关联矩阵 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 7 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 Calpurnia 0 1 0 Cleopatra 1 0 0 0 mercy 1 worser 0 1 1 1 0 ·每个文档用一个二维向量表示∈{0,1}M ·布尔检索的本质 ·将查询q中出现的词项对应行取出做布尔运算
信息检索与数据挖掘 2019/3/31 6 回顾:词项-文档关联矩阵 • 每个文档用一个二维向量表示∈{0,1}|V| • 布尔检索的本质 • 将查询q中出现的词项对应行取出做布尔运算 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0

信息检索与数据挖掘 2019/3/31 7 词项-文档计数矩阵 ·考虑词项在文档中出现的次数 ·将每个文档看成是一个计数向量:矩阵中的一列 ·查询q对应的向量与文档对应的列向量求相似度 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 Calpurnia 0 10 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0 tf,查询q中词项在文档中出现的频度→词项的概率表征相关性?
信息检索与数据挖掘 2019/3/31 7 词项-文档计数矩阵 • 考虑词项在文档中出现的次数 • 将每个文档看成是一个计数向量 :矩阵中的一列 • 查询q对应的向量与文档对应的列向量求相似度 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 1 Calpurnia 0 10 0 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0 tf,查询q中词项在文档中出现的频度词项的概率表征相关性?

信息检索与数据挖掘 2019/3/318 二值→计数→权重矩阵(tf-idf值) Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 ·每个文档可看成一个向量,其中每个分量对于词典 中一个词项,分量值为对于词项的tf-idf值 t「,查询g中词项在文档中出现的频度→词项的概率表征相关性? idf,罕见词的idf高而高频词的ⅰdf低→根据语言学修正词项的概率
信息检索与数据挖掘 2019/3/31 8 二值→ 计数 → 权重矩阵( tf-idf值) • 每个文档可看成一个向量,其中每个分量对于词典 中一个词项,分量值为对于词项的tf-idf值 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 tf,查询q中词项在文档中出现的频度词项的概率表征相关性? idf,罕见词的idf高而高频词的idf低根据语言学修正词项的概率

信息检索与数据挖掘 2019/3/319 回顾:从布尔模型到向量空间模型 布尔检索结果太 d和q的相关性是0或1 布尔模型 少或太多 布尔 词项-文档关联 矩阵 音 词项频率TF 词项-文档计数 文档和 查询均 矩阵 表示成 分 向量, 计算 词项-文档权重 TF-IDF 余弦 矩阵 相似度 对结果进行排序 向量空间模型 d和q的相关性是0-1之间的一个数值
信息检索与数据挖掘 2019/3/31 9 回顾:从布尔模型到向量空间模型 文 档 评 分 布尔检索结果太 少或太多 对结果进行排序 词项频率TF TF-IDF 布尔 词项-文档计数 矩阵 词项-文档权重 矩阵 词项-文档关联 矩阵 布尔模型 向量空间模型 文档和 查询均 表示成 向量, 计算 余弦 相似度 d和q的相关性是0或1 d和q的相关性是0-1之间的一个数值

信息检索与数据挖掘 2019/3/31 10 回顾:信息检索模型的作用 信息检索模型是指如何对查询和文档进行表示, 。 然后对它们进行相似度计算的框架和方法 。本质上是对相关度建模 。信息检索模型是R中的核心内容之一 原始查询 查询表示 文档表示 原始文档 相关度计算 •相关度的表示:0或1→0-1间的数值→概率
信息检索与数据挖掘 2019/3/31 10 回顾:信息检索模型的作用 • 信息检索模型是指如何对查询和文档进行表示, 然后对它们进行相似度计算的框架和方法 • 本质上是对相关度建模 • 信息检索模型是IR中的核心内容之一 • 相关度的表示:0或1 0-1间的数值 概率
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第7章 相关反馈和查询扩展.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第6章 检索的评价.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第5章 向量模型及检索系统 5.2 检索系统.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第5章 向量模型及检索系统 5.1 向量模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第4章 索引构建与索引压缩 4.2 索引压缩.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第4章 索引构建与索引压缩 4.1 索引构建.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第3章 词项词典和倒排记录表.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第2章 布尔检索和倒排索引.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第1章 绪论(主讲:陈晓辉).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)SSD Single Shot MultiBox Detector.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Neural Ordinary Differential Equations.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Memory - Augmented Monte Carlo Tree Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)FOTS - Fast oriented Text Spotting with a Unified Network.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)BitFunnel Revisiting Signatures for Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Beliefs and Biases in Web Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Accelerating Innovation Through Analogy Mining.pdf
- 厦门大学:《智能语音技术》课程教学资源(PPT课件讲稿)第2章 语音信号基础(洪青阳).pdf
- 大连民族大学(大连民族学院):《工程管理信息系统》课程教学资源(PPT课件讲稿)第二章 工程管理信息系统的开发.ppt
- 《现代音响与调音技术》课程教学资源(PPT课件讲稿)第2章 传声器.ppt
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第9章 基于语言建模的检索模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)课程要求(论文阅读&研讨).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)矩阵分解在信息检索中的应用.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(文本分类及朴素贝叶斯方法).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(基于向量空间的文本分类).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(支持向量机及机器学习方法).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)概率图及主题模型 Probabilistic Graphical Models Topic Model.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第11章 文本聚类.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)图像分类的算法思想.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)数据挖掘经典算法概述.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第12章 Web搜索.pdf
- 长沙医学院:信息工程学院课程简介.pdf
- 南京大学:《信息与计算科学导论》课程教学资源(课件讲稿)集合与关系 Sets-and-Relations.pdf
- 南京大学:《信息与计算科学导论》课程教学资源(课件讲稿)递归算法与递归方程 Recursive Algorithm and Recurrence Relations.pdf
- 《管理信息系统》课程教学资源(书籍教材)第2章 管理信息系统的技术基础.pdf
- 国家中医药管理局:中医医院信息系统基本功能规范(修订,征求意见稿,2019年3月).pdf
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第1章 绪论 Introduction to Data Science(主讲:韩爱庆).pptx
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第2章 计算机基础.pptx
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第3章 计算机网络.pptx
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第4章 数据科学理论基础.pptx