哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索模型 IRModel

信息检索模型 刘挺 哈工大信息检索研究室 2004年秋
信息检索模型 刘挺 哈工大信息检索研究室 2004年秋

提纲 信息检索模型的概述 ■布尔模型 ■向量空间模型(VSM) ■扩展的布尔模型 ■潜在语义索引模型(LSI) ■概率模型 ■基于统计语言模型的信息检索模型 ■基于本体论的信息检索模型
提纲 信息检索模型的概述 布尔模型 向量空间模型(VSM) 扩展的布尔模型 潜在语义索引模型(LSI) 概率模型 基于统计语言模型的信息检索模型 基于本体论的信息检索模型

信息检索模型的概述
信息检索模型的概述

什么是模型? 模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述 ■面对相同的输入,模型的输出应能够无限地逼 近现实世界的输出 ·举例:天气的预测模型 ■模型和实现的区别 ·一个模型可以用多种方法实现 .例如:布尔模型可以用倒排文档(inverted file)实 现,也可以用B-tree实现
什么是模型? 模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地逼 近现实世界的输出 举例:天气的预测模型 模型和实现的区别 一个模型可以用多种方法实现 例如:布尔模型可以用倒排文档(inverted file) 实 现,也可以用B-tree实现

信息检索模型 四元组[D,Q,F,R(q,d)] ■D:文档集的机内表示 ■Q:用户需求的机内表示 ·F:文档表示、查询表示和它们之间的关系的模型框 架(Frame) ·R(q,d:给query g,和document d;评分 ■信息检索模型决定于: ·从什么样的视角去看待查询式和文档 ·基于什么样的理论去看待查询式和文档的关系 ·如何计算查询式和文档之间的相似度
信息检索模型 四元组[D, Q, F, R(qi, d j)] D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档表示、查询表示和它们之间的关系的模型框 架(Frame) R(qi, dj): 给query qi 和document dj评分 信息检索模型决定于: 从什么样的视角去看待查询式和文档 基于什么样的理论去看待查询式和文档的关系 如何计算查询式和文档之间的相似度

模型分类 集合论 模糊集 扩展的布尔模型 信息检索模型 布尔 代数 向量空间 扩展的向量空间 概率 隐性语义索引 知识 神经网络 人工智能 概率 语言模型 基于本体论的模型 推理网络 信念网络
模型分类 信息检索模型 布尔 向量空间 概率 知识 模糊集 扩展的布尔模型 集合论 代数 扩展的向量空间 隐性语义索引 神经网络 语言模型 推理网络 信念网络 概率 基于本体论的模型 人工智能

布尔模型(Boolean Model)
布尔模型(Boolean Model)

布尔模型 ■文档表示 ■一个文档被表示为关键词的集合 ■查询式表示 ·查询式(Queries)被表示为关键词的布尔组合,用“与或非"”连接 起来,并用括弧指示优先次序 ■匹配 ·一个文档当且仅当它能够满足布尔查询式时,才将其检索出 来 ■不同的系统可以使用: ·不同的去除停用词(stopword removal,策略和stemming策略 ·索引中不同类型的辅助信息 ·不同的实现方法
布尔模型 文档表示 一个文档被表示为关键词的集合 查询式表示 查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接 起来,并用括弧指示优先次序 匹配 一个文档当且仅当它能够满足布尔查询式时,才将其检索出 来 不同的系统可以使用: 不同的去除停用词(stopword removal)策略和stemming策略 索引中不同类型的辅助信息 不同的实现方法

强调 到目前为止,布尔模型是最常用的检索模型, 因为: ·由于查询简单,因此容易理解 ·通过使用复杂的布尔表达式,可以很方便地控制查 询结果 ■相当有效的实现方法 ·相当于识别包含了一个某个特定term的文档 经过某种训练的用户可以容易地写出布尔查询 式 布尔模型可以通过扩展来包含排序的功能,即 “护展的布尔模型
强调 到目前为止,布尔模型是最常用的检索模型, 因为: 由于查询简单,因此容易理解 通过使用复杂的布尔表达式,可以很方便地控制查 询结果 相当有效的实现方法 相当于识别包含了一个某个特定term的文档 经过某种训练的用户可以容易地写出布尔查询 式 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型

问题 布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分 匹配,而完全匹配会导致太多或者太少的结果文档被返回 非常刚性:“与”意味着全部;“或”意味着任何一个 ·如果“我想要n个词中个词同时出现的文档”,怎么表示? 。不可能企望用户自己规定m值 ·系统可以从m=n开始,然后逐渐减少m,但很麻烦 ■很难表示用户复杂的需求 ■很难控制被检索的文档数量 ·原则上讲,所有被匹配的文档都将被返回 ■很难对输出进行排序 ·不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 很难进行自动的相关反馈 ·如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询 式呢?
问题 布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分 匹配,而完全匹配会导致太多或者太少的结果文档被返回 非常刚性: “与”意味着全部; “或”意味着任何一个 如果“我想要n个词中m个词同时出现的文档”,怎么表示? 不可能企望用户自己规定m值 系统可以从m=n开始,然后逐渐减少m,但很麻烦 很难表示用户复杂的需求 很难控制被检索的文档数量 原则上讲,所有被匹配的文档都将被返回 很难对输出进行排序 不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 很难进行自动的相关反馈 如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询 式呢?
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息过滤(主讲:刘挺).pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)文本分类 Text Categorization(主讲:刘挺).pdf
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Essential Background.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Retrieval Models.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Crawling the Web.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Web Search.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Course Overview(主讲:闫宏飞).ppt
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 01 Introdution(主讲:吉建民).pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 15 智能机器人系统介绍.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 14 Reinforcement Learning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 13 神经网络与深度学习.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 09 AI Planning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 08 First-Order Logic and Inference in FOL.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 11 马尔可夫决策过程.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 10 Uncertainty and Bayesian Networks.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 07 Logical Agents.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 06 Game Playing.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 05 Constraint Satisfaction Problems.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 04 Informed Search.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 03 Solving Problems by Searching.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索概述.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)搜索引擎技术 SearchEngine.pdf
- 《统计自然语言处理》课程教学资源(PPT课件讲稿)第7章 汉语自动分词与词性标注.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)01 Introduction(主讲:彭波)The CCF Advanced Disciplines Lectures.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)02 Link Analysis.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)03 Web Spam.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)04 Recommendation System.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)05 Infrastructure and Cloud.ppt
- 河南科技学院:信息工程学院本科课程教学大纲汇编(计算机科学与技术专业).pdf
- 广东茂名农林科技职业学院:计算机网络技术人才培养方案(2020级).pdf
- 广东茂名农林科技职业学院:计算机网络技术专业人才培养方案(2021级).pdf
- 广东茂名农林科技职业学院:动漫制作技术专业人才培养方案(2020级).pdf
- 南京农业大学:《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming.pdf
- 广东茂名农林科技职业学院:电子商务专业人才培养方案(2019级).pdf
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第一章 绪论(主讲:袁平波).pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第二章 关系数据库.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第四章 关系数据库设计理论.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第三章 关系数据库标准查询语言SQL.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第五章 数据库的保护.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第六章 数据库设计、第七章 关系数据库管理系统实例、第八章 现代数据库技术及进展.pps