哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)搜索引擎技术 SearchEngine

搜索引擎技术 刘挺 哈工大信息检索研究室 2004年秋
搜索引擎技术 刘挺 哈工大信息检索研究室 2004年秋

提纲 ■文本处理 ,term处理 ·文本的特性 ■索引与检索 。倒排文件 ·Signature文件 ·PAT Tree Query处理 相关反馈 。查询扩展
提纲 文本处理 term处理 文本的特性 索引与检索 倒排文件 Signature文件 PAT Tree Query处理 相关反馈 查询扩展

文本处理 term处理
文本处理 ——term处理

信息检索系统的体系结构 用户界面 文本 用户 需求 文本处理 逻辑视图 用户 提问处理 建索引 数据库 反馈 管理 倒排文档 提问 搜索 索引 文本 排序后 数据库 的文档 排序 检出的文档
信息检索系统的体系结构 文本 数据库 数据库 管理 建索引 索引 提问处理 搜索 排序 排序后 的文档 用户 反馈 文本处理 用户界面 检出的文档 用户 需求 文本 提问 逻辑视图 倒排文档

文本表示 文本可以表示为 ,一个字符串 词的集合 ■语言单元(例如:名词、短语) ■简单的表示(如:单个词项)效果好 。以往的一些研究显示:基于短语的索引不如基于词 的索引 ·短语可能太特殊了
文本表示 文本可以表示为 一个字符串 词的集合 语言单元 (例如:名词、短语) 简单的表示 (如:单个词项) 效果好 以往的一些研究显示:基于短语的索引不如基于词 的索引 短语可能太特殊了

Stemming 克服词形的变化,把所有同根词转变为单一形式 RECOGNIZE,RECOGNISE,RECOGNIZED,RECOGNIZATION Stemming的优点: 。减少不同term的数量 ·识别相似的词 ·改进了检索性能,但不采用语言分析的方法 ■Stemming的缺点: ■正确率显然达不到100% ·不正确的stemming算法可能改变词的含义 ■需要避免过分的截断 ■MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了
Stemming 克服词形的变化,把所有同根词转变为单一形式 RECOGNIZE, RECOGNISE, RECOGNIZED, RECOGNIZATION Stemming的优点: 减少不同term的数量 识别相似的词 改进了检索性能,但不采用语言分析的方法 Stemming的缺点: 正确率显然达不到100% 不正确的stemming算法可能改变词的含义 需要避免过分的截断 MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了

异文合并(Conflation)方法 异文合并方法 手工 自动(Stemmers) 删除词缀 后继变化数 Successor 查表 N-gram Variety 最长匹配 简单删除
异文合并(Conflation)方法 异文合并方法 手工 自动 (Stemmers) 删除词缀 后继变化数 Successor Variety 查表 N-gram 最长匹配 简单删除

查表 ■创建一个term和stem的对应表 TERM STEM engineering engineer engineered engineer engineer engineer ■表可以被索引起来,以便加快查找速度 ■创建这样的表很困难 ■存储空间的开销较大
查表 创建一个term和stem的对应表 表可以被索引起来,以便加快查找速度 创建这样的表很困难 存储空间的开销较大 TERM STEM engineering engineer engineered engineer engineer engineer

词缀删除算法 词缀删除算法将term的前缀和/或后缀删除,留 下词干 ■大多数算法删除后缀,例如:-SES,-ATION, ING等等 ■最长匹配 ■从词中删除最长匹配的后缀: computability-->comput singing-->sing avoid:ability->NULL,sing->s ▣迭代式最长匹配 。重复最长匹配的过程: ·WILLINGNESS->删除NESS->删除ING
词缀删除算法 词缀删除算法将term的前缀和 /或后缀删除,留 下词干 大多数算法删除后缀,例如:-SES, -ATION, - ING等等 最长匹配 从词中删除最长匹配的后缀: computability --> comput singing --> sing avoid: ability ->NULL, sing->s 迭代式最长匹配 重复最长匹配的过程: WILLINGNESS --> 删除NESS --> 删除ING

上下文有关和上下文无关 ■上下文无关 ·根据后缀表删除后缀(或基于规则集) ■上下文有关 ■考虑词的其它性质,例如: .happily→happi-→happy ·定义一个上下文敏感的转换规则:如果一个词根以结尾,ⅰ 前面是p,那么将转换为y ■需要控制许多例外规则 ·从TABLE中删除-ABLE不行,从GAS中删除-S也不行 ·有时需要删除“双写字母” ·FORGETTING→FORGET
上下文有关和上下文无关 上下文无关 根据后缀表删除后缀 (或基于规则集 ) 上下文有关 考虑词的其它性质,例如: happily → happi → happy 定义一个上下文敏感的转换规则:如果一个词根以i结尾,i 前面是 p,那么将i转换为 y 需要控制许多例外规则 从TABLE中删除-ABLE不行,从GAS中删除-S也不行 有时需要删除 “双写字母 ” FORGETTING → FORGET
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索概述.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索模型 IRModel.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息过滤(主讲:刘挺).pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)文本分类 Text Categorization(主讲:刘挺).pdf
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Essential Background.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Retrieval Models.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Crawling the Web.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Web Search.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Course Overview(主讲:闫宏飞).ppt
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 01 Introdution(主讲:吉建民).pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 15 智能机器人系统介绍.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 14 Reinforcement Learning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 13 神经网络与深度学习.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 09 AI Planning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 08 First-Order Logic and Inference in FOL.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 11 马尔可夫决策过程.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 10 Uncertainty and Bayesian Networks.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 07 Logical Agents.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 06 Game Playing.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 05 Constraint Satisfaction Problems.pdf
- 《统计自然语言处理》课程教学资源(PPT课件讲稿)第7章 汉语自动分词与词性标注.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)01 Introduction(主讲:彭波)The CCF Advanced Disciplines Lectures.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)02 Link Analysis.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)03 Web Spam.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)04 Recommendation System.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)05 Infrastructure and Cloud.ppt
- 河南科技学院:信息工程学院本科课程教学大纲汇编(计算机科学与技术专业).pdf
- 广东茂名农林科技职业学院:计算机网络技术人才培养方案(2020级).pdf
- 广东茂名农林科技职业学院:计算机网络技术专业人才培养方案(2021级).pdf
- 广东茂名农林科技职业学院:动漫制作技术专业人才培养方案(2020级).pdf
- 南京农业大学:《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming.pdf
- 广东茂名农林科技职业学院:电子商务专业人才培养方案(2019级).pdf
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第一章 绪论(主讲:袁平波).pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第二章 关系数据库.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第四章 关系数据库设计理论.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第三章 关系数据库标准查询语言SQL.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第五章 数据库的保护.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第六章 数据库设计、第七章 关系数据库管理系统实例、第八章 现代数据库技术及进展.pps
- 《数据库基础》课程教学资源(PPT课件讲稿)Delphi 7.0开发示例.pps
- 《数据库基础》课程教学资源(参考资料)数据库在虚拟机openEuler上安装部署openGauss数据库指导手册(openEuler-openGauss).pdf