中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第3章 词项词典和倒排记录表

信息检索与数据挖掘 2019/3/4 1 信息检索与数据挖掘 第3章词项词典和倒排记录表
信息检索与数据挖掘 2019/3/4 1 信息检索与数据挖掘 第3章 词项词典和倒排记录表

信息检索与数据挖掘 2019/3/4 3 第3章词典查找及扩展的倒排索引 l.如何建立词项词典(term vocabulary)? ① 文档集 ② 文本词条化(Tokenization) 语言学预处理 建立索引 2.如何实现倒排记录表? ① 快速合并算法:带跳表的倒排记录表(skip lists) ② 包含位置信息的倒排记录表以及短语查询 3
信息检索与数据挖掘 2019/3/4 3 第3章 词典查找及扩展的倒排索引 1. 如何建立词项词典( term vocabulary )? ① 文档集 ② 文本词条化( Tokenization ) ③ 语言学预处理 ④ 建立索引 2. 如何实现倒排记录表? ① 快速合并算法:带跳表的倒排记录表(skip lists) ② 包含位置信息的倒排记录表以及短语查询 3

信息检索与数据挖掘 2019/3/4 4 建立词项(Term)词典过程 量h西 待建索引文档集合 词条化模块 Tokenizer 词条化 Friends Romans Countrymen 语言学预处理模块 Linguistic modules friend roman countryman 语言学预处理 索引器 Indexer friend 000 0 倒排记录表 roman countryman 13 16 4
信息检索与数据挖掘 2019/3/4 4 建立词项(Term)词典过程 词条化模块 Tokenizer 词条化 Friends Romans Countrymen 语言学预处理模块 Linguistic modules 语言学预处理 friend roman countryman 索引器 Indexer 倒排记录表 friend roman countryman 2 4 2 13 16 1 待建索引文档集合 4

信息检索与数据挖掘 2019/3/4 5 第3章词典查找及扩展的倒排索引 ●第一部分:如何建立词项词典? ●文档解析(Parsing a document) ●词条化 ●停用词 ●词项归一化 ●词形归并 ●词还原 ●第二部分:如何实现倒排记录表? ●快速合并算法:带跳表的倒排记录表 ●包含位置信息的倒排记录表以及短语查询 5
信息检索与数据挖掘 2019/3/4 5 第3章 词典查找及扩展的倒排索引 第一部分:如何建立词项词典? 文档解析(Parsing a document) 词条化 停用词 词项归一化 词形归并 词干还原 第二部分:如何实现倒排记录表? 快速合并算法:带跳表的倒排记录表 包含位置信息的倒排记录表以及短语查询 5

信息检索与数据挖掘 2019/3/4 6 文档解析 ●文档包含哪些格式? pdf/word/excel/html? ●文档中包含的语言? ●文档使用何种编码方式? 上述问题都可以看成是机器学习中的分类问题,但 在实际中往往采用启发式方法来实现。(后面章节 讨论) 6
信息检索与数据挖掘 2019/3/4 6 文档解析 文档包含哪些格式? • pdf/word/excel/html? 文档中包含的语言? 文档使用何种编码方式? 上述问题都可以看成是机器学习中的分类问题,但 在实际中往往采用启发式方法来实现。(后面章节 讨论) 6

信息检索与数据挖掘 2019/3/4 7 不同文档格式的识别 ☑EditPlus-[o:teach2.01i信息检索教程nlp.stanford.edu01 Lintrol01 introl01 intro..te 白EditPlus-【o: File Edit View Search Document Project ools Window Help ☑File Edit 3日量台"回品围凫X口始自+AW=勰图▣国国回?8 时3日 Directory Cliptext --- ----2--4--3------4--4--5--4---6-4---7-----8---4---9--4---0--1- 49 Directory Cliptext [C:]OS_WIN7 50 begin(frame)[label=takeaway] [C:]OS_WIN7 C 51 %\begin(frame) 包Windows 52 frametitle(Take-away明 白C 53 包Windows 白system32 白system32 ☒0409 54 beginfitemize】 ☐0409 ☐2052 55 56 Ipause[2] ▣2052 AdCache 57 AdCache ~temp 58 litem Administrativa 12520437.cpx 59 ~temp 12520850.cpw 12520437.cpx 60 \pause[3] 360SoftMgr.cpl 12520850.cpx 61 5U875.ax 360SoftMgr.cpl 62 5U875.d litem Boolean Retrieval:Design and data structures of a 5U875.ax 7B296FB0-376B-497e-BC 63 simple information retrieval system 5U875.dW 7B296FB0-376B-497e-BC 64 7B296FB0-376B-49 aaclient.dll 65 Ipause[4] 7B296FB0-376B-49 accessibilitycpldll 66 aaclient dil ACCTRES.dll 67 litem What topics will be covered in this class? accessibilitycpldll acledit.dll ACCTRES.dll 68 aclui dll acledit dll 69 acppage.dll \enditemize) aclui.dil acproxy.dil 70 acppage.dll ActionCenter.dil 71 end frame) acproxy.dll ActionCenterCPL.dll 72 ActionCenter.dll ActionQueue.dll 73 ActionCenterCPL.dl -1 ActionQueue.dll All Files[",〕 All Files ("" 01intro.tex ☐◆informatic For Help,press F1 In 65 col 10 141200 UNIX REC INS READ For Help,press 7
信息检索与数据挖掘 2019/3/4 7 不同文档格式的识别 7

信息检索与数据挖掘 2019/3/4 8 语言的自动检测 ·你好 ·我爱你 。乙h记古太 ·私体西尔龙左愛( 。Hallo 。Ich liebe dich ·处5£. ·LH告量L叶 ·AII0 ·AIo60Te6a .j .4i 】Google超译 ←→ 能成入N网数 但☆≡☑鱼 函过远程女或得入你的收意夹来添加到收藏实兰 翻译 G四 英语中文日语检测后神语, 中文英语日语一 Hallo 你好 0 ☆里五的< 另请象阅 8 Hallo!.Hallo?.Hallo,wie gehrs? 关同时标碑 关于Co0g翻译移动社区私反和使用条敏帮助发送反德
信息检索与数据挖掘 2019/3/4 8 语言的自动检测 • 你好 • こんにちは • Hallo • 안녕하세요. • Алло • أهال و سهال. 8 • 我爱你 • 私はあなたを愛して • Ich liebe dich • 나는 당신을 사랑합니다 • Я люблю тебя • أحبك

信息检索与数据挖掘 2019/3/4 9 文档中的语言 上加字 元音 991 别5558aN夏5! 前加字 第二後加字 欢迎您到西藏来! 下加字 第一後加字 到风到N5'1 您好!早上好!下午好!晚上好! 四N宁a利刚 ZHONGGUO RENMIN YINHANG 吉祥如意 5折N到到 对不起 回 w专 1999年 影像网 谢谢 市上的五种文字:汉文、蒙古文字、藏文字、维吾尔文字、壮文
信息检索与数据挖掘 2019/3/4 9 文档中的语言 9 人民币上的五种文字:汉文、蒙古文字、藏族文字、维吾尔文字、壮文

信息检索与数据挖掘 2019/3/4 10 文档中的编码方式 ·7 bit ASCII? ·UNICODE? ·UTF-8、UTF-16、UTF-32 ·Email对二进制附件的编码 Content-Type:text/html; charset="gb2312" Content-Transfer-Encoding:base64 10
信息检索与数据挖掘 2019/3/4 10 文档中的编码方式 • 7bit ASCII? • UNICODE? • UTF-8、UTF-16、UTF-32 • Email对二进制附件的编码 • Content-Type: text/html; • charset="gb2312" • Content-Transfer-Encoding: base64 10

信息检索与数据挖掘 2019/3/4 11 复杂因素:格式/语言 ●待索引文档集中包含不同语言的文档 ·单独的一个索引应该包含不同语言的文档 ●一个文档或者其附件中包含多种语言或格式 ·例子:一封法语的邮件中包含德语的pdf ●文档单位的选择? ·一个文件? 。一封email? ·一封带有5个附件的email? 。一组文件? 11
信息检索与数据挖掘 2019/3/4 11 复杂因素:格式/语言 待索引文档集中包含不同语言的文档 • 单独的一个索引应该包含不同语言的文档 一个文档或者其附件中包含多种语言或格式 • 例子:一封法语的邮件中包含德语的pdf 文档单位的选择? • 一个文件? • 一封email? • 一封带有5个附件的email? • 一组文件? 11
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第2章 布尔检索和倒排索引.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第1章 绪论(主讲:陈晓辉).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)SSD Single Shot MultiBox Detector.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Neural Ordinary Differential Equations.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Memory - Augmented Monte Carlo Tree Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)FOTS - Fast oriented Text Spotting with a Unified Network.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)BitFunnel Revisiting Signatures for Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Beliefs and Biases in Web Search.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Accelerating Innovation Through Analogy Mining.pdf
- 厦门大学:《智能语音技术》课程教学资源(PPT课件讲稿)第2章 语音信号基础(洪青阳).pdf
- 大连民族大学(大连民族学院):《工程管理信息系统》课程教学资源(PPT课件讲稿)第二章 工程管理信息系统的开发.ppt
- 《现代音响与调音技术》课程教学资源(PPT课件讲稿)第2章 传声器.ppt
- 华中农业大学:《信息检索与利用》课程教学资源(PPT课件讲稿)第一章 信息资源与信息素养概述(主讲:宛章齐).ppt
- 房地产投资决策信息系统的开发(PPT课件讲稿).ppt
- 国家科技基础条件资源调查管理信息系统(PPT讲稿)系统操作培训.ppt
- 西安电子科技大学:《信息管理学》课程教学资源(PPT课件讲稿)第1章 绪论(主讲:赵捧未).ppt
- 海南大学:《管理信息系统》课程教学资源(PPT课件讲稿)第六章 管理信息系统的系统设计.ppt
- 海南大学:《管理信息系统》课程教学资源(PPT课件讲稿)第三章 管理信息系统的技术基础.ppt
- 北京大学:传统图书馆数字图书馆复合图书馆及其发展(PPT讲稿,信息管理系:刘兹恒).ppt
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第4章 索引构建与索引压缩 4.1 索引构建.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第4章 索引构建与索引压缩 4.2 索引压缩.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第5章 向量模型及检索系统 5.1 向量模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第5章 向量模型及检索系统 5.2 检索系统.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第6章 检索的评价.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第7章 相关反馈和查询扩展.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第8章 概率模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第9章 基于语言建模的检索模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)课程要求(论文阅读&研讨).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)矩阵分解在信息检索中的应用.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(文本分类及朴素贝叶斯方法).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(基于向量空间的文本分类).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(支持向量机及机器学习方法).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)概率图及主题模型 Probabilistic Graphical Models Topic Model.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第11章 文本聚类.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)图像分类的算法思想.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)数据挖掘经典算法概述.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第12章 Web搜索.pdf
- 长沙医学院:信息工程学院课程简介.pdf
- 南京大学:《信息与计算科学导论》课程教学资源(课件讲稿)集合与关系 Sets-and-Relations.pdf