中国高校课件下载中心 》 教学资源 》 大学文库

《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第55讲 Lucene信息检索平台

文档信息
资源类别:文库
文档格式:PDF
文档页数:26
文件大小:2.56MB
团购合买:点击进入团购
内容简介
《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第55讲 Lucene信息检索平台
刷新页面文档预览

Mining of Massive Web Data第55讲Lucene信息检索平台更多资料:http://web.stanford.edu/class/cs276/武汉理工大学计算机科学与技术学院

Mining of Massive Web Data 更多资料:h1p://web.stanford.edu/class/cs276/ ᦇᓒ๢ᑀ਍Өದ๞਍ᴺ ᒫ55ᦖ Luceneמ௳༄ᔱଘݣ

计算机科学有技术学院第20讲Lucene信息检索平台Lucene概览倒排索引文件Analyzer机制Query武铺理工大学

ᒫ20ᦖ Luceneמ௳༄ᔱଘݣ Lucene༷ᥦ Analyzer机制 倒排索引文件 Query

计算机科学考技术学院Lucene概览武铺理工大学

Lucene概览

计算机科学有技术学院Lucene简介Apache软件基金会jakarta项目组的一个开放源代码的全文检索引擎工具包。不是一个完整的全文检索引擎应用,而是一个全文检索引擎的架构。Lucene的目的是为软件开发人员提供一个简单易用的工具包。武铺理工大学

Lucene简介 l Apache软件基金会 jakarta项目组的一个开放源代码的 全文检索引擎工具包。 l 不是一个完整的全文检索引擎应用,而是一个全文检 索引擎的架构。 l Lucene的目的是为软件开发人员ᨀ供一个简单易用的工 具包

计算机科学考技术学院什么是全文检索1、计算机索引程序通过扫描文章中的每一个词:2、对每一个词建立一个索引,指明该词在文章中出现的次数和位置;3、当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。武铺理工大学

什么是全文检索 1、计算机索引程序通过扫᧿文章中的每一个词; 2、对每一个词建立一个索引,指明该词在文章中出现的次 数和位置; 3、当用户查询时,检索程序就根据事先建立的索引进行查 找,并将查找的结果反馈给用户的检索方式。 这个过程类似于通过字典中的检索字表查字的过程

计算机科学考技术学院Lucene版本历史0.012000年3月第一个开源版本(SourceForge)1.02000年10月1.01b2001年7月最后的SourceForge版本1.22002年6月第一个ApacheJakarta版本1.32003年12月复合索引格式,查询分析器增加,远程搜索,token定位,可扩展的API1.42004年7月Sorting,spanqueries,termvectors2.3.02008年1月更新为2.3.02.4.02008年10月更新为2.4.02.9.02009年9月25号更新为2.9.03.0.02009年11月25号更新为3.0.03.0.12010年2月26号更新为3.0.14.9.12014年9月22日最新版本武铺理工大学

Lucene版本历史 0.01 2000年3月 第一个开源版本(SourceForge) 1.0 2000年10月 1.01b 2001年7月 最后的SourceForge版本 1.2 2002年6月 第一个Apache Jakarta版本 1.3 2003年12月 复合索引格式,查询分析器增加,远程搜索,token定位, 可扩展的API 1.4 2004年7月 SorQng, span queries, term vectors 2.3.0 2008年1月 更新为2.3.0 2.4.0 2008年10月 更新为2.4.0 2.9.0 2009年9月25号 更新为2.9.0 3.0.0 2009年11月25号 更新为3.0.0 3.0.1 2010年2月26号 更新为3.0.1 4.9.1 2014年9月22日 最新版本

计算机科学考技术学院哪些网站在使用Luceneapple.comaol.comeclipse.orglinkedin.comibm.com更多见http://wiki.apache.org/iakarta-lucene/PoweredBy武铺理工大学

哪些网站在使用Lucene apple.com aol.com eclipse.org linkedin.com ibm.com 更多见 h1p://wiki.apache.org/jakarta-lucene/ PoweredBy

Lucene和传统数据库计穿机科学与技术学院数据库Lucene全文素引引擎对于LIKE查询来说,数据传统的索引是根本用不上的。数据需要逐个便利记录进行GREP式的模糊索引将数据源中的数据都通过全文索引一一建立反向索引匹配,比有索引的搜索速度要有多个数量级的下降。使用:like“%net%"会把nethertands也匹配出来,通过词元(term)进行匹配,通过语言分析接口的实现,可匹配效果多个关键词的模糊匹配:使用ike以实现对中文等非英语的支持。%com%net%":就不能匹配词序颠倒的ox.net..xoox.com有匹配度算法,将匹配程度(相似度)比较高的结果排在没有瓜配程度的控制:比如有记录中ne出现5词匹配度前面。和出现1次的,结果是一样的。返回所有的结果集,在匹配条目非常多的时候通过特别的算法,将最匹配度最高的头100条结果输出,结果输出(比如上万条)需要大量的内存存放这些临时结结果集是缓冲式的小批量读取的。果集。通过不同的语言分析折接口实现,可以方便的定制出符合应可定制性没有接口或接口复杂,无法定制用需要的素引规则(包括对中文的支持)高负载的模糊查询应用,需要负责的模糊查询的规则,索使用率低,模糊匹配规简单或者需要模糊查询结论的资料量少引的资料量比较大威海理子大学

Lucene和传统数据库

计算机科学与技术学院Lucene的创新之处其他开源全文检索系统Lucene可以进行增量的索引(Append),可以对于大量数据很多系统只支持批量的索引,有时数据源有增量素引和批量素引进行批量素引,并且接口设计用于优化批量索引和小点增加也需要重建索引。批量的增量素引。Lucene没有定义具体的数据源,而是一个文档的结很多系统只针对网页,缺乏其他格式文档的数据源构,因此可以非常灵活的适应各种应用(只要前端有灵活性。合适的转换器把数据源转换成相应结构),Lucene的文档是由多个字段组成的,甚至可以控制那些字段需要进行索引,那些字段不需要索引,近索引内容抓取步素索引的序段也分为需要分词和不需要分词的类型:缺乏通用性,往往将文档整个素引了需要进行分词的素引,比如:标题,文章内容字段不需要进行分词的索引,比如:作者/日期字段通过语言分析器的不同扩展实现:可以过滤掉不需要的词:antheof等语言分析西文语法分析:将jumpsjumpedjumper都归结成缺乏通用接口实现jump进行素引/检索非英文支持:对亚洲语言,阿拉伯语言的索引支持通过查询分析接口的实现,可以定制自己的查询语法查询分析规则:比如:多个关键词之间的+·andor关系等并发访问能够支持多用户的使用威海理工大学

Lucene的创新之处

计算机科学写技术学院应用程序和Lucene的关系WebManualInputUseronnFlePresentSystemGetUsersSearchQueryGatherResultsDataIndexSearchDocumentsIndexindex武铺理工大学

应用程序和Lucene的关系

共26页,试读已结束,阅读完整版请下载
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档