《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第54讲 Web信息检索简介

Mining of Massive Web Data第54讲Web信息检索简介更多资料:http://web.stanford.edu/class/cs276/武汉理工大学计算机科学与技术学院
Mining of Massive Web Data 更多资料:h1p://web.stanford.edu/class/cs276/ ᦇᓒᑀӨದᴺ ᒫ54ᦖ Webמ௳༄ᔱᓌՕ

计贸机科学与技术学院第14讲Web信息检索简介IntroductionInformationRetrievalWeb SearchIRHistory武铺理工大学
ᒫ14ᦖ Web מ௳༄ᔱᓌՕ Introduc@on Web Search Informa@on Retrieval IR History

计算机科学与技术学院InformationRetrieval (IR).The indexing and retrieval of textual documents.? Searching for pages on the World Wide Web is the most recent“killer app."? Concerned firstly with retrieving relevant documents to aquery.? Concerned secondly with retrieving from large sets ofdocumentsefficiently武铺理工大学
Information Retrieval (IR) • The indexing and retrieval of textual documents. • Searching for pages on the World Wide Web is the most recent “killer app.” • Concerned firstly with retrieving relevant documents to a query. • Concerned secondly with retrieving from large sets of documents efficiently

计等机科学与技术学院Typical IR TaskGiven:A corpus of textual natural-language documentsA user query in the form of a textual stringFind:A ranked set of documents that are relevant to thequery.武铺理工大学
Typical IR Task • Given: - A corpus of textual natural-language documents. - A user query in the form of a textual string. • Find: - A ranked set of documents that are relevant to the query

计算机科学与技术学院IRSystemDocumentcorpusQueryIRStringSystem1. Docl2. Doc2Ranked3. Doc3Documents武铺理工大学
IR System IR System Query String Document corpus Ranked Documents 1. Doc1 2. Doc2 3. Doc3 .

计算机科学与技术学院Relevance· Relevance is a subjective judgment and mayinclude:-Being on the proper subject.-Being timely (recent information)- Being authoritative (from a trusted source)- Satisfying the goals of the user and his/her intended useoftheinformation(informationneed)武铺理工大学
Relevance • Relevance is a subjective judgment and may include: - Being on the proper subject. - Being timely (recent information). - Being authoritative (from a trusted source). - Satisfying the goals of the user and his/her intended use of the information (information need)

计穿机科学与技术学院Keyword Search? Simplest notion of relevance is that the query stringappears verbatim in the document.: Slightly less strict notion is that the words in thequery appear frequently in the document, in anyorder (bag of words)武铺理工大学
Keyword Search • Simplest notion of relevance is that the query string appears verbatim in the document. • Slightly less strict notion is that the words in the query appear frequently in the document, in any order (bag of words)

计算机科学与技术学院ProblemswithKeywords? May not retrieve relevant documents that include synonymousterms.“restaurant”vs.“"cafe"“PRC”vs.“China”? May retrieve irrelevant documents that include ambiguousterms.“bat"(baseballvs.mammal)“Apple"(companyvs.fruit)“bit"(unit ofdatavs.actof eating)武铺理工大学
Problems with Keywords • May not retrieve relevant documents that include synonymous terms. - “restaurant” vs. “café” - “PRC” vs. “China” • May retrieve irrelevant documents that include ambiguous terms. - “bat” (baseball vs. mammal) - “Apple” (company vs. fruit) - “bit” (unit of data vs. act of eating)

计尊机科学与技术学院WebSearch·Application of IR to HTML documents on the World WideWeb..Differences:-Mustassembledocumentcorpusbyspideringtheweb-Can exploit the structural layout information in HTML (XML)-Documents change uncontrollably-Canexploitthelinkstructureoftheweb武铺理工大学
Web Search • Application of IR to HTML documents on the World Wide Web. • Differences: - Must assemble document corpus by spidering the web. - Can exploit the structural layout information in HTML (XML). - Documents change uncontrollably. - Can exploit the link structure of the web

计导机科学与技术学院Web SearchSystemWebDocumentSpidercorpusQueryStringIRSystem1. Pagel2.Page2Ranked3.Page3Documents武铺理工大学
Web Search System Query String IR System Ranked Documents 1. Page1 2. Page2 3. Page3 . . Document corpus Web Spider
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第57讲 Mahout数据挖掘平台.pdf
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第53讲 无线网状网.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第52讲 Adhoc及WSN.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第50讲 无线局域网与802.11协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第51讲 无线城域网及个人区域网.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第47讲 通信方式与传输介质.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第48讲 数据速率与多路复用.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第46讲 物理层概念及编码.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第49讲 同步光纤网.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第39讲 链路层协议BSC及HDLC.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第40讲 滑动窗口协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第41讲 PPP协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第38讲 数据链路层及差错控制.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第45讲 以太网组网与网桥.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第43讲 高速以太网.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第44讲 交换与虚拟局域网.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第42讲 以太网工作原理.doc
- 《高性能计算机网络》课程教学课件(讲义)第六章 网络层 第26讲 IPv4协议演变与基本内容.doc
- 《高性能计算机网络》课程教学课件(讲义)第六章 网络层 第28讲 CIDR、内部地址与NAT.doc
- 《高性能计算机网络》课程教学课件(讲义)第六章 网络层 第29讲 路由选择基本概念与路由协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第55讲 Lucene信息检索平台.pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第56讲 推荐系统简介.pdf
- 武汉理工大学:《模式识别》课程教学大纲 Pattern Recognition(研究生).pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第1章 绪论.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第2章 贝叶斯决策理论.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第3章 概率密度函数的参数估计.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第4章 非参数判别分类方法.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第5章 聚类分析.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第6章 特征提取与选择.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第7章 模糊模式识别.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第8章 神经网络在模式识别中的应用.pdf
- 武汉理工大学:《模式识别》课程教学资源(实验指导,共五个实验).pdf
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第8章 神经网络模式识别法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第5章 特征选择与特征提取.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第6章 句法模式识别.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第7章 模糊模式识别法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第3章 判别函数及几何分类法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第1章 绪论、第2章 聚类分析.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第4章 基于统计决策的概率分类法.ppt
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 5 Out of Order Execution.pdf