厦门大学数据库实验室论文阅读报告二

2015 暑假拼血 在战7 夏门大学林 DAYS 厦门大学数据库实验室 论文阅读报告二 报告人:罗道文 导师:林子雨 时间:2015年07月27日
厦门大学数据库实验室 论文阅读报告二 报告人:罗道文 导师:林子雨 时间:2015年07月27日

过渡页 目录 Pass-Join: A Partition-based Method for Similarity Joins 2 Trie-Join: Efficient Trie-based String Similarity Joins with Edit-Distance Constraints
过渡页 1 目 录 Trie-Join: Efficient Trie-based String Similarity Joins with Edit-Distance Constraints 1 Pass-Join: A Partition-based Method for Similarity Joins 2

基础知识 基础知
基础知识 2 基础知识

基础知识 知识科普 1、所谓相似性连接( similarity join)是指在给定的数据集(同一个数据集,或者两个数 据集,甚至多个数据集之间)上并设定相应的阈值,通过某一种相似性度量函数找出所 有相似度不小于阈值的数据对的操作。 2、四种数据集:字符串相似性连接、集合或多重集合相似性连接、冋量相似性连接 和图的相似性连接 3、相似性度量:汉明距离〔 hammingdistance)、 Levenshtein距离、编辑距离相 似性、标准化编辑距离( normalized editdistance)
基础知识 3 知识科普: 1、所谓相似性连接(similarity join)是指在给定的数据集(同一个数据集,或者两个数 据集,甚至多个数据集之间)上并设定相应的阈值,通过某一种相似性度量函数找出所 有相似度不小于阈值的数据对的操作。 2、四种数据集:字符串相似性连接、集合或多重集合相似性连接、向量相似性连接 和图的相似性连接 3、相似性度量:汉明距离(hammingdistance)、Levenshtein 距离、编辑距离相 似性、标准化编辑距离(normalized editdistance)

基础知识 举个例子: 编辑距离( Edit Distance),又称 editdistance距离,是指两个字串之间,由一个 转成另一个所需的最少编辑操作次数。编辑操作包括将—个字符替换成另一个字符 ,插入一个字符,删除一个字符。 例如,有两个字符串t1: string和t2: thing,如果要从t1->t2,编辑距离为2 如果阈值设为3,则t和t2位相似字符串
基础知识 4 举个例子: 编辑距离(Edit Distance),又称editdistance距离,是指两个字串之间,由一个 转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符 ,插入一个字符,删除一个字符。 例如,有两个字符串t1:string和t2:thing,如果要从t1->t2,编辑距离为2 如果阈值设为3,则t1和t2位相似字符串

论文 论文
论文一 5 论文一

论文 论文信息 LI Guo-liang deng dong Wang Jian- nan, et al. Pass -Join a partition-based method for similarity joins [J]. Proceedings of the vldb endowment, 2011, 5 (3): 253-264
论文一 6 论文信息: LI Guo-liang,DENG Dong,WANG Jian-nan,et al. Pass-Join: a partition-based method for similarity joins[J]. Proceedings of the VLDB Endowment,2011,5( 3) : 253-264.

论文 辅助定理: Given a string r with T 1 segments and a string s, if s is similar to r within threshold T s must contain a substring which matches a segment of r. 字符串s: ab ds fd ds(sa字符串r: cy/kg fd gf
论文一 7 Given a string r with τ + 1 segments and a string s, if s is similar to r within threshold τ , s must contain a substring which matches a segment of r. 辅助定理: 字符串s:ab ds fd ds sa 字符串r: cy kg fd gf

论文 主要思想 先过滤,后验证 假设有两个字符串集R和S,通过分别迭代R和S中的字符串R1和S1 1、如果R1和S1中有匹配的子字符串,则R1和S1作为候选相似字符串,最 后在计算R1和S1的编辑距离ed(R1,S1),如果ed(R1,S1)<阈值τ,则字符串 为相似字符串。 2、如果R1和S1没有匹配子字符串,则R1和S1肯定不是相似字符串,即不 用计算机R1和S1的编辑距离,减少验证时间
论文一 8 假设有两个字符串集R和S,通过分别迭代R和S中的字符串R1和S1, 1、如果R1和S1中有匹配的子字符串,则R1和S1作为候选相似字符串,最 后在计算R1和S1的编辑距离ed(R1,S1),如果ed(R1,S1)<阈值τ,则字符串 为相似字符串。 2、如果R1和S1没有匹配子字符串,则R1和S1肯定不是相似字符串,即不 用计算机R1和S1的编辑距离,减少验证时间。 主要思想: 先过滤,后验证

论文 实例分析 SIvankateshI s2-avatareshalsy=kaushic chadurils=kaushik chakrablss=kayshuk chadhuiIs6caushik chakrabar 10 L 15 15 23 hieshik: cha: duri krab ka ik shuk cha: duri krab hui candidate Candidate Candidates Candidates Answer:中 Answer:φ1 Answer:φ I Answer: Figure 1: An example of our partition-based framework
论文一 9 实例分析:
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)课程介绍(主讲:林子雨).ppt
- 厦门大学:《计算机应用基础》PPT讲义课件_第一章 信息与计算机基础.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)第一章 大数据概述.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)第六章 云数据库.ppt
- 厦门大学:《Spark编程基础》课程教学PPT讲义课件(Python版)第4章 RDD编程.ppt
- 厦门大学:《Spark编程基础》课程教学PPT讲义课件(Scala版)第1章 大数据技术概述.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)第七章 MapReduce.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)第八章 流计算(主讲:林子雨).ppt
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 7 Big Data Concepts and Tools.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 6 Prescriptive Analytics:Optimization and Simulation.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 5 Predictive Analytics II:Text, Web, and Social Media Analytics.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 4 Predictive Analytics I:Data Mining Process, Methods, and Algorithms.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 3 Descriptive Analytics II:Business Intelligence and Data Warehousing.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 2 Descriptive Analytics I:Nature of Data, Statistical Modeling, and Visualization.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 1 An Overview of Business Intelligence, Analytics, and Data Science.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics.pdf
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 7 Big Data Concepts and Tools.pdf
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 6 Prescriptive Analytics:Optimization and Simulation.pdf
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 5 Predictive Analytics II:Text, Web, and Social Media Analytics.pdf
- 厦门大学:《数据库系统原理》课程教学资源(PPT课件讲稿,2016版)第一章 绪论(林子雨).ppt
- 厦门大学:《数据库系统原理》课程教学资源(PPT课件讲稿,2016版)第四章 数据库安全性.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第3版)第8章 Hadoop架构再探讨.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第2版)第3章 分布式文件系统HDFS.ppt
- 厦门大学:《Spark编程基础》课程教学PPT讲义课件(Scala版)第5章 RDD编程.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第3版)第7章 MapReduce.ppt
- 厦门大学:《大数据处理技术 Spark》课程讲义(PPT教学课件)第1章 大数据技术概述.ppt
- 厦门大学:《大数据处理技术 Spark》课程讲义(PPT教学课件)第2章 Scala语言基础.ppt
- 厦门大学:《大数据导论》课程讲义(PPT教学课件)第7章 数据处理与分析.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第2版)课程介绍(主讲:林子雨).ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第3版)第3章 分布式文件系统HDFS.ppt
- 厦门大学:《计算机应用基础》PPT讲义课件_第二章 操作系统Windows XP.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第3版)第6章 云数据库.ppt
- 复旦大学:《高级Web技术》课程教学大纲(戴开宇).doc
- 《高级Web技术》参考资料:MyEclipse创建基于X-File的Web service及调用实例详解.pdf
- 《高级Web技术》参考资料:Architectural Styles and the design of Network-based Software Achitectures.pdf
- 《高级Web技术》参考资料:MyEclipse 6 Java 开发中文教程_第十一章 开发Spring+Struts+Hibernate应用.pdf
- 《高级Web技术》参考资料:Spring中文教程(Spring Framework开发参考手册 version 1.1).pdf
- 《高级Web技术》参考资料:MyEclipse 6 Java 开发中文教程_第十六章 开发EJB应用.pdf
- 《高级Web技术》参考资料:MyEclipse 6 Java 开发中文教程_第十五章 开发XFire Web Service应用.pdf