集合和字符串的相似度查询

被引:34
作者
林学民 [1 ,2 ]
王炜 [2 ]
机构
[1] 华东师范大学软件学院
[2] 澳大利亚新南威尔士大学计算机科学与工程系
基金
澳大利亚研究理事会;
关键词
相似度查询; 相似度连接; 前缀过滤; jaccard; 编辑距离;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
相似度查询是计算机学科中一个重要的问题,它的应用遍及多个领域,例如数据库、数据集成、互联网、数据挖掘以及生物信息学等.该文主要讨论在集合和字符串上的相似度查询.学术界从2000年来在这个领域内取得了大量的进展.作者总结了主要工作,并给出了作者的分析和归类.最后,该文提出了一些未来工作的方向.
引用
收藏
页码:1853 / 1862
页数:10
相关论文
共 11 条
[1]   Efficient Similarity Joins for Near-Duplicate Detection [J].
Xiao, Chuan ;
Wang, Wei ;
Lin, Xuemin ;
Yu, Jeffrey Xu ;
Wang, Guoren .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2011, 36 (03)
[2]   Metric space similarity joins [J].
Jacox, Edwin H. ;
Samet, Hanan .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2008, 33 (02)
[3]   Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions [J].
Andoni, Alexandr ;
Indyk, Piotr .
COMMUNICATIONS OF THE ACM, 2008, 51 (01) :117-122
[4]  
SEPIA: estimating selectivities of approximate string predicates in large Databases[J] . Liang Jin,Chen Li,Rares Vernica.The VLDB Journal . 2008 (5)
[5]   Spatial join techniques [J].
Jacox, Edwin H. ;
Samet, Hanan .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2007, 32 (01)
[6]   A guided tour to approximate string matching [J].
Navarro, G .
ACM COMPUTING SURVEYS, 2001, 33 (01) :31-88
[7]  
Record linkage:Similarity measures and algorithms. Koudas N,Sarawagi S,Srivastava D. Proc.of the ACM SIGMOD Int’l Conf.on Management of Data . 2006
[8]  
U-sing q-grams in a DBMS for ApproximateString Processing. Luis Gravano,Panagiotis G.Ipeirotis,H.V.Jagadish,Nick Koudas,S.Muthukrish-nan,Lauri Pietarinen,Divesh Srivastava. IEEE Data EngineeringBulletin . 2001
[9]  
Finding similar files in a large file system. UDI M. 1994 Winter USENIX Technical Conference . 1994
[10]  
Spotsigs:Robust and Efficient Near Duplicate Detection in Large Web Collections. Theobald, M,Siddharth, J,Paepcke, A. Proceedings of the 31 st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 2008