学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
RM树:一种支持字符串相似性操作的索引
被引:6
作者
:
王金宝
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学计算机科学与技术学院
王金宝
[
1
]
论文数:
引用数:
h-index:
机构:
高宏
[
1
]
论文数:
引用数:
h-index:
机构:
李建中
[
1
]
杨东华
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学基础与交叉科学研究院高性能计算中心
哈尔滨工业大学计算机科学与技术学院
杨东华
[
2
]
机构
:
[1]
哈尔滨工业大学计算机科学与技术学院
[2]
哈尔滨工业大学基础与交叉科学研究院高性能计算中心
来源
:
计算机学报
|
2011年
/ 34卷
/ 11期
基金
:
黑龙江省自然科学基金;
中国博士后科学基金;
关键词
:
字符串;
相似性;
索引;
查询处理;
连接处理;
D O I
:
暂无
中图分类号
:
TP311.13 [];
学科分类号
:
1201 ;
摘要
:
字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符串聚类,在查询处理过程中导致了较大的I/O代价.该文设计了支持多种字符串相似性操作的RM树索引,消除了现有内存方法的缺点,并通过字符串聚类的方法提高了相似性操作的效率.该文通过大量实验结果证明了RM树的有效性.
引用
收藏
页码:2142 / 2154
页数:13
相关论文
共 2 条
[1]
The String Edit Distance Matching Problem With Moves
论文数:
引用数:
h-index:
机构:
Cormode, Graham
Muthukrishnan, S.
论文数:
0
引用数:
0
h-index:
0
机构:
Rutgers State Univ, Dept Comp & Informat Sci, Piscataway, NJ 08854 USA
AT&T Res, Florham Pk, NJ USA
AT&T Labs Res, 180 Pk Ave, Florham Pk, NJ 07932 USA
Muthukrishnan, S.
[J].
ACM TRANSACTIONS ON ALGORITHMS,
2007,
3
(01)
[2]
The String-to-String Correction Problem[J] . Robert A. Wagner,Michael J. Fischer.Journal of the ACM (JACM) . 1974 (1)
←
1
→
共 2 条
[1]
The String Edit Distance Matching Problem With Moves
论文数:
引用数:
h-index:
机构:
Cormode, Graham
Muthukrishnan, S.
论文数:
0
引用数:
0
h-index:
0
机构:
Rutgers State Univ, Dept Comp & Informat Sci, Piscataway, NJ 08854 USA
AT&T Res, Florham Pk, NJ USA
AT&T Labs Res, 180 Pk Ave, Florham Pk, NJ 07932 USA
Muthukrishnan, S.
[J].
ACM TRANSACTIONS ON ALGORITHMS,
2007,
3
(01)
[2]
The String-to-String Correction Problem[J] . Robert A. Wagner,Michael J. Fischer.Journal of the ACM (JACM) . 1974 (1)
←
1
→