基于参考集索引的高效序列相似性查找算法

被引:11
作者
戴东波
熊赟
朱扬勇
机构
[1] 复旦大学计算机科学技术学院
关键词
序列相似性查找; 参考集索引; 编辑距离;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing).
引用
收藏
页码:718 / 731
页数:14
相关论文
共 6 条
[1]
DNA序列数据挖掘技术 [J].
朱扬勇 ;
熊赟 .
软件学报, 2007, (11) :2766-2781
[2]
基于二分频率变换的序列相似性查询处理技术 [J].
王国仁 ;
葛健 ;
徐恒宇 ;
郑若石 .
软件学报, 2006, (02) :232-241
[3]
Efficient large-scale sequence comparison by locality-sensitive hashing[J] Bioinformatics 2001,
[4]
Faster Approximate String Matching[J] R. Baeza-Yates and G. Navarro Algorithmica 1999,
[5]
A Space-Economical Suffix Tree Construction Algorithm[J] Edward M. McCreight Journal of the ACM (JACM) 1976,
[6]
A cost model for similarity queries in metric spaces Ciaccia P;Patella M;Zezula P; Proc.of the 17th ACM Conf.on Principles on Database Systems 1998,