一种可用于生物序列分析的轻量级索引结构

被引:3
作者
王镝
王国仁
陈白尘
吴青泉
王斌
韩冬红
机构
[1] 东北大学信息科学与工程学院
[2] 东北大学信息科学与工程学院 辽宁沈阳110004
关键词
DNA序列; 重复片段; 后继数组;
D O I
10.13245/j.hust.2005.s1.059
中图分类号
TP301 [理论、方法];
学科分类号
081202 ;
摘要
针对目前可用于重复片断查询的索引结构所需空间过大的问题,通过对序列中重复片断的分析提出一种轻量级数据结构———后继数组,它是基于基数排序方法建立的.后继数组也适用于多序列分析.理论分析表明了后继数组及多序列后继数组在存储空间上的优势.实验结果表明后继数组仅需要约原序列长度5倍的存储空间,在建立时间上后继数组也要优于后缀树等索引结构.
引用
收藏
页码:209 / 212 +225
页数:5
相关论文
共 2 条
[1]  
Both CAG repeats andinverted DNA repeats stimulate spontaneous unequalsister-chromatid exchange in saccharomyces cerevisiae. Nag D K,Suri M,Stenson E K. Nucleic Acids Research . 2004
[2]  
REPuter:the manifold applications of repeat analysis on a genom-ic scale. Kurtz S,Choudhuri J V,Ohlebusch E,et al. Nucleic Acids Research . 2001