一种增量倒排索引结构的设计与实现

被引:6
作者
王冬
左万利
赫枫龄
彭涛
张长利
机构
[1] 吉林大学计算机科学与技术学院
[2] 吉林大学符号计算与知识工程教育部重点实验室
关键词
主题式搜索引擎; 增量倒排索引; 实时更新;
D O I
10.13413/j.cnki.jdxblxb.2007.06.029
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
针对主题爬行器获取网页更新速度快的特点,提出一种用于网络搜索引擎的增量索引结构.在建立倒排索引时,每个词项的记录表以链接块的形式存放于倒排索引文件中,每次新分配的块大小递增.该索引结构解决了倒排索引连续存储所带来的难以更新问题.实验结果表明,与支持实时更新的传统链表式存储方式相比,这种索引结构能提供更高效的检索,采用以空间换时间的方法有效地提高了索引的更新效率.
引用
收藏
页码:953 / 958
页数:6
相关论文
共 4 条
[1]   高性能网页索引器JUIndexer的实现 [J].
赫枫龄 ;
左万利 ;
张雪松 .
吉林大学学报(理学版), 2006, (01) :50-56
[2]   一种实时更新索引结构的设计与实现 [J].
王智强 ;
刘建毅 .
计算机系统应用, 2005, (10) :79-82
[3]   一种基于后缀数组的无词典分词方法 [J].
张长利 ;
赫枫龄 ;
左万利 .
吉林大学学报(理学版), 2004, (04) :548-553
[4]   PageRank-Pro——一种改进的网页排序算法 [J].
李凯 ;
赫枫龄 ;
左万利 .
吉林大学学报(理学版), 2003, (02) :175-179