基于文本聚类与分布式Lucene的知识检索

被引:10
作者
冯汝伟
谢强
丁秋林
机构
[1] 南京航空航天大学计算机科学与技术学院
关键词
非结构化知识; 分布式索引; 文本聚类; 全文检索; 并行检索;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。
引用
收藏
页码:186 / 188
页数:3
相关论文
共 5 条
  • [1] 基于MapReduce的聚类算法的并行化研究.[D].李应安.中山大学.2010, 02
  • [2] 聚类搜索引擎研究进展浅析
    曹宇
    尹刚
    李翔
    程荣斌
    王怀民
    [J]. 电脑知识与技术, 2011, 7 (22) : 5398 - 5400
  • [3] 一种海量数据下的Lucene全文检索解决方案
    蒋明原
    孔令德
    宁静静
    [J]. 电脑开发与应用, 2011, 24 (04) : 32 - 35
  • [4] 基于中文搜索引擎网络信息用户行为研究
    王浩
    姚长利
    郭琳
    艾国庆
    [J]. 计算机应用研究, 2009, 26 (12) : 4665 - 4668
  • [5] 一种基于TFIDF方法的中文关键词抽取算法
    徐文海
    温有奎
    [J]. 情报理论与实践, 2008, (02) : 298 - 302