共 1 条
信息检索中的聚类分析技术
被引:9
作者:
刘远超
王晓龙
刘秉权
钟彬彬
机构:
[1] 哈尔滨工业大学计算机科学与技术学院
来源:
基金:
国家自然科学基金重点项目;
关键词:
文档聚类;
关键词抽取;
知网;
文档相关度;
D O I:
暂无
中图分类号:
TP391.3 [检索机];
学科分类号:
摘要:
信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度, 将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。
引用
收藏
页码:606 / 609
页数:4
相关论文