信息检索中的聚类分析技术

被引:9
作者
刘远超
王晓龙
刘秉权
钟彬彬
机构
[1] 哈尔滨工业大学计算机科学与技术学院
基金
国家自然科学基金重点项目;
关键词
文档聚类; 关键词抽取; 知网; 文档相关度;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度, 将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。
引用
收藏
页码:606 / 609
页数:4
相关论文
共 1 条
[1]   PCCS部分聚类分类:一种快速的Web文档聚类方法 [J].
王爱华 ;
张铭 ;
杨冬青 ;
唐世渭 ;
不详 .
计算机研究与发展 , 2001, (04) :415-421