共 6 条
基于概念获取的多文档主题划分研究
被引:6
作者:
孔庆苹
刘宗田
廖涛
机构:
[1] 上海大学计算机科学与工程学院
来源:
关键词:
信息处理;
知网;
概念;
主题聚类;
主题划分;
D O I:
暂无
中图分类号:
TP391.3 [检索机];
学科分类号:
081203 ;
0835 ;
摘要:
对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值。当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果。本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题。实验结果表明该方法对多个相关文档的主题划分取得了良好的效果。
引用
收藏
页码:131 / 133
页数:3
相关论文