基于概念获取的多文档主题划分研究

被引:6
作者
孔庆苹
刘宗田
廖涛
机构
[1] 上海大学计算机科学与工程学院
关键词
信息处理; 知网; 概念; 主题聚类; 主题划分;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
对多个相关文档进行主题划分对于信息检索、自动摘要等研究领域都有重要的应用价值。当前流行的文本主题划分技术中,多采用词频向量进行文本表示,而研究表明将特征向量映射到概念级,将改善多文档主题划分的效果。本文提出了一种应用知网(HowNet)来获取多文本的概念作为特征向量,再应用聚类的方法对文档集中的相似段落进行归类,得到主题划分的结果,解决了多文档的结构分析问题。实验结果表明该方法对多个相关文档的主题划分取得了良好的效果。
引用
收藏
页码:131 / 133
页数:3
相关论文
共 6 条
[1]   一种基于词汇链的关键词抽取方法 [J].
索红光 ;
刘玉树 ;
曹淑英 .
中文信息学报, 2006, (06) :25-30
[2]   基于主题词频数特征的文本主题划分 [J].
康恺 ;
林坤辉 ;
周昌乐 .
计算机应用, 2006, (08) :1993-1995
[3]   中文文本分类中基于概念屏蔽层的特征提取方法 [J].
廖莎莎 ;
江铭虎 .
中文信息学报, 2006, (03) :22-28
[4]   基于统计学和语义信息的中文文本主题识别技术 [J].
冯晋 ;
李春平 .
清华大学学报(自然科学版), 2005, (S1) :1791-1794
[5]   自动文摘系统中的主题划分问题研究 [J].
傅间莲 ;
陈群秀 .
中文信息学报, 2005, (06) :30-37
[6]   基于连续段落相似度的主题划分算法 [J].
傅间莲 ;
陈群秀 .
计算机应用, 2005, (09) :2022-2024