基于概念簇的多主题提取算法

被引:2
作者
马甲林 [1 ,2 ]
张永军 [1 ,2 ]
王志坚 [1 ]
机构
[1] 河海大学计算机与信息学院
[2] 淮阴工学院计算机工程学院
关键词
语义; 稀疏; 上下文背景; 知识库; 概念簇; 多主题提取; K-means; MEABCC;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到多个主题簇;在使用K-means算法进行概念聚类时,通过"预设种子"方法对其进行改进,以弥补传统K-means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、召回率和F1值。
引用
收藏
页码:261 / 266
页数:6
相关论文
共 8 条
[1]   概念向量文本聚类算法 [J].
白秋产 ;
金春霞 ;
周海岩 .
计算机工程与应用, 2011, 47 (35) :155-157+209
[2]   基于降维的短信文本语义分类及主题提取 [J].
刘金岭 .
计算机工程与应用, 2010, 46 (23) :159-161+174
[3]   基于语义的高质量中文短信文本聚类算法 [J].
刘金岭 .
计算机工程, 2009, 35 (10) :201-202+205
[4]   Stable Initialization Scheme for K-Means Clustering [J].
XU Junling XU Baowen ZHANG Weifeng ZHANG Wei HOU Jun School of Computer Science and Engineering Southeast University Nanjing Jiangsu China State Key Laboratory of Software Engineering Wuhan University Wuhan Hubei China Department of Computer Nanjing University of Posts and Telecommunications Nanjing Jiangsu China .
Wuhan University Journal of Natural Sciences, 2009, 14 (01) :24-28
[5]   一种改进的基于《知网》的词语语义相似度计算 [J].
江敏 ;
肖诗斌 ;
王弘蔚 ;
施水才 .
中文信息学报, 2008, (05) :84-89
[6]   Multi-aspect sentiment analysis for Chinese online social reviews based on topic modeling and HowNet lexicon [J].
Fu Xianghua ;
Liu Guo ;
Guo Yanyan ;
Wang Zhiqiang .
KNOWLEDGE-BASED SYSTEMS, 2013, 37 :186-195
[7]  
Text summarisation in progress: a literature review[J] . Elena Lloret,Manuel Palomar. Artificial Intelligence Review . 2012 (1)
[8]  
Semantic multi-grain mixture topic model for text analysis[J] . Jianping Zeng,Jiangjiao Duan,Wei Wang,Chengrong Wu. Expert Systems With Applications . 2010 (4)