一种面向聚类的文本建模方法

被引:7
作者
唐晓丽
白宇
张桂平
蔡东风
机构
[1] 沈阳航空航天大学知识工程研究中心
关键词
主题模型; word2vec; 文本建模; 文本聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
借鉴主题模型的思想,利用word2vec训练数据的高效性以及词聚类结果的有效性,提出了一种基于word2vec的文本建模方法。该方法以word2vec算法得到的词聚类结果为基础,统计文本在词聚类类别上的概率分布,获得文本在类别空间上的特征向量,完成文本建模。将其与两种经典的文本建模方法 VSM和LDA进行比较,实验结果显示在聚类效果上F值分别提高6.01%、1.01%,在算法效率上有明显的提高。
引用
收藏
页码:595 / 600
页数:6
相关论文
共 10 条
[1]   基于LDA主题模型的文本相似度计算 [J].
王振振 ;
何明 ;
杜永萍 .
计算机科学, 2013, 40 (12) :229-232
[2]   基于LDA主题模型的短文本分类方法 [J].
张志飞 ;
苗夺谦 ;
高灿 .
计算机应用, 2013, 33 (06) :1587-1590
[3]   面向主题的Web信息融合模型 [J].
刘平峰 ;
章佩璐 ;
张军 ;
余文艳 .
图书情报工作 , 2011, (08) :40-43
[4]   一种改进的LDA主题模型 [J].
张小平 ;
周雪忠 ;
黄厚宽 ;
冯奇 ;
陈世波 ;
焦宏官 .
北京交通大学学报, 2010, (02) :111-114
[5]   基于情感向量空间模型的歌词情感分析 [J].
夏云庆 ;
杨莹 ;
张鹏洲 ;
刘宇飞 .
中文信息学报, 2010, (01) :99-103
[6]   基于LDA模型的文本分割 [J].
石晶 ;
胡明 ;
石鑫 ;
戴国忠 .
计算机学报, 2008, (10) :1865-1873
[7]   基于向量空间模型的文本聚类算法 [J].
姚清耘 ;
刘功申 ;
李翔 .
计算机工程, 2008, (18) :39-41+44
[8]   一种修正的向量空间模型在信息检索中的应用 [J].
马晖男 ;
吴江宁 ;
潘东华 .
哈尔滨工业大学学报, 2008, (04) :666-669
[9]  
基于主题模型的文本相似度计算研究与实现.[D].孙昌年.安徽大学.2012, 09
[10]  
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11