基于LDA特征扩展的短文本分类

被引:48
作者
吕超镇
姬东鸿
吴飞飞
机构
[1] 武汉大学计算机学院
基金
国家自然科学基金重点项目;
关键词
隐含狄利克雷分布; 文本分类; 支持向量机; 特征扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。
引用
收藏
页码:123 / 127
页数:5
相关论文
共 10 条
[1]   基于语义的KNN短文本分类算法研究 [J].
张素智 ;
刘婧姣 .
郑州轻工业学院学报(自然科学版), 2012, 27 (06) :1-4
[2]   一种基于WordNet的短文本语义相似性算法 [J].
翟延冬 ;
王康平 ;
张东娜 ;
黄岚 ;
周春光 .
电子学报, 2012, 40 (03) :617-620
[3]   基于上下文的短信文本分类方法 [J].
刘金岭 ;
严云洋 .
计算机工程, 2011, 37 (10) :41-43
[4]   基于LDA模型的文本分类研究 [J].
姚全珠 ;
宋志理 ;
彭程 .
计算机工程与应用 , 2011, (13) :150-153
[5]   一种基于中心文档的KNN中文文本分类算法 [J].
鲁婷 ;
王浩 ;
姚宏亮 .
计算机工程与应用 , 2011, (02) :127-130
[6]  
基于免疫的中文网络短文本聚类算法[J]. 贺涛,曹先彬,谭辉.自动化学报. 2009(07)
[7]   一种高性能的两类中文文本分类方法 [J].
樊兴华 ;
孙茂松 .
计算机学报, 2006, (01) :124-131
[8]   文本分类中的特征选择方法 [J].
程泽凯 ;
陆小艺 .
安徽工业大学学报(自然科学版), 2004, (03) :220-224
[9]   Short text similarity based on probabilistic topics [J].
Quan, Xiaojun ;
Liu, Gang ;
Lu, Zhi ;
Ni, Xingliang ;
Wenyin, Liu .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 25 (03) :473-491
[10]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)