基于LDA-wSVM模型的文本分类研究

被引:25
作者
李锋刚 [1 ,2 ,3 ]
梁钰 [1 ,3 ]
GAO Xiaozhi [2 ]
ZENGER Kai [2 ]
机构
[1] 合肥工业大学管理学院
[2] 阿尔托大学自动化与系统技术系
[3] 教育部过程优化与智能决策重点实验室
关键词
文本分类; 潜在狄利克雷分布; 支持向量机; 权重计算; 吉普斯抽样;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-w SVM高效分类算法模型。利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的w SVM分类器进行分类。实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果。实验结果表明,提出的LDA-w SVM模型在文本自动分类中具有很好的优越性能。
引用
收藏
页码:21 / 25
页数:5
相关论文
共 5 条
[1]  
统计学习理论的本质.[M].(美)VladimirN.Vapnik著;张学工译;.清华大学出版社.2000,
[2]   一种新的SVM多类分类算法 [J].
霍颖瑜 ;
王晓峰 .
佳木斯大学学报(自然科学版), 2006, (04) :476-478
[3]  
LIBSVM.[J].Chih-Chung Chang;Chih-Jen Lin.ACM Transactions on Intelligent Systems and Technology (TIST).2011, 3
[4]  
A comparative study of TF*IDF; LSI and multi-words for text classification.[J].Wen Zhang;Taketoshi Yoshida;Xijin Tang.Expert Systems With Applications.2010, 3
[5]  
Automatic text categorization based on content analysis with cognitive situation models.[J].Yi Guo;Zhiqing Shao;Nan Hua.Information Sciences.2009, 5