中文情感分类挖掘预处理关键技术比较研究

被引:14
作者
夏火松
刘建
朱慧毅
机构
[1] 武汉纺织大学管理学院
关键词
情感分类; 预处理; 特征值选择; 特征权重; 支持向量机(SVM);
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
比较研究了中文情感分类挖掘预处理技术的不同组合对分类效果的影响。预处理中关键技术为文本分词、特征选择和权重计算。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI、文本证据权(Weight of Evi-dence for Text,WET)5种不同的特征选取方法和布尔权重、词频型特征权重TF、TF—IDF函数3种常用的权重计算方法的15种不同组合。采用支持向量机(SVM)分类器以考察特征选择方法和权重计算方法不同的组合的对情感分类的效果。实验结果表明IG和TF-IDF的组合最为有效,WET和TF的组合效果最差,并给出了效果差异的原因。
引用
收藏
页码:160 / 163
页数:4
相关论文
共 6 条
[1]   基于监督学习的中文情感分类技术比较研究 [J].
唐慧丰 ;
谭松波 ;
程学旗 .
中文信息学报, 2007, (06) :88-94+108
[2]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[3]   关于统计学习理论与支持向量机 [J].
张学工 .
自动化学报, 2000, (01) :36-46
[4]  
Chi Square Feature Extraction Based Svms Arabic Language Text Categorization System[J] . Abdelwadood M.A. MESLEH.Journal of Computer Science . 2007 (6)
[5]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)
[6]  
A Comparative Study on Feature Selection in Text Categorization .2 Yang Y,Pedersen J O. The Fourteenth International Conference on Machine Learning . 1997