结合AB-SMOTE和C-SVM的中文倾向性句子识别

被引:2
作者
陈振伟
廖祥文
机构
[1] 福州大学数学与计算机科学学院
关键词
中文; 倾向性句子; 识别; 算法; AB-SMOTE; C-SVM;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出一种结合AB-SMOTE和C-SVM的中文倾向性句子识别算法.该算法先利用AB-SMOTE方法合成新样本,降低不平衡程度的同时也使数据具有更好的代表性,再对不同类别赋予不同的惩罚系数形成代价敏感的C-SVM分类器,充分结合了数据层和学习算法层方法的优点.实验结果表明,对酒店、笔记本电脑和书籍3个不平衡语料处理时,本算法能较有效解决不平衡问题,提高倾向性句子的识别精度.
引用
收藏
页码:310 / 315
页数:6
相关论文
共 3 条
[1]
Cost-sensitive boosting for classification of imbalanced data[J] Yanmin Sun;Mohamed S. Kamel;Andrew K.C. Wong;Yang Wang Pattern Recognition 2007,
[2]
FAST: a roc-based feature selection metric for small samples and imbalanced data classification problems Chen XW;Wasikowski M; Proc of the 14th SIGKDD 2008,
[3]
Experimen-tal perspectives on learning from imbalanced data HULSE J V;KHOSHGOFTAAR T M;NAPOLITANO A; Proc of the24th International Conference on Machine Learning 2007,