带专业词库的特征选择

被引:4
作者
刘晓志
黄厚宽
尚文倩
机构
[1] 北京交通大学计算机与信息技术学院
关键词
文本分类; 特征选择; 权重; K-近邻; 支持向量机; 专业词库;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在经典特征选择算法的基础上,提出一种带专业词库的特征选择方法.在训练分类模型的时候,适当加重属于专业词汇的特征的权重.这种方法能够有效地避免特征选择时误删有用的低频词,因此,适合用于短文本的分类(电子邮件等).实验结果表明,本方法在抽取特征维数较少时,分类准确率提高约3%.
引用
收藏
页码:97 / 100
页数:4
相关论文
共 1 条
[1]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90