共 3 条
中文文本分类中的特征选择研究
被引:33
作者:
寇苏玲
蔡庆生
机构:
[1] 中国科学技术大学计算机系
来源:
关键词:
特征选择;
特征提取;
文本分类;
D O I:
暂无
中图分类号:
TP18 [人工智能理论];
学科分类号:
081104 ;
0812 ;
0835 ;
1405 ;
摘要:
有多种特征选择算法被用于文本自动分类,YimingYang教授曾针对英文文本分类中的特征选择做过深入的研究,并得出结论:IG和CHI方法效果相对较好。考虑到该结论不一定适合对中文文本的分类,对中文文本分类中的特征选择方法进行研究,采用了包含500篇新闻的中文语料库对几种特征选择算法进行测试,结果表明:在测试的特征选择算法中,X2估计方法无需因训练集的改变而人为调节特征阀值,并且分类准确率较高。
引用
收藏
页码:289 / 291
页数:3
相关论文