共 4 条
文本自动分类中特征权重算法的改进研究
被引:61
作者:
徐凤亚
罗振声
机构:
[1] 清华大学计算语言学研究室
[2] 清华大学计算语言学研究室 北京
[3] 北京
来源:
关键词:
特征项;
权重算法;
分布信息;
低频高权特征;
文本分类;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系。实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果。
引用
收藏
页码:181 / 184+220
+220
页数:5
相关论文