文本自动分类中特征权重算法的改进研究

被引:61
作者
徐凤亚
罗振声
机构
[1] 清华大学计算语言学研究室
[2] 清华大学计算语言学研究室 北京
[3] 北京
关键词
特征项; 权重算法; 分布信息; 低频高权特征; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系。实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果。
引用
收藏
页码:181 / 184+220 +220
页数:5
相关论文
共 4 条
[1]   一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26
[2]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[3]   概念推理网及其在文本分类中的应用 [J].
李晓黎 ;
刘继敏 ;
史忠植 .
计算机研究与发展, 2000, (09) :1032-1038
[4]   基于特征相关性的汉语文本自动分类模型的研究 [J].
张月杰 ;
姚天顺 .
小型微型计算机系统, 1998, (08) :50-56