文本分类中改进型CHI特征选择方法的研究

被引:37
作者
裴英博
刘晓霞
机构
[1] 西北大学信息科学与技术学院
关键词
文本分类; 特征选择; CHI统计; 权值调整; 分散度; 集中度; 频度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。
引用
收藏
页码:128 / 130+194 +194
页数:4
相关论文
共 4 条
[1]   基于DF和CHI的联合特征提取方法及其应用 [J].
李玉鑑 ;
周兰珍 ;
操卫平 .
北京工业大学学报, 2008, (09) :995-1000
[2]   基于χ2统计的文本分类特征选择方法的研究 [J].
熊忠阳 ;
张鹏招 ;
张玉芳 .
计算机应用, 2008, (02) :513-514+518
[3]   文本分类中结合评估函数的TEF-WA权值调整技术 [J].
唐焕玲 ;
孙建涛 ;
陆玉昌 .
计算机研究与发展, 2005, (01) :47-53
[4]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210