共 4 条
文本分类中改进型CHI特征选择方法的研究
被引:37
作者:
裴英博
刘晓霞
机构:
[1] 西北大学信息科学与技术学院
来源:
关键词:
文本分类;
特征选择;
CHI统计;
权值调整;
分散度;
集中度;
频度;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。
引用
收藏
页码:128 / 130+194
+194
页数:4
相关论文