共 5 条
基于χ2统计的文本分类特征选择方法的研究
被引:28
作者:
熊忠阳
张鹏招
张玉芳
机构:
[1] 重庆大学计算机学院
来源:
关键词:
特征提取;
χ2统计;
频度;
集中度;
分散度;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。在研究文本分类特征提取方法的基础上,分析了χ2统计的不足,并提出将频度、集中度、分散度应用到χ2统计方法上,对χ2统计进行改进,并通过实验对比改进前后的方法对文本分类效果的影响。在实验中,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。
引用
收藏
页码:513 / 514+518
+518
页数:3
相关论文