基于二次TF* IDF的互信息文本特征选择算法研究

被引:20
作者
王园
龚尚福
机构
[1] 西安科技大学计算机科学与技术学院
关键词
特征选择; 文本分类; 互信息; TF* IDF;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
在分析传统互信息法缺陷的基础上,提出一种基于二次TF*IDF的互信息特征选择算法,对仅在一个类别中出现的特征词的重要程度给予再次的衡量,解决了互信息值相等而无法进行有效特征选择的问题。利用贝叶斯分类器对该方法进行验证的结果表明该算法在文本分类效率和正确率上比原有方法有一定的提高。
引用
收藏
页码:129 / 131
页数:3
相关论文
共 5 条
[1]
基于内容的垃圾邮件过滤技术研究 [D]. 
卢扬竹 .
西南交通大学,
2009
[2]
基于贝叶斯的中文垃圾邮件过滤系统的设计与实现 [D]. 
黄志刚 .
电子科技大学,
2007
[3]
Feature selection for text categorization on imbalanced data.[J].Zhaohui Zheng;Xiaoyun Wu;Rohini Srihari.ACM SIGKDD Explorations Newsletter.2004, 1
[4]
TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[5]
自动文本分类特征选择方法研究 [J].
张海龙 ;
王莲芝 .
计算机工程与设计, 2006, (20) :3838-3841