学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于二次TF* IDF的互信息文本特征选择算法研究
被引:20
作者
:
论文数:
引用数:
h-index:
机构:
王园
论文数:
引用数:
h-index:
机构:
龚尚福
机构
:
[1]
西安科技大学计算机科学与技术学院
来源
:
计算机应用与软件
|
2011年
/ 28卷
/ 04期
关键词
:
特征选择;
文本分类;
互信息;
TF* IDF;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
在分析传统互信息法缺陷的基础上,提出一种基于二次TF*IDF的互信息特征选择算法,对仅在一个类别中出现的特征词的重要程度给予再次的衡量,解决了互信息值相等而无法进行有效特征选择的问题。利用贝叶斯分类器对该方法进行验证的结果表明该算法在文本分类效率和正确率上比原有方法有一定的提高。
引用
收藏
页码:129 / 131
页数:3
相关论文
共 5 条
[1]
基于内容的垃圾邮件过滤技术研究
[D].
论文数:
引用数:
h-index:
机构:
卢扬竹
.
西南交通大学,
2009
[2]
基于贝叶斯的中文垃圾邮件过滤系统的设计与实现
[D].
黄志刚
论文数:
0
引用数:
0
h-index:
0
机构:
电子科技大学
电子科技大学
黄志刚
.
电子科技大学,
2007
[3]
Feature selection for text categorization on imbalanced data.[J].Zhaohui Zheng;Xiaoyun Wu;Rohini Srihari.ACM SIGKDD Explorations Newsletter.2004, 1
[4]
TFIDF算法研究综述
[J].
施聪莺
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学教育技术系
施聪莺
;
论文数:
引用数:
h-index:
机构:
徐朝军
;
论文数:
引用数:
h-index:
机构:
杨晓江
.
计算机应用,
2009,
29(S1)
(S1)
:167
-170+180
[5]
自动文本分类特征选择方法研究
[J].
张海龙
论文数:
0
引用数:
0
h-index:
0
机构:
中国农业大学信息与电气工程学院
张海龙
;
论文数:
引用数:
h-index:
机构:
王莲芝
.
计算机工程与设计,
2006,
(20)
:3838
-3841
←
1
→
共 5 条
[1]
基于内容的垃圾邮件过滤技术研究
[D].
论文数:
引用数:
h-index:
机构:
卢扬竹
.
西南交通大学,
2009
[2]
基于贝叶斯的中文垃圾邮件过滤系统的设计与实现
[D].
黄志刚
论文数:
0
引用数:
0
h-index:
0
机构:
电子科技大学
电子科技大学
黄志刚
.
电子科技大学,
2007
[3]
Feature selection for text categorization on imbalanced data.[J].Zhaohui Zheng;Xiaoyun Wu;Rohini Srihari.ACM SIGKDD Explorations Newsletter.2004, 1
[4]
TFIDF算法研究综述
[J].
施聪莺
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学教育技术系
施聪莺
;
论文数:
引用数:
h-index:
机构:
徐朝军
;
论文数:
引用数:
h-index:
机构:
杨晓江
.
计算机应用,
2009,
29(S1)
(S1)
:167
-170+180
[5]
自动文本分类特征选择方法研究
[J].
张海龙
论文数:
0
引用数:
0
h-index:
0
机构:
中国农业大学信息与电气工程学院
张海龙
;
论文数:
引用数:
h-index:
机构:
王莲芝
.
计算机工程与设计,
2006,
(20)
:3838
-3841
←
1
→