学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于信息增益的文本特征选择方法
被引:31
作者
:
任永功
论文数:
0
引用数:
0
h-index:
0
机构:
辽宁师范大学计算机与信息技术学院
任永功
论文数:
引用数:
h-index:
机构:
杨荣杰
论文数:
引用数:
h-index:
机构:
尹明飞
论文数:
引用数:
h-index:
机构:
马名威
机构
:
[1]
辽宁师范大学计算机与信息技术学院
来源
:
计算机科学
|
2012年
/ 39卷
/ 11期
基金
:
教育部留学回国人员科研启动基金;
关键词
:
特征选择;
文本分类;
信息增益值;
冗余特征;
不平衡数据集;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
引用
收藏
页码:127 / 130
页数:4
相关论文
共 4 条
[1]
文本分类中特征选择方法的比较与改进
[J].
单丽莉
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
单丽莉
;
刘秉权
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
刘秉权
;
孙承杰
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
孙承杰
.
哈尔滨工业大学学报,
2011,
43(S1)
(S1)
:319
-324
[2]
应用特征项分布信息的信息增益改进方法研究
[J].
论文数:
引用数:
h-index:
机构:
杨玉珍
;
论文数:
引用数:
h-index:
机构:
刘培玉
;
论文数:
引用数:
h-index:
机构:
朱振方
;
论文数:
引用数:
h-index:
机构:
邱烨
.
山东大学学报(理学版),
2009,
44
(11)
:48
-51
[3]
Using online linear classifiers to filter spam emails
[J].
Wang, Bin
论文数:
0
引用数:
0
h-index:
0
机构:
Chinese Acad Sci, Comp Technol Inst, Beijing, Peoples R China
Chinese Acad Sci, Comp Technol Inst, Beijing, Peoples R China
Wang, Bin
;
Jones, Gareth J. F.
论文数:
0
引用数:
0
h-index:
0
机构:
Chinese Acad Sci, Comp Technol Inst, Beijing, Peoples R China
Jones, Gareth J. F.
;
Pan, Wenfeng
论文数:
0
引用数:
0
h-index:
0
机构:
Chinese Acad Sci, Comp Technol Inst, Beijing, Peoples R China
Pan, Wenfeng
.
PATTERN ANALYSIS AND APPLICATIONS,
2006,
9
(04)
:339
-351
[4]
Feature selection for text categorization on imbalanced data[J] . Zhaohui Zheng,Xiaoyun Wu,Rohini Srihari.ACM SIGKDD Explorations Newsletter . 2004 (1)
←
1
→
共 4 条
[1]
文本分类中特征选择方法的比较与改进
[J].
单丽莉
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
单丽莉
;
刘秉权
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
刘秉权
;
孙承杰
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
孙承杰
.
哈尔滨工业大学学报,
2011,
43(S1)
(S1)
:319
-324
[2]
应用特征项分布信息的信息增益改进方法研究
[J].
论文数:
引用数:
h-index:
机构:
杨玉珍
;
论文数:
引用数:
h-index:
机构:
刘培玉
;
论文数:
引用数:
h-index:
机构:
朱振方
;
论文数:
引用数:
h-index:
机构:
邱烨
.
山东大学学报(理学版),
2009,
44
(11)
:48
-51
[3]
Using online linear classifiers to filter spam emails
[J].
Wang, Bin
论文数:
0
引用数:
0
h-index:
0
机构:
Chinese Acad Sci, Comp Technol Inst, Beijing, Peoples R China
Chinese Acad Sci, Comp Technol Inst, Beijing, Peoples R China
Wang, Bin
;
Jones, Gareth J. F.
论文数:
0
引用数:
0
h-index:
0
机构:
Chinese Acad Sci, Comp Technol Inst, Beijing, Peoples R China
Jones, Gareth J. F.
;
Pan, Wenfeng
论文数:
0
引用数:
0
h-index:
0
机构:
Chinese Acad Sci, Comp Technol Inst, Beijing, Peoples R China
Pan, Wenfeng
.
PATTERN ANALYSIS AND APPLICATIONS,
2006,
9
(04)
:339
-351
[4]
Feature selection for text categorization on imbalanced data[J] . Zhaohui Zheng,Xiaoyun Wu,Rohini Srihari.ACM SIGKDD Explorations Newsletter . 2004 (1)
←
1
→