学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
文本分类中特征选择的约束研究
被引:24
作者
:
论文数:
引用数:
h-index:
机构:
徐燕
李锦涛
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李锦涛
王斌
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
王斌
孙春明
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
孙春明
张森
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张森
机构
:
[1]
中国科学院计算技术研究所
来源
:
计算机研究与发展
|
2008年
/ 04期
关键词
:
特征选择;
文本分类;
信息检索;
信息增益;
互信息;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的.
引用
收藏
页码:596 / 602
页数:7
相关论文
共 4 条
[1]
文本分类中基于基尼指数的特征选择算法研究
[J].
论文数:
引用数:
h-index:
机构:
尚文倩
;
黄厚宽
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
黄厚宽
;
刘玉玲
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
刘玉玲
;
论文数:
引用数:
h-index:
机构:
林永民
;
论文数:
引用数:
h-index:
机构:
瞿有利
;
董红斌
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
董红斌
.
计算机研究与发展,
2006,
(10)
:1688
-1694
[2]
几种典型特征选取方法在中文网页分类上的效果比较
[J].
单松巍
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系
单松巍
;
冯是聪
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系
冯是聪
;
李晓明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系
李晓明
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系
不详
.
计算机工程与应用 ,
2003,
(22)
:146
-148
[3]
Machine learning in automated text categorization
[J].
Sebastiani, F
论文数:
0
引用数:
0
h-index:
0
机构:
CNR, Ist Elaboraz Informaz, I-56124 Pisa, Italy
CNR, Ist Elaboraz Informaz, I-56124 Pisa, Italy
Sebastiani, F
.
ACM COMPUTING SURVEYS,
2002,
34
(01)
:1
-47
[4]
Induction of decision trees[J] . J. R. Quinlan.Machine Learning . 1986 (1)
←
1
→
共 4 条
[1]
文本分类中基于基尼指数的特征选择算法研究
[J].
论文数:
引用数:
h-index:
机构:
尚文倩
;
黄厚宽
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
黄厚宽
;
刘玉玲
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
刘玉玲
;
论文数:
引用数:
h-index:
机构:
林永民
;
论文数:
引用数:
h-index:
机构:
瞿有利
;
董红斌
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
董红斌
.
计算机研究与发展,
2006,
(10)
:1688
-1694
[2]
几种典型特征选取方法在中文网页分类上的效果比较
[J].
单松巍
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系
单松巍
;
冯是聪
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系
冯是聪
;
李晓明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系
李晓明
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系
不详
.
计算机工程与应用 ,
2003,
(22)
:146
-148
[3]
Machine learning in automated text categorization
[J].
Sebastiani, F
论文数:
0
引用数:
0
h-index:
0
机构:
CNR, Ist Elaboraz Informaz, I-56124 Pisa, Italy
CNR, Ist Elaboraz Informaz, I-56124 Pisa, Italy
Sebastiani, F
.
ACM COMPUTING SURVEYS,
2002,
34
(01)
:1
-47
[4]
Induction of decision trees[J] . J. R. Quinlan.Machine Learning . 1986 (1)
←
1
→