学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于类别相关性和交叉熵的特征选择方法
被引:21
作者
:
论文数:
引用数:
h-index:
机构:
朱颢东
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
钟勇
[
1
,
2
]
机构
:
[1]
中国科学院成都计算机应用研究所
[2]
中国科学院研究生院
来源
:
郑州大学学报(理学版)
|
2010年
/ 42卷
/ 02期
关键词
:
文本分类;
特征选择;
类别相关性;
交叉熵;
属性约简;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.
引用
收藏
页码:61 / 65
页数:5
相关论文
共 12 条
[1]
A new method for measuring uncertainty and fuzziness in rough set theory
[J].
Liang, JY
论文数:
0
引用数:
0
h-index:
0
机构:
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Liang, JY
;
Chin, KS
论文数:
0
引用数:
0
h-index:
0
机构:
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Chin, KS
;
Dang, CY
论文数:
0
引用数:
0
h-index:
0
机构:
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Dang, CY
;
Yam, RCM
论文数:
0
引用数:
0
h-index:
0
机构:
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Yam, RCM
.
INTERNATIONAL JOURNAL OF GENERAL SYSTEMS,
2002,
31
(04)
:331
-342
[2]
一种新的基于多启发式的特征选择算法
[J].
论文数:
引用数:
h-index:
机构:
朱颢东
;
论文数:
引用数:
h-index:
机构:
钟勇
.
计算机应用,
2009,
29
(03)
:849
-851
[3]
文档分类之特征选择方法的实验比较
[J].
论文数:
引用数:
h-index:
机构:
张建兵
;
论文数:
引用数:
h-index:
机构:
戴新宇
;
论文数:
引用数:
h-index:
机构:
陈家骏
.
广西师范大学学报(自然科学版),
2008,
(03)
:181
-184
[4]
文本分类中特征选择方法的比较和改进
[J].
伍建军
论文数:
0
引用数:
0
h-index:
0
机构:
海南大学信息科学技术学院
伍建军
;
论文数:
引用数:
h-index:
机构:
康耀红
.
郑州大学学报(理学版),
2007,
(02)
:110
-113
[5]
自动文本分类特征选择方法研究
[J].
张海龙
论文数:
0
引用数:
0
h-index:
0
机构:
中国农业大学信息与电气工程学院
张海龙
;
论文数:
引用数:
h-index:
机构:
王莲芝
.
计算机工程与设计,
2006,
(20)
:3838
-3841
[6]
基于对称交叉熵的属性约简算法
[J].
论文数:
引用数:
h-index:
机构:
周如旗
;
陈文伟
论文数:
0
引用数:
0
h-index:
0
机构:
海军兵种指挥学院作战指挥系
广东教育学院计算机科学系
陈文伟
.
计算机辅助工程,
2006,
(03)
:51
-53+58
[7]
基于粗糙集信息观的决策表属性约简方法
[J].
朱六兵
论文数:
0
引用数:
0
h-index:
0
机构:
西南交通大学计算机与通信工程学院
朱六兵
;
唐德波
论文数:
0
引用数:
0
h-index:
0
机构:
西南交通大学计算机与通信工程学院
唐德波
;
论文数:
引用数:
h-index:
机构:
杨斌
.
信息技术,
2006,
(01)
:46
-49
[8]
基于潜在语义的多类文本分类模型研究
[J].
叶浩
论文数:
0
引用数:
0
h-index:
0
机构:
江西师范大学计算机信息工程学院,江西师范大学计算机信息工程学院,江西师范大学计算机信息工程学院南昌,南昌,南昌
叶浩
;
论文数:
引用数:
h-index:
机构:
王明文
;
论文数:
引用数:
h-index:
机构:
曾雪强
.
清华大学学报(自然科学版),
2005,
(自然科学版)
:1818
-1822
[9]
中文文本分类中的特征选择研究
[J].
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
;
赵明生
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
赵明生
;
扈旻
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
扈旻
.
中文信息学报,
2004,
(03)
:17
-23
[10]
信息理论基础.[M].周荫清主编;.北京航空航天大学出版社.2006,
←
1
2
→
共 12 条
[1]
A new method for measuring uncertainty and fuzziness in rough set theory
[J].
Liang, JY
论文数:
0
引用数:
0
h-index:
0
机构:
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Liang, JY
;
Chin, KS
论文数:
0
引用数:
0
h-index:
0
机构:
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Chin, KS
;
Dang, CY
论文数:
0
引用数:
0
h-index:
0
机构:
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Dang, CY
;
Yam, RCM
论文数:
0
引用数:
0
h-index:
0
机构:
Shanxi Univ, Dept Comp Sci, Taiyuan 030006, Peoples R China
Yam, RCM
.
INTERNATIONAL JOURNAL OF GENERAL SYSTEMS,
2002,
31
(04)
:331
-342
[2]
一种新的基于多启发式的特征选择算法
[J].
论文数:
引用数:
h-index:
机构:
朱颢东
;
论文数:
引用数:
h-index:
机构:
钟勇
.
计算机应用,
2009,
29
(03)
:849
-851
[3]
文档分类之特征选择方法的实验比较
[J].
论文数:
引用数:
h-index:
机构:
张建兵
;
论文数:
引用数:
h-index:
机构:
戴新宇
;
论文数:
引用数:
h-index:
机构:
陈家骏
.
广西师范大学学报(自然科学版),
2008,
(03)
:181
-184
[4]
文本分类中特征选择方法的比较和改进
[J].
伍建军
论文数:
0
引用数:
0
h-index:
0
机构:
海南大学信息科学技术学院
伍建军
;
论文数:
引用数:
h-index:
机构:
康耀红
.
郑州大学学报(理学版),
2007,
(02)
:110
-113
[5]
自动文本分类特征选择方法研究
[J].
张海龙
论文数:
0
引用数:
0
h-index:
0
机构:
中国农业大学信息与电气工程学院
张海龙
;
论文数:
引用数:
h-index:
机构:
王莲芝
.
计算机工程与设计,
2006,
(20)
:3838
-3841
[6]
基于对称交叉熵的属性约简算法
[J].
论文数:
引用数:
h-index:
机构:
周如旗
;
陈文伟
论文数:
0
引用数:
0
h-index:
0
机构:
海军兵种指挥学院作战指挥系
广东教育学院计算机科学系
陈文伟
.
计算机辅助工程,
2006,
(03)
:51
-53+58
[7]
基于粗糙集信息观的决策表属性约简方法
[J].
朱六兵
论文数:
0
引用数:
0
h-index:
0
机构:
西南交通大学计算机与通信工程学院
朱六兵
;
唐德波
论文数:
0
引用数:
0
h-index:
0
机构:
西南交通大学计算机与通信工程学院
唐德波
;
论文数:
引用数:
h-index:
机构:
杨斌
.
信息技术,
2006,
(01)
:46
-49
[8]
基于潜在语义的多类文本分类模型研究
[J].
叶浩
论文数:
0
引用数:
0
h-index:
0
机构:
江西师范大学计算机信息工程学院,江西师范大学计算机信息工程学院,江西师范大学计算机信息工程学院南昌,南昌,南昌
叶浩
;
论文数:
引用数:
h-index:
机构:
王明文
;
论文数:
引用数:
h-index:
机构:
曾雪强
.
清华大学学报(自然科学版),
2005,
(自然科学版)
:1818
-1822
[9]
中文文本分类中的特征选择研究
[J].
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
;
赵明生
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
赵明生
;
扈旻
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
扈旻
.
中文信息学报,
2004,
(03)
:17
-23
[10]
信息理论基础.[M].周荫清主编;.北京航空航天大学出版社.2006,
←
1
2
→