学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
改进的最大熵权值算法在文本分类中的应用
被引:12
作者
:
论文数:
引用数:
h-index:
机构:
李学相
机构
:
[1]
郑州大学软件技术学院
来源
:
计算机科学
|
2012年
/ 39卷
/ 06期
关键词
:
文本分类;
最大熵算法;
均值聚类;
特征选择;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
由于传统算法存在着特征词不明确、分类结果有重叠、工作效率低的缺陷,为了解决上述问题,提出了一种改进的最大熵文本分类方法。最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。提出的方法充分结合了均值聚类和最大熵值算法的优点,算法首先以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用均值聚类算法对最优特征进行分类。经过实验论证,所提出的新算法能够在较短的时间内获得分类后得到的特征集,大大缩短了工作的时间,同时提高了工作的效率。
引用
收藏
页码:210 / 212
页数:3
相关论文
共 11 条
[1]
数据挖掘中的新方法.[M].邓乃扬;田英杰著;.科学出版社.2004,
[2]
一种基于粗糙集的特征加权朴素贝叶斯分类器
[J].
论文数:
引用数:
h-index:
机构:
王国才
;
论文数:
引用数:
h-index:
机构:
张聪
.
重庆理工大学学报(自然科学版),
2010,
24
(07)
:86
-90+105
[3]
一种改进的支持向量机的文本分类算法
[J].
论文数:
引用数:
h-index:
机构:
巩知乐
;
论文数:
引用数:
h-index:
机构:
张德贤
;
论文数:
引用数:
h-index:
机构:
胡明明
.
计算机仿真,
2009,
26
(07)
:164
-167
[4]
中文文本分类中的特征选择算法研究
[J].
胡佳妮
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
胡佳妮
;
徐蔚然
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
徐蔚然
;
郭军
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
郭军
;
邓伟洪
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
邓伟洪
.
光通信研究,
2005,
(03)
:44
-46
[5]
模式识别中的支持向量机方法
[J].
论文数:
引用数:
h-index:
机构:
杜树新
;
论文数:
引用数:
h-index:
机构:
吴铁军
.
浙江大学学报(工学版),
2003,
(05)
[6]
人工免疫算法在函数优化中的应用
[J].
罗印升
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学电子与信息工程学院,西安交通大学电子与信息工程学院,西安交通大学电子与信息工程学院,西安交通大学电子与信息工程学院西安,西安,西安,西安
罗印升
;
论文数:
引用数:
h-index:
机构:
李人厚
;
论文数:
引用数:
h-index:
机构:
张雷
;
论文数:
引用数:
h-index:
机构:
刘芳
.
西安交通大学学报,
2003,
(08)
:840
-843
[7]
一种新的基于统计的自动文本分类方法
[J].
刘斌
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
刘斌
;
黄铁军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
黄铁军
;
程军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
程军
;
高文
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
高文
.
中文信息学报,
2002,
(06)
:18
-24
[8]
基于序列的文本自动分类算法
[J].
论文数:
引用数:
h-index:
机构:
解冲锋
;
论文数:
引用数:
h-index:
机构:
李 星
.
软件学报,
2002,
(04)
:783
-789
[9]
一个自动分词分类系统的实现
[J].
论文数:
引用数:
h-index:
机构:
潘有能
.
情报学报,
2002,
(01)
:38
-41
[10]
Web挖掘研究
[J].
论文数:
引用数:
h-index:
机构:
韩家炜
;
论文数:
引用数:
h-index:
机构:
孟小峰
;
论文数:
引用数:
h-index:
机构:
王静
;
论文数:
引用数:
h-index:
机构:
李盛恩
.
计算机研究与发展,
2001,
(04)
:405
-414
←
1
2
→
共 11 条
[1]
数据挖掘中的新方法.[M].邓乃扬;田英杰著;.科学出版社.2004,
[2]
一种基于粗糙集的特征加权朴素贝叶斯分类器
[J].
论文数:
引用数:
h-index:
机构:
王国才
;
论文数:
引用数:
h-index:
机构:
张聪
.
重庆理工大学学报(自然科学版),
2010,
24
(07)
:86
-90+105
[3]
一种改进的支持向量机的文本分类算法
[J].
论文数:
引用数:
h-index:
机构:
巩知乐
;
论文数:
引用数:
h-index:
机构:
张德贤
;
论文数:
引用数:
h-index:
机构:
胡明明
.
计算机仿真,
2009,
26
(07)
:164
-167
[4]
中文文本分类中的特征选择算法研究
[J].
胡佳妮
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
胡佳妮
;
徐蔚然
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
徐蔚然
;
郭军
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
郭军
;
邓伟洪
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学
邓伟洪
.
光通信研究,
2005,
(03)
:44
-46
[5]
模式识别中的支持向量机方法
[J].
论文数:
引用数:
h-index:
机构:
杜树新
;
论文数:
引用数:
h-index:
机构:
吴铁军
.
浙江大学学报(工学版),
2003,
(05)
[6]
人工免疫算法在函数优化中的应用
[J].
罗印升
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学电子与信息工程学院,西安交通大学电子与信息工程学院,西安交通大学电子与信息工程学院,西安交通大学电子与信息工程学院西安,西安,西安,西安
罗印升
;
论文数:
引用数:
h-index:
机构:
李人厚
;
论文数:
引用数:
h-index:
机构:
张雷
;
论文数:
引用数:
h-index:
机构:
刘芳
.
西安交通大学学报,
2003,
(08)
:840
-843
[7]
一种新的基于统计的自动文本分类方法
[J].
刘斌
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
刘斌
;
黄铁军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
黄铁军
;
程军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
程军
;
高文
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
高文
.
中文信息学报,
2002,
(06)
:18
-24
[8]
基于序列的文本自动分类算法
[J].
论文数:
引用数:
h-index:
机构:
解冲锋
;
论文数:
引用数:
h-index:
机构:
李 星
.
软件学报,
2002,
(04)
:783
-789
[9]
一个自动分词分类系统的实现
[J].
论文数:
引用数:
h-index:
机构:
潘有能
.
情报学报,
2002,
(01)
:38
-41
[10]
Web挖掘研究
[J].
论文数:
引用数:
h-index:
机构:
韩家炜
;
论文数:
引用数:
h-index:
机构:
孟小峰
;
论文数:
引用数:
h-index:
机构:
王静
;
论文数:
引用数:
h-index:
机构:
李盛恩
.
计算机研究与发展,
2001,
(04)
:405
-414
←
1
2
→