改进的最大熵权值算法在文本分类中的应用

被引:12
作者
李学相
机构
[1] 郑州大学软件技术学院
关键词
文本分类; 最大熵算法; 均值聚类; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
由于传统算法存在着特征词不明确、分类结果有重叠、工作效率低的缺陷,为了解决上述问题,提出了一种改进的最大熵文本分类方法。最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。提出的方法充分结合了均值聚类和最大熵值算法的优点,算法首先以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用均值聚类算法对最优特征进行分类。经过实验论证,所提出的新算法能够在较短的时间内获得分类后得到的特征集,大大缩短了工作的时间,同时提高了工作的效率。
引用
收藏
页码:210 / 212
页数:3
相关论文
共 11 条
[1]
数据挖掘中的新方法.[M].邓乃扬;田英杰著;.科学出版社.2004,
[2]
一种基于粗糙集的特征加权朴素贝叶斯分类器 [J].
王国才 ;
张聪 .
重庆理工大学学报(自然科学版), 2010, 24 (07) :86-90+105
[3]
一种改进的支持向量机的文本分类算法 [J].
巩知乐 ;
张德贤 ;
胡明明 .
计算机仿真, 2009, 26 (07) :164-167
[4]
中文文本分类中的特征选择算法研究 [J].
胡佳妮 ;
徐蔚然 ;
郭军 ;
邓伟洪 .
光通信研究, 2005, (03) :44-46
[5]
模式识别中的支持向量机方法 [J].
杜树新 ;
吴铁军 .
浙江大学学报(工学版), 2003, (05)
[6]
人工免疫算法在函数优化中的应用 [J].
罗印升 ;
李人厚 ;
张雷 ;
刘芳 .
西安交通大学学报, 2003, (08) :840-843
[7]
一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[8]
基于序列的文本自动分类算法 [J].
解冲锋 ;
李 星 .
软件学报, 2002, (04) :783-789
[9]
一个自动分词分类系统的实现 [J].
潘有能 .
情报学报, 2002, (01) :38-41
[10]
Web挖掘研究 [J].
韩家炜 ;
孟小峰 ;
王静 ;
李盛恩 .
计算机研究与发展, 2001, (04) :405-414