基于GA和信息熵的文本分类规则抽取方法

被引：1

作者：

邹国平

彭梅香

黄国兵

机构：

[1] 新余高等专科学校

来源：

微计算机信息 | 2008年 / 27期

关键词：

文本分类; 遗传算法; 信息熵; 文本挖掘;

D O I：

暂无

中图分类号：

TP391.41 [];

学科分类号：

080203 ;

摘要：

文本分类是文本数据挖掘中一个非常重要的技术,已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域。现有的文本分类方法,大多是基于向量空间模型的算法。这些算法很难适用于大规模的文本数据集。为此,我们提出了一种基于遗传算法和信息熵的文本分类规则抽取方法。在该方法中,信息熵技术用来辅助遗传算法初始种群的生成。遗传算法和信息熵的有效集成,极大地提高了该混合方法的分类效率。实验结果表明,本文方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快。

引用

页码：268 / 270

页数：3