基于遗传算法和信息熵的文本分类规则抽取方法研究

被引:1
作者
唐华
曾碧卿
机构
[1] 华南师范大学南海校区计算机工程系
关键词
文本分类规则; 知识发现; 信息熵; 遗传算法; 数据挖掘;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP311.13 [];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 1201 ;
摘要
针对数据挖掘中的文本分类问题,提出了一种基于遗传算法和信息熵的文本分类规则抽取算法Genet-ic-Miner(简称GM),该算法的目标是在数据集中发现分类规则。首先利用信息熵生成初始种群,然后利用优化的遗传算法抽取相应规则。采用六个标准的公共领域的数据集比较了GM与其它两个非常著名的同类算法Ant-Miner和CN2,实验结果表明,无论是预测准确性和规则的简单性,GM都明显优于Ant-Miner和CN2,并且该算法能大大提高对知识的理解力。
引用
收藏
页码:18 / 21+24 +24
页数:5
相关论文
共 3 条
[1]   一种基于CHI值特征选取的粗糙集文本分类规则抽取方法 [J].
王明春 ;
王正欧 ;
张楷 ;
郝玺龙 .
计算机应用, 2005, (05) :1026-1028+1033
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[3]  
The CN2 Induction Algorithm[J] . Peter Clark,Tim Niblett.Machine Learning . 1989 (4)