基于信息增益的中文文本关联分类

被引:1
作者
陈志雄
陈健
闵华清
机构
[1] 华南理工大学计算机软件学院
基金
广东省科技计划; 高等学校博士学科点专项科研基金; 广东省自然科学基金;
关键词
计算机应用; 中文信息处理; 信息增益; 关联分类; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。
引用
收藏
页码:61 / 68
页数:8
相关论文
共 12 条
[1]   基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 [J].
毛伟 ;
徐蔚然 ;
郭军 .
中文信息学报, 2006, (03) :29-35
[2]   基于双层级联文本分类的简历信息抽取 [J].
于琨 ;
管刚 ;
周明 ;
王煦法 ;
蔡庆生 .
中文信息学报, 2006, (01) :59-66
[3]   基于类别特征域的文本分类特征选择方法 [J].
赵世奇 ;
张宇 ;
刘挺 ;
陈毅恒 ;
黄永光 ;
李生 .
中文信息学报, 2005, (06) :23-29
[4]   一种文本分类的在线SVM学习算法 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2005, (05) :11-15+23
[5]   基于后缀树模型的文本实时分类系统的研究和实现 [J].
郭莉 ;
张吉 ;
谭建龙 .
中文信息学报, 2005, (05) :16-23
[6]   规则加权的文本关联分类 [J].
陈晓云 ;
胡运发 .
中文信息学报, 2005, (04) :52-59
[7]   基于投影寻踪的中文网页分类算法 [J].
万中英 ;
王明文 ;
廖海波 .
中文信息学报, 2005, (04) :60-67
[8]   基于粗糙集的文本分类方法研究 [J].
卢娇丽 ;
郑家恒 .
中文信息学报, 2005, (02) :66-70
[9]   基于Bootstrapping的文本分类模型 [J].
陈文亮 ;
朱慕华 ;
朱靖波 ;
姚天顺 .
中文信息学报, 2005, (02) :86-92
[10]   基于向量空间模型的文本分类系统的研究与实现 [J].
陈治纲 ;
何丕廉 ;
孙越恒 ;
郑小慎 .
中文信息学报, 2005, (01) :36-41