基于自适应加权的文本关联分类

被引:6
作者
陈晓云 [1 ]
胡运发 [2 ]
机构
[1] 福州大学数学与计算机科学学院
[2] 复旦大学计算机与信息技术系
关键词
数据挖掘; 关联分类; 规则加权; 样本加权;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在文本关联分类研究中,训练样本特征词的分布情况对分类结果影响很大.即使是同一种关联分类算法,在不同的样本集上使用,分类效果也可能明显不同.为此,本文利用加权方法改善文本关联分类器的稳定性,设计实现了基于规则加权的关联分类算法(WARC)和基于样本加权的关联分类算法(SWARC).WARC算法通过规则自适应加权调整强弱不均的分类规则;SWARC算法则自适应地调整训练样本的权重,从根本上改善不同类别样本特征词分布不均的情况.实验结果表明,无论是WARC还是SWARC算法,经过权重调整后的文本分类质量明显提高,特别是SWARC算法分类质量的提高极为显著.
引用
收藏
页码:116 / 121
页数:6
相关论文
共 1 条
[1]   一个无需词典支持和切词处理的中文文档分类系统 [J].
周水庚 ;
关佶红 ;
胡运发 ;
周傲英 .
计算机研究与发展, 2001, (07) :839-844