共 1 条
基于自适应加权的文本关联分类
被引:6
作者:
陈晓云
[1
]
胡运发
[2
]
机构:
[1] 福州大学数学与计算机科学学院
[2] 复旦大学计算机与信息技术系
来源:
关键词:
数据挖掘;
关联分类;
规则加权;
样本加权;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
在文本关联分类研究中,训练样本特征词的分布情况对分类结果影响很大.即使是同一种关联分类算法,在不同的样本集上使用,分类效果也可能明显不同.为此,本文利用加权方法改善文本关联分类器的稳定性,设计实现了基于规则加权的关联分类算法(WARC)和基于样本加权的关联分类算法(SWARC).WARC算法通过规则自适应加权调整强弱不均的分类规则;SWARC算法则自适应地调整训练样本的权重,从根本上改善不同类别样本特征词分布不均的情况.实验结果表明,无论是WARC还是SWARC算法,经过权重调整后的文本分类质量明显提高,特别是SWARC算法分类质量的提高极为显著.
引用
收藏
页码:116 / 121
页数:6
相关论文