规则加权的文本关联分类

被引:5
作者
陈晓云
胡运发
机构
[1] 复旦大学计算机与信息技术系
关键词
计算机应用; 中文信息处理; 关联分类; 规则强度; 权重;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
近年来,基于关联规则的文本分类方法受到普遍关注。虽然在一般情况下这种方法可获得较好的分类效果。但当样本特征词分布明显不均时,分类规则在各类别的分布也出现不均,从而导致分类准确率下降。本文设计和实现的基于规则权重调整的关联规则文本分类算法可有效地解决这一问题。该算法根据误分类训练样本的数量定义规则强度。对强规则通过乘以小于1的调整因子降低其权重,而弱规则乘以大于1的调整因子提高其权重。实验结果表明经过规则权重的调整,分类质量显著提高。
引用
收藏
页码:52 / 59
页数:8
相关论文
共 2 条
[1]   距离加权统计语言模型及其应用 [J].
金凌 ;
吴文虎 ;
郑方 ;
吴根清 .
中文信息学报, 2001, (06) :47-52
[2]   基于Ngram信息的中文文档分类研究 [J].
周水庚 ;
关佶红 ;
俞红奇 ;
胡运发 .
中文信息学报, 2001, (01) :34-39