基于规则的自动分类在文本分类中的应用

被引：20

作者：

李渝勤

孙丽华

不详

机构：

[1] 北京信息工程学院

[2] TRS信息技术有限公司北京

[3] 北京

来源：

中文信息学报 | 2004年 / 04期

关键词：

计算机应用; 中文信息处理; 文本挖掘; 文本分类; 规则分类;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为 :当类别之间分类特征的交叉变大时 ,分类精度呈下降趋势 ,在多层分类的情况下 ,此局限尤为突出。针对此局限性 ,为了提高自动分类的精度 ,我们引入了基于规则的自动分类来对其进行改进和扩充 ,并整合两种自动分类技术的优点 ,设计出了混合分类器系统 ,从而获得了比较理想的分类效果

引用

页码：9 / 14

页数：6

共 7 条

[1] 基于主题的Web文档聚类研究 [J].