基于规则的自动分类在文本分类中的应用

被引:20
作者
李渝勤
孙丽华
不详
机构
[1] 北京信息工程学院
[2] TRS信息技术有限公司 北京
[3] 北京
关键词
计算机应用; 中文信息处理; 文本挖掘; 文本分类; 规则分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为 :当类别之间分类特征的交叉变大时 ,分类精度呈下降趋势 ,在多层分类的情况下 ,此局限尤为突出。针对此局限性 ,为了提高自动分类的精度 ,我们引入了基于规则的自动分类来对其进行改进和扩充 ,并整合两种自动分类技术的优点 ,设计出了混合分类器系统 ,从而获得了比较理想的分类效果
引用
收藏
页码:9 / 14
页数:6
相关论文
共 7 条
[1]   基于主题的Web文档聚类研究 [J].
孙学刚 ;
陈群秀 ;
马亮 .
中文信息学报, 2003, (03) :21-26
[2]   运用文本领域的常识改善基于支撑向量机的文本分类器性能 [J].
李辉 ;
史忠植 ;
许卓群 .
中文信息学报, 2002, (02) :7-13
[3]   独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7
[4]   文本自动分类中的词权重与分类算法 [J].
刁倩 ;
王永成 ;
张惠惠 ;
何骥 .
中文信息学报, 2000, (03) :25-29
[5]   Internet上的文本数据挖掘 [J].
王伟强 ;
高文 ;
段立娟 .
计算机科学, 2000, (04) :32-36
[6]   一种大类别数分类的神经网络方法 [J].
岳喜才 ;
伍晓宇 ;
郑崇勋 ;
叶大田 .
计算机研究与发展, 2000, (03) :278-283
[7]  
模式识别[M]. 清华大学出版社 , 边肇祺等编著, 2000