基于分类规则树的频繁模式文本分类

被引:19
作者
陈晓云
陈袆
王雷
李荣陆
胡运发
机构
[1] 复旦大学计算机与信息技术系
关键词
频繁模式; 文本分类; 词频; 关联规则; 分类规则;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
基于频繁模式的关联分类是近年来出现的一种分类方法,该方法利用各类别频繁出现的模式构造分类规则,并对新文本进行分类.但现有关联分类方法应用于文本分类时存在两方面不足:一方面,用以构造分类规则的频繁模式仅考虑特征词在文本中出现与否,从而忽视了出现频度;另一方面,当产生的规则数量较多时,为提高分类效率需要进行规则修剪,修剪后的分类准确性明显降低.为此,提出了基于分类规则树的带词频的频繁模式文本分类方法.研究结果表明,词频的引入可以提高关联分类的准确率;而采用分类规则树可使分类时间明显加快又确保不降低分类质量.这两方面的措施弥补了现有关联分类应用于文本分类的不足.与3种典型文本分类方法比较后发现,在低维特征空间中,关联分类的性能优于Bayes,kNN(knearestneighbor)和SVM(supportvectormachines),因此是一种很有应用前景的文本分类方法.
引用
收藏
页码:1017 / 1025
页数:9
相关论文
共 1 条