用Boosting方法组合增强Stumps进行文本分类(英文)

被引：102

作者：

刁力力

胡可云

陆玉昌

石纯一

机构：

[1] 清华大学智能技术与系统国家重点实验室

[2] 清华大学计算机科学与技术系北京

来源：

软件学报 | 2002年 / 08期

关键词：

文本分类; 机器学习; stump; boosting;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

140502 [人工智能];

摘要：

为提高文本分类的精度,Schapire和Singer尝试了一个用Boosting来组合仅有一个划分的简单决策树(Stumps)的方法.其基学习器的划分是由某个特定词项是否在待分类文档中出现决定的.这样的基学习器明显太弱,造成最后组合成的Boosting分类器精度不够理想,而且需要的迭代次数很大,因而效率很低.针对这个问题,提出由文档中所有词项来决定基学习器划分以增强基学习器分类能力的方法.它把以VSM表示的文档与类代表向量之间的相似度和某特定阈值的大小关系作为基学习器划分的标准.同时,为提高算法的收敛速度,在类代表向量的计算过程中动态引入Boosting分配给各学习样本的权重.实验结果表明,这种方法提高了用Boosting组合Stump分类器进行文本分类的性能(精度和效率),而且问题规模越大,效果越明显.

引用

页码：1361 / 1367

页数：7