运用文本领域的常识改善基于支撑向量机的文本分类器性能

被引:15
作者
李辉
史忠植
许卓群
机构
[1] 中科院计算技术研究所智能信息处理重点实验室
[2] 北京大学计算机系
基金
国家自然科学基金重大项目;
关键词
文本分类; 同语义文档子段替换; 人工文档样本; 相容性条件; 支撑向量机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明 ,文本语义不变性常识的运用有效地改善了分类器的推广性能
引用
收藏
页码:7 / 13
页数:7
相关论文
共 1 条
[1]  
V. Vapnik.Statistical Learning Theory. . 1998