基于Bootstrapping的文本分类模型

被引:6
作者
陈文亮
朱慕华
朱靖波
姚天顺
机构
[1] 东北大学自然语言处理实验室
[2] 东北大学自然语言处理实验室 辽宁沈阳
[3] 辽宁沈阳
关键词
计算机应用; 中文信息处理; 文本分类; 最大熵模型; 权重因子;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文提出一种基于Bootstrapping的文本分类模型 ,该模型采用最大熵模型作为分类器 ,从少量的种子集出发 ,自动学习更多的文本作为新的种子样本 ,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明 ,在相同的手工训练语料的条件下 ,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势 ,仅使用每类10 0篇种子训练集 ,分类结果的F1值为 70 5 6 % ,比传统模型高出 4 70 %。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。
引用
收藏
页码:86 / 92
页数:7
相关论文
共 2 条
[1]  
中国图书馆分类法(第四版)[M]. 北京图书馆出版社 , 中国图书馆分类法编辑委员会编, 1999
[2]   Text Classification from Labeled and Unlabeled Documents using EM [J].
Kamal Nigam ;
Andrew Kachites Mccallum ;
Sebastian Thrun ;
Tom Mitchell .
Machine Learning, 2000, 39 :103-134