基于主动学习的中文问题分类数据集构建

被引:16
作者
邱锡鹏
缪有栋
黄萱菁
机构
[1] 复旦大学计算机科学技术学院
关键词
主动学习; Passive Aggressive算法; 特征选择; 中文问题分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为解决在开放领域问题回答问题中语料规模较小、难以满足问题分类训练需要的问题,用主动学习方法来构建中文问题分类数据集.根据主动学习的方法进行中文问题类别标注,并且通过主动式特征选择方法来提升性能.实验结果表明:在使用主动学习方法时可以快速收敛到最佳准确率(85%),在使用人工标注特征下特征集明显的减小.基于主动学习的标注方法在需要较小人工标注同时取得很好的分类性能,并且在一定程度上还可以明显提高问题分类的准确率.
引用
收藏
页码:125 / 128
页数:4
相关论文
共 3 条
[1]
基于句法结构分析的中文问题分类 [J].
文勖 ;
张宇 ;
刘挺 ;
马金山 .
中文信息学报, 2006, (02) :33-39
[2]
基于改进贝叶斯模型的问题分类 [J].
张宇 ;
刘挺 ;
文勖 .
中文信息学报, 2005, (02) :100-105
[3]
Selective sampling using the query by committee algorithm [J].
Freund, Y ;
Seung, HS ;
Shamir, E ;
Tishby, N .
MACHINE LEARNING, 1997, 28 (2-3) :133-168