问句分类是问答系统中很重要的一个组成模块,是问答系统处理的基础与核心,分类准确性直接影响问答系统的性能。目前很多研究主要集中在有监督学习问句分类研究,并已经取得比较好的效果。但在现实应用中,对大量的样本数据进行人工标记是代价高昂的,本文围绕基于半监督学习的问句分类展开研究,取得了以下成果:
首先,提出了一种面向问句分类的特征提取方法。采用特征向量来表示问句特征,从语料库中选取高频关键词、领域词汇及疑问词作为特征向量的特征项,通过句法依存分析,提取问句主干词,利用语义相似度计算方法,计算这些词与特征项的相似度,获得其特征值,以构建问句特征向量。
其次,提出了基于半监督学习的问句分类方法。该方法在问句特征提取的基础上,采用具有协同训练的Co-forest学习算法,利用已标记的问句样本对无标记的问句样本进行标记,并选取高置信的新标记问句添加入已标记的问句样本中,以此构建问句分类模型。该方法在云南旅游领域5个大类和23个小类的分类实验中比监督学习方法准确率分别提高了8.28个百分比和1.19百分比,结果表明提出的方法能够有效利用无标记样本提高问句分类的准确率。
最后,在云南旅游领域问句语料库的基础上,设计并实现了中文问句分类原型系统,并在实验的基础上,对问句分类器进行评测。