基于半监督学习的中文问句分类研究

被引:0
作者
赵全
机构
[1] 昆明理工大学
关键词
问句分类; 特征提取; 语义相似度; 标记样本; 无标记样本; 半监督学习; 协同训练; Co-forest算法;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
问句分类是问答系统中很重要的一个组成模块,是问答系统处理的基础与核心,分类准确性直接影响问答系统的性能。目前很多研究主要集中在有监督学习问句分类研究,并已经取得比较好的效果。但在现实应用中,对大量的样本数据进行人工标记是代价高昂的,本文围绕基于半监督学习的问句分类展开研究,取得了以下成果: 首先,提出了一种面向问句分类的特征提取方法。采用特征向量来表示问句特征,从语料库中选取高频关键词、领域词汇及疑问词作为特征向量的特征项,通过句法依存分析,提取问句主干词,利用语义相似度计算方法,计算这些词与特征项的相似度,获得其特征值,以构建问句特征向量。 其次,提出了基于半监督学习的问句分类方法。该方法在问句特征提取的基础上,采用具有协同训练的Co-forest学习算法,利用已标记的问句样本对无标记的问句样本进行标记,并选取高置信的新标记问句添加入已标记的问句样本中,以此构建问句分类模型。该方法在云南旅游领域5个大类和23个小类的分类实验中比监督学习方法准确率分别提高了8.28个百分比和1.19百分比,结果表明提出的方法能够有效利用无标记样本提高问句分类的准确率。 最后,在云南旅游领域问句语料库的基础上,设计并实现了中文问句分类原型系统,并在实验的基础上,对问句分类器进行评测。
引用
收藏
页数:59
共 14 条
[1]
基于KNN的汉语问句分类 [J].
贾可亮 ;
樊孝忠 ;
许进忠 .
微电子学与计算机, 2008, (01) :156-158
[2]
基于HowNet语义相似度的FAQ研究 [J].
贾可亮 ;
樊孝忠 ;
张禹 .
计算机应用, 2007, (09) :2256-2257
[3]
基于自适应数据剪辑策略的Tri-training算法 [J].
邓超 ;
郭茂祖 .
计算机学报, 2007, (08) :1213-1226
[4]
基于句法结构分析的中文问题分类 [J].
文勖 ;
张宇 ;
刘挺 ;
马金山 .
中文信息学报, 2006, (02) :33-39
[5]
Co-training机器学习方法在中文组块识别中的应用 [J].
刘世岳 ;
李珩 ;
张俐 ;
姚天顺 .
中文信息学报, 2005, (03) :73-79
[6]
基于改进贝叶斯模型的问题分类 [J].
张宇 ;
刘挺 ;
文勖 .
中文信息学报, 2005, (02) :100-105
[7]
自动问答综述 [J].
郑实福 ;
刘挺 ;
秦兵 ;
李生 .
中文信息学报, 2002, (06) :46-52
[8]
计算机识别汉语同义词的两种算法比较和测评 [J].
朱毅华 ;
侯汉清 ;
沙印亭 .
中国图书馆学报, 2002, (04)
[9]
Six methodological steps to build medical data warehouses for research [J].
Szirbik, N. B. ;
Pelletier, C. ;
Chaussalet, T. .
INTERNATIONAL JOURNAL OF MEDICAL INFORMATICS, 2006, 75 (09) :683-691
[10]
Analysis of new techniques to obtain quality training sets.[J].J.S. Sánchez;R. Barandela;A.I. Marqués;R. Alejo;J. Badenas.Pattern Recognition Letters.2002, 7