基于增量式贝叶斯模型的中文问句分类研究

被引:7
作者
王小林
镇丽华
杨思春
邰伟鹏
郑啸
机构
[1] 安徽工业大学计算机科学与技术学院
关键词
问句分类; 问答系统; 增量式贝叶斯; 朴素贝叶斯; 改进贝叶斯; 遗传算法;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
固定训练集生成的分类器性能不理想且不能跟踪用户需求,为此,提出一种将增量式贝叶斯思想用于问句分类的方法。采用遗传算法选取最优特征子集优化分类器,从而避免训练集特征过分冗余,使分类器在学习过程中动态地扩大训练集并修改分类器参数。在对问句进行分类时,提取问句的疑问词、句法结构、疑问意向词和疑问意向词在知网的首项义原作为分类特征。为了验证增量式贝叶斯方法的有效性,从语料库中随机抽取不同规模的问句构成增量集,基于不同的增量集对同一测试集中的问句进行分类。实验结果表明,增量式贝叶斯分类器较朴素贝叶斯分类器有更高的分类精度,大类和小类的准确率分别达到90.2%和76.3%,在提高准确率的同时优化了运行效率。
引用
收藏
页码:238 / 242
页数:5
相关论文
共 9 条
[1]   融合基本特征和词袋绑定特征的问句特征模型 [J].
杨思春 ;
高超 ;
秦锋 ;
戴新宇 ;
陈家骏 .
中文信息学报, 2012, 26 (05) :46-52
[2]   一种新的互信息特征子集评价函数 [J].
洪智勇 ;
王天擎 ;
刘灿涛 .
计算机工程与应用 , 2011, (22) :130-132
[3]   一种具有增量学习能力的PU主动学习算法 [J].
陈文 ;
晏立 ;
周亮 .
计算机工程, 2011, 37 (04) :214-215+226
[4]   基于句法和语义信息的问句特征提取方法 [J].
许莉 ;
王大玲 ;
夏秀峰 .
计算机工程, 2010, 36 (21) :65-66+70
[5]   基于错误驱动算法组合分类器及其在问题分类中的应用 [J].
李鑫 ;
黄萱菁 ;
吴立德 .
计算机研究与发展, 2008, (03) :535-541
[6]   基于改进贝叶斯模型的问题分类 [J].
张宇 ;
刘挺 ;
文勖 .
中文信息学报, 2005, (02) :100-105
[7]   自动问答综述 [J].
郑实福 ;
刘挺 ;
秦兵 ;
李生 .
中文信息学报, 2002, (06) :46-52
[8]   一种增量贝叶斯分类模型 [J].
宫秀军 ;
刘少辉 ;
史忠植 .
计算机学报, 2002, (06) :645-650
[9]  
遗传算法原理及应用.[M].周明;孙树栋编著;.国防工业出版社.1999,