基于线索词识别和训练集扩展的中文问题分类

被引：6

作者：

张志昌

张宇

刘挺

李生

机构：

[1] 哈尔滨工业大学计算机学院信息检索研究室

来源：

高技术通讯 | 2009年 / 19卷 / 02期

关键词：

问题分类; 焦点词; 词义距离; 训练集扩展;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。

引用

页码：111 / 118

页数：8

共 4 条

[1] 基于知网的中文问题自动分类 [J].