基于主题扩展的领域问题分类方法

被引:10
作者
张青
吕钊
机构
[1] 华东师范大学计算机科学技术系
关键词
领域问题分类; 数据稀疏; 特征选择; 主题模型; 优质主题; 特征扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
领域问题分类在问答系统中占有重要地位,但目前面向特定领域的研究较少。针对领域问题文本篇幅较短、数据稀疏的特点,提出基于主题扩展的领域问题分类方法。该方法主要包括特征选择和特征扩展2个部分。利用卡方统计量特征选择方法,将问题文本选择的特征词作为特征扩展的依据。通过潜在狄利克雷分配主题模型对外部知识库进行分析,得到对应的主题分布。为避免引入噪声主题,采用主题熵的方法得到优质主题。将优质主题下所覆盖的词扩充到问题文本中,最后利用支持向量机分类器对问题文本进行分类。实验结果表明,与传统TFIDF文本分类方法相比,该方法分类效果较好,可提高问答系统的性能。
引用
收藏
页码:202 / 207+213 +213
页数:7
相关论文
共 8 条
[1]   基于语义扩展的短问题分类 [J].
冶忠林 ;
杨燕 ;
贾真 ;
尹红风 .
计算机应用, 2015, 35 (03) :792-796
[2]   文本分类中的特征选取 [J].
刘丽珍 ;
宋瀚涛 .
计算机工程, 2004, (04) :14-15+175
[3]   Learning to classify short text from scientific documents using topic models with various types of knowledge [J].
Vo, Duc-Thuan ;
Ock, Cheol-Young .
EXPERT SYSTEMS WITH APPLICATIONS, 2015, 42 (03) :1684-1698
[4]   Open-categorical text classification based on multi-LDA models [J].
Fu, Ruiji ;
Qin, Bing ;
Liu, Ting .
SOFT COMPUTING, 2015, 19 (01) :29-38
[5]  
A Comparative Study of Machine Learning Methods for Verbal Autopsy Text Classification[J] . Danso,Samuel,Atwell,Eric,Johnson,Owen.International Journal of Computer Science Issues (IJCSI) . 2013 (6)
[6]   An evaluation of classification models for question topic categorization [J].
Qu, Bo ;
Cong, Gao ;
Li, Cuiping ;
Sun, Aixin ;
Chen, Hong .
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 2012, 63 (05) :889-903
[7]  
LIBSVM[J] . Chih-Chung Chang,Chih-Jen Lin.ACM Transactions on Intelligent Systems and Technology (TIST) . 2011 (3)
[8]  
A hidden topic-based framework toward building applications with short web documents .2 Phan,Xuan-Hieu,Nguyen,Cam-Tu,Le,Dieu-Thu,Nguyen,Le-Minh,Horiguchi,Susumu,Ha,Quang-Thuy. IEEE Transactions on Knowledge and Data Engineering . 2011