基于句义成分的短文本表示方法研究

被引:6
作者
尚海
罗森林
韩磊
张笈
机构
[1] 北京理工大学信息系统及安全对抗实验中心
关键词
文本表示; 句义成分; 主题模型; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
随着移动互联网和信息技术的迅速发展,评论、微博等短文本数量呈现爆炸式增长。短文本数据少,文本特征稀疏,亟需有效的短文本表示方法来提升针对短文本的文本分类、文本聚类、热点发现、舆情分析等应用的效果。针对短文本特征稀疏问题,文章提出融合句义成分的短文本表示方法。该方法考虑短文本的语义信息,在保证特征空间维度不变的同时,结合句义成分和主题模型构建语义相关词语,再利用句义结构模型的话题和述题构建主题选择判定规则,选择语义相关词语扩充到短文本中,减少短文本表示向量中的0值特征。文章基于Sogou文本分类语料库,选择3个类别数据进行文本分类实验,并利用5折交叉方法选定模型参数。结果表明,文中方法对短文本分类的精确度达到0.7958,结果优于对比的短文本表示方法。因此,利用语义相关词语丰富短文本的语义信息,能够有效缓解短文本特征稀疏问题。文中短文本表示方法可以有效提高短文本分类等具体应用效果。
引用
收藏
页码:64 / 70
页数:7
相关论文
共 9 条
[1]  
汉语语义学.[M].贾彦德著;.北京大学出版社.1999,
[2]   一种基于狄利克雷过程混合模型的文本聚类算法 [J].
高悦 ;
王文贤 ;
杨淑贤 .
信息网络安全, 2015, (11) :60-65
[3]   面向机构知识库结构化数据的文本相似度评价算法 [J].
吴旭 ;
郭芳毓 ;
颉夏青 ;
许晋 .
信息网络安全, 2015, (05) :16-20
[4]   Construction method of Chinese sentential semantic structure [J].
罗森林 ;
韩磊 ;
潘丽敏 ;
魏超 .
Journal of Beijing Institute of Technology, 2015, 24 (01) :110-117
[5]   基于PCA的SVM网络入侵检测研究 [J].
戚名钰 ;
刘铭 ;
傅彦铭 .
信息网络安全, 2015, (02) :15-18
[6]   基于随机森林算法的网络舆情文本信息分类方法研究 [J].
吴坚 ;
沙晶 .
信息网络安全, 2014, (11) :36-40
[7]   汉语句义结构模型及其验证 [J].
罗森林 ;
韩磊 ;
潘丽敏 ;
冯扬 ;
刘盈盈 .
北京理工大学学报, 2013, 33 (02) :166-171
[8]   Learning to classify short text from scientific documents using topic models with various types of knowledge [J].
Vo, Duc-Thuan ;
Ock, Cheol-Young .
EXPERT SYSTEMS WITH APPLICATIONS, 2015, 42 (03) :1684-1698
[9]  
LIBSVM.[J].Chih-Chung Chang;Chih-Jen Lin.ACM Transactions on Intelligent Systems and Technology (TIST).2011, 3