基于深度学习的中文标准文献语言模型

被引:11
作者
李抵非 [1 ]
田地 [1 ]
胡雄伟 [2 ]
机构
[1] 吉林大学仪器科学与电气工程学院
[2] 国家标准化管理委员会标准信息中心
关键词
人工智能; 自然语言处理; 统计语言模型; 深度神经网络; 受限玻尔兹曼机; 词向量表示;
D O I
10.13229/j.cnki.jdxbgxb201502038
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为解决中文标准文献的自然语言处理问题,对Hierarchical Log-Bilinear英文统计语言模型算法进行了改进,构建了适用于中文语言的模型。采用深度神经网络技术,将无监督学习与有监督学习相结合,利用多层受限玻尔兹曼机训练文本词向量,并将训练好的词向量输入到前馈神经网络进行有监督训练,完成对中文标准文献内容的机器学习。对100多万条标准题录数据进行训练的实验结果表明,该方法能有效提高语言模型的学习能力。
引用
收藏
页码:596 / 599
页数:4
相关论文
共 3 条
[1]  
Integrating unsupervised and supervised word segmentation: The role of goodness measures[J] . Hai Zhao,Chunyu Kit.Information Sciences . 2010 (1)
[2]   The Nested Chinese Restaurant Process and Bayesian Nonparametric Inference of Topic Hierarchies [J].
Blei, David M. ;
Griffiths, Thomas L. ;
Jordan, Michael I. .
JOURNAL OF THE ACM, 2010, 57 (02)
[3]  
Chinese Word Segmentation as Character Tagging .2 Nianwen Xue. Computational Linguistics and Chinese Language Processing . 2003