基于word2vec的大中华区词对齐库的构建

被引:6
作者
王明文
徐雄飞
徐凡
李茂西
机构
[1] 江西师范大学计算机信息工程学院
关键词
大中华区; 词对齐; 最长公共子序列; word2vec;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。
引用
收藏
页码:76 / 83
页数:8
相关论文
共 24 条
[1]  
http://www.taiwan.cn/ .
[2]  
A Discriminative Matching Approach to Word Alignment. B.Taskar,S.Lascoste-Julien,D.Klein. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing . 2005
[3]  
Longest common subsequences of two random sequences. Chvátal,V.,Sankoff,D. Journal of Applied Probability . 1975
[4]  
Discriminative Word Alignment with Conditional Ran-dom Fields. P. Blunsom,T. Cohn. proceedings of the Annual Meeting of the Association for Com-putational Linguistics (ACL) . 2006
[5]  
http://word2vec.googlecode.com/svn/trunk/ .
[6]  
Word Alignment Modeling with Context Dependent Deep Neural Network. Yang N,Liu S,Li M,et al. Annual Meeting of the Association of Computational Linguistics . 2013
[7]  
Recurrent neural networks for word alignment model. Tamura A,Watanabe T,Sumita E. Proceedings of EMNLP . 2014
[8]  
Tailoring word alignments to syntactic machine translation. DeNero J,Klein D. ANNUAL MEETING-ASSOCIATION FOR COMPUTATIONAL LINGUISTICS . 2007
[9]  
A Constrained Viterbi Relaxation for Bidirectional Word Alignment. Chang Y W,Rush A,DeNero J,et al. Annual Meeting of the Association for Computational Linguistics . 2014
[10]  
Hidden Markov Tree Model for Word Alignment. Kondo S,Duh K,Matsumoto Y. Proceedings of the 8th Workshop on Statistical Machine Translation . 2013