基于表示学习的中文分词算法探索

被引:34
作者
来斯惟
徐立恒
陈玉博
刘康
赵军
机构
[1] 中国科学院自动化研究所 模式识别国家重点实验室
关键词
表示学习; 中文分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。
引用
收藏
页码:8 / 14
页数:7
相关论文
共 5 条
[1]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[2]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[3]  
Integrating unsupervised and supervised word segmentation: The role of goodness measures[J] . Hai Zhao,Chunyu Kit.Information Sciences . 2010 (1)
[4]  
Chinese Word Segmentation as Character Tagging .2 Nianwen Xue. Computational Linguistics and Chinese Language Processing . 2003
[5]  
Probabilistic interpretation of feedforward classification network outputs,with relationships to statistical pattern recognition .2 Bridle J S. Neurocomputing . 1990