基于自动编码器的中文词汇特征无监督学习

被引:20
作者
张开旭
周昌乐
机构
[1] 厦门大学信息科学与技术学院
基金
高等学校博士学科点专项科研基金;
关键词
无监督特征学习; 中文分词; 词性标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性标注模型的低维特征表示。在宾州中文树库5.0数据集上的实验表明,所得到的词汇特征对分词词性标注模型效果有较大帮助,在词性标注上优于主成分分析与k均值聚类结合的无监督特征学习方法。
引用
收藏
页码:1 / 7+92 +92
页数:8
相关论文
共 2 条
[1]  
http://nlp.csai.tsinghua.edu.cn/thulac .
[2]  
Automatic Adaptation of Annotation Standards: Chinese Word Segmentation and POS Tagging– A Case Study .2 Wenbin Jiang,Liang Huang. Proceedings of 47th Annual Meeting of ACL and 4th IJCNLP of AFNLP . 2009