基于半监督隐马尔科夫模型的汉语词性标注研究

被引：25

作者：

韩霞

黄德根

机构：

[1] 大连理工大学计算机学院

来源：

小型微型计算机系统 | 2015年 / 36卷 / 12期

关键词：

词性标注; 词向量; 词语相似度; 迭代训练;

D O I：

10.20009/j.cnki.21-1106/tp.2015.12.038

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

提出一种基于词语相似度计算的半监督隐马尔科夫词性标注方法.首先,利用小规模的训练语料进行半监督隐马尔科夫学习,通过反复迭代不断扩充语料,增强隐马尔科夫的标注效果;然后,通过计算词语相似度的方法,给测试语料中每个未登录词都标上候选词性;最后,在隐马尔科夫标注时,不是选取一条最佳路径,而是选取两条最佳路径,通过二次选择,以此得到标注结果.实验结果证明,该方法与传统的隐马尔科夫标注方法相比提高了约2.60%,汉语词性标注准确率达到了95.65%.

引用

页码：2813 / 2816

页数：4

共 4 条

[1]

基于条件随机场的无监督中文词性标注 [J].