基于半监督隐马尔科夫模型的汉语词性标注研究

被引:25
作者
韩霞
黄德根
机构
[1] 大连理工大学计算机学院
关键词
词性标注; 词向量; 词语相似度; 迭代训练;
D O I
10.20009/j.cnki.21-1106/tp.2015.12.038
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出一种基于词语相似度计算的半监督隐马尔科夫词性标注方法.首先,利用小规模的训练语料进行半监督隐马尔科夫学习,通过反复迭代不断扩充语料,增强隐马尔科夫的标注效果;然后,通过计算词语相似度的方法,给测试语料中每个未登录词都标上候选词性;最后,在隐马尔科夫标注时,不是选取一条最佳路径,而是选取两条最佳路径,通过二次选择,以此得到标注结果.实验结果证明,该方法与传统的隐马尔科夫标注方法相比提高了约2.60%,汉语词性标注准确率达到了95.65%.
引用
收藏
页码:2813 / 2816
页数:4
相关论文
共 4 条
[1]
基于条件随机场的无监督中文词性标注 [J].
孙静 ;
李军辉 ;
周国栋 .
计算机应用与软件, 2011, 28 (04) :21-23+46
[2]
基于条件随机场(CRFs)的中文词性标注方法 [J].
洪铭材 ;
张阔 ;
唐杰 ;
李涓子 .
计算机科学, 2006, (10) :148-151+155
[3]
基于条件随机域的词性标注模型 [J].
姜维 ;
关毅 ;
王晓龙 .
计算机工程与应用 , 2006, (21) :13-16+42
[4]
最大熵结合词语聚类的中文词性标注研究 [D]. 
李泽中 .
大连理工大学,
2010