学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于半监督隐马尔科夫模型的汉语词性标注研究
被引:25
作者
:
论文数:
引用数:
h-index:
机构:
韩霞
论文数:
引用数:
h-index:
机构:
黄德根
机构
:
[1]
大连理工大学计算机学院
来源
:
小型微型计算机系统
|
2015年
/ 36卷
/ 12期
关键词
:
词性标注;
词向量;
词语相似度;
迭代训练;
D O I
:
10.20009/j.cnki.21-1106/tp.2015.12.038
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
提出一种基于词语相似度计算的半监督隐马尔科夫词性标注方法.首先,利用小规模的训练语料进行半监督隐马尔科夫学习,通过反复迭代不断扩充语料,增强隐马尔科夫的标注效果;然后,通过计算词语相似度的方法,给测试语料中每个未登录词都标上候选词性;最后,在隐马尔科夫标注时,不是选取一条最佳路径,而是选取两条最佳路径,通过二次选择,以此得到标注结果.实验结果证明,该方法与传统的隐马尔科夫标注方法相比提高了约2.60%,汉语词性标注准确率达到了95.65%.
引用
收藏
页码:2813 / 2816
页数:4
相关论文
共 4 条
[1]
基于条件随机场的无监督中文词性标注
[J].
论文数:
引用数:
h-index:
机构:
孙静
;
论文数:
引用数:
h-index:
机构:
李军辉
;
论文数:
引用数:
h-index:
机构:
周国栋
.
计算机应用与软件,
2011,
28
(04)
:21
-23+46
[2]
基于条件随机场(CRFs)的中文词性标注方法
[J].
洪铭材
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系知识工程组
洪铭材
;
张阔
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系知识工程组
张阔
;
论文数:
引用数:
h-index:
机构:
唐杰
;
论文数:
引用数:
h-index:
机构:
李涓子
.
计算机科学,
2006,
(10)
:148
-151+155
[3]
基于条件随机域的词性标注模型
[J].
论文数:
引用数:
h-index:
机构:
姜维
;
论文数:
引用数:
h-index:
机构:
关毅
;
论文数:
引用数:
h-index:
机构:
王晓龙
.
计算机工程与应用 ,
2006,
(21)
:13
-16+42
[4]
最大熵结合词语聚类的中文词性标注研究
[D].
论文数:
引用数:
h-index:
机构:
李泽中
.
大连理工大学,
2010
←
1
→
共 4 条
[1]
基于条件随机场的无监督中文词性标注
[J].
论文数:
引用数:
h-index:
机构:
孙静
;
论文数:
引用数:
h-index:
机构:
李军辉
;
论文数:
引用数:
h-index:
机构:
周国栋
.
计算机应用与软件,
2011,
28
(04)
:21
-23+46
[2]
基于条件随机场(CRFs)的中文词性标注方法
[J].
洪铭材
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系知识工程组
洪铭材
;
张阔
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系知识工程组
张阔
;
论文数:
引用数:
h-index:
机构:
唐杰
;
论文数:
引用数:
h-index:
机构:
李涓子
.
计算机科学,
2006,
(10)
:148
-151+155
[3]
基于条件随机域的词性标注模型
[J].
论文数:
引用数:
h-index:
机构:
姜维
;
论文数:
引用数:
h-index:
机构:
关毅
;
论文数:
引用数:
h-index:
机构:
王晓龙
.
计算机工程与应用 ,
2006,
(21)
:13
-16+42
[4]
最大熵结合词语聚类的中文词性标注研究
[D].
论文数:
引用数:
h-index:
机构:
李泽中
.
大连理工大学,
2010
←
1
→