学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于HMM的楚辞自动分词标注研究
被引:31
作者
:
论文数:
引用数:
h-index:
机构:
钱智勇
[
1
,
2
]
周建忠
论文数:
0
引用数:
0
h-index:
0
机构:
南通大学楚辞研究中心
南通大学楚辞研究中心
周建忠
[
1
]
论文数:
引用数:
h-index:
机构:
童国平
[
3
]
苏新宁
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学信息管理学院
南通大学楚辞研究中心
苏新宁
[
3
]
机构
:
[1]
南通大学楚辞研究中心
[2]
南通大学图书馆
[3]
南京大学信息管理学院
来源
:
图书情报工作
|
2014年
/ 04期
关键词
:
隐马尔科夫模型;
楚辞;
自动分词;
词性标注;
古文分词;
D O I
:
10.13266/j.issn.0252-3116.2014.04.017
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。
引用
收藏
页码:105 / 110
页数:6
相关论文
共 8 条
[1]
一种利用注疏的《左传》分词新方法
[J].
论文数:
引用数:
h-index:
机构:
徐润华
;
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学语言信息科技研究中心
陈小荷
.
中文信息学报,
2012,
(02)
:13
-17+45
[2]
基于CRF的先秦汉语分词标注一体化研究
[J].
论文数:
引用数:
h-index:
机构:
石民
;
论文数:
引用数:
h-index:
机构:
李斌
;
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
陈小荷
.
中文信息学报,
2010,
(02)
:39
-45
[3]
二元语法中文分词数据平滑算法性能研究
[J].
论文数:
引用数:
h-index:
机构:
刘丹
;
论文数:
引用数:
h-index:
机构:
方卫国
;
论文数:
引用数:
h-index:
机构:
周泓
.
计算机工程与应用 ,
2009,
(17)
:33
-36
[4]
基于中文信息处理的古代汉语分词研究
[J].
论文数:
引用数:
h-index:
机构:
邱冰
;
论文数:
引用数:
h-index:
机构:
皇甫娟
.
微计算机信息,
2008,
(24)
:100
-102
[5]
汉语自动分词研究进展
[J].
文庭孝
论文数:
0
引用数:
0
h-index:
0
机构:
湘潭大学管理学院湖南湘潭
文庭孝
.
图书与情报,
2005,
(05)
:56
-65
[6]
N-gram语言模型的数据平滑技术
[J].
论文数:
引用数:
h-index:
机构:
徐志明
;
王晓龙
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!
王晓龙
;
论文数:
引用数:
h-index:
机构:
关毅
.
计算机应用研究,
1999,
(07)
:37
-39+44
[7]
书面汉语的自动分词与一个自动分词系统—CDWS
[J].
梁南元
论文数:
0
引用数:
0
h-index:
0
梁南元
.
北京航空学院学报,
1984,
(04)
:97
-104
[8]
楚辞[M]. 凤凰出版社 , 周建忠, 2009
←
1
→
共 8 条
[1]
一种利用注疏的《左传》分词新方法
[J].
论文数:
引用数:
h-index:
机构:
徐润华
;
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学语言信息科技研究中心
陈小荷
.
中文信息学报,
2012,
(02)
:13
-17+45
[2]
基于CRF的先秦汉语分词标注一体化研究
[J].
论文数:
引用数:
h-index:
机构:
石民
;
论文数:
引用数:
h-index:
机构:
李斌
;
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
陈小荷
.
中文信息学报,
2010,
(02)
:39
-45
[3]
二元语法中文分词数据平滑算法性能研究
[J].
论文数:
引用数:
h-index:
机构:
刘丹
;
论文数:
引用数:
h-index:
机构:
方卫国
;
论文数:
引用数:
h-index:
机构:
周泓
.
计算机工程与应用 ,
2009,
(17)
:33
-36
[4]
基于中文信息处理的古代汉语分词研究
[J].
论文数:
引用数:
h-index:
机构:
邱冰
;
论文数:
引用数:
h-index:
机构:
皇甫娟
.
微计算机信息,
2008,
(24)
:100
-102
[5]
汉语自动分词研究进展
[J].
文庭孝
论文数:
0
引用数:
0
h-index:
0
机构:
湘潭大学管理学院湖南湘潭
文庭孝
.
图书与情报,
2005,
(05)
:56
-65
[6]
N-gram语言模型的数据平滑技术
[J].
论文数:
引用数:
h-index:
机构:
徐志明
;
王晓龙
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机系!
王晓龙
;
论文数:
引用数:
h-index:
机构:
关毅
.
计算机应用研究,
1999,
(07)
:37
-39+44
[7]
书面汉语的自动分词与一个自动分词系统—CDWS
[J].
梁南元
论文数:
0
引用数:
0
h-index:
0
梁南元
.
北京航空学院学报,
1984,
(04)
:97
-104
[8]
楚辞[M]. 凤凰出版社 , 周建忠, 2009
←
1
→