基于HMM的楚辞自动分词标注研究

被引:31
作者
钱智勇 [1 ,2 ]
周建忠 [1 ]
童国平 [3 ]
苏新宁 [3 ]
机构
[1] 南通大学楚辞研究中心
[2] 南通大学图书馆
[3] 南京大学信息管理学院
关键词
隐马尔科夫模型; 楚辞; 自动分词; 词性标注; 古文分词;
D O I
10.13266/j.issn.0252-3116.2014.04.017
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。
引用
收藏
页码:105 / 110
页数:6
相关论文
共 8 条
[1]   一种利用注疏的《左传》分词新方法 [J].
徐润华 ;
陈小荷 .
中文信息学报, 2012, (02) :13-17+45
[2]   基于CRF的先秦汉语分词标注一体化研究 [J].
石民 ;
李斌 ;
陈小荷 .
中文信息学报, 2010, (02) :39-45
[3]   二元语法中文分词数据平滑算法性能研究 [J].
刘丹 ;
方卫国 ;
周泓 .
计算机工程与应用 , 2009, (17) :33-36
[4]   基于中文信息处理的古代汉语分词研究 [J].
邱冰 ;
皇甫娟 .
微计算机信息, 2008, (24) :100-102
[5]   汉语自动分词研究进展 [J].
文庭孝 .
图书与情报, 2005, (05) :56-65
[6]   N-gram语言模型的数据平滑技术 [J].
徐志明 ;
王晓龙 ;
关毅 .
计算机应用研究, 1999, (07) :37-39+44
[7]   书面汉语的自动分词与一个自动分词系统—CDWS [J].
梁南元 .
北京航空学院学报, 1984, (04) :97-104
[8]  
楚辞[M]. 凤凰出版社 , 周建忠, 2009