基于HMM的楚辞自动分词标注研究

被引：31

作者：

钱智勇 ^{[1
,2
]}

周建忠 ^{[1
]}

童国平 ^{[3
]}

苏新宁 ^{[3
]}

机构：

[1] 南通大学楚辞研究中心

[2] 南通大学图书馆

[3] 南京大学信息管理学院

来源：

图书情报工作 | 2014年 / 04期

关键词：

隐马尔科夫模型; 楚辞; 自动分词; 词性标注; 古文分词;

D O I：

10.13266/j.issn.0252-3116.2014.04.017

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。

引用

页码：105 / 110

页数：6

共 8 条

[1] 一种利用注疏的《左传》分词新方法 [J].