基于多特征知识的先秦典籍词性自动标注研究

被引：21

作者：

王东波 ^{[1
,2
]}

黄水清 ^{[1
,2
]}

何琳 ^{[1
,2
]}

机构：

[1] 南京农业大学信息科学技术学院

[2] 南京农业大学领域知识关联研究中心

来源：

图书情报工作 | 2017年 / 12期

关键词：

词性标注; 先秦古籍; 条件随机场模型; 特征模板; 古文信息处理;

D O I：

10.13266/j.issn.0252-3116.2017.12.008

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。

引用

页码：64 / 70

页数：7

共 18 条

[1] 一种基于规则的无监督词性标注方法
彭涛
戴耀康
朱枫彤
张邦佐
刘露
闫昭
钱锋
[J]. 吉林大学学报(理学版), 2015, 53 (05) : 956 - 962
[2] 以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨
黄水清
王东波
何琳
[J]. 图书情报工作, 2015, (11) : 127 - 133
[3] 最大熵和HMM在中文词性标注中的应用
余昕聪
李红莲
吕学强
[J]. 无线互联科技, 2014, (11) : 122 - 124
[4] 条件随机场图模型在《明史》词性标注研究中的应用效果探索
朱晓
金力
[J]. 复旦学报(自然科学版), 2014, 53 (03) : 297 - 304
[5] 上古汉语分词及词性标注语料库的构建——以《淮南子》为范例
留金腾
宋彦
夏飞
[J]. 中文信息学报, 2013, (06) : 6 - 15+81
[6] 先秦汉语排比句自动识别研究——以《孟子》《论语》中的排比句自动识别为例
梁社会
陈小荷
刘浏
[J]. 计算机工程与应用, 2013, 49 (19) : 222 - 226
[7] 先秦古汉语典籍中的人名自动识别研究
汤亚芬
[J]. 现代图书情报技术, 2013, (Z1) : 63 - 68
[8] 《论语》与其注疏文献对齐语料库的构建
马创新
陈小荷
曲维光
陆鹏飞
[J]. 现代教育技术, 2012, (07) : 109 - 113
[9] 一种利用注疏的《左传》分词新方法
徐润华
陈小荷
[J]. 中文信息学报, 2012, 26 (02) : 13 - 17+45
[10] 古籍版本异文的自动发现
肖磊
陈小荷
[J]. 中文信息学报, 2010, 24 (05) : 50 - 55

← 1 2 →