共 18 条
基于多特征知识的先秦典籍词性自动标注研究
被引:21
作者:
王东波
[1
,2
]
黄水清
[1
,2
]
何琳
[1
,2
]
机构:
[1] 南京农业大学信息科学技术学院
[2] 南京农业大学领域知识关联研究中心
来源:
关键词:
词性标注;
先秦古籍;
条件随机场模型;
特征模板;
古文信息处理;
D O I:
10.13266/j.issn.0252-3116.2017.12.008
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。
引用
收藏
页码:64 / 70
页数:7
相关论文