基于多特征知识的先秦典籍词性自动标注研究

被引:21
作者
王东波 [1 ,2 ]
黄水清 [1 ,2 ]
何琳 [1 ,2 ]
机构
[1] 南京农业大学信息科学技术学院
[2] 南京农业大学领域知识关联研究中心
关键词
词性标注; 先秦古籍; 条件随机场模型; 特征模板; 古文信息处理;
D O I
10.13266/j.issn.0252-3116.2017.12.008
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。
引用
收藏
页码:64 / 70
页数:7
相关论文
共 18 条