不同词性标记集在典籍实体抽取上的差异性探究

被引:12
作者
袁悦 [1 ]
王东波 [1 ,2 ]
黄水清 [1 ,2 ]
李斌 [3 ]
机构
[1] 南京农业大学信息科学技术学院
[2] 南京农业大学领域知识关联研究中心
[3] 南京师范大学文学院
关键词
数字人文; 古文信息处理; 词性标注; 命名实体抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善,训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作。
引用
收藏
页码:57 / 65
页数:9
相关论文
共 21 条
[1]   基于多特征知识的先秦典籍词性自动标注研究 [J].
王东波 ;
黄水清 ;
何琳 .
图书情报工作, 2017, 61 (12) :64-70
[2]   基于加权TextRank的新闻关键事件主题句提取 [J].
蒲梅 ;
周枫 ;
周晶晶 ;
严馨 ;
周兰江 .
计算机工程, 2017, 43 (08) :219-224
[3]   融合统计学和TextRank的生物医学文献关键短语抽取 [J].
魏赟 ;
孙先朋 .
计算机应用与软件, 2017, 34 (06) :27-30
[4]   融合Word2vec与TextRank的关键词抽取研究 [J].
宁建飞 ;
刘降珍 .
现代图书情报技术 , 2016, (06) :20-27
[5]   TF-IDF与规则相结合的中文关键词自动抽取研究 [J].
牛萍 ;
黄德根 .
小型微型计算机系统, 2016, 37 (04) :711-715
[6]   基于图计算的论文审稿自动推荐系统 [J].
谢玮 ;
沈一 ;
马永征 .
计算机应用研究, 2016, 33 (03) :798-801
[7]   基于HMM的楚辞自动分词标注研究 [J].
钱智勇 ;
周建忠 ;
童国平 ;
苏新宁 .
图书情报工作 , 2014, (04) :105-110
[8]   上古汉语分词及词性标注语料库的构建——以《淮南子》为范例 [J].
留金腾 ;
宋彦 ;
夏飞 .
中文信息学报, 2013, 27 (06) :6-15+81
[9]   词语位置加权TextRank的关键词抽取研究 [J].
夏天 .
现代图书情报技术, 2013, (09) :30-34
[10]   Tag-TextRank:一种基于Tag的网页关键词抽取方法 [J].
李鹏 ;
王斌 ;
石志伟 ;
崔雅超 ;
李恒训 .
计算机研究与发展, 2012, 49 (11) :2344-2351