面向先秦典籍的历史事件基本实体构件自动识别研究

被引:42
作者
王东波 [1 ]
高瑞卿 [1 ]
沈思 [2 ]
李斌 [3 ]
机构
[1] 南京农业大学信息科学技术学院
[2] 南京理工大学经济管理学院
[3] 南京师范大学文学院
关键词
条件随机场; 数字人文; 命名实体; 先秦语料库;
D O I
10.13666/j.cnki.jnlc.2018.01.009
中图分类号
G254 [文献标引与编目];
学科分类号
050302 [传播学];
摘要
结合数字人文的数据获取、标注和分析方法,识别和挖掘先秦典籍中历史事件基本实体构件具有重要的推广和使用价值。本文将先秦时期极具代表性的《公羊传》《谷梁传》《左氏春秋》《吕氏春秋》《晏子春秋》等作为处理语料,对其中的人名、地名、时间实体等进行内部数量统计和外部特征分析,构建特征模板。在已有的465,197个词汇的基础上进行实体抽取训练与测试,选出人名、地名、时间实体识别效果的调和平均数最大(87.37%)的模型,并将其应用于《国语》语料以便检验识别效果,同时将以上过程进行可视化展现。
引用
收藏
页码:65 / 77
页数:13
相关论文
共 10 条
[1]
中文事件抽取中事件类别的自动识别.[A].赵妍妍;王啸吟;秦兵;车万翔;刘挺;.第三届学生计算语言学研讨会.2006,
[2]
数字人文研究演化路径与热点领域分析 [J].
柯平 ;
宫平 .
中国图书馆学报, 2016, 42 (06) :13-30
[3]
面向人文研究的国家数据基础设施建设 [J].
刘炜 ;
谢蓉 ;
张磊 ;
张永娟 .
中国图书馆学报, 2016, 42 (05) :29-39
[4]
微博中的开放域事件抽取 [J].
陈箫箫 ;
刘波 .
计算机应用与软件, 2016, 33 (08) :18-22+109
[5]
面向数字人文研究的大规模古籍文本可视化分析与挖掘 [J].
欧阳剑 .
中国图书馆学报, 2016, 42 (02) :66-80
[6]
基于条件随机场的网络评论与事件中命名实体匹配研究 [J].
徐元子 ;
张迎新 ;
刘登第 .
计算机应用研究, 2016, 33 (06) :1642-1647
[7]
基于先秦语料库的古汉语地名自动识别模型构建研究 [J].
黄水清 ;
王东波 ;
何琳 .
图书情报工作, 2015, 59 (12) :135-140
[8]
面向个人简历的事件抽取和检索框架 [J].
李劲 ;
张华 ;
辜希武 .
计算机科学, 2012, 39 (07) :154-160+174
[9]
基于丰富语言特征的中文社交媒体事件发掘 [D]. 
景悦诚 .
上海交通大学,
2015
[10]
刑事案件文本信息抽取研究 [D]. 
陈慧炜 .
南京师范大学,
2011