学术探索
学术期刊
文章热点
数据分析
智能智评
立即登录
面向多领域先秦典籍的分词词性一体化自动标注模型构建
被引:25
作者
:
论文数:
引用数:
h-index:
机构:
张琪
[
1
]
论文数:
引用数:
h-index:
机构:
江川
[
2
]
论文数:
引用数:
h-index:
机构:
纪有书
[
2
]
冯敏萱
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
南京大学信息管理学院
冯敏萱
[
3
]
李斌
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
南京大学信息管理学院
李斌
[
3
]
许超
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
南京大学信息管理学院
许超
[
3
]
刘浏
论文数:
0
引用数:
0
h-index:
0
机构:
南京农业大学信息管理学院
南京大学信息管理学院
刘浏
[
2
]
机构
:
[1]
南京大学信息管理学院
[2]
南京农业大学信息管理学院
[3]
南京师范大学文学院
来源
:
数据分析与知识发现
|
2021年
/ 5卷
/ 03期
关键词
:
数字人文;
先秦典籍;
古籍智能处理技术;
分词;
词性标注;
深度学习;
D O I
:
暂无
中图分类号
:
G255.1 [善本、线装古籍];
TP391.1 [文字信息处理];
学科分类号
:
050104 ;
060202 ;
摘要
:
【目的】探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。【方法】采用涵盖"经史子集"的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析。【结果】在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%。在《史记》上的应用进一步证明了模型的稳定性和实用性。【局限】通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决。【结论】将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍。
引用
收藏
页码:2 / 11
页数:10
相关论文
共 12 条
[1]
不同词性标记集在典籍实体抽取上的差异性探究
袁悦
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
袁悦
王东波
论文数:
0
引用数:
0
h-index:
0
机构:
不详
南京农业大学信息科学技术学院
不详
王东波
黄水清
论文数:
0
引用数:
0
h-index:
0
机构:
不详
南京农业大学信息科学技术学院
不详
黄水清
李斌
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
李斌
[J].
数据分析与知识发现 ,
2019,
(03)
: 57
-
65
[2]
古文信息处理研究的现状及趋势
论文数:
引用数:
h-index:
机构:
黄水清
论文数:
引用数:
h-index:
机构:
王东波
[J].
图书情报工作,
2017,
61
(12)
: 43
-
49
[3]
基于多特征知识的先秦典籍词性自动标注研究
论文数:
引用数:
h-index:
机构:
王东波
论文数:
引用数:
h-index:
机构:
黄水清
论文数:
引用数:
h-index:
机构:
何琳
[J].
图书情报工作,
2017,
(12)
: 64
-
70
[4]
面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[5]
上古汉语分词及词性标注语料库的构建——以《淮南子》为范例
留金腾
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文翻译及语言学系
香港理工大学香港专上学院
香港城市大学中文翻译及语言学系
留金腾
宋彦
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文翻译及语言学系
香港城市大学中文翻译及语言学系
宋彦
夏飞
论文数:
0
引用数:
0
h-index:
0
机构:
华盛顿大学语言学系
香港城市大学中文翻译及语言学系
夏飞
[J].
中文信息学报,
2013,
27
(06)
: 6
-
15+81
[6]
语料库标记与标注:以中国英语语料库为例
论文数:
引用数:
h-index:
机构:
李文中
[J].
外语教学与研究,
2012,
44
(03)
: 336
-
345+478
[7]
基于CRF的先秦汉语分词标注一体化研究
论文数:
引用数:
h-index:
机构:
石民
论文数:
引用数:
h-index:
机构:
李斌
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
陈小荷
[J].
中文信息学报,
2010,
24
(02)
: 39
-
45
[8]
《史记》人物大辞典[M]. 商务印书馆 , 段国超, 2017
[9]
先秦文献信息处理[M]. 世界图书出版公司北京公司 , 陈小荷, 2012
[10]
Bidirectional LSTM-CRF Models for Sequence Tagging.[J] . Zhiheng Huang,Wei Xu,Kai Yu 0001. CoRR . 2015
←
1
2
→
共 12 条
[1]
不同词性标记集在典籍实体抽取上的差异性探究
袁悦
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
袁悦
王东波
论文数:
0
引用数:
0
h-index:
0
机构:
不详
南京农业大学信息科学技术学院
不详
王东波
黄水清
论文数:
0
引用数:
0
h-index:
0
机构:
不详
南京农业大学信息科学技术学院
不详
黄水清
李斌
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
李斌
[J].
数据分析与知识发现 ,
2019,
(03)
: 57
-
65
[2]
古文信息处理研究的现状及趋势
论文数:
引用数:
h-index:
机构:
黄水清
论文数:
引用数:
h-index:
机构:
王东波
[J].
图书情报工作,
2017,
61
(12)
: 43
-
49
[3]
基于多特征知识的先秦典籍词性自动标注研究
论文数:
引用数:
h-index:
机构:
王东波
论文数:
引用数:
h-index:
机构:
黄水清
论文数:
引用数:
h-index:
机构:
何琳
[J].
图书情报工作,
2017,
(12)
: 64
-
70
[4]
面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[5]
上古汉语分词及词性标注语料库的构建——以《淮南子》为范例
留金腾
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文翻译及语言学系
香港理工大学香港专上学院
香港城市大学中文翻译及语言学系
留金腾
宋彦
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文翻译及语言学系
香港城市大学中文翻译及语言学系
宋彦
夏飞
论文数:
0
引用数:
0
h-index:
0
机构:
华盛顿大学语言学系
香港城市大学中文翻译及语言学系
夏飞
[J].
中文信息学报,
2013,
27
(06)
: 6
-
15+81
[6]
语料库标记与标注:以中国英语语料库为例
论文数:
引用数:
h-index:
机构:
李文中
[J].
外语教学与研究,
2012,
44
(03)
: 336
-
345+478
[7]
基于CRF的先秦汉语分词标注一体化研究
论文数:
引用数:
h-index:
机构:
石民
论文数:
引用数:
h-index:
机构:
李斌
陈小荷
论文数:
0
引用数:
0
h-index:
0
机构:
南京师范大学文学院
陈小荷
[J].
中文信息学报,
2010,
24
(02)
: 39
-
45
[8]
《史记》人物大辞典[M]. 商务印书馆 , 段国超, 2017
[9]
先秦文献信息处理[M]. 世界图书出版公司北京公司 , 陈小荷, 2012
[10]
Bidirectional LSTM-CRF Models for Sequence Tagging.[J] . Zhiheng Huang,Wei Xu,Kai Yu 0001. CoRR . 2015
←
1
2
→