多层次融合的学术文本结构功能识别研究

被引:25
作者
王佳敏 [1 ,2 ]
陆伟 [1 ,2 ]
刘家伟 [1 ,2 ]
程齐凯 [1 ,2 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学信息检索与知识挖掘研究所
关键词
深度学习; 结构功能; 多层次融合; 学术文本;
D O I
10.13266/j.issn.0252-3116.2019.13.010
中图分类号
G254 [文献标引与编目];
学科分类号
1205 ; 120501 ;
摘要
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。
引用
收藏
页码:95 / 104
页数:10
相关论文
共 15 条
[1]   学术文本的结构功能识别——在关键词自动抽取中的应用 [J].
方龙 ;
李信 ;
黄永 ;
陆伟 .
情报学报, 2017, 36 (06) :599-605
[2]  
面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋.自动化学报. 2016(10)
[3]   学术文本的结构功能识别——基于段落的识别 [J].
黄永 ;
陆伟 ;
程齐凯 ;
桂思思 .
情报学报, 2016, (05) :530-538
[4]   学术文本的结构功能识别——基于章节内容的识别 [J].
黄永 ;
陆伟 ;
程齐凯 .
情报学报, 2016, (03) :293-300
[5]   学术文本的结构功能识别——功能框架及基于章节标题的识别 [J].
陆伟 ;
黄永 ;
程齐凯 .
情报学报, 2014, (09) :979-985
[6]  
基于集成学习的自动标引方法研究[J]. 章成志.情报学报. 2010 (01)
[7]  
The coverage of Microsoft Academic: analyzing the publication output of a university[J] . Sven E. Hug,Martin P. Br?ndle.Scientometrics . 2017 (3)
[8]  
A survey on scholarly data: From big data perspective[J] . Samiya Khan,Xiufeng Liu,Kashish A. Shakil,Mansaf Alam.Information Processing and Management . 2017 (4)
[9]   Where are citations located in the body of scientific articles? A study of the distributions of citation locations [J].
Hu, Zhigang ;
Chen, Chaomei ;
Liu, Zeyuan .
JOURNAL OF INFORMETRICS, 2013, 7 (04) :887-896
[10]  
The distribution of references across texts: Some implications for citation analysis[J] . Ying Ding,Xiaozhong Liu,Chun Guo,Blaise Cronin.Journal of Informetrics . 2013 (3)