文献被引片段特征分析与识别研究

被引:6
作者
徐健 [1 ]
李纲 [1 ]
毛进 [1 ]
叶光辉 [2 ]
机构
[1] 武汉大学信息资源研究中心
[2] 华中师范大学信息管理学院
关键词
被引片段; 识别方法; 引文上下文; 引用对象;
D O I
暂无
中图分类号
G353.1 [情报资料的分析和研究];
学科分类号
1205 ;
摘要
【目的】对科技文献领域的被引片段概念的特征进行分析,并比较不同识别方法效果的差异。【方法】以CL-Sci Summ 2016比赛被引片段标注数据为例,探索被引片段长度、位置与重要性特征,并分析与其对应引文上下文在长度和位置上的相关性。之后以基于词袋模型、主题模型、Word Net语义词典的相似性算法为例,比较这些方法在被引片段识别中的效果差异。【结果】研究结果发现:被标注的被引片段有96%少于三句,且更多地出现在文章前部和章节内的前部分,被引片段的Text Rank权重均值显著高于其他片段;被引片段与引文上下文在长度上显著相关,但在出现位置上相关性不明显;无论从MMR?还是句子与词汇层面的匹配度来看,基于词袋模型的识别方法效果均优于基于语义词典的方法,而后者明显优于基于主题模型的方法。【局限】对于被引片段概念与特性的分析只停留在理论层面,对其特征的分析与有关识别方法的比较也只是在CL-Sci Summ 2016被引片段标注数据上进行的。【结论】科技文献的用词比较规范严谨,所以词汇特征在被引片段的识别过程中起到关键的作用。
引用
收藏
页码:37 / 45
页数:9
相关论文
共 8 条
[1]   面向引用关系的引文内容标注框架研究 [J].
陆伟 ;
孟睿 ;
刘兴帮 .
中国图书馆学报, 2014, 40 (06) :93-104
[2]   基于引文内容分析的高被引论文主题识别研究 [J].
祝清松 ;
冷伏海 .
中国图书馆学报, 2014, 40 (01) :39-49
[3]   Improving MeSH classification of biomedical articles using citation contexts [J].
Aljaber, Bader ;
Martinez, David ;
Stokes, Nicola ;
Bailey, James .
JOURNAL OF BIOMEDICAL INFORMATICS, 2011, 44 (05) :881-896
[4]   Document clustering of scientific texts using citation contexts [J].
Aljaber, Bader ;
Stokes, Nicola ;
Bailey, James ;
Pei, Jian .
INFORMATION RETRIEVAL, 2010, 13 (02) :101-131
[5]  
Overview of the CL-Sci Summ 2016 Shared Task .2 Jaidka K,Chandrasekaren M K,Rustagi S,et al. Proceedings of the2016 Joint Workshop on Bibliometric-enhanced Information Retrieval and NLP for Digital Libraries . 2016
[6]  
Lexical and Syntactic Cues to Identify Reference Scope of Citance .2 Aggarwal P,Sharma R. Proceedings of the2016 Joint Workshop on Bibliometric-enhanced Information Retrieval and NLP for Digital Libraries . 2016
[7]  
Towards multi-paper summarization using reference information .2 NANBA H,OKUMURA M. International Joint Conference on . 1999
[8]  
Citation Summarization through Keyphrase Extraction .2 V Qazvinian,D.R. Radev,A. Ozgur. Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010) . 2010