学术文本的结构功能识别——在关键词自动抽取中的应用

被引:32
作者
方龙
李信
黄永
陆伟
机构
[1] 武汉大学信息管理学院信息检索与知识挖掘实验所
关键词
结构功能; 关键词提取; 学术文本; 支持向量机; 学习排序;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
当前的关键词自动提取研究大多基于候选词的词频、文档频率等统计信息,往往忽略了侯选词所在的学术文本的内在结构,导致关键词提取的效果不佳。本文将学术文本看作是5个结构功能域的集合,提出了融合学术文本结构功能特征的多特征组合提取方法,并利用学术文本的章节标题对其结构功能进行识别,然后通过SVM二分类和LambdaMART学习排序算法分别在计算机语言学领域的文献集上进行了实现。实验结果表明,本文提出的组合特征方法相比基准特征在关键词提取的效果上取得了较大的提升,尤其在分类实验中准确率的相对提升上达到10.75%,证明了学术文本结构功能特征在关键词自动提取上的重要性。
引用
收藏
页码:599 / 605
页数:7
相关论文
共 10 条
[1]   关键词自动抽取技术综述 [J].
宋宇 ;
真溱 .
情报理论与实践 , 2016, (07) :141-144
[2]   学术文本的结构功能识别——基于段落的识别 [J].
黄永 ;
陆伟 ;
程齐凯 ;
桂思思 .
情报学报, 2016, (05) :530-538
[3]   学术文本的结构功能识别——基于章节内容的识别 [J].
黄永 ;
陆伟 ;
程齐凯 .
情报学报, 2016, (03) :293-300
[4]   学术文本的结构功能识别——功能框架及基于章节标题的识别 [J].
陆伟 ;
黄永 ;
程齐凯 .
情报学报, 2014, (09) :979-985
[5]   Selectivity-Based Keyword Extraction Method [J].
Beliga, Slobodan ;
Mestrovic, Ana ;
Martincic-Ipsic, Sanda .
INTERNATIONAL JOURNAL ON SEMANTIC WEB AND INFORMATION SYSTEMS, 2016, 12 (03) :1-26
[6]  
PostHat and All That: Automating Abstract Interpretation[J] . A. Thakur,A. Lal,J. Lim,T. Reps.Electronic Notes in Theoretical Computer Science . 2015
[7]  
LIBSVM[J] . Chih-Chung Chang,Chih-Jen Lin.ACM Transactions on Intelligent Systems and Technology (TIST) . 2011 (3)
[8]   Using lexical chains for keyword extraction [J].
Ercan, Gonenc ;
Cicekli, Ilyas .
INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) :1705-1714
[9]   Learning algorithms for keyphrase extraction [J].
Turney P.D. .
Information Retrieval, 2000, 2 (4) :303-336
[10]  
VDM Verlag .2 Hulth A. VDM Verlag . 2008