学术文本的结构功能识别——基于章节内容的识别

被引:41
作者
黄永
陆伟
程齐凯
机构
[1] 武汉大学信息管理学院信息检索与知识挖掘研究所
关键词
结构功能; 文本分类; 词汇特征;
D O I
暂无
中图分类号
G350 [情报学];
学科分类号
1205 ;
摘要
学术文本的结构功能是对学术文本结构及章节功能的阐述和概括,主要分为引言、相关研究、方法、实验、结论五种。根据研究对象的不同,结构功能识别的方法可分为基于章节标题的识别、基于章节内容的识别和基于段落的识别三个层次。然而,基于章节标题的结构功能识别法存在较多的局限性,如数据集构建困难、含未登录词的标题的识别率较低等。因此本文以章节内容为研究对象,探讨学术文本结构功能识别的第二个层次,并将基于章节内容的结构功能识别问题转化为文本分类问题,在特征选择上,除了传统的词汇特征,还引入词汇的聚类特征,并使用支持向量机作为分类器在基于自然标注的实验数据集上进行了实证研究。实验结果表明相比较于只使用词汇特征,本文所提方法的识别效果有明显提升。
引用
收藏
页码:293 / 300
页数:8
相关论文
共 4 条
[1]   学术文本的结构功能识别——功能框架及基于章节标题的识别 [J].
陆伟 ;
黄永 ;
程齐凯 .
情报学报, 2014, (09) :979-985
[2]   Chinese comments sentiment classification based on word2vec and SVMperf [J].
Zhang, Dongwen ;
Xu, Hua ;
Su, Zengcai ;
Xu, Yunfeng .
EXPERT SYSTEMS WITH APPLICATIONS, 2015, 42 (04) :1857-1863
[3]  
Continuous space language models[J] . Holger Schwenk.Computer Speech & Language . 2006 (3)
[4]  
An extensive empirical study of feature selection metrics for text classification .2 George Forman. Journal of Machine Learning Research . 2003