多特征下的科研论文段落自动划分与构成要素识别研究

被引:2
作者
刘伙玉 [1 ,2 ]
王东波 [3 ,2 ]
苏新宁 [1 ,2 ]
机构
[1] 南京大学信息管理学院
[2] 江苏省数据工程与知识服务重点实验室
[3] 南京农业大学信息科学技术学院
关键词
条件随机场; CRFs; 段落划分; 要素识别; 特征模板;
D O I
暂无
中图分类号
G254 [文献标引与编目];
学科分类号
050302 [传播学];
摘要
本文为科研论文的结构化处理提供了一种有价值的方法。本文采用条件随机场模型,综合原始语料中科研论文的局部与整体特征,使用复杂特征模板对段落进行自动划分以及对构成要素进行自动识别。在开放测试中,F值最高分别达88%和92%。同时本文对CRFs和ME在段落自动划分与构成要素识别实验中进行了比较分析,认为CRFs在付出更大的时间复杂度的代价下,其处理效果明显优于ME。
引用
收藏
页码:388 / 397
页数:10
相关论文
共 11 条
[1]
Improved conditional random fields model with multi-trigger embedding for Chinese event extraction.[J].Ruifang He;Yang Zhang;Tuo Li;Qinghua Hu.World Wide Web.2014, 5
[2]
Information extraction from research papers using conditional random fields.[J].Fuchun Peng;Andrew McCallum.Information Processing and Management.2005, 4
[3]
CRF与规则相结合的医学病历实体识别 [J].
栗伟 ;
赵大哲 ;
李博 ;
彭新茗 ;
刘积仁 .
计算机应用研究, 2015, 32 (04) :1082-1086
[4]
条件随机场图模型在《明史》词性标注研究中的应用效果探索 [J].
朱晓 ;
金力 .
复旦学报(自然科学版), 2014, 53 (03) :297-304
[5]
基于分块重要度和二维条件随机场的Web信息抽取 [J].
吴秦 ;
胡丽娟 ;
梁久祯 .
南京大学学报(自然科学), 2014, 50 (01) :79-85
[6]
基于条件随机场的藏语自动分词方法研究与实现 [J].
李亚超 ;
加羊吉 ;
宗成庆 ;
于洪志 .
中文信息学报, 2013, 27 (04) :52-58
[7]
基于论坛话题段落划分的答案识别 [J].
王宝勋 ;
刘秉权 ;
孙承杰 ;
王晓龙 ;
孙林 .
自动化学报, 2013, 39 (01) :11-20
[8]
一种基于语义特征的逻辑段落划分方法及应用 [J].
朱振方 ;
刘培玉 ;
王金龙 .
计算机科学, 2009, 36 (12) :227-230+256
[9]
基于半CRF模型的百科全书文本段落划分 [J].
许勇 ;
宋柔 .
北京工业大学学报, 2008, (02) :204-210
[10]
基于CRF的百科全书文本段落划分 [J].
许勇 ;
宋柔 .
计算机工程, 2007, (10) :16-18