基于条件随机场的学术期刊中理论的自动识别方法

被引:21
作者
陈锋
翟羽佳
王芳
机构
[1] 南开大学商学院网络社会治理研究中心
[2] 南开大学商学院信息资源管理系
关键词
理论识别; 命名实体识别; 引文分析; 语义泛化;
D O I
10.13266/j.issn.0252-3116.2016.02.019
中图分类号
G254 [文献标引与编目];
学科分类号
摘要
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1 822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。
引用
收藏
页码:122 / 128
页数:7
相关论文
共 11 条
[1]  
开放域命名实体识别及其层次化类别获取.[D].付瑞吉.哈尔滨工业大学.2014, 01
[2]   基于CRF和规则相结合的地理命名实体识别方法 [J].
何炎祥 ;
罗楚威 ;
胡彬尧 .
计算机应用与软件, 2015, 32 (01) :179-185+202
[3]   面向引用关系的引文内容标注框架研究 [J].
陆伟 ;
孟睿 ;
刘兴帮 .
中国图书馆学报, 2014, 40 (06) :93-104
[4]   命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[5]   《知网》在命名实体识别中的应用研究 [J].
郑逢强 ;
林磊 ;
刘秉权 ;
孙承杰 .
中文信息学报, 2008, (05) :97-101
[6]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报 , 2006, (02) :87-94
[7]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[8]   Two-phase biomedical named entity recognition using CRFs [J].
Li, Lishuang ;
Zhou, Rongpeng ;
Huang, Degen .
COMPUTATIONAL BIOLOGY AND CHEMISTRY, 2009, 33 (04) :334-338
[9]  
The use of theory in information science research.[J].Karen E.Pettigrew;Lynne (E.F.)McKechnie.J. Am. Soc. Inf. Sci..2000, 1
[10]  
普通语言学教程.[M].(瑞士) 索绪尔; 著.商务印书馆.2011,