面向国防科技领域的技术和术语语料库构建方法

被引:23
作者
冯鸾鸾
李军辉
李培峰
朱巧明
机构
[1] 苏州大学计算机科学与技术学院
关键词
面向国防科技领域; 技术和术语; 标注规范; 语料库;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F1值达到70.40%,为进一步的技术和术语识别研究提供了基础。
引用
收藏
页码:41 / 50
页数:10
相关论文
共 31 条
  • [1] 中文电子病历命名实体和实体关系语料库构建
    杨锦锋
    关毅
    何彬
    曲春燕
    于秋滨
    刘雅欣
    赵永杰
    [J]. 软件学报, 2016, 27 (11) : 2725 - 2746
  • [2] http://nlp.stanford.edu/projects/glove .
  • [3] https://spacenews.com .
  • [4] https://en.wikipedia.org/wiki/Listofemergingtechnologies#Military .
  • [5] NCBI disease corpus: A resource for disease name recognition and concept normalization[J] . Rezarta Islamaj Do?an,Robert Leaman,Zhiyong Lu. &nbspJournal of Biomedical Informatics . 2014
  • [6] 面向军事文本的命名实体识别
    冯蕴天
    张宏军
    郝文宁
    [J]. 计算机科学, 2015, 42 (07) : 15 - 18+47
  • [7] 小粒度策略下基于CRFs的军事命名实体识别方法
    单赫源
    张海粟
    吴照林
    [J]. 装甲兵工程学院学报, 2017, 31 (01) : 84 - 89
  • [8] 中文模糊限制信息范围语料库的研究与构建
    周惠巍
    杨欢
    徐俊利
    张静
    亢世勇
    [J]. 中文信息学报, 2017, (03) : 77 - 85
  • [9] 汉语篇章微观话题结构建模与语料库构建
    奚雪峰
    褚晓敏
    孙庆英
    周国栋
    [J]. 计算机研究与发展, 2017, (08) : 1833 - 1852
  • [10] 基于词性标注的中医症候名语料库
    游正洋
    王亚强
    舒红平
    [J]. 电子技术与软件工程, 2017, (21) : 177 - 178