DRTE:面向基础教育的术语抽取方法

被引:10
作者
李思良
许斌
杨玉基
机构
[1] 清华大学计算机科学与技术系
关键词
术语抽取; 术语定义; 术语关系;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
术语抽取从非结构化文本中自动抽取专业术语。该工作在中文分词、信息抽取、知识库构建中发挥着重要的作用。当前术语抽取方法很大程度上依赖于词的统计信息,由于基础教育学科中术语具有极强的长尾特性,导致基于统计的术语抽取方法很难抽取出处于尾端的术语。该文结合基础教育的学科特点,提出了DRTE:一种利用术语定义与术语关系挖掘,综合构词规则与边界检测的术语抽取方法。该文以初高中的数学课本为数据源进行术语抽取,实验结果表明我们的术语抽取方法 F1值达到82.7%,相比目前的方法提高了40.8%,能够有效地在中文基础教育领域进行自动化的术语抽取。
引用
收藏
页码:101 / 109
页数:9
相关论文
共 18 条
  • [1] Exploration of a rich feature set for automatic term extraction. CONRADO M S,PARDO T A S,REZENDE S O. Advances in Artificial Intelligence and Its Applications . 2013
  • [2] https://github.com/NLPchina/ansj_seg .
  • [3] Methods of automatic term recognition. Kageura K,Umino B. Proceedings of the National Center for Science Information Systems . 1996
  • [4] Yet another ranking function for automatic multiword term extraction. Lossio-Ventura J A,Jonquet C,Roche M,et al. Lecture Notes in Computer Science . 2014
  • [5] Multiple evidence for term extraction in broad domains. Dobrov B V,Loukachevitch N V. Proceedings of RANLP 2011 . 2011
  • [6] Term recognition and classification in biological science journal articles. Gaizauskas R,Demetriou G,Humphreys K. Proceddings of the Computional Terminology for Medical&Biological Applications Workshop of the 2 Nd International Conference on Nlp . 2000
  • [7] Improving term extraction with linguistic analysis in the biomedical domain. Golik W,Bossy R,Ratkovic Z,et al. Reseach in Computing Science . 2013
  • [8] Term recognition using conditional random fields. Zhang X,Song Y,Fang A C. Proceedings of the 2010International Conference on.Natural Language Processing and Knowledge Engineering (NLPKE) . 2010
  • [9] 哈萨克语IT领域术语识别研究与实现
    木合亚提尼亚孜别克
    古力沙吾利塔里甫
    [J]. 中文信息学报, 2016, (03) : 68 - 73
  • [10] 中医针灸领域术语自动抽取研究
    孙水华
    黄德根
    牛萍
    [J]. 中文信息学报, 2016, 30 (03) : 118 - 124