TValue术语抽取法

被引:4
作者
刘胜奇
朱东华
机构
[1] 北京理工大学管理与经济学院
关键词
术语抽取; 术语识别; 能源行业; 数据挖掘; 技术监测;
D O I
暂无
中图分类号
G203 [信息资源及其管理];
学科分类号
1204 ; 1402 ;
摘要
提出TValue术语抽取法。为提高召回率,将词性固定搭配规则改为首尾词性规则。为提高准确率,设计首尾词性度、词长度;用中间最短母串修正母串对子串的影响,提出独立度;改进名词计分法为停用度;用语料中文档k外的文档集代替Weirdness的对比领域,提出重要度。基于三个假设:术语库具代表性、文档可交换、文档中术语可交换,构建了TValue术语抽取法。首先,基于首尾词性规则进行词串抽取。然后,计算词串的首尾词性度、词长度、独立度、停用度、重要度,以及五属性组合值TValue。最后识别1Value高于术语可信度的词串,来选择获选术语。能源行业的中文术语抽取实验结果表明,该方法可有效的抽取低频术语、非名词术语,准确率约为84.08%,召回率约为94.49%。
引用
收藏
页码:1164 / 1173
页数:10
相关论文
共 35 条
  • [1] 领域术语自动抽取及其在文本分类中的应用
    刘桃
    刘秉权
    徐志明
    王晓龙
    [J]. 电子学报, 2007, (02) : 328 - 332
  • [2] 无词典中英文混合术语抽取及算法研究[J]. 姜韶华,党延忠.  报学报. 2006 (03)
  • [3] http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb_eng.html .
  • [4] Technical terminology: some linguistic properties and an algorithm for identification in text[J] . John S. Justeson,Slava M. Katz. &nbspNatural Language Engineering . 1995 (1)
  • [5] Automatic recognition of multi-word terms:. the C-value/NC-value method[J] . Katerina Frantzi,Sophia Ananiadou,Hideki Mima. &nbspInternational Journal on Digital Libraries . 2000 (2)
  • [6] Extraction of complex index terms in non-English IR: A shallow parsing based approach[J] . Jesús Vilares,Miguel A. Alonso,Manuel Vilares. &nbspInformation Processing and Management . 2007 (4)
  • [7] The Chinese Unknown Term Translation Mining with Supervised Candidate Term Extraction Strategy[J] . Ying-Hong Liang,Jin-xiang Li,Liang Ye,Ke Chen,Cui-zhen Guo. &nbspProcedia Engineering . 2011
  • [8] An Improved Extracting Chinese Term Method Based on C/NC-value. LIU Jianzhou,SHAO Xiongkai. 2010 International Symposium on Intelligence Information Processing and Trusted Computing . 2010
  • [9] The head-modifier principle and multilingual term extraction. Hippisley, Andrew,Cheng, David,Ahmad, Khurshid. Natural Language Engineering . 2005
  • [10] Word association norms, mutual information, and lexicography. Kenneth Ward Church,Patrick Hanks. Computational Linguistics . 1990