C-value值和unithood指标结合的中文科技术语抽取

被引:11
作者
韩红旗 [1 ,2 ,3 ]
安小米 [2 ,3 ]
机构
[1] 中国科学技术信息研究所
[2] 数据工程与知识工程教育部重点实验室(中国人民大学)
[3] 中国人民大学信息资源管理学院
基金
中央高校基本科研业务费专项资金资助;
关键词
术语抽取; C-value算法; unithood; 科技术语;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。
引用
收藏
页码:85 / 89
页数:5
相关论文
empty
未找到相关数据