科技文献术语的自动抽取技术研究与分析

被引：17

作者：

曾文

徐硕

张运良

翟娟华

机构：

[1] 中国科学技术信息研究所

来源：

现代图书情报技术 | 2014年 / 01期

关键词：

科技术语; 术语特点; 统计计算; 自动抽取;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

【目的】为提高科技文献信息的组织和检索效率,从解决科技文献术语抽取这一基础研究问题入手,提出一种基于科技文献术语特点和统计计算相结合的科技文献术语自动抽取方法。【方法】核心技术是结合科技文献术语的语言特点,以及术语在文献中的词语组合强度和出现位置等统计计算信息,构建科技文献术语自动抽取算法。【结果】实验测试结果表明,获取的科技文献术语词语的平均准确率可以达到51.2%。【局限】在统计计算算法和数据处理方面,还需进一步改进算法和提高数据质量。【结论】提出的基于科技文献术语特点和统计计算相结合的科技文献术语自动抽取方法是有效的。

引用

页码：51 / 55

页数：5

共 6 条

[1] Tag-TextRank:一种基于Tag的网页关键词抽取方法
李鹏
王斌
石志伟
崔雅超
李恒训
[J]. 计算机研究与发展, 2012, 49 (11) : 2344 - 2351
[2] 高效的短文本主题词抽取方法
常鹏
马辉
[J]. 计算机工程与应用, 2011, 47 (20) : 126 - 128+154
[3] 一种用于专利主题词抽取的模板自动生成方法
王裴岩
张桂平
蔡东风
白宇
叶娜
[J]. 沈阳航空工业学院学报, 2010, 27 (03) : 46 - 49
[4] 信息领域汉英术语的特征及其在语料中的分布规律
邢红兵
[J]. 术语标准化与信息技术, 2000, (03) : 17 - 21
[5] 术语定义抽取、聚类与术语识别研究[D]. 张榕.北京语言大学. 2006
[6] Automatic recognition of multi-word terms:. the C-value/NC-value method[J] . Katerina Frantzi,Sophia Ananiadou,Hideki Mima.International Journal on Digital Libraries . 2000 (2)

← 1 →