中文专利文献术语自动识别研究

被引：16

作者：

杨双龙 ^{[1
]}

吕学强 ^{[1
]}

李卓 ^{[1
]}

徐丽萍 ^{[2
]}

机构：

[1] 北京信息科技大学网络文化与数字传播北京市重点实验室

[2] 北京城市系统工程研究中心

来源：

中文信息学报 | 2016年 / 30卷 / 03期

基金：

北京市自然科学基金;

关键词：

术语自动识别; 专利文献; 信息抽取; 文本挖掘;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。

引用

页码：111 / 117+124 +124

页数：8

共 12 条

[1]

Automatic recognition of multi-word terms: The C-value/NC-value method [J].