中文专利文献术语自动识别研究

被引:16
作者
杨双龙 [1 ]
吕学强 [1 ]
李卓 [1 ]
徐丽萍 [2 ]
机构
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
[2] 北京城市系统工程研究中心
基金
北京市自然科学基金;
关键词
术语自动识别; 专利文献; 信息抽取; 文本挖掘;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。
引用
收藏
页码:111 / 117+124 +124
页数:8
相关论文
共 12 条
[1]
Automatic recognition of multi-word terms: The C-value/NC-value method [J].
Frantzi K. ;
Ananiadou S. ;
Mima H. .
International Journal on Digital Libraries, 2000, 3 (2) :115-130
[2]
The anatomy of a large-scale hypertextual Web search engine.[J].Sergey Brin;Lawrence Page.Computer Networks and ISDN Systems.1998, 1
[3]
基于网络资源与用户行为信息的领域术语提取 [J].
闫兴龙 ;
刘奕群 ;
方奇 ;
张敏 ;
马少平 ;
茹立云 .
软件学报, 2013, 24 (09) :2089-2100
[4]
中文专利文献术语抽取 [J].
徐川 ;
施水才 ;
房祥 ;
吕学强 .
计算机工程与设计, 2013, 34 (06) :2175-2179
[5]
面向专利文献的汉语分词技术研究 [J].
岳金媛 ;
徐金安 ;
张玉洁 .
北京大学学报(自然科学版), 2013, 49 (01) :159-164
[6]
一种基于加权投票的术语自动识别方法 [J].
游宏梁 ;
张巍 ;
沈钧毅 ;
刘挺 .
中文信息学报, 2011, (03) :9-16
[7]
基于领域类别信息C-value的多词串自动抽取 [J].
李超 ;
王会珍 ;
朱慕华 ;
张俐 ;
朱靖波 .
中文信息学报, 2010, 24 (01) :94-98
[8]
基于混合策略的高精度长术语自动抽取 [J].
梁颖红 ;
张文静 ;
周德富 .
中文信息学报, 2009, 23 (06) :26-30
[9]
采用CRF技术的军事情报术语自动抽取研究 [J].
贾美英 ;
杨炳儒 ;
郑德权 ;
杨靖 .
计算机工程与应用, 2009, 45 (32) :126-129
[10]
基于联合权重的多文档关键词抽取技术 [J].
杨洁 ;
季铎 ;
蔡东风 ;
林晓庆 ;
白宇 .
中文信息学报, 2008, 22 (06) :75-79