中文专利文献术语抽取

被引:18
作者
徐川 [1 ]
施水才 [1 ,2 ]
房祥 [1 ,2 ]
吕学强 [1 ,2 ]
机构
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
[2] 北京拓尔思信息技术股份有限公司
关键词
术语; 边界结合度; 串边结合度; 双字词性过滤法;
D O I
10.16208/j.issn1000-7024.2013.06.049
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基础之上,根据术语内部结构中词性的组成特点,提出了术语双字词性过滤的方法,并与结合强度的计算方法进行融合。实验结果表明,该方法对中文专利术语抽取有很好的效果,平均正确率为80.24%,平均召回率为80.61%。
引用
收藏
页码:2175 / 2179
页数:5
相关论文
共 12 条
[1]
统计与规则相结合的术语抽取 [J].
唐涛 ;
周俏丽 ;
张桂平 .
沈阳航空航天大学学报, 2011, 28 (05) :71-74
[2]
基于分隔符和上下文术语的领域现象术语抽取 [J].
刘里 ;
刘小明 .
华南理工大学学报(自然科学版), 2011, 39 (07) :146-149+155
[3]
基于领域中文文本的术语抽取方法研究 [J].
谷俊 ;
王昊 .
现代图书情报技术, 2011, (04) :29-34
[4]
面向术语抽取的双阈值互信息过滤方法 [J].
陈士超 ;
郁滨 .
计算机应用, 2011, 31 (04) :1070-1073
[5]
政务领域本体术语的自动抽取 [J].
翟笃风 ;
刘柏嵩 .
现代图书情报技术, 2010, (04) :59-65
[6]
C值和互信息相结合的术语抽取 [J].
梁颖红 ;
张文静 ;
张有承 .
计算机应用与软件, 2010, 27 (04) :108-110
[7]
采用CRF技术的军事情报术语自动抽取研究 [J].
贾美英 ;
杨炳儒 ;
郑德权 ;
杨靖 .
计算机工程与应用, 2009, 45 (32) :126-129
[8]
中文领域本体学习中术语的自动抽取 [J].
温春 ;
王晓斌 ;
石昭祥 .
计算机应用研究, 2009, 26 (07) :2652-2655
[9]
基于隐马尔科夫模型的中文术语识别研究 [J].
岑咏华 ;
韩哲 ;
季培培 .
现代图书情报技术, 2008, (12) :54-58
[10]
基于正则表达式的大规模网页术语对抽取研究 [J].
程岚岚 .
情报杂志, 2008, (11) :62-64+68