面向信息分析的专利术语抽取研究

被引:14
作者
屈鹏
王惠临
机构
[1] 中国科学技术信息研究所
基金
中国博士后科学基金;
关键词
术语抽取; 文本挖掘; 专利; 信息分析;
D O I
暂无
中图分类号
G353.1 [情报资料的分析和研究];
学科分类号
1205 ;
摘要
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。
引用
收藏
页码:130 / 135
页数:6
相关论文
共 4 条
[1]   专利技术术语共现的战略图分析方法 [J].
韩红旗 ;
安小米 ;
朱东华 ;
汪雪锋 .
计算机应用研究, 2011, 28 (02) :576-579
[2]   基于文本挖掘技术的产品技术成熟度预测 [J].
刘玉琴 ;
朱东华 ;
吕琳 .
计算机集成制造系统, 2008, (03) :506-510+542
[3]  
专利技术术语的抽取方法[J]. 韩红旗,朱东华,汪雪锋.情报学报. 2011 (12)
[4]  
KEA:Practical Auto-matic Keyphrase Extraction .2 Witten I H,Paynter G W,Frank E,et al. Proceedings of the 4th ACMConference on Digital Libraries (ACM DL’’99) . 1999