挖掘专利知识实现关键词自动抽取

被引:24
作者
陈忆群 [1 ,2 ]
周如旗 [2 ]
朱蔚恒 [3 ]
李梦婷 [4 ]
印鉴 [1 ]
机构
[1] 中山大学计算机科学系
[2] 广东第二师范学院计算机科学系
[3] 暨南大学信息科学技术学院
[4] 珠海魅族科技有限公司
基金
广东省科技计划;
关键词
背景知识; 关键词抽取; 专利数据; 支持向量机; 信息检索;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
关键词是人们快速判断是否要详细阅读文件内容的重要线索,关键词自动抽取在信息检索、自然语言处理等研究领域均有重要应用.设计了一种新的关键词自动抽取方法,使计算机能够像人类专家一样,利用知识库对目标文本进行学习和理解,最终自动抽取出关键词.专利数据因其数据量庞大、内容丰富、表达准确、专业权威而被选中作为知识库来源.详细讨论了专利数据的特性,挖掘不同专利间的知识关联,针对某一知识领域构造背景知识库,在此基础上进行目标文本的关键词自动抽取.与目标文本相关的专利文集中每个专利的专利发明人、权利人、专利引用和分类信息都被用于在不同的专利文档之间发现关联性,利用关联信息扩充背景知识库,获得目标文档在各个相关知识领域的背景知识库.基于背景知识库设计了词知识特征值,以反映词在目标文本背景知识中的重要程度.最后,把关键词抽取问题转化为分类问题,利用支持向量机(support vector machine,SVM)抽取出目标文本的关键词.在专利数据集和开放数据集的实验结果证明明显优于现有算法.
引用
收藏
页码:1740 / 1752
页数:13
相关论文
共 5 条
[1]   Tag-TextRank:一种基于Tag的网页关键词抽取方法 [J].
李鹏 ;
王斌 ;
石志伟 ;
崔雅超 ;
李恒训 .
计算机研究与发展, 2012, 49 (11) :2344-2351
[2]   基于主题特征的关键词抽取 [J].
刘俊 ;
邹东升 ;
邢欣来 ;
李英豪 .
计算机应用研究, 2012, 29 (11) :4224-4227
[3]   基于LDA模型的主题词抽取方法 [J].
石晶 ;
李万龙 .
计算机工程, 2010, 36 (19) :81-83
[4]  
LIBSVM[J] . Chih-Chung Chang,Chih-Jen Lin.ACM Transactions on Intelligent Systems and Technology (TIST) . 2011 (3)
[5]  
KP-Miner: A keyphrase extraction system for English and Arabic documents[J] . Samhaa R. El-Beltagy,Ahmed Rafea.Information Systems . 2008 (1)