德温特专利信息清洗与标注模型研究

被引:7
作者
翟东升
李倩
张杰
黄鲁成
赵京
机构
[1] 不详
[2] 北京工业大学经济与管理学院
[3] 不详
关键词
德温特专利数据库(DII); 专利信息; 数据清洗; 抽取策略;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库(DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容进行分别抽取的基础上,综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换,结合SQL语言将关系数据转变为XML语义数据。实验证明,模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。
引用
收藏
页码:150 / 154+203 +203
页数:6
相关论文
共 5 条
[1]  
基于分布式多Agent系统的二层专利数据库信息获取系统研究[D]. 康宁.北京工业大学 2012
[2]   面向主题的专利分析系统 [J].
翟东升 ;
袁昕 .
情报杂志 , 2012, (06) :168-172
[3]   异构专利数据源集成方案设计与实现 [J].
翟东升 ;
禾文汇 .
现代图书情报技术, 2010, (09) :67-73
[4]  
Information Extraction:Capabilities and Chal-lenges. Ralph Grishman. http://w w w.cs.nyu.edu/grishman/tarragona.pdf . 2012
[5]  
SQL Server 2005数据挖掘与商务智能完全解决方案[M]. 电子工业出版社 , 朱德利, 2007