基于大数据挖掘的科技项目查重模型研究

被引:25
作者
李善青
赵辉
宋立荣
机构
[1] 中国科学技术信息研究所
关键词
大数据挖掘; 多源信息整合; 科技项目查重; Hadoop架构;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用Hadoop框架实现海量数据的快速挖掘。文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。
引用
收藏
页码:78 / 83
页数:6
相关论文
共 13 条
[1]  
基于非分词技术的科技项目查重研究与实现.[D].左川.重庆大学.2010, 04
[2]  
基于层次聚类的科技项目分类与查重研究.[D].吴燕.天津财经大学.2008, 08
[3]   大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, 50 (01) :146-169
[4]   数据引证研究:进展与展望 [J].
侯经川 ;
方静怡 .
中国图书馆学报, 2013, 39 (01) :112-118
[5]   科技项目查重中特征词TF-IDF值计算方法的改进 [J].
方延风 .
情报探索, 2012, (01) :1-3
[6]   深化科技查新工作 扩展社会化服务 [J].
张金玲 ;
黄长 ;
陈如好 .
图书馆论坛, 2011, 31 (05) :122-124+137
[7]   浅析科研管理之避免重复立项 [J].
刘荫明 ;
张福俊 ;
刘谦 .
科技管理研究, 2010, 30 (21) :198-200
[8]   基于科研立项管理应用的模糊C均值算法研究 [J].
林明才 ;
康耀红 ;
张诚一 .
计算机工程与设计, 2010, 31 (07) :1570-1572
[9]  
科研项目管理中的文本挖掘方法研究及应用.[D].姜韶华.大连理工大学.2006, 03
[10]  
A multi-level matching method with hybrid similarity for document retrieval.[J].Haijun Zhang;Tommy W.S. Chow.Expert Systems With Applications.2011, 3