分布式环境下的文档相似度研究与实现

被引:5
作者
赵华茗
机构
[1] 中国科学院国家科学图书馆
关键词
Hadoop; Hive; 相似度; 非结构化;
D O I
暂无
中图分类号
G350 [情报学];
学科分类号
摘要
针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL语言可有效简化分布式数据处理的复杂性,但实时性有待改进。
引用
收藏
页码:14 / 20
页数:7
相关论文
共 2 条
[1]   基于MapReduce架构的文档相似度计算方法 [J].
洪毅虹 .
网络与信息, 2010, 24 (09) :36-37
[2]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)