基于余弦向量法的Web数据并行抓掘系统

被引:2
作者
徐文杰
陈庆奎
机构
[1] 上海理工大学计算机与电气工程学院
关键词
并行抓取; 余弦向量法; 计算机机群;
D O I
暂无
中图分类号
TP393.01 [];
学科分类号
081201 ; 1201 ;
摘要
为了提高Web海量数据的抓掘效率,引入并行机群抓掘机制。为使机群中每个计算节点的能力得到充分发挥,应用向量度量技术解决抓取任务和计算节点能力匹配的问题。对抓取任务向量、计算节点向量进行定义,提出余弦向量匹配算法,描述相关并行算法。理论分析和实验表明,基于余弦向量匹配算法的挖掘任务分配模型具有良好的分配适应性和负载平衡性。
引用
收藏
页码:64 / 67
页数:4
相关论文
共 1 条
[1]   万维网的链接结构分析及其应用综述 [J].
王晓宇 ;
周傲英 .
软件学报, 2003, (10) :1768-1780