基于Hadoop的搜索引擎用户行为分析

被引:54
作者
王振宇 [1 ]
郭力 [2 ]
机构
[1] 华南理工大学软件学院
[2] 华南理工大学计算机科学与工程学院
基金
广东省科技计划;
关键词
Hadoop; 分布式计算; 用户行为分析; 海量数据;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
搜索引擎用户行为分析是网络信息检索技术的研究热点。通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来。本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式文件系统HDFS与MapReduce并行计算模型提高系统扩展性和易编程性,并应用该模型分析了Sogou搜索引擎一个月内约2 200万条查询日志,分析结果对于掌握用户搜索行为,评测及改进搜索引擎检索、排序算法等均有较好的指导意义。
引用
收藏
页码:115 / 120
页数:6
相关论文
共 1 条
[1]
Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632