共 1 条
大规模中文搜索引擎的用户日志分析
被引:23
作者:
王继民
陈翀
彭波
机构:
[1] 北京大学信息科学技术学院 北京 100871
[2] 北京大学信息科学技术学院
来源:
关键词:
搜索引擎;
用户日志;
用户行为;
Heaps定律;
D O I:
暂无
中图分类号:
TP393.09 [];
学科分类号:
080402 ;
摘要:
北大"天网"是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示:用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户在一天内只进行1-2次内容不同的查询,多于2/3的用户点击了结果页面中的某些网址(URL);多数用户输入的查询串中只含有一个词项并且包含中文字符,其中以2-4个汉字居多;用户查看结果页面的时间大约是2-3min;只有少数用户查看历史网页(或称网页快照).用户日志中不同查询串、不同用户和点击不同URL的数量满足Heaps定律.
引用
收藏
页码:1 / 5
页数:5
相关论文