大规模中文搜索引擎的用户日志分析

被引:23
作者
王继民
陈翀
彭波
机构
[1] 北京大学信息科学技术学院 北京 100871
[2] 北京大学信息科学技术学院
关键词
搜索引擎; 用户日志; 用户行为; Heaps定律;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
北大"天网"是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示:用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户在一天内只进行1-2次内容不同的查询,多于2/3的用户点击了结果页面中的某些网址(URL);多数用户输入的查询串中只含有一个词项并且包含中文字符,其中以2-4个汉字居多;用户查看结果页面的时间大约是2-3min;只有少数用户查看历史网页(或称网页快照).用户日志中不同查询串、不同用户和点击不同URL的数量满足Heaps定律.
引用
收藏
页码:1 / 5
页数:5
相关论文
共 1 条
[1]   海量Web搜索引擎系统中用户行为的分布特征及其启示 [J].
王建勇 ;
单松巍 ;
雷鸣 ;
谢正茂 ;
李晓明 .
中国科学E辑:技术科学, 2001, (04) :372-384