一种评价搜索引擎信息覆盖率的模型及其验证

被引:6
作者
孟涛
闫宏飞
李晓明
机构
[1] 北京大学计算机科学技术系
[2] 北京大学计算机科学技术系 北京
[3] 北京
关键词
搜索引擎; 信息覆盖率; 采样; 权值计算; 验证; 数量覆盖率; 质量覆盖率;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据 ,循着网页间的链接进行搜集从而扩大信息覆盖面 .本文针对这种信息覆盖能力 ,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度 .文章首先分析了网页搜集不完全性的若干因素 ,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念 ,然后围绕其中的数量和质量覆盖率展开研究工作 .在建立“采样 -权值计算 -验证”的覆盖率评测模型之后 ,以北大“燕穹”网页信息博物馆为考察对象并获得其网页数据 ,用不同的方式对中国Web进行采样 ;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本 ,从量和质的角度考察“燕穹”系统的信息覆盖率 ,得到合理的数量和质量覆盖率值 ,从而验证了“燕穹”系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性 .
引用
收藏
页码:1168 / 1172
页数:5
相关论文
共 2 条
[1]  
计算方法引论.[M].徐萃薇;孙绳武 编著.高等教育出版社.1985,
[2]   关于中国Web的大小、形状和结构 [J].
闫宏飞 ;
李晓明 .
计算机研究与发展, 2002, (08) :958-967