基于PageRank排序算法改进的若干研究

被引:0
作者
邵晶晶
机构
[1] 华中师范大学
关键词
马尔可夫转移概率矩阵; 传统PageRank算法; 改进的PageRank算法; 误差分析; 矩阵的条件数;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
全球资讯量最大,查询次数最多,知名度最高的搜索引擎是Google,而Google使用最久的排名算法就是PageRank排名算法。PageRank算法被广泛应用于度量网页重要性,它根据网页之间的链接结构来给每个网页打分,依据分数高低给出排名先后,从数学的角度来解释,可以被看作是一个马尔可夫随机游走模型,依据网页下一步的链接信息计算网页的转移概率,用马氏链的平稳分布作为最终的值给网页排序。 传统PageRank算法利用了Web的结构信息来判断网页的重要性,而且计算排名过程中将同一页面的所有链出页面看成同等重要,即对每个链出页面平均分配其PageRank值,本文认为这是传统PageRank算法的一个致命缺陷。本文通过分析传统PageRank算法的思想——每个链入页面看做是给自己“投票”的页面、重要页面的投票重要性高、票数多少决定页面重要性高低,得知同一页面的每个链出页面应根据其重要性的不同分得不同权重,从而给出了具有针对性的改进算法。理论上改进算法更切合传统PageRank算法的思想;通过Matlab实验迭代结果,比较传统PageRank算法和改进算法的计算结果,证明改进算法提升重要网页的PageRank值,降低不重要网页的PageRank值,而且能用d<0.85的d值达到传统PageRank算法计算的PageRank值。 数值分析中,一个数值问题的条件数是该数量在数值计算中的容易程度的衡量,也就是该问题的适定性。一个低条件数的问题称为“良态”的,而高条件数的问题称为“病态”的。由于互联网上有成亿的网页,实际中计算排名不是解方程组而是用计算机模拟迭代计算其近似解,若一个方程组的病态程度愈严重,也就愈难用一般的计算方法求得比较准确的解。本文在第四章中通过讨论矩阵的条件数,分析其近似解的误差,证明降低阻尼因子d值能使求马氏链极限分布这个数值问题的条件数降低,即马氏链极限分布的近似解更精确。
引用
收藏
页数:41
共 9 条
[1]
基于PageRank算法的权威值不均衡分配问题 [J].
田甜 ;
倪林 .
计算机工程, 2007, (18) :53-55
[2]
Topic PageRank——一种基于主题的搜索引擎 [J].
姜鑫维 ;
赵岳松 .
计算机技术与发展, 2007, (05) :238-241
[3]
PageRank算法的改进 [J].
张丽 .
科学技术与工程, 2007, (05) :673-677
[4]
PageRank算法研究 [J].
黄德才 ;
戚华春 .
计算机工程, 2006, (04) :145-146+162
[5]
PageRank-Pro——一种改进的网页排序算法 [J].
李凯 ;
赫枫龄 ;
左万利 .
吉林大学学报(理学版), 2003, (02) :175-179
[6]
Damping factor in Google page ranking [J].
Fu, Hwai-Hui ;
Lin, Dennis K. J. ;
Tsai, Hsien-Tang .
APPLIED STOCHASTIC MODELS IN BUSINESS AND INDUSTRY, 2006, 22 (5-6) :431-444
[7]
Deeper Inside PageRank.[J].Amy N. Langville;Carl D. Meyer.Internet Mathematics.2004, 3
[8]
Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632
[9]
矩阵论.[M].方保鎔;周继东;李医民编著;.清华大学出版社.2004,