<正> 1.引言 Web是人类历史上承载数据最丰富的信息库,但在Web上查找所需要的信息却很困难,由于Web的海量规模、异构、动态等特性,使得Web文本检索表现出更大的挑战性,广泛地引起了各方面的研究兴趣。该领域当前的流派大体可以分为:经典IR流派,METADATA流派,数据库流派和链接分析流派。本文所讨论的PageRank算法是链接分析流派中的一个典型代表,在页面质量的计算过程中采用链接分析技术,也是第二代搜索引擎的重要特点,各种算法有一个共同的基本思想:它们认为更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面出发的链接有更大的权重,这个循环定义,通过迭代算法巧妙地打破了循环,除了本文讨论的PageRank算法,另外一个比较著名的算法就是IBM的HITS算法。