基于频繁链接的Web权威资源挖掘

被引:6
作者
楼宇波
马坚
周皓峰
袁晴晴
施伯乐
机构
[1] 复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海,上海
关键词
信息检索; 频繁子图; 权威页面; 权威社团; Web挖掘;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
如何有效地利用Web这个巨大的信息库 ?传统的基于关键字的搜索引擎取得了一定的成绩 ,但是存在着查准率不高的问题 Web页面间链接结构事实上隐含地表达着权威的信息 ,这已被许多研究者用来试图改善Web信息检索(包括搜索引擎 )的性能 ,取得了较好的效果 ,但依然存在很大的改善空间 为此 ,提出了FARMING(基于频繁度的Web图的权威资源挖掘 )算法 诠释了新的权威页面定义 ,提出了带阶的频繁子图和权威社团等概念 ,并用实验证明了FARMING算法的有效性
引用
收藏
页码:1095 / 1103
页数:9
相关论文
共 19 条
[1]  
Discovering typical structures of documents: a road map approach. K.Wang, H.Liu. . 1998
[2]  
An input-output approach to clique identification. C H Hubbel. Sociometry . 1965
[3]  
Finding replicated Web collections. J Cho, N Shivakumar, H Garcia-Molina. . 2000
[4]  
Dynamic itemset counting and implication rules for market basket data. S Brin, R Motwani, J D Ullman, S Tsur. . 1997
[5]  
Inferring Webcommunities through relaxed cocitation and densebip artitegrap hs. PKReddy,MKitsuregawa. http :∥ www t kliis ut okyoacjp/Kilab/Research/Paper/2001/red dy/ 6a6pdf . 2001
[6]  
Topic-sensitive PageRank. T H Haveliwala. . 2002
[7]  
The anatomy of a large-scale hypertextual Web search engine. S Brin, L Page. . 1998
[8]  
Mining frequent patterns without candidate generation. J Han, J Pei, Y Yin. . 2000
[9]  
Learning collection fusion strategies. E Voorhees, N gupta, B Johnson-Laird. . 1995
[10]  
Improvingauthoritativesourcesinahyper linkedenvironmentviasimilarityweigh ting. JDHerbach. ht tp :∥wwwcsp rincetonedu/-jherb ac h/hitsswpdf . 2001