基于链接描述文本及其上下文的Web信息检索

被引:20
作者
张敏
高剑峰
马少平
机构
[1] 清华大学智能技术与系统国家重点实验室
[2] 微软亚洲研究院
关键词
链接文本; 链接描述文档; Web信息检索;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 %
引用
收藏
页码:221 / 226
页数:6
相关论文
共 11 条
[1]  
Structuralanalysisofhy pertext:Identifyinghierarchiesandusefulmetrics. RBotafogo,ERivlin,BShneiderman. ACMTransonInformationSystem . 1992
[2]  
Topiclocalityintheweb. BDDavison. The23rdInt’’lACMSI GIRConfonResearchandDevelopmentinInformationRetrieval(SIGIR 2000) . 2000
[3]  
OverviewofTREC2001. EllenMVoorhees,DonnaHarman. The10thTextRetrievalConf . 2001
[4]  
Automaticresourcecom pilationbyanalyzinghyperlinkstructureandassociatedtext. SChakrabarti,BDom,DGibsonetal. The7thInt’’lWWWConf(WWW7) . 1998
[5]  
TREC 10WebtrackexperimentsatMSRA. GaoJianfengetal. The10thTextRetrievalConf . 2001
[6]  
Effectivesitefindingus inglinkanchorinformation. NCraswell,DHawking,SERobertson. TheSIGIR 2001 . 2001
[7]  
Thepagerankcitationranking:Bringingor dertotheweb. LPage,SBrinetal. http://dbpubs.stanford.edu:8090/pub/199966 . 1998
[8]  
Theanatomyofalarge scalehypertextualwebsearchengine. SBrin,LPage. The7thInt’’lWWWConf(WWW 7) . 1998
[9]  
Improvedalgorithmsfortopicdistilla tioninahyperlinkedenvironment. KBharat,MRHenzinger. The21stInt’’lACMSIGIRConfonResearchandDevelopmentinInformationRetrieval(SI GIR 98) . 1998
[10]  
Authoritativesourcesinahyperlinkedenviron ment. JonMKleinberg. The9thAnnualACM SIAMSymponDiscreteAlgorithms . 1997