一个基于Web资源采样特征的元搜索引擎

被引:4
作者
胡金化
曾海泉
张川
胡运发
机构
[1] 复旦大学计算机与信息技术系上海(国际)数据库研究中心
关键词
Web资源特征; 查询采样; 互操作; 元搜索引擎; 资源分类;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
随着Internet的快速发展,Web信息量急剧增加,Web信息检索也相应地越来越困难。本文提出利用查询采样、Web资源分类等技术,自动创建类似Yahoo!的分类层次资源特征,建立一个树型的Web资源特征检索系统。由于采样时只需采集同类信息的一部分,避免了全部采集带来的大量物力浪费。利用创建的资源特征,在检索时选择需要的资源。然后再利用互操作机制,远程调用该资源的全文索引机制进行检索,提高了检索的查全率和查准率。同时由于要检索的Web资源特征是通过选择相关和抛弃不太相关的Web资源,也提高了查询的效率。
引用
收藏
页码:39 / 45
页数:7
相关论文
共 10 条
[1]   中文文献的层次分类方法 [J].
战学刚 ;
林鸿飞 ;
姚天顺 .
中文信息学报, 1999, (06) :20-25
[2]   文本分类中基于对数似然比测试的特征词选择方法 [J].
李国臣 .
中文信息学报, 1999, (04) :17-22
[3]   汉语语料的自动分类 [J].
吴军,王作英,禹锋,王侠 .
中文信息学报, 1995, (04) :25-32
[4]  
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
[5]   Query-based sampling of text databases [J].
Callan, J ;
Connell, M .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2001, 19 (02) :97-130
[6]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[7]  
GlOSS[J] . Luis Gravano,Héctor García-Molina,Anthony Tomasic.ACM Transactions on Database Systems (TODS) . 1999 (2)
[8]  
Using a generalized instance set forautomatic text categorization .2 Lam W,Ho C Y. Proceedings of the 21thInternational ACM SIGIR Conference on Research andDevelopment in Information Retrieval . 1998
[9]  
A Comparative Study on Feature Selec- tion in Text Categorization .2 Yang Y,Pedersen J. Proceedings of the 4th Inter- national Conference on Machine Learning . 1997
[10]  
Improved Boosting Algorithms Using Confidence-Rated Predictions .2 Schapire R E,Singer Y. Proce of the 11th Annual Conference on Computational Learning Theory . 1998