Web信息主题采集技术研究

被引:17
作者
李春旺
机构
[1] 中国科学院文献情报中心北京
关键词
Web搜索引擎; 主题采集; 技术;
D O I
暂无
中图分类号
G354 [情报检索];
学科分类号
摘要
简单介绍主题信息采集系统;从5个方面对其核心技术进行深入研究,包括种子页面生成、主题表示、相关度计算策略、爬行策略以及结束搜索策略等;详细讨论种子页面生成的人工方式、自动方式及混合方式,基于关键词的主题表示与基于Ontology的主题表示,多种相关度计算启发式策略比较,基本爬行策略与隧道技术以及结束爬行的多种情形等;在分析相关技术的算法、特点与应用情况的同时,针对主题信息采集特点提出相应的改进意见。
引用
收藏
页码:77 / 80+70 +70
页数:5
相关论文
共 4 条
[1]   Web信息采集研究进展 [J].
李盛韬 ;
余智华 ;
程学旗 ;
白硕 .
计算机科学, 2003, (02) :151-157+171
[2]   基于WWW的文本信息挖掘 [J].
邹涛 ;
黄源 ;
张福炎 .
情报学报, 1999, (04) :289-293
[3]  
自动主题搜索的应用研究[D]. 陈定权.中国科学院研究生院(文献情报中心) 2003
[4]  
Mining the Web’s Link Structure. Chakrabarti S, Dom B E, Kumar S R, et al. IEEE Computer . 1999