智能Web中文主题信息收集系统IRobot的设计

被引:6
作者
马亮
陈群秀
王俊
徐国伟
机构
[1] 清华大学计算机系智能技术与系统国家重点实验室
[2] 富士通中国研究开发中心有限公司
[3] 富士通中国研究开发中心有限公司 北京
[4] 北京
关键词
信息检索; 主题信息收集; 相关度预测; 相关度评价; 中文信息处理;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。
引用
收藏
页码:23 / 29
页数:7
相关论文
共 1 条
[1]   Web网页识别算法研究 [J].
韩彬斌 ;
王培康 .
情报学报, 2001, (01) :77-81