智能Web中文主题信息收集系统IRobot的设计

被引：6

作者：

马亮

陈群秀

王俊

徐国伟

机构：

[1] 清华大学计算机系智能技术与系统国家重点实验室

[2] 富士通中国研究开发中心有限公司

[3] 富士通中国研究开发中心有限公司北京

[4] 北京

来源：

中文信息学报 | 2002年 / 05期

关键词：

信息检索; 主题信息收集; 相关度预测; 相关度评价; 中文信息处理;

D O I：

暂无

中图分类号：

TP391.3 [检索机];

学科分类号：

081203 ; 0835 ;

摘要：

本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。

引用

页码：23 / 29

页数：7