共 1 条
智能Web中文主题信息收集系统IRobot的设计
被引:6
作者:
马亮
陈群秀
王俊
徐国伟
机构:
[1] 清华大学计算机系智能技术与系统国家重点实验室
[2] 富士通中国研究开发中心有限公司
[3] 富士通中国研究开发中心有限公司 北京
[4] 北京
来源:
关键词:
信息检索;
主题信息收集;
相关度预测;
相关度评价;
中文信息处理;
D O I:
暂无
中图分类号:
TP391.3 [检索机];
学科分类号:
081203 ;
0835 ;
摘要:
本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。
引用
收藏
页码:23 / 29
页数:7
相关论文