基于多Agent系统的定题爬虫算法

被引:4
作者
徐照财
程显毅
机构
[1] 江苏大学计算机科学与通信工程学院
关键词
定题爬虫; 主题关键字过滤; 语义;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP391.3 [检索机];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互。实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善。
引用
收藏
页码:204 / 206
页数:3
相关论文
共 2 条
[1]   定题搜索引擎Robot的设计与算法 [J].
龙宇巍 ;
王永成 ;
许欢庆 .
计算机仿真, 2004, (04) :69-72+76
[2]  
The shark-search algorithm. An application: tailored Web site mapping[J] . Michael Hersovici,Michal Jacovi,Yoelle S. Maarek,Dan Pelleg,Menachem Shtalhaim,Sigalit Ur.Computer Networks and ISDN Systems . 1998 (1)