智能专题化信息搜集Crawler

被引:9
作者
钱榕 [1 ]
徐新华 [2 ]
郑莹 [3 ]
杨炳儒 [1 ]
机构
[1] 北京科技大学信息工程学院
[2] 北京科技大学管庄校区信息工程系
[3] 济南大学人事处
关键词
专题化爬行; Web挖掘; 神经网络; 加强学习;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。
引用
收藏
页码:57 / 59
页数:3
相关论文
共 2 条
[1]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[2]
人工智能原理与方法.[M].王永庆著;.西安交通大学出版社.1998,