大规模Web论坛采集技术研究

被引:0
作者
李魁
机构
[1] 中国科学院研究生院(计算技术研究所)
关键词
Web论坛采集; 采集陷阱; 动态网页; 大规模; 非阻塞socket;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着网络的普及和对人们日常生活影响的不断深入,Web论坛富于交互性,即时性,开放性的特点逐渐吸引了大批网络用户,而且还呈不断增长的趋势,其内容涵盖的范围已从早期的少量有限的主题扩展到技术,商业,新闻,娱乐,体育等日常生活的方方面面,在组织形式上也不断细化,具有相同兴趣和关注范围的人们能够方便地在论坛提供的虚拟空间中聚集,以极高的效率实现交流的需要,而获得特定的信息,具有很强的针对性和广泛的网民基础,在信息传递,舆论传播,情感交流,娱乐休闲等诸多领域都具有重大的影响力。这使得Web论坛已经成为我们不能忽略的信息宝库,对Web论坛的信息采集的紧迫性也就越来越强烈。然而,由于现有采集技术的制约,对Web论坛的信息获取受到了很大的阻碍。 我们主要的工作包括: 1)动态网页URL的分类算法 2) Web论坛中的逻辑结构发现 3)主题索引页面---主题相关判断算法 4)版面中的主题索引页面自动扩展算法 5)基于站点的非阻塞socket通用Web采集架构 实验和实践证明,我们的方法成功地解决了Web论坛采集中的根本性难题,具有良好的泛化性,扩展性和实用性。
引用
收藏
页数:73
共 3 条
[1]
个性化的Web信息采集技术研究 [D]. 
吴丽辉 .
中国科学院研究生院(计算技术研究所),
2005
[2]
Mercator: A scalable, extensible Web crawler [J].
Heydon A. ;
Najork M. .
World Wide Web, 1999, 2 (4) :219-229
[3]
基于主题的Web信息采集技术研究 [D]. 
李盛韬 .
中国科学院研究生院(计算技术研究所),
2002