随着网络的普及和对人们日常生活影响的不断深入,Web论坛富于交互性,即时性,开放性的特点逐渐吸引了大批网络用户,而且还呈不断增长的趋势,其内容涵盖的范围已从早期的少量有限的主题扩展到技术,商业,新闻,娱乐,体育等日常生活的方方面面,在组织形式上也不断细化,具有相同兴趣和关注范围的人们能够方便地在论坛提供的虚拟空间中聚集,以极高的效率实现交流的需要,而获得特定的信息,具有很强的针对性和广泛的网民基础,在信息传递,舆论传播,情感交流,娱乐休闲等诸多领域都具有重大的影响力。这使得Web论坛已经成为我们不能忽略的信息宝库,对Web论坛的信息采集的紧迫性也就越来越强烈。然而,由于现有采集技术的制约,对Web论坛的信息获取受到了很大的阻碍。
我们主要的工作包括:
1)动态网页URL的分类算法
2) Web论坛中的逻辑结构发现
3)主题索引页面---主题相关判断算法
4)版面中的主题索引页面自动扩展算法
5)基于站点的非阻塞socket通用Web采集架构
实验和实践证明,我们的方法成功地解决了Web论坛采集中的根本性难题,具有良好的泛化性,扩展性和实用性。