随着互联网的发展,网络信息资源急剧膨胀,同时也带来了一些负面效应:一方面,网页正文信息周围夹杂了许多与主题无关的“噪音信息”,干扰了用户的视觉;另一方面,信息的杂乱无章给网页聚类和热点信息监控带来了计算效率和准确度问题。本文对Web正文信息抽取和面向层次结构的分类技术进行了研究,并通过实验进行了验证分析。具体来说,本文主要的工作和取得的成果如下:
1.通过对Web正文信息抽取研究现状分析,给出了基于DOM树和部分超链接过滤的网页正文信息抽取算法。算法通过网页预处理模块和正文信息抽取模块实现对不同结构网页的正文信息抽取,弥补了已有算法对正文结点类型限定、单一阈值依赖或受限于特定模板页面等不足。实验表明,算法可取得较高的查准率和召回率,为一种通用有效的正文信息抽取算法。
2.根据综合门户站点按照自身的分类体系组织站点上的资讯这一特征,通过构建虚拟站点层次关系树并抽取出真实站点的层次结构,提出了基于站点层次结构的网页分类技术,实现网页分类抓取。
3.对于无分类信息的站点,由于网页标题包含丰富分类信息,给出了基于标题的网页分类技术,其中包括领域知识库和基于《知网》的词语语义相似度计算等模块。
4.领域知识库主要由常规领域特征词组成。针对传统? 2统计量特征选择算法的不足,提出了改进的基于? 2统计量的特征选择算法,引入了归一化的词频密度和类内覆盖度两个修正因子,完成领域特征词自动构建。
5.网页标题用语随意且组织形式多变,对于未在领域知识库命中的标题,利用《知网》语义相似度计算模型,将标题预处理后的特征词与各类别特征词向量进行语义相似度计算,以确定网页类别。实现结果表明:该方法具有良好的分类效果。