基于DOM的网页主题信息的抽取

被引：49

作者：

刘军

张净

机构：

[1] 武汉理工大学计算机科学与技术学院

来源：

计算机应用与软件 | 2010年 / 27卷 / 05期

关键词：

DOM; 主题; 信息抽取; 分块; 剪枝;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。

引用

页码：188 / 190

页数：3