基于DOM的网页主题信息的抽取

被引:49
作者
刘军
张净
机构
[1] 武汉理工大学计算机科学与技术学院
关键词
DOM; 主题; 信息抽取; 分块; 剪枝;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。
引用
收藏
页码:188 / 190
页数:3
相关论文
共 4 条
[1]
Wrapping web data into XML.[J].Wei Han;David Buttler;Calton Pu.ACM SIGMOD Record.2001, 3
[2]
基于标记树表示方法的页面结构分析 [J].
常育红 ;
姜哲 ;
朱小燕 ;
不详 .
计算机工程与应用 , 2004, (16) :129-132
[3]
基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[4]
一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04