基于内容相似度的网页正文提取

被引：18

作者：

王利 ^{[1
]}

刘宗田 ^{[1
]}

王燕华 ^{[2
]}

廖涛 ^{[1
]}

机构：

[1] 上海大学计算机科学与工程学院

[2] 上海海洋大学信息学院

来源：

计算机工程 | 2010年 / 36卷 / 06期

关键词：

网页正文抽取; 网页映射; 网页清洗; 文本相似度;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。

引用

页码：102 / 104

页数：3

共 4 条

[1] 基于网页框架和规则的网页噪音去除方法 [J].