节点频度和语义距离相结合的网页正文信息抽取

被引：20

作者：

孟军

刘秋水

王秀坤

机构：

[1] 大连理工大学计算机科学与工程系

来源：

计算机工程与应用 | 2009年 / 45卷 / 01期

关键词：

信息提取; 带有节点频度的文档对象模型树; 节点频度; 语义距离;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。

引用

页码：140 / 143

页数：4

共 5 条

[1]

基于标记窗的网页正文信息提取方法 [J].