节点频度和语义距离相结合的网页正文信息抽取

被引:20
作者
孟军
刘秋水
王秀坤
机构
[1] 大连理工大学计算机科学与工程系
关键词
信息提取; 带有节点频度的文档对象模型树; 节点频度; 语义距离;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。
引用
收藏
页码:140 / 143
页数:4
相关论文
共 5 条
[1]
基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180
[2]
一种基于信息熵的Web页面主题信息抽取方法 [J].
贺智平 ;
徐学洲 ;
李爱玲 .
计算机工程与应用, 2007, (04) :164-166
[3]
Web页面主题信息抽取研究与实现 [J].
刘艳敏 ;
刘飚 ;
封化民 ;
宋国森 ;
方勇 .
计算机工程与应用, 2006, (21) :146-148
[4]
基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[5]
基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22