Web页面自顶向下的正文信息定位算法

被引:5
作者
缪霖
邱会中
机构
[1] 电子科技大学计算机科学与工程学院
关键词
正文信息定位; 文字链接率; 最佳正文子树; 标签树;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。
引用
收藏
页码:76 / 78
页数:3
相关论文
共 2 条
[1]
Web网页中动态数据区域的识别与抽取 [J].
黄健斌 ;
姬红兵 ;
孙鹤立 .
计算机工程, 2007, (11) :53-55+58
[2]
基于分块的网页正文信息提取算法研究 [J].
黄文蓓 ;
杨静 ;
顾君忠 .
计算机应用, 2007, (S1) :24-26+30