学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
Web页面自顶向下的正文信息定位算法
被引:5
作者
:
论文数:
引用数:
h-index:
机构:
缪霖
论文数:
引用数:
h-index:
机构:
邱会中
机构
:
[1]
电子科技大学计算机科学与工程学院
来源
:
计算机工程
|
2010年
/ 36卷
/ 13期
关键词
:
正文信息定位;
文字链接率;
最佳正文子树;
标签树;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。
引用
收藏
页码:76 / 78
页数:3
相关论文
共 2 条
[1]
Web网页中动态数据区域的识别与抽取
[J].
论文数:
引用数:
h-index:
机构:
黄健斌
;
论文数:
引用数:
h-index:
机构:
姬红兵
;
论文数:
引用数:
h-index:
机构:
孙鹤立
.
计算机工程,
2007,
(11)
:53
-55+58
[2]
基于分块的网页正文信息提取算法研究
[J].
黄文蓓
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学计算机科学技术系
黄文蓓
;
论文数:
引用数:
h-index:
机构:
杨静
;
论文数:
引用数:
h-index:
机构:
顾君忠
.
计算机应用,
2007,
(S1)
:24
-26+30
←
1
→
共 2 条
[1]
Web网页中动态数据区域的识别与抽取
[J].
论文数:
引用数:
h-index:
机构:
黄健斌
;
论文数:
引用数:
h-index:
机构:
姬红兵
;
论文数:
引用数:
h-index:
机构:
孙鹤立
.
计算机工程,
2007,
(11)
:53
-55+58
[2]
基于分块的网页正文信息提取算法研究
[J].
黄文蓓
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学计算机科学技术系
黄文蓓
;
论文数:
引用数:
h-index:
机构:
杨静
;
论文数:
引用数:
h-index:
机构:
顾君忠
.
计算机应用,
2007,
(S1)
:24
-26+30
←
1
→