学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于图文有效信息量的网页正文定位
被引:7
作者
:
论文数:
引用数:
h-index:
机构:
梁正友
论文数:
引用数:
h-index:
机构:
欧杰
论文数:
引用数:
h-index:
机构:
俞闽敏
机构
:
[1]
广西大学计算机与电子信息学院
来源
:
计算机工程
|
2011年
/ 37卷
/ 23期
关键词
:
正文定位;
最小正文子树;
有效信息率;
网页;
图文;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。
引用
收藏
页码:276 / 278
页数:3
相关论文
共 5 条
[1]
Web页面自顶向下的正文信息定位算法
[J].
论文数:
引用数:
h-index:
机构:
缪霖
;
论文数:
引用数:
h-index:
机构:
邱会中
.
计算机工程,
2010,
36
(13)
:76
-78
[2]
基于内容相似度的网页正文提取
[J].
论文数:
引用数:
h-index:
机构:
王利
;
论文数:
引用数:
h-index:
机构:
刘宗田
;
论文数:
引用数:
h-index:
机构:
王燕华
;
论文数:
引用数:
h-index:
机构:
廖涛
.
计算机工程,
2010,
36
(06)
:102
-104
[3]
基于网页格式信息量的博客文章和评论抽取模型
[J].
论文数:
引用数:
h-index:
机构:
曹冬林
;
论文数:
引用数:
h-index:
机构:
廖祥文
;
论文数:
引用数:
h-index:
机构:
许洪波
;
论文数:
引用数:
h-index:
机构:
白硕
.
软件学报,
2009,
20
(05)
:1282
-1291
[4]
基于Web的新闻信息抽取
[J].
论文数:
引用数:
h-index:
机构:
朱永盛
;
论文数:
引用数:
h-index:
机构:
武港山
.
计算机工程,
2006,
(10)
:74
-76
[5]
基于统计的网页正文信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
孙承杰
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2004,
(05)
:17
-22
←
1
→
共 5 条
[1]
Web页面自顶向下的正文信息定位算法
[J].
论文数:
引用数:
h-index:
机构:
缪霖
;
论文数:
引用数:
h-index:
机构:
邱会中
.
计算机工程,
2010,
36
(13)
:76
-78
[2]
基于内容相似度的网页正文提取
[J].
论文数:
引用数:
h-index:
机构:
王利
;
论文数:
引用数:
h-index:
机构:
刘宗田
;
论文数:
引用数:
h-index:
机构:
王燕华
;
论文数:
引用数:
h-index:
机构:
廖涛
.
计算机工程,
2010,
36
(06)
:102
-104
[3]
基于网页格式信息量的博客文章和评论抽取模型
[J].
论文数:
引用数:
h-index:
机构:
曹冬林
;
论文数:
引用数:
h-index:
机构:
廖祥文
;
论文数:
引用数:
h-index:
机构:
许洪波
;
论文数:
引用数:
h-index:
机构:
白硕
.
软件学报,
2009,
20
(05)
:1282
-1291
[4]
基于Web的新闻信息抽取
[J].
论文数:
引用数:
h-index:
机构:
朱永盛
;
论文数:
引用数:
h-index:
机构:
武港山
.
计算机工程,
2006,
(10)
:74
-76
[5]
基于统计的网页正文信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
孙承杰
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2004,
(05)
:17
-22
←
1
→