学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于网页格式信息量的博客文章和评论抽取模型
被引:52
作者
:
论文数:
引用数:
h-index:
机构:
曹冬林
[
1
,
2
,
3
]
论文数:
引用数:
h-index:
机构:
廖祥文
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
许洪波
[
1
]
论文数:
引用数:
h-index:
机构:
白硕
[
1
]
机构
:
[1]
中国科学院计算技术研究所网络科学与技术研究部
[2]
中国科学院研究生院
[3]
厦门大学智能科学系
来源
:
软件学报
|
2009年
/ 20卷
/ 05期
关键词
:
博客信息抽取;
最小正文子树;
有效信息率;
网页格式信息;
视觉信息;
切分位置信息量;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率.
引用
收藏
页码:1282 / 1291
页数:10
相关论文
共 2 条
[1]
信息抽取模式自动生成方法的研究
[J].
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
;
王兴义
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
王兴义
;
李飞
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李飞
.
中文信息学报,
2004,
(01)
:48
-54
[2]
Automating Content Extraction of HTML Documents
[J].
论文数:
引用数:
h-index:
机构:
Suhit Gupta
;
论文数:
引用数:
h-index:
机构:
Gail E. Kaiser
;
论文数:
引用数:
h-index:
机构:
Peter Grimm
;
论文数:
引用数:
h-index:
机构:
Michael F. Chiang
;
Justin Starren
论文数:
0
引用数:
0
h-index:
0
机构:
Columbia University,Department of Computer Sciences
Justin Starren
.
World Wide Web,
2005,
8
:179
-224
←
1
→
共 2 条
[1]
信息抽取模式自动生成方法的研究
[J].
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
;
王兴义
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
王兴义
;
李飞
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李飞
.
中文信息学报,
2004,
(01)
:48
-54
[2]
Automating Content Extraction of HTML Documents
[J].
论文数:
引用数:
h-index:
机构:
Suhit Gupta
;
论文数:
引用数:
h-index:
机构:
Gail E. Kaiser
;
论文数:
引用数:
h-index:
机构:
Peter Grimm
;
论文数:
引用数:
h-index:
机构:
Michael F. Chiang
;
Justin Starren
论文数:
0
引用数:
0
h-index:
0
机构:
Columbia University,Department of Computer Sciences
Justin Starren
.
World Wide Web,
2005,
8
:179
-224
←
1
→