基于网页格式信息量的博客文章和评论抽取模型

被引:52
作者
曹冬林 [1 ,2 ,3 ]
廖祥文 [1 ,2 ]
许洪波 [1 ]
白硕 [1 ]
机构
[1] 中国科学院计算技术研究所网络科学与技术研究部
[2] 中国科学院研究生院
[3] 厦门大学智能科学系
关键词
博客信息抽取; 最小正文子树; 有效信息率; 网页格式信息; 视觉信息; 切分位置信息量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率.
引用
收藏
页码:1282 / 1291
页数:10
相关论文
共 2 条
[1]
信息抽取模式自动生成方法的研究 [J].
郑家恒 ;
王兴义 ;
李飞 .
中文信息学报, 2004, (01) :48-54
[2]
Automating Content Extraction of HTML Documents [J].
Suhit Gupta ;
Gail E. Kaiser ;
Peter Grimm ;
Michael F. Chiang ;
Justin Starren .
World Wide Web, 2005, 8 :179-224