一种Web评论自动抽取方法

被引：11

作者：

刘伟 ^{[1
]}

严华梁 ^{[2
]}

肖建国 ^{[2
]}

曾建勋 ^{[1
]}

机构：

[1] 中国科学技术信息研究所

[2] 北京大学计算机科学技术研究所

来源：

软件学报 | 2010年 / 21卷 / 12期

基金：

中国博士后科学基金;

关键词：

Web用户评论; 结构化数据记录; Web数据抽取;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

080402 ;

摘要：

Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.

引用

页码：3220 / 3236

页数：17

共 3 条

[1]

Wrapper Induction for Information Extraction. N Kushmerick, DS Weld, RB Doorenbos. Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence（IJCAI297） . 1997

[2]

Annotating structured data of the deep Web. Lu YY,He H,Zhao HK, et al. Proceedings of the IEEE 23rd Int’l Conf. on Data Engineering . 2007

[3]

Data extraction and label assignment for web databases. Wang Jiying,Lochovsky F. Proceedings of the 12th International Conference on World Wide Web（WWW2003） . 2003

← 1 →