基于分块的网页主题文本抽取

被引：5

作者：

任玉

樊勇

郑家恒

机构：

[1] 山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室

来源：

广西师范大学学报(自然科学版) | 2009年 / 27卷 / 01期

关键词：

HTML标签; 网页分块; 内容特征; 信息抽取;

D O I：

10.16088/j.issn.1001-6600.2009.01.032

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。

引用

页码：141 / 144

页数：4

共 5 条

[1] 基于混合条件模型的Web信息抽取 [J].