基于分块的网页主题文本抽取

被引:5
作者
任玉
樊勇
郑家恒
机构
[1] 山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室
关键词
HTML标签; 网页分块; 内容特征; 信息抽取;
D O I
10.16088/j.issn.1001-6600.2009.01.032
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。
引用
收藏
页码:141 / 144
页数:4
相关论文
共 5 条
[1]   基于混合条件模型的Web信息抽取 [J].
肖基毅 ;
朱道辉 ;
邹腊梅 .
郑州大学学报(理学版), 2008, (03) :52-55
[2]   中文网页分类研究与系统实现 [J].
段军峰 ;
黄维通 ;
陆玉昌 .
计算机科学, 2007, (06) :210-213
[3]   基于网页结构树的Web信息抽取方法 [J].
陈琼 ;
苏文健 .
计算机工程, 2005, (20) :54-55+140
[4]   基于分块的网页信息解析器的研究与设计 [J].
于满泉 ;
陈铁睿 ;
许洪波 .
计算机应用, 2005, (04) :974-976
[5]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22