模板化网页主题信息的提取方法

被引:76
作者
欧健文
董守斌
蔡斌
机构
[1] 华南理工大学广东省计算机网络重点实验室
[2] 华南理工大学广东省计算机网络重点实验室 广州510640
关键词
万维网; 网页; 信息提取; 模板; 搜索引擎;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.004
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法。该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取。对国内2 588个新闻网页进行了检测。实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%。将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高。
引用
收藏
页码:1743 / 1747
页数:5
相关论文
共 4 条
[1]   基于可视布局信息的网页噪音去除算法 [J].
荆涛 ;
左万利 .
华南理工大学学报(自然科学版), 2004, (S1) :84-87
[2]   基于标记树表示方法的页面结构分析 [J].
常育红 ;
姜哲 ;
朱小燕 ;
不详 .
计算机工程与应用 , 2004, (16) :129-132
[3]   基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[4]  
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)