模板化网页主题信息的提取方法

被引：76

作者：

欧健文

董守斌

蔡斌

机构：

[1] 华南理工大学广东省计算机网络重点实验室

[2] 华南理工大学广东省计算机网络重点实验室广州510640

来源：

清华大学学报(自然科学版) | 2005年 / S1期

关键词：

万维网; 网页; 信息提取; 模板; 搜索引擎;

D O I：

10.16511/j.cnki.qhdxxb.2005.s1.004

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法。该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取。对国内2 588个新闻网页进行了检测。实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%。将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高。

引用

页码：1743 / 1747

页数：5