一种提高中文搜索引擎检索质量的HTML解析方法

被引：19

作者：

宋睿华

马少平

陈刚

李景阳

机构：

[1] 清华大学计算机科学与技术系

来源：

中文信息学报 | 2003年 / 04期

关键词：

计算机应用; 中文信息处理; HTML解析; 降噪; 分块模型; 搜索引擎;

D O I：

暂无

中图分类号：

TP391.3 [检索机];

学科分类号：

摘要：

中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。

引用

页码：19 / 26

页数：8