一种提高中文搜索引擎检索质量的HTML解析方法

被引:19
作者
宋睿华
马少平
陈刚
李景阳
机构
[1] 清华大学计算机科学与技术系
关键词
计算机应用; 中文信息处理; HTML解析; 降噪; 分块模型; 搜索引擎;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。
引用
收藏
页码:19 / 26
页数:8
相关论文
empty
未找到相关数据