面向信息检索需要的网络数据清理研究

被引：5

作者：

刘奕群

张敏

马少平

机构：

[1] 清华大学计算机系智能技术与系统国家重点实验室

来源：

中文信息学报 | 2006年 / 03期

关键词：

计算机应用; 中文信息处理; 网络信息检索; 数据清理; 机器学习;

D O I：

暂无

中图分类号：

TP393.02 [];

学科分类号：

摘要：

W eb数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。

引用

页码：70 / 77

页数：8

共 5 条

[1] Query-independent evidence in hom e page find ing. N ick Craswell and David Hawk ing. ACM Transac-tions on Inform ation System s(TO IS) . 2003
[2] B lock-level L ink Analysis. Deng Cai,X iaofe iHe,Ji-RongW en and W e i-Y ing M a. M icrosoft Techn icalReportMSR-TR- . 2004
[3] K le inberg,Authoritative sources in a hyperlinked environm ent. Jon M. Journal of the ACM . 1999
[4] The anatomy of a large-scale hypertextualW eb search engine. Sergey B rin and Lawrence Page. ComputerNetworks and ISDN System s . 1998
[5] A taxonomy ofW eb search. Andre i B roder. SIG IR Forum . 2002

← 1 →