Web挖掘研究综述

被引：31

作者：

宋爱波

董逸生

吴文明

孙志挥

机构：

[1] 东南大学计算机科学与工程系

[2] 东南大学计算机科学与工程系南京

[3] 南京

来源：

计算机科学 | 2001年 / 11期

关键词：

结构化数据; 站点; 超链; 文档; 资料档; 代理服务器; 数据库方法; Web; 文本分类; 数据仓库; 学习(人工智能); 机器学习; 情报工作; 信息检索;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

080402 ;

摘要：

<正> 1 引言今天Web已成为信息发布、交互及获取的主要工具,Web上的信息量正以惊人的速度增加着,人们迫切需要能自动地从Web上发现、抽取和过滤信息的工具。同时,近年来,由于电子商务的快速发展,许多公司借助Internet进行在线交易,企业管理者需要分析大量的在线交易数据,从而发现用户的兴趣爱好及购买趋势,为商业决策风险投资等提供依据。具体来讲,当我们与Web交互时,常面临如下问题: 1.查询相关信息。这是查询触发的过程,我们希望从Web上找到关于VC++编程指南的书,关于申办奥运会的信息,甚至关于爱滋病的报道等等。可以用搜索引擎如Yahoo Sohu等进行关键字查找,然而,今天的搜索引擎都有两个严重问题:低查准率会返回很多不相关的结果;低查全率有很多相关的文档找不到。

引用

页码：13 / 16

页数：4