Web挖掘研究综述

被引:31
作者
宋爱波
董逸生
吴文明
孙志挥
机构
[1] 东南大学计算机科学与工程系
[2] 东南大学计算机科学与工程系 南京
[3] 南京
关键词
结构化数据; 站点; 超链; 文档; 资料档; 代理服务器; 数据库方法; Web; 文本分类; 数据仓库; 学习(人工智能); 机器学习; 情报工作; 信息检索;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
<正> 1 引言今天Web已成为信息发布、交互及获取的主要工具,Web上的信息量正以惊人的速度增加着,人们迫切需要能自动地从Web上发现、抽取和过滤信息的工具。同时,近年来,由于电子商务的快速发展,许多公司借助Internet进行在线交易,企业管理者需要分析大量的在线交易数据,从而发现用户的兴趣爱好及购买趋势,为商业决策风险投资等提供依据。具体来讲,当我们与Web交互时,常面临如下问题: 1.查询相关信息。这是查询触发的过程,我们希望从Web上找到关于VC++编程指南的书,关于申办奥运会的信息,甚至关于爱滋病的报道等等。可以用搜索引擎如Yahoo Sohu等进行关键字查找,然而,今天的搜索引擎都有两个严重问题:低查准率会返回很多不相关的结果;低查全率有很多相关的文档找不到。
引用
收藏
页码:13 / 16
页数:4
相关论文
共 2 条
[1]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272
[2]   The Lorel query language for semistructured data [J].
Serge Abiteboul ;
Dallan Quass ;
Jason McHugh ;
Jennifer Widom ;
Janet L. Wiener .
International Journal on Digital Libraries, 1997, 1 (1) :68-88