Web文本挖掘技术研究

被引:270
作者
王继成
潘金贵
张福炎
机构
[1] 南京大学计算机科学与技术系!南京
[2] 南京大学软件新技术国家重点实验室!南京
关键词
Web挖掘; 文本挖掘; 文本分类; 文本聚类; 多维文本分析;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 .
引用
收藏
页码:513 / 520
页数:8
相关论文
共 3 条
  • [1] 基于WWW的资料搜集系统的设计与实现
    邹涛
    王继成
    张福炎
    [J]. 情报学报, 1999, (03) : 3 - 9
  • [2] Knowledge discovery in textual databases(KDT).In:Proc of the 1st Int'l Conf on Knowledge Discovery .2 Feldman R,Dagan I. Montreal . 1995
  • [3] Recent Trends in Hierarchical Document Clustering: A Critical Review .2 Willet P. Information Processing and Management . 1988