Web文本挖掘技术研究

被引：270

作者：

王继成

潘金贵

张福炎

机构：

[1] 南京大学计算机科学与技术系!南京

[2] 南京大学软件新技术国家重点实验室!南京

来源：

计算机研究与发展 | 2000年 / 05期

关键词：

Web挖掘; 文本挖掘; 文本分类; 文本聚类; 多维文本分析;

D O I：

暂无

中图分类号：

TP393 [计算机网络];

学科分类号：

081201 ; 1201 ;

摘要：

作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 .

引用

页码：513 / 520

页数：8