文本挖掘及其关键技术与方法

被引：46

作者：

王丽坤

王宏

陆玉昌

机构：

[1] 智能技术与系统国家重点实验室清华大学计算机科学与技术系

来源：

计算机科学 | 2002年 / 12期

关键词：

Text mining; Knowledge discovery in database; Data mining; Word automatic segmenting; Feature representation; Feature extraction; Text categorization; Text clustering;

D O I：

暂无

中图分类号：

TP393 [计算机网络];

学科分类号：

081201 ; 1201 ;

摘要：

<正> 从1969年美国国防部的计算机网络ARPANET起步,至今已有32年历史的Internet,已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务系统,为其用户提供了极具价值的、巨大的数据资料。在数字图书馆和Internet上,在线可获得的信息量呈指数级增长,导致了信息爆炸。WWW以超文本的形式呈现给用户,一个网页里包含了多种不同的数据类型,其中最主要的信息源就是文本数据。文本表达了大量的、丰富的信息,同时包含了许多未被所有者发现的潜在知

引用

页码：12 / 19

页数：8