文本挖掘及其关键技术与方法

被引:46
作者
王丽坤
王宏
陆玉昌
机构
[1] 智能技术与系统国家重点实验室清华大学计算机科学与技术系
关键词
Text mining; Knowledge discovery in database; Data mining; Word automatic segmenting; Feature representation; Feature extraction; Text categorization; Text clustering;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
<正> 从1969年美国国防部的计算机网络ARPANET起步,至今已有32年历史的Internet,已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务系统,为其用户提供了极具价值的、巨大的数据资料。在数字图书馆和Internet上,在线可获得的信息量呈指数级增长,导致了信息爆炸。WWW以超文本的形式呈现给用户,一个网页里包含了多种不同的数据类型,其中最主要的信息源就是文本数据。文本表达了大量的、丰富的信息,同时包含了许多未被所有者发现的潜在知
引用
收藏
页码:12 / 19
页数:8
相关论文
empty
未找到相关数据