面向Web的文本挖掘技术研究

被引:5
作者
徐妙君
顾沈明
机构
[1] 浙江大学信息学院
[2] 浙江海洋学院信息学院 浙江杭州
[3] 浙江舟山
关键词
数据挖掘; 文本挖掘; Internet;
D O I
10.14107/j.cnki.kzgc.2003.s1.014
中图分类号
TP393.03 [];
学科分类号
081201 ; 1201 ;
摘要
简要介绍了文本挖掘技术,并描绘了该技术在Web应用特别是信息检索技术中的重要性。再对整个文本知识挖掘过程所涉及的各个方面进行了进一步地研究探讨,包括了文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价等几个方面。其间运用数据挖掘技术对各个过程进行处理,并引进基于评估函数的特征筛选算法、词频矩阵、余弦计算法和潜在语义标引等方法来处理文本挖掘过程所产生的问题。在此基础上得出了一个完整的Web文本挖掘过程。最后展望了文本挖掘技术在Web应用中的前景。
引用
收藏
页码:44 / 46+50 +50
页数:4
相关论文
共 3 条
[1]   Internet上的文本数据挖掘 [J].
王伟强 ;
高文 ;
段立娟 .
计算机科学, 2000, (04) :32-36
[2]   基于WWW的文本信息挖掘 [J].
邹涛 ;
黄源 ;
张福炎 .
情报学报, 1999, (04) :289-293
[3]   数据采掘在Internet中的应用 [J].
陈宁 ;
周龙骧 .
计算机科学, 1999, (07) :44-49