Web文本信息的特征获取算法

被引:90
作者
刘明吉
王秀峰
饶一梅
黄亚楼
机构
[1] 南开大学计算机与系统科学系,南开大学计算机与系统科学系,南开大学计算机与系统科学系,南开大学计算机与系统科学系天津,天津,天津,天津
关键词
Web挖掘; VSM; 遗传算法; 文本特征抽取;
D O I
暂无
中图分类号
TP393.03 [];
学科分类号
摘要
Internet的发展为人们提供了大量的信息资源 ,Web文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术 .本文以矢量空间模型为 Web文本的表示方法 ,提出了一个基于遗传算法的 Web文本特征抽取算法 ,进一步提高了 Web文本的处理效率 ,为文本的分类、聚类以及其它处理提供了简练的特征表示方法 .实验证明 ,该种处理方法有效地降低了文本特征矢量的维数 .
引用
收藏
页码:683 / 686
页数:4
相关论文
共 6 条
[1]
Web文本挖掘技术研究 [J].
王继成 ;
潘金贵 ;
张福炎 .
计算机研究与发展, 2000, (05) :513-520
[2]
Internet上的文本数据挖掘 [J].
王伟强 ;
高文 ;
段立娟 .
计算机科学, 2000, (04) :32-36
[3]
Web数据挖掘 [J].
王实 ;
高文 ;
李锦涛 .
计算机科学, 2000, (04) :28-31+41
[4]
WWW上的信息挖掘技术及实现 [J].
邹涛 ;
王继成 ;
朱华宇 ;
金翔宇 ;
张福炎 .
计算机研究与发展 , 1999, (08)
[5]
基于特征相关性的汉语文本自动分类模型的研究 [J].
张月杰 ;
姚天顺 .
小型微型计算机系统, 1998, (08)
[6]
WWW上的信息发现与搜索引擎技术 [J].
张晓辉 ;
邵华 ;
常桂然 .
小型微型计算机系统, 1998, (06)