Web挖掘系统的设计与实现

被引:5
作者
陈建华
包煊
机构
[1] 兰州大学计算机系
[2] 兰州大学计算机系 兰州
[3] 兰州
关键词
Web挖掘; 文本分类; 支持向量机(SVM); 分词;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
介绍了挖掘理论,包括挖掘定义、挖掘任务、挖掘分类个方面,并简单介绍了实现文本挖掘系统WebWebWebWeb3WebWTMiner (的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字和二分查找从而提高了分词速度,分类器Web Text Miner)Hash的设计中考虑到的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度。SVM
引用
收藏
页码:141 / 142+151 +151
页数:3
相关论文
共 5 条
[1]   基于K-最近距离的自动文本分类的研究 [J].
孙健 ;
王伟 ;
钟义信 .
北京邮电大学学报, 2001, (01) :42-46
[2]   基于支持向量机与无监督聚类相结合的中文网页分类器 [J].
李晓黎 ;
刘继敏 ;
史忠植 .
计算机学报, 2001, (01) :62-68
[3]   Web文本挖掘技术研究 [J].
王继成 ;
潘金贵 ;
张福炎 .
计算机研究与发展, 2000, (05) :513-520
[4]   快速书面汉语自动分词系统及其算法设计 [J].
张国煊 ;
王小华 ;
周必水 .
计算机研究与发展, 1993, (01) :61-65
[5]  
Research Issues in Web Data Mining .2 Madria S K,Bhowmick S S,Ng W K,et al. In:Proceedings of Data Warehousing and Knowledge Discovery (DaWaK’99) . 1999