学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于关联规则的Web文档聚类算法
被引:34
作者
:
宋擒豹
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学计算机科学与技术系
宋擒豹
沈钧毅
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学计算机科学与技术系
沈钧毅
机构
:
[1]
西安交通大学计算机科学与技术系
来源
:
软件学报
|
2002年
/ 03期
关键词
:
文档聚类;
关联规则;
Web挖掘;
WWW;
D O I
:
10.13328/j.cnki.jos.2002.03.014
中图分类号
:
TP393.03 [];
学科分类号
:
摘要
:
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值.
引用
收藏
页码:417 / 423
页数:7
相关论文
未找到相关数据
未找到相关数据