基于页面内容和站点结构的页面聚类挖掘算法

被引:20
作者
杨怡玲
管旭东
尤晋元
机构
[1] 上海交通大学计算机科学与工程系分布计算技术中心
[2] 上海交通大学计算机科学与工程系分布计算技术中心 上海
[3] 上海
关键词
Web日志挖掘; 日志分析; 页面聚类; 频繁访问页组;
D O I
10.13328/j.cnki.jos.2002.03.021
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,发现的频繁访问页组的兴趣性高.
引用
收藏
页码:467 / 469
页数:3
相关论文
共 1 条
[1]  
Piatetsky-Shapiro,G.Smyth,P.TheKDD process for extracting useful knowledge from volumes of data. Fayyad,U.M. Communications of theACM . 1996