基于页面内容和站点结构的页面聚类挖掘算法

被引：20

作者：

杨怡玲

管旭东

尤晋元

机构：

[1] 上海交通大学计算机科学与工程系分布计算技术中心

[2] 上海交通大学计算机科学与工程系分布计算技术中心上海

[3] 上海

来源：

关键词：

Web日志挖掘; 日志分析; 页面聚类; 频繁访问页组;

D O I：

10.13328/j.cnki.jos.2002.03.021

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,发现的频繁访问页组的兴趣性高.

引用

页码：467 / 469

页数：3