基于PLSA模型的Web用户聚类算法研究

被引:3
作者
俞辉
机构
[1] 中国石油大学计算机与通信工程学院
关键词
Web日志; Web用户; 概率潜在语义分析; 聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
面对因特网上急剧增加的网页内容,通过对Web日志中的浏览记录进行聚类分析,可以改进信息搜索和个性化服务的效率。根据信息论理论,在会话-页面矩阵权值计算中考虑局部和全局权值的贡献;利用PLSA将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。
引用
收藏
页码:30 / 32+72 +72
页数:4
相关论文
共 2 条
[1]   路径聚类:在Web站点中的知识发现 [J].
王实 ;
高文 ;
李锦涛 ;
谢辉 ;
不详 .
计算机研究与发展 , 2001, (04) :482-486
[2]   Unsupervised Learning by Probabilistic Latent Semantic Analysis [J].
Thomas Hofmann .
Machine Learning, 2001, 42 :177-196