学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
网站日志的数据挖掘
被引:0
作者
:
段晓峰
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学
重庆大学
段晓峰
机构
:
[1]
重庆大学
关键词
:
数据挖掘;
WEB挖掘;
WEB使用记录挖掘;
Apriori;
D O I
:
暂无
年度学位
:
2003
学位类型
:
硕士
导师
:
熊忠阳;
摘要
:
随着INTERNET上数据量呈爆炸式的增长,信息数据的有用性变的十分必要。WEB挖掘是将数据挖掘技术应用于互联网,目前在许多研究领域都是热点。作者讨论了WEB挖掘和WEB挖掘的分类。根据挖掘的内容,WEB挖掘可分为三种,WEB使用挖掘,WEB内容挖掘,WEB结构挖掘。对每种挖掘,作者都讨论了与其相关的研究领域,技术和发展方向。WEB使用挖掘是本文主要的研究方向。 WEB使用挖掘是利用数据挖掘技术根据WEB使用数据挖掘用户访问网站的行为模式。网站使用记录挖掘不同与网站内容挖掘和网站结构挖掘,它的挖掘对象不是网上的原始数据,而是记录用户与网站交互的过程的数据。就些数据包括:客户端浏览器日志记录,网站服务器访问记录、代理服务器日志记录、用户注册信息等。WEB使用挖掘分为三个阶段,数据预处理,模式发现,模式分析。作者详细讨论了这三个阶段所遇到的问题和解决办法。 许多数据挖掘方法在WEB挖掘上都有很好的应用,作者讨论以下几种在WEB使用记录上常用的方法,统计分析方法,关联规则方法,序列模式方法,聚类方法,分类方法,并着重讨论关联规则方法应用于WEB使用记录的挖掘。关联规则方法在数据挖掘领域被广泛应用,它主要用于发现有用的模式,典型的例子就是购物篮分析。将关联规则应用于WEB使用记录挖掘的关键在于如何构造购物篮。用户点击网站的每一页所产生的动作都被服务器记录在日志中,分析日志文件,并结合网站的拓扑和实际内容,经过数据清理,用户识别,会话识别,事务识别四个数据预处理过程,我们可以获得一个事务集合,从而构造购物篮。作者详细讨论了在构造购物篮的过程中所遇到的问题和解决办法。Apriori 算法是一种著名的关联规则挖掘算法,本文讨论了该算法及其实现,并将其应用到一个典型的网站上。 最后,在这些工作的基础上,作者将WEB使用记录挖掘应用到重庆电视台互联网站上,得到了一些有用的模式。
引用
收藏
页数:45
共 19 条
[1]
基于Bayes潜在语义模型的半监督Web挖掘
[J].
宫秀军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室,中国科学院计算技术研究所智能信息处理开放实验室北京,北京
宫秀军
;
论文数:
引用数:
h-index:
机构:
史忠植
.
软件学报,
2002,
(08)
:1508
-1514
[2]
XML语言在Web数据挖掘中的应用
[J].
论文数:
引用数:
h-index:
机构:
左开中
;
论文数:
引用数:
h-index:
机构:
汪伟
.
微机发展,
2002,
(03)
:59
-61
[3]
基于关联规则的Web文档聚类算法
[J].
论文数:
引用数:
h-index:
机构:
宋擒豹
;
论文数:
引用数:
h-index:
机构:
沈钧毅
.
软件学报,
2002,
(03)
:417
-423
[4]
网络数据挖掘及其新技术探讨
[J].
论文数:
引用数:
h-index:
机构:
万方
;
尹为民
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机科学系
尹为民
;
吴迪
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机科学系
吴迪
.
信息技术,
2002,
(01)
:10
-11
[5]
基于Web-Log Mining的Web文档聚类
[J].
苏中
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系,清华大学计算机科学与技术系,SimonFraser大学,微软中国研究院北京清华大学智能技术与系统国家重点实验室,北京,北京清华大学智能技术与系统国家重点实验室,北京,加拿大,北京
苏中
;
论文数:
引用数:
h-index:
机构:
马少平
;
论文数:
引用数:
h-index:
机构:
杨强
;
论文数:
引用数:
h-index:
机构:
张宏江
.
软件学报,
2002,
(01)
:99
-104
[6]
基于Web的数据挖掘技术及访问路径模式的研究.[J].袁友伟.株洲工学院学报.2001, 05
[7]
Web数据挖掘技术及工具研究
[J].
论文数:
引用数:
h-index:
机构:
邓英
;
论文数:
引用数:
h-index:
机构:
李明
.
计算机工程与应用,
2001,
(20)
:92
-94
[8]
Web数据挖掘的BN实现方案
[J].
论文数:
引用数:
h-index:
机构:
钟清流
.
计算机工程,
2001,
(06)
:46
-48
[9]
Web日志中挖掘用户浏览模式的研究
[J].
施建生
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学电子与信息工程学院!,西安,西安交通大学电子与信息工程学院!,西安,西安交通大学电子与信息工程学院!,西安,上海交通大学电子信息学院
施建生
;
论文数:
引用数:
h-index:
机构:
伍卫国
;
论文数:
引用数:
h-index:
机构:
陆丽娜
;
杨怡玲
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学电子与信息工程学院!,西安,西安交通大学电子与信息工程学院!,西安,西安交通大学电子与信息工程学院!,西安,上海交通大学电子信息学院
杨怡玲
.
西安交通大学学报,
2001,
(06)
:621
-624
[10]
路径聚类:在Web站点中的知识发现
[J].
论文数:
引用数:
h-index:
机构:
王实
;
论文数:
引用数:
h-index:
机构:
高文
;
论文数:
引用数:
h-index:
机构:
李锦涛
;
论文数:
引用数:
h-index:
机构:
谢辉
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
不详
.
计算机研究与发展 ,
2001,
(04)
:482
-486
←
1
2
→
共 19 条
[1]
基于Bayes潜在语义模型的半监督Web挖掘
[J].
宫秀军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室,中国科学院计算技术研究所智能信息处理开放实验室北京,北京
宫秀军
;
论文数:
引用数:
h-index:
机构:
史忠植
.
软件学报,
2002,
(08)
:1508
-1514
[2]
XML语言在Web数据挖掘中的应用
[J].
论文数:
引用数:
h-index:
机构:
左开中
;
论文数:
引用数:
h-index:
机构:
汪伟
.
微机发展,
2002,
(03)
:59
-61
[3]
基于关联规则的Web文档聚类算法
[J].
论文数:
引用数:
h-index:
机构:
宋擒豹
;
论文数:
引用数:
h-index:
机构:
沈钧毅
.
软件学报,
2002,
(03)
:417
-423
[4]
网络数据挖掘及其新技术探讨
[J].
论文数:
引用数:
h-index:
机构:
万方
;
尹为民
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机科学系
尹为民
;
吴迪
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机科学系
吴迪
.
信息技术,
2002,
(01)
:10
-11
[5]
基于Web-Log Mining的Web文档聚类
[J].
苏中
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系,清华大学计算机科学与技术系,SimonFraser大学,微软中国研究院北京清华大学智能技术与系统国家重点实验室,北京,北京清华大学智能技术与系统国家重点实验室,北京,加拿大,北京
苏中
;
论文数:
引用数:
h-index:
机构:
马少平
;
论文数:
引用数:
h-index:
机构:
杨强
;
论文数:
引用数:
h-index:
机构:
张宏江
.
软件学报,
2002,
(01)
:99
-104
[6]
基于Web的数据挖掘技术及访问路径模式的研究.[J].袁友伟.株洲工学院学报.2001, 05
[7]
Web数据挖掘技术及工具研究
[J].
论文数:
引用数:
h-index:
机构:
邓英
;
论文数:
引用数:
h-index:
机构:
李明
.
计算机工程与应用,
2001,
(20)
:92
-94
[8]
Web数据挖掘的BN实现方案
[J].
论文数:
引用数:
h-index:
机构:
钟清流
.
计算机工程,
2001,
(06)
:46
-48
[9]
Web日志中挖掘用户浏览模式的研究
[J].
施建生
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学电子与信息工程学院!,西安,西安交通大学电子与信息工程学院!,西安,西安交通大学电子与信息工程学院!,西安,上海交通大学电子信息学院
施建生
;
论文数:
引用数:
h-index:
机构:
伍卫国
;
论文数:
引用数:
h-index:
机构:
陆丽娜
;
杨怡玲
论文数:
0
引用数:
0
h-index:
0
机构:
西安交通大学电子与信息工程学院!,西安,西安交通大学电子与信息工程学院!,西安,西安交通大学电子与信息工程学院!,西安,上海交通大学电子信息学院
杨怡玲
.
西安交通大学学报,
2001,
(06)
:621
-624
[10]
路径聚类:在Web站点中的知识发现
[J].
论文数:
引用数:
h-index:
机构:
王实
;
论文数:
引用数:
h-index:
机构:
高文
;
论文数:
引用数:
h-index:
机构:
李锦涛
;
论文数:
引用数:
h-index:
机构:
谢辉
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
不详
.
计算机研究与发展 ,
2001,
(04)
:482
-486
←
1
2
→