基于Web的数据挖掘研究

被引:0
作者
张承明
机构
[1] 山东科技大学
关键词
数据挖掘; Web挖掘; 浏览兴趣; 个性化推荐;
D O I
暂无
年度学位
2003
学位类型
硕士
导师
摘要
数据挖掘技术是近年来随着数据库技术和人工智能技术的发展而出现的全新的信息技术,融合了数据库、人工智能和统计学等多种学科的知识,试图从数据中提取出先前未知、有效和实用的知识。数据挖掘技术与统计学、数据库技术、数据库知识发现等学科与密切的联系,也有明显的不同。数据挖掘主要研究内容包括广义知识、关联知识、分类知识、聚类知识、预测型知识和偏差型知识的内容。使用关联分析、分类和聚类分析、神经网络、决策树和规则推理等技术进行挖掘。 由于Web上的信息具有数量庞大、无序性强、重复性大的特点,人们现在还不能迅速、方便地从Web所包含的大量信息中获取所需要的信息。Web挖掘是传统数据挖掘技术在Web环境下的应用,试图从大量的Web文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用模式挖掘。Web使用模式挖掘是从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构或为用户提供个性化的服务。 本文对Web使用模式挖掘的数据采集、用户浏览兴趣的度量和表达两个方面进行了研究,主要的工作有: 1.分析了现有Web使用模式挖掘的数据采集方式,指出了当前数掘采集方式的不足,如由于HTTP协议的无状态连接而难以在Web日志中得到准确的用户浏览信息。提出了一种综合利用服务器日志文件和客户端数据获取用户浏览信息的方法。 2.兴趣是指个人对客观事物的选择性态度,准确地度量用户浏览兴趣是Web使用模式挖掘的基础。本文针对Web使用模式挖掘领域,首先分析了已有的度量用户浏览兴趣方式的不足之处,如度量方式过于简单而导致不能更好地区分用户感兴趣类与不感兴趣类;没有考虑页面信息量对用户浏览时长的影响等。在此基础上,提出了一种基于用户浏览行为度量用户浏览兴趣的方法。 3.如何有效地表达用户浏览兴趣是Web使用模式挖掘研究的方向之一。本文在分析了现有的表达用户浏览兴趣方式的基础上,提出了一种基于树形结构表达用户浏览兴趣的方式。 本文提出的基于用户浏览行为度量和表达用户浏览兴趣的方法改进 山东科技大学硕士学位论文 摘要 了原有的度量和表达方式在数据采集、兴趣度量、兴趣表达儿个方面的不 足,以便更好地为进一步的挖掘做准备。
引用
收藏
页数:81
共 32 条
[1]
基于主题的Web信息个性化服务 [J].
朱明 ;
严捷丰 ;
蔡庆生 .
计算机应用, 2002, (12) :4-6+10
[2]
Web用户模式 [J].
严彩梅 .
扬州大学学报(自然科学版), 2002, (03) :53-56
[3]
基于模糊概念图的文档聚类及其在Web中的应用 [J].
陈宁 ;
陈安 ;
周龙骧 ;
贾维嘉 ;
罗三定 .
软件学报, 2002, (08) :1598-1605
[4]
Web挖掘系统的设计与实现 [J].
陈建华 ;
包煊 .
计算机工程, 2002, (08) :141-142+151
[5]
Web挖掘研究 [J].
陈新中 ;
李岩 ;
谢永红 ;
杨炳儒 .
计算机工程与应用, 2002, (13) :42-44
[6]
评测Web使用分析中会话识别的准确度 [J].
石晶 ;
龚震宇 ;
裘杭萍 ;
张毓森 .
电子科技大学学报, 2002, (03) :281-285
[7]
一种面向个性化服务的无需反例集的用户建模方法 [J].
应晓敏 ;
刘明 ;
窦文华 .
国防科技大学学报, 2002, (03) :67-71
[8]
超文本阅览中的人的因素 [J].
沈模卫 ;
崔艳青 ;
陶嵘 .
浙江大学学报(理学版), 2002, (03) :355-360
[9]
Web访问挖掘预处理的用户识别算法 [J].
李煊 ;
庄镇泉 ;
不详 .
计算机工程与应用 , 2002, (07) :173-176
[10]
Web日志挖掘 [J].
宋爱波 ;
胡孔法 ;
董逸生 .
东南大学学报(自然科学版), 2002, (01) :15-18