基于web的个性化挖掘方法

被引:0
作者
张日崇
机构
[1] 吉林大学
关键词
用户概貌; GSP; 个性化信息服务系统; 挖掘方法; web; Internet;
D O I
暂无
年度学位
2004
学位类型
硕士
导师
摘要
随着科学技术的飞速发展,信息高速公路的普及,人们已经被包围在信息的汪洋大海之中。Internet是海量信息源,而且其信息的组织是异构的、多元的和分布的。由于信息不断地更新和增加,网络教育在世界各国日益普及。越来越多的人通过internet进行学习。 网络教育资源管理系统NERMS(Network Educational Resource Management System,以下简称NERMS)是吉林大学承担的吉林省科学技术厅的重大项目。NERMS的主要目标是对繁多的网络教育资源进行有效的组织和管理,以便于网络教育资源的高度共享和便利获取,从而加快网络教育资源的开发和促进网络教育的发展。 在NERMS中为了给用户更好的服务,为不同的用户提供适合其自身特点的个性化页面。 将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求,实现Internet系统对浏览者的主动信息服务。这正是新一代的信息服务的发展方向。 个性化主动信息服务的实现途径就是通过对用户信息需要、兴趣爱好和访问历史的收集分析,建立用户模型,并将用户模型应用于信息的过滤和排序,从而指导用户的浏览过程和信息检索,或向用户主动推送信息。Internet上的个性化信息服务系统必须具有三个能力,即用户概貌能很好地反映用户的兴趣嗜好;为适应用户嗜好的变化,用户概貌能做适应性的改变;自动开发新的信息领域,主动向用户提供推荐服务。 本文首先介绍了个性化主动信息服务推荐技术。然后分析了NERMS中个性化系统的结构和工作原理并给出了相关的工作,即如何根据不同用户各自的特点主动的为用户提供其相关的信息于内容。 接着介绍了GSP算法(Global Sequential Pattern Algorithm)。GSP算法是一个基于AprioriAll的算法。GSP的引入是为了发现满足序列模式中的时间约束、滑动窗口的模式。GSP算法增加了时间约束、滑动窗口和分类法。通过添加这些约束,可以将数据库转换成了许多用户的访问序列。每个客户序列显示出这个客户已经进行了的访问。因此挖掘frequent序列问题是要发现那些在所有客户序列之间以足够频率出现的“后继”(或项目集)。在科学和商业的很多领域,发现事件之间预期的序列关联越来越有 用和重要。 随后对GSP算法的原理及实现方法进行了详细的介绍,然后介绍如何将该方法应用到了NERMS中。GSP 挖掘方法用来对web日志中的用户的访问资源顺序进行挖掘,找到交互信息的共同特征,以此来找到用户的兴趣爱好所在,为用户生成相应的推荐。在文中作者也论述了GSP算法的优点在于效率高,比其他算法要节省时间的特点。同时本文也给出了算法的执行结果以及与其他算法的比较。除了高性能的有点之外,用户可以指定序列模式中连续成员之间的最大间隔和最小间隔。模式的每个成员都可以包含在一系列交易中所购买的物品的并集中,只要最大间隔和最小间隔之差小于指定的滑动窗口时间大小即可。最小间隔约束不会带来性能退化,但是,使用最大间隔或滑动窗口却会损失一定的性能。因为一旦加入了滑动窗口,可能会生成更多的候选者。但是这个特性为用户提供了更多的灵活性。这个系统实现了GSP算法的所有部分。它能够有效地提供客户的频繁序列模式的正确输出。文中也将GSP算法和其它的算法AprioriAll进行了比较,我们可以看到GSP算法比AprioriAll算法更有效一些。 在本文的最后一部分,给出了应用个性化系统之后,整个系统的输入和输出界面并列出了系统的推荐时间,可以看出整个系统的执行效率是非常出色的。
引用
收藏
页数:63
共 10 条
[1]
信息过滤技术和个性化信息服务 [J].
徐小琳 ;
阙喜戎 ;
程时端 ;
不详 .
计算机工程与应用 , 2003, (09) :182-184
[2]
基于Web的文本挖掘 [J].
唐菁 ;
张前 ;
陈泓婕 ;
刘宁 ;
杨炳儒 ;
不详 .
计算机工程与应用 , 2002, (21) :198-201
[3]
Push技术:网上个性化信息服务的实现 [J].
郝亚玲 .
情报杂志 , 2002, (10) :55-57
[4]
Internet个性化信息服务研究综述 [J].
李勇 ;
徐振宁 ;
张维明 ;
不详 .
计算机工程与应用 , 2002, (19) :183-188
[5]
基于Web使用挖掘的个性化服务系统 [J].
石晶 ;
龚震宇 ;
裘杭萍 .
电子科技大学学报, 2002, (04) :399-403
[6]
Web数据挖掘中的数据预处理 [J].
陈宝树 ;
党齐民 .
计算机工程, 2002, (07) :125-127
[7]
基于关联规则挖掘的个性化智能推荐服务 [J].
李煊 ;
汪晓岩 ;
庄镇泉 ;
不详 .
计算机工程与应用 , 2002, (11) :200-204+229
[8]
Web挖掘研究 [J].
韩家炜 ;
孟小峰 ;
王静 ;
李盛恩 .
计算机研究与发展, 2001, (04) :405-414
[9]
数据挖掘技术在Web预取中的应用研究 [J].
徐宝文 ;
张卫丰 .
计算机学报, 2001, (04) :430-436
[10]
Web日志的高效多能挖掘算法 [J].
宋擒豹 ;
沈钧毅 .
计算机研究与发展, 2001, (03) :328-333