互联网与WWW以惊人的速度迅猛发展,使得设计与维护Web站点的工作变得尤为重要。摆在研究人员面前的新课题是如何管理WWW上的大量信息,以满足用户不断增长的个性化的信息需求。个性化服务技术已经成为当前信息服务领域的研究热点之一。所谓个性化服务就是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。
本文首先对数据挖掘技术进行了阐述,进而分析了当前主要的Web挖掘技术和用户兴趣建模技术,提出了以Web用户浏览内容分析为主和以浏览行为分析为辅的用户兴趣挖掘过程模型。然后,初步研究和探讨了对文本页面的表示技术,包括:文本的向量空间模型表示、特征项的选择和抽取算法,将文本页面表示为结构化的向量空间模型格式。
接着,本文重点探讨了文本页面的聚类分析和用户兴趣模型的建立两个方面。通过文本之间的相似度计算,对文本集进行聚类分析。在比较了现有聚类算法和实际应用环境后,提出了将层次凝聚法(agglomerative algorithm)和平面划分法(K-means algorithm)相结合的新算法。在聚类结果的基础上,采用二层树状用户兴趣模型以加权矢量格式来表示每一个用户的兴趣。为了便于用户兴趣模型的使用和更新,每一兴趣类也采用向量空间模型来表示,内容页面与兴趣类的比较就可以采用常用的相似性函数来进行相似度计算。最后进行了模拟试验,使理论直观化了,具体化了。
通过试验也表明了本文所改进的聚类算法实现简单,准确率较高;提出的用户兴趣模型能较准确地描述用户兴趣所在,在个性化推荐服务中具有实际应用价值。