网络是人们获取知识和传递信息的桥梁。然而,随着近年来internet的高速发展,网络上信息的数量也呈现指数级的增长,在这一背景下,互联网使用者往往无法轻松找到需要的信息,一种能够充分利用互联网信息的技术呼之欲出。
个性化搜索(Personalized Search)技术一直是近年来信息检索领域的热点,它弥补了目前搜索引擎不区分用户的功能缺陷。
为了向用户提供个性化的信息检索服务,本文采用一系列以用户浏览历史为依据的个性化策略,使搜索引擎能够区分用户,提供真正面向用户的个性化搜索服务。在对课题的研究中,本文所做的主要贡献体现在以下方面:
①合理利用互联网用户的网络浏览历史,采用一种以经典TF-IDF算法为基础的策略,在对不同用户进行特征描述前,首先形成该用户的个性化用户词典。用户词典的采用,不仅可以缩小用户描述空间,大大缩减形成用户描述文件的时间复杂度。同时该词典还支持二级向量的使用,使用户描述更加丰富。
②为了优化用户兴趣描述模型,本文提出一种基于超链接标记的互联网网页正文识别及提取方法,准确获取互联网网页所表达的核心信息,有效削减互联网广告等对用户兴趣贡献不大的信息所带来的噪音。同时,采用一种包含聚类反馈信息的网页频繁词处理策略,在用户词典中剔除对用户兴趣干扰较大的互联网频繁词,从而优化用户词典的描述准确度,以形成更加精确的用户模型。
③对搜索引擎模型进行改造,使用用户词扩展算法,准确定位用户搜索词的类别,计算搜索词同候选关键词之间的相似度,在候选词中选取合适的、面向用户的扩展词,以推荐给用户。并将词扩展策略以搜索组件的形式集成在搜索模型当中,当用户向搜索引擎提交搜索关键词的同时,根据日常学习到的用户个人兴趣,由本文所述的个性化策略对用户潜在的搜索意图进行理解,自动增加几个体现用户偏好的扩展词一起提交给搜索引擎,这样能过滤出需要的信息,以实现搜索引擎的个性化,从而可以提高搜索引擎检索效率。
本文尝试将目前主流的商业搜索引擎作为个性化策略中的模块进行研究,充分利用搜索引擎查全率高,反映速度快的特点,研发了安装于用户主机的客户端搜索组件PSEplugin,该组件具有很大的应用价值和推广潜力。课题研究过程中,通过实验证明了PSEplugin及各相关技术应用于信息检索领域的有效性和实用性。