基于用户词典的搜索个性化研究

被引:0
作者
罗颖
机构
[1] 重庆大学
关键词
中文搜索引擎; 浏览历史; 用户词典; 词扩展策略;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
网络是人们获取知识和传递信息的桥梁。然而,随着近年来internet的高速发展,网络上信息的数量也呈现指数级的增长,在这一背景下,互联网使用者往往无法轻松找到需要的信息,一种能够充分利用互联网信息的技术呼之欲出。 个性化搜索(Personalized Search)技术一直是近年来信息检索领域的热点,它弥补了目前搜索引擎不区分用户的功能缺陷。 为了向用户提供个性化的信息检索服务,本文采用一系列以用户浏览历史为依据的个性化策略,使搜索引擎能够区分用户,提供真正面向用户的个性化搜索服务。在对课题的研究中,本文所做的主要贡献体现在以下方面: ①合理利用互联网用户的网络浏览历史,采用一种以经典TF-IDF算法为基础的策略,在对不同用户进行特征描述前,首先形成该用户的个性化用户词典。用户词典的采用,不仅可以缩小用户描述空间,大大缩减形成用户描述文件的时间复杂度。同时该词典还支持二级向量的使用,使用户描述更加丰富。 ②为了优化用户兴趣描述模型,本文提出一种基于超链接标记的互联网网页正文识别及提取方法,准确获取互联网网页所表达的核心信息,有效削减互联网广告等对用户兴趣贡献不大的信息所带来的噪音。同时,采用一种包含聚类反馈信息的网页频繁词处理策略,在用户词典中剔除对用户兴趣干扰较大的互联网频繁词,从而优化用户词典的描述准确度,以形成更加精确的用户模型。 ③对搜索引擎模型进行改造,使用用户词扩展算法,准确定位用户搜索词的类别,计算搜索词同候选关键词之间的相似度,在候选词中选取合适的、面向用户的扩展词,以推荐给用户。并将词扩展策略以搜索组件的形式集成在搜索模型当中,当用户向搜索引擎提交搜索关键词的同时,根据日常学习到的用户个人兴趣,由本文所述的个性化策略对用户潜在的搜索意图进行理解,自动增加几个体现用户偏好的扩展词一起提交给搜索引擎,这样能过滤出需要的信息,以实现搜索引擎的个性化,从而可以提高搜索引擎检索效率。 本文尝试将目前主流的商业搜索引擎作为个性化策略中的模块进行研究,充分利用搜索引擎查全率高,反映速度快的特点,研发了安装于用户主机的客户端搜索组件PSEplugin,该组件具有很大的应用价值和推广潜力。课题研究过程中,通过实验证明了PSEplugin及各相关技术应用于信息检索领域的有效性和实用性。
引用
收藏
页数:56
共 31 条
[1]
基于用户模型的个性化信息检索研究 [J].
伍大清 ;
阳小华 ;
刘元剑 ;
许纲理 .
计算技术与自动化, 2008, (03) :120-124
[2]
Ontology的构建及在个性化检索中的研究 [J].
陈晓金 ;
王兵 .
兰州交通大学学报, 2008, (03) :126-129
[3]
一种基于动态特征词典的SVM中文电子邮件过滤方法 [J].
侯岩 ;
王文剑 .
计算机科学, 2008, (03) :49-51
[4]
基于用户浏览行为聚类Web用户 [J].
陈敏 ;
苗夺谦 ;
段其国 .
计算机科学, 2008, (03) :186-187+255
[5]
文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[6]
基于二级向量描述的搜索引擎个性化服务模型 [J].
徐静秋 ;
朱征宇 ;
谭明红 ;
任翔 .
计算机科学, 2007, (11) :89-93
[7]
Web文档中词语权重计算方法的改进 [J].
初建崇 ;
刘培玉 ;
王卫玲 .
计算机工程与应用 , 2007, (19) :192-194+198
[8]
基于专业搜索引擎的元搜索引擎的设计 [J].
张芳 ;
肖国强 .
郑州大学学报(理学版), 2007, (02) :38-41
[9]
隐含语义索引模型的分析与研究 [J].
王春红 ;
张敏 .
计算机应用, 2007, (05) :1283-1285+1288
[10]
基于搜索引擎的关键词自动聚类法 [J].
邓健爽 ;
郑启伦 ;
彭宏 ;
邓维维 .
计算机科学, 2007, (03) :162-164