随着互联网技术的快速发展,网络信息资源呈现出一种爆炸式的增长态势,与此同时增加的还有人们的信息需求量,但是要从这个庞大的信息海洋中快速并准确地定位到自己所需要的信息,却比较困难,进而导致了所谓的“信息过载”和“信息迷向”问题。其中,最主要的原因是通用搜索引擎没有将用户的个性化需求纳入到检索过程中,提供千篇一律的检索结果。因此,如何了解用户意图,掌握用户的个性化信息,并提供个性化服务成为信息检索领域中许多学者的研究热点。
本文构建了个性化信息检索系统(Personalized Information Retrieval System,简称PIRS),将传统的信息检索系统与用户模型有机地结合起来,建立面向用户兴趣的个性化信息检索系统。PIRS系统主要实现了用户兴趣的识别,用户模型的构建与学习,查询扩展,以及根据查询结果和用户兴趣的匹配程度提供个性化服务等。其中,本文研究的主要内容有:
(1)论述了信息检索技术的研究现状,分析其中存在的问题,进而提出PIRS系统的研究意义。在此基础上,分析了个性化信息检索的业务流程,给出PIRS系统的框架结构和总体设计。
(2)从用户个性化模型构建的各个阶段出发,分别进行了相关的研究,包括:①领域本体的构建。利用文本挖掘技术获取相关词语,以此协助领域专家完成领域本体的半自动构建。②初始化用户模型的构建。根据用户所提交的基本信息,通过本体投影的方式获取用户初始个性化模型,并给出本体投影的算法。③个性化用户模型的学习更新。分析用户的检索或浏览的行为,以此构建参考本体,再将其归并到用户模型中,从而实现用户个性化模型的学习和更新。
(3)将用户模型应用到个性化信息检索环境中,主要包括以下两个方面:①查询扩展。针对用户输入的三种查询模式,即T1 ,2,....,n模式, O1 ,2,....,n模式, T1 ,2,...., n + O1,2,....,n模式,我们分别设计了相应的扩展算法,使得查询词可以更好地反映用户的需求;②查询结果集合的过滤和优化。根据余弦定理计算文档与查询词的相关度,再将大于指定阈值的文档以降序的方式呈现给用户。
(4)利用Sogou实验室提供的搜索日志,设计实验验证个性化信息检索系统的可行性和有效性。实验结果证明,基于本体的个性化信息检索系统在相对查全率和相对查准率方面,比基于关键词的信息检索有一定的改进。