信息检索在社会经济发展、人们日常生活中扮演着越来越重要的角色,专利信息的检索受到越来越广泛的关注和重视。然而,信息检索发展至今,在理论和应用上仍有许多不完善之处,与人们日益增长的对信息检索的需求相差较远。本文主要工作体现在分布式专利检索、索引池、信息融合等三方面。本文中文专利信息检索为研究背景,对中文专利检索相关理论和方法进行了研究。
本文首先给出了基于分布式的专利信息检索方法,对分布式环境下索引建立、检索过程进行了讨论,这也是索引池研究的基础。
对于海量数据挖掘中的信息检索问题,如何建立索引是一个重要的研究课题。本文提出了面向应用的索引池概念,对索引对检索结果的影响进行了讨论,并实现了基于Nutch索引池的一个应用。
本文提出将现有的关键词检索方法与语义检索方法检索出的结果进行融合,提高一次查询的查全率。在融合过程中采用了结果集相关性调整的策略,使得相关专利在结果集中的位置得以提前,方便检索人员进行检索。
本文主要研究内容如下:
(1)对分布式环境下专利检索进行的研究,主要对专利信息的分布式爬取、分布式建立索引和分布式检索进行了研究和实现。
(2)提出了面向具体应用的索引池的概念和索引池模型,并针对索引池模型,给出了索引评价方法。实现了基于Nutch的索引池搜索工具。基于Nutch,实现了在分布式环境下的爬虫、索引、检索一整套索引池应用,通过实验验证了索引池理论。
(3)给出了一种信息融合的模型。针对中文专利检索的特点,设计了RSSI融合模型。该模型将基于关键词检索与基于语义检索的结果集进行融合,在融合策略上考虑到了不同结果集长度、相关性分值大小等条件,优化了最终的检索结果的查全率与平均查准率。