基于分布式多索引融合的专利信息检索研究

被引:0
作者
朴红吉
机构
[1] 大连理工大学
关键词
信息检索; 融合模型; 分布式计算;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
信息检索在社会经济发展、人们日常生活中扮演着越来越重要的角色,专利信息的检索受到越来越广泛的关注和重视。然而,信息检索发展至今,在理论和应用上仍有许多不完善之处,与人们日益增长的对信息检索的需求相差较远。本文主要工作体现在分布式专利检索、索引池、信息融合等三方面。本文中文专利信息检索为研究背景,对中文专利检索相关理论和方法进行了研究。 本文首先给出了基于分布式的专利信息检索方法,对分布式环境下索引建立、检索过程进行了讨论,这也是索引池研究的基础。 对于海量数据挖掘中的信息检索问题,如何建立索引是一个重要的研究课题。本文提出了面向应用的索引池概念,对索引对检索结果的影响进行了讨论,并实现了基于Nutch索引池的一个应用。 本文提出将现有的关键词检索方法与语义检索方法检索出的结果进行融合,提高一次查询的查全率。在融合过程中采用了结果集相关性调整的策略,使得相关专利在结果集中的位置得以提前,方便检索人员进行检索。 本文主要研究内容如下: (1)对分布式环境下专利检索进行的研究,主要对专利信息的分布式爬取、分布式建立索引和分布式检索进行了研究和实现。 (2)提出了面向具体应用的索引池的概念和索引池模型,并针对索引池模型,给出了索引评价方法。实现了基于Nutch的索引池搜索工具。基于Nutch,实现了在分布式环境下的爬虫、索引、检索一整套索引池应用,通过实验验证了索引池理论。 (3)给出了一种信息融合的模型。针对中文专利检索的特点,设计了RSSI融合模型。该模型将基于关键词检索与基于语义检索的结果集进行融合,在融合策略上考虑到了不同结果集长度、相关性分值大小等条件,优化了最终的检索结果的查全率与平均查准率。
引用
收藏
页数:66
共 23 条
[1]
基于HDFS的云存储服务系统研究 [D]. 
黄晓云 .
大连海事大学,
2010
[2]
面向产品创新设计的语义关键词专利检索方法 [D]. 
杜昂 .
大连理工大学,
2009
[3]
传统搜索引擎与语义搜索引擎比较研究 [D]. 
赵夷平 .
吉林大学,
2009
[4]
面向图书检索的图书摘要概念图标引研究 [D]. 
陈戈 .
上海交通大学,
2008
[5]
基于语言模型的句子检索技术研究 [D]. 
高立琦 .
哈尔滨工业大学,
2007
[6]
基于领域本体的文本信息语义检索研究 [D]. 
毛平 .
南京理工大学,
2007
[7]
基于语言模型的文本检索技术及检索结果重排序的研究 [D]. 
胡晓光 .
哈尔滨工业大学,
2006
[8]
搜索引擎现状与发展研究 [D]. 
乔冬梅 .
郑州大学,
2002
[9]
语义搜索研究综述 [J].
文坤梅 ;
卢正鼎 ;
孙小林 ;
李瑞轩 .
计算机科学, 2008, (05) :1-4
[10]
面向审查任务的中文专利检索模型与实验 [J].
刘玉琴 ;
刘嵩 ;
于波 .
计算机应用研究, 2008, (05) :1483-1484+1495