一种改进的基于关系的信息检索技术

被引:3
作者
李岩 [1 ]
文健 [1 ]
李舟军 [2 ]
机构
[1] 国防科学技术大学计算机学院
[2] 北京航空航天大学计算机科学与工程学院
关键词
信息检索; 关系抽取; 查询分析; 三元组结构;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
有研究工作表明现有的基于关系的信息检索技术(RIR)优于基于项(term)或基于语义(concept)的IR技术,但仍存在显而易见的缺陷,即不能明确关系本身,只能表达概念A,B是存在关系的概念对。本文提出一种改进的基于关系的IR技术—IRIR(Improved Relation-based Information Retrieval),就是要明确关系的取值和属性,整合概念对和关系的信息为三元组表达式(triple),通过以下匹配方法获取未知信息。对于文本中出现的知识表示为R(rela-tion)[First Concept,Second Concept],对于疑问代词(如what)开头的查询表达为R(relation)[First Concept,Un-known],对于疑问副词(如how)开头的查询表达为R(Unknown)[First Concept,Second Concept],当文本与查询的三元组表达式中已知部分匹配一致时,则得到查询未知部分的一个取值。由此,既可以实现类似QA(query answer)功能,又可以完成精确信息检索。基于Drexel大学DM&Bioinformatics Lab开发的生物医学文献搜索引擎(2004版,简称为RIRS),我们开发了一个能实现IRIR技术和功能的实验IR引擎—IRIRS(Improved Relation-Based IR Sys-tem),该系统使用UMLS和WordNet两大权威本体库分别确定概念和关系,在博士入学考试英语阅读理解测试集上的实验结果令人满意,IRIRS将文字段级别的检索精确度MA PP(Mean average passage precision)从RIRS的64.44%提高到74.28%。这表明,在IR中应用改进的基于关系的信息检索技术是非常具有探索价值的。
引用
收藏
页码:145 / 150
页数:6
相关论文
共 6 条
  • [1] 薄冰英语语法[M]. 开明出版社 , 薄冰编著, 1998
  • [2] Learning Information Extraction Rules for Semi-Structured and Free Text
    Stephen Soderland
    [J]. Machine Learning, 1999, 34 : 233 - 272
  • [3] 博士硕士生入学考试英语阅读精粹. 吴永麟,习天辉. 学苑出版社 . 2006
  • [4] Meeting Medical Terminology Needs-The On-tology-Enhanced Medical Concept Mapper. Leroy G,Chen H. IEEE Transactions on Information Technology in Biomedicine . 2001
  • [5] Improving Automatic QueryExpansion. Mitra C U,Singhal A,Buckely C. Proceedings of the 21st Annual International ACMSIGIR Conference on Research and Development in InformationRetrieval . 1998
  • [6] http://ir.ohsu.edu/genomics/2006data.ht ml topics .