基于多Web信息源的主题概念网络获取

被引:1
作者
许焱 [1 ,2 ]
金芝 [1 ,3 ]
李戈 [3 ]
魏强 [1 ,2 ]
机构
[1] 中国科学院数学与系统科学研究院
[2] 中国科学院大学
[3] 高可信软件技术教育部重点实验室(北京大学)
基金
国家自然科学基金重点项目;
关键词
Web信息源; 主题概念网络; 知识获取; 信息检索; 自然语言处理;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
Wikipedia一方面能够提供关于特定百科条目的概念性描述;另一方面,也通过分类系统将这些百科条目组织成一个概念网络.它对信息的广泛覆盖和有效组织使其成为了自动化知识获取的常用信息源.然而,仅仅依靠Wikipedia自身的信息,还不足以准确地刻画其内部概念间的关联性知识,而这是符号化知识表述的一个重要组成部分.因此,提出了一种基于多Web信息源的主题概念网络获取方法.它以Wikipedia的分类系统为基础,同时利用搜索引擎收集相关的Web信息作为关联性知识验证和发现的参照系,并通过集成信息检索和自然语言处理等领域的方法,实现了以给定的主题词为核心,在Wikipedia分类系统对应的概念网络中获取面向该主题的概念网络,同时网络内的概念间关系得到识别和标注.我们基于不同领域的主题词进行了实验,对实验结果的经验性评估展示了所获取的主题概念网络既能满足面向主题的要求,其内部的概念关联性知识又具备了一定的精度要求.
引用
收藏
页码:1843 / 1854
页数:12
相关论文
共 3 条
  • [1] Transforming Wikipedia into a large scale multilingual concept network[J] . Vivi Nastase,Michael Strube.Artificial Intelligence . 2013
  • [2] Building Large Knowledge-Based Systems:Representation and Inference in the Cyc Project .2 Lenat D B,Guha R V. . 1989
  • [3] TheSemantic Web Research and Applications .2 BUITELAAR P,OLEJNIK D,SINTEK M. Springer-Verlag . 2004