随着Intenet的快速发展,web已经成为跨全球的信息源。使用传统的搜索引擎,用户要精确地找到所需信息往往十分困难。提高搜索引擎准确性的一个主要途径是使其在某种程度上理解信息源的内容。基于此,本文提出一种基于ontology信息抽取技术,它把ontology和信息处理技术结合起来,是现在信息抽取研究的一个热点,其最大的优点是对网页结构的依赖很少,只要事先创建的应用领域ontology足够强大,系统可以对该应用领域中各种文本实现信息抽取。这项技术对网络资源的分类、登记建档及进一步的监管和过滤具有重要意义。
本文首先介绍了信息抽取技术及其产生背景和发展历史,分析了信息抽取系统体系结构、信息抽取的分类及信息抽取的关键技术和衡量指标,然后介绍了ontology的基本知识。在此基础上,本文提出了一种基于ontology的信息抽取新方法。在本方法中,把信息抽取和ontology结合起来,先利用领域ontology里的概念、关系、关键字等自动生成抽取规则(Rule),然后对文章、句子进行语法分析预处理,再利用语法分析的结果和先前生成的抽取规则一起对文档进行信息抽取,最后把抽取的结果以记录的形式输出。根据上述方法并结合工程实际情况,设计并实现了一个基于ontology的信息抽取系统。
在本文中,对系统的总体框架、系统的各主要模块功能、基于Lex的信息抽取规则及自动产生抽取规则的算法进行了逐一阐述。在系统的实现中详细介绍了本系统的实现方法,包括各个主要部分的数据结构,流程图等。最后利用此系统对一些样本进行抽取后的结果并对结果进行了分析。