基于ontology的信息抽取系统的研究与实现

被引:0
作者
马腾
机构
[1] 电子科技大学
关键词
信息抽取; ontology; 语法分析; 匹配; 规则;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着Intenet的快速发展,web已经成为跨全球的信息源。使用传统的搜索引擎,用户要精确地找到所需信息往往十分困难。提高搜索引擎准确性的一个主要途径是使其在某种程度上理解信息源的内容。基于此,本文提出一种基于ontology信息抽取技术,它把ontology和信息处理技术结合起来,是现在信息抽取研究的一个热点,其最大的优点是对网页结构的依赖很少,只要事先创建的应用领域ontology足够强大,系统可以对该应用领域中各种文本实现信息抽取。这项技术对网络资源的分类、登记建档及进一步的监管和过滤具有重要意义。 本文首先介绍了信息抽取技术及其产生背景和发展历史,分析了信息抽取系统体系结构、信息抽取的分类及信息抽取的关键技术和衡量指标,然后介绍了ontology的基本知识。在此基础上,本文提出了一种基于ontology的信息抽取新方法。在本方法中,把信息抽取和ontology结合起来,先利用领域ontology里的概念、关系、关键字等自动生成抽取规则(Rule),然后对文章、句子进行语法分析预处理,再利用语法分析的结果和先前生成的抽取规则一起对文档进行信息抽取,最后把抽取的结果以记录的形式输出。根据上述方法并结合工程实际情况,设计并实现了一个基于ontology的信息抽取系统。 在本文中,对系统的总体框架、系统的各主要模块功能、基于Lex的信息抽取规则及自动产生抽取规则的算法进行了逐一阐述。在系统的实现中详细介绍了本系统的实现方法,包括各个主要部分的数据结构,流程图等。最后利用此系统对一些样本进行抽取后的结果并对结果进行了分析。
引用
收藏
页数:87
共 10 条
[1]
构建XML本体信息研究 [J].
周武 ;
金远平 .
微机发展, 2003, (10) :61-64
[2]
基于Ontology的文本信息抽取 [J].
陆科进 ;
李新颖 .
计算机应用研究, 2003, (07) :46-48
[3]
Web信息抽取 [J].
李晶 ;
陈恩红 .
计算机科学, 2003, (06) :78-81
[4]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[5]
本体论在基于内容信息检索中的应用 [J].
万捷 ;
滕至阳 .
计算机工程, 2003, (04) :122-123+152
[6]
基于本体的语义信息查询系统的研究与实现 [J].
徐振宁 ;
宋阔益 ;
张维明 ;
李勇 ;
李由 .
计算机工程, 2002, (12) :6-8
[7]
多信息块Web页面的信息抽取 [J].
王庆一 ;
王继成 ;
周源远 ;
袁春风 .
计算机应用研究, 2002, (10) :23-26
[8]
Ontology研究综述 [J].
邓志鸿 ;
唐世渭 ;
张铭 ;
杨冬青 ;
陈捷 .
北京大学学报(自然科学版), 2002, (05) :730-738
[9]
信息检索与信息抽取技术的研究 [J].
李芳 ;
盛焕烨 ;
姚天昉 .
计算机应用研究, 2002, (01) :16-18
[10]
本体论与信息检索 [J].
廖明宏 .
计算机工程, 2000, (02) :56-58