基于本体的信息抽取研究

被引:0
作者
陈静
机构
[1] 苏州大学
关键词
信息抽取; 本体; 句子分类; RIPPER; GATE; ANNIE; 语义相似度;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。本体作为对领域知识的共同理解,能有效地解决现在信息抽取所面对的主要挑战——知识工程的瓶颈问题。 本文采用自顶向下的方法,根据三层本体框架结构来构建本文的本体——大学教授简历本体(PCV),将本体中的概念分为事件概念和扩展概念两部分。在这个过程中,通过手工收集和基于WordNet的语义相似度计算相结合的方法,获得本体内概念的实例,构建了一个较完备的概念、关系和实例相结合的本体库。 本文提出了一种基于本体和分类的信息抽取方式,在具体的抽取过程中,利用到本体中的概念、关系和实例,由本体中的元素确定待抽取的内容。首先在预处理过程中引入本体中的特殊概念及其实例,将文档中的特殊实例标注出来。接着采用分层的方法对文档进行抽取,根据待处理文本的特征,先对待抽取文档中的句子进行分类,确定句子的事件类别,句子分类的类别标准来源于本体中的事件概念。结合已确定的句子事件类别,可以得出与事件概念相关的扩展概念和属性,制定抽取模板,最后根据预处理中标注的结果直接提取模板中的待抽取的实体。实验表明该方法有较好的抽取性能。 本文根据本体中的概念和关系决定待抽取的对象,本体的引入既保证了结构的一致性,又保证了数据的一致性。另外,本文将抽取问题转化为分类问题,能很大程度减少用户标记训练数据集的工作量。实验表明该方法有较好的抽取性能。
引用
收藏
页数:93
共 14 条
[1]
基于网格的分词服务系统的研究与实现 [D]. 
郭翠珍 .
苏州大学,
2006
[2]
中文信息处理技术教程.[M].朱巧明[等]编著;.清华大学出版社.2005,
[3]
基于向量空间模型的规则分类技术.[A].孙丽华;肖诗斌;施水才;.全国第八届计算语言学联合学术会议(JSCL-2005).2005,
[4]
将HNC领域引入文本分类的尝试与探讨.[A].邬郑;吕晓莉;晋耀红;.全国第八届计算语言学联合学术会议(JSCL-2005).2005,
[5]
本体学习研究综述 [J].
杜小勇 ;
李曼 ;
王珊 .
软件学报, 2006, (09) :1837-1847
[6]
Ontology构建中概念与关系的获取与处理 [J].
王晓东 ;
高宏卿 .
计算机工程与应用 , 2006, (17) :46-48
[7]
基于语义网的语义相似度算法改进 [J].
张承立 ;
陈剑波 ;
齐开悦 .
计算机工程与应用, 2006, (17) :165-166+179
[8]
基于WordNet概念向量空间模型的文本分类 [J].
张剑 ;
李春平 .
计算机工程与应用 , 2006, (04) :174-178
[9]
一种新的基于Ontology的信息抽取方法 [J].
陈兰 ;
左志宏 ;
熊毅 ;
孟令谦 .
计算机应用研究, 2004, (08) :155-157+170
[10]
自由文本信息抽取技术 [J].
李向阳 ;
苗壮 .
情报科学, 2004, (07) :815-821+829