基于Gate框架的信息抽取系统的研究与实现

被引:0
作者
徐东兴
机构
[1] 华东师范大学
关键词
信息抽取; Gate框架; 本体; 命名实体识别; XML;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着Internet技术的不断发展及其应用的深入,Web俨然已经成为全球最大的虚拟资料库,可用的信息正呈指数级增长。如何有效地利用这些信息成为人们的重要研究课题,因此出现了大量以Web作为信息源的技术和应用,其中Web信息抽取技术在近年来引起了越来越多的研究者关注。 由于Web页面缺乏规范的语法结构,所以传统的自然语言处理技术并不能很好的适用于Web信息抽取,另外Web页面中的大部分内容都以属性列表的形式呈现,如果把Web的这种结构特征应用于信息抽取,就可以避免使用复杂的语言学知识。因此,如何将基于自然语言理解方式和基于结构方式有效的结合起来克服各自的缺点,混合使用各种方法进行信息抽取成为当前研究的重点之一。 本文结合自然语言处理技术和HTML页面结构特征在信息抽取中的应用,进行了以下研究工作: 1.提出一种基于命名实体标注的DOM树(NE-DOM)分析方法进行信息抽取。该方法利用自然语言处理中命名实体识别技术对文档进行标注来提供简单的语义信息;然后在此基础上构建NE-DOM,通过对NE-DOM结构的分析产生基于XPath的抽取规则。 2.在NE-DOM分析的过程中提出了基于竞争分类的BOI(用户感兴趣区域)确定算法,该算法可以显著的降低噪声数据对抽取结果的影响。同时在抽取过程中使用了大量成熟的XML技术来提高抽取的效率。 3.研究了Sheffield大学的自然语言处理平台Gate,并在此基础上设计和实现了一个基于上述原理的信息抽取原型系统GateWebIE。经验证该系统达到了预期的效果,提高了系统的召回率、抽取效率和对页面变化的适应能力。 本论文中已经完成的GateWebIE系统符合Gate的标准,实验结果令人满意,可以作为组件部署和集成到其它电子商务类的信息系统中,有较高的应用价值,并值得做进一步研究。
引用
收藏
页数:83
共 12 条
[1]
个性化推荐服务中用户兴趣模型研究.[J].段小斌;陈基漓;张沫;阮百尧;.计算机与信息技术.2006, 12
[2]
个性化推荐服务中用户兴趣模型研究.[J].段小斌;陈基漓;张沫;阮百尧;.计算机与信息技术.2006, 12
[3]
一种新的Web用户行为模式挖掘算法的研究 [J].
何尧 ;
赵跃龙 .
计算机测量与控制, 2005, (06) :600-602
[4]
一种新的基于Ontology的信息抽取方法 [J].
陈兰 ;
左志宏 ;
熊毅 ;
孟令谦 .
计算机应用研究, 2004, (08) :155-157+170
[5]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[6]
Web信息抽取技术研究进展 [J].
陈少飞 ;
郝亚南 ;
李天柱 ;
徐林昊 ;
杨文柱 .
河北大学学报(自然科学版), 2003, (01) :106-112
[7]
基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[8]
一个新的基于协作过滤的用户浏览预测模型.[J].邢东山;沈钧毅;.情报学报.2004, 01
[9]
一种网上图书信息抽取方法.[J].李向阳;张亚非;.情报学报.2004, 06
[10]
HMM与自动规则提取相结合的中文命名实体识别.[A].廖先桃;于海滨;秦兵;刘挺;.第二届全国学生计算语言学研讨会.2004,