基于本体的苹果病虫害垂直搜索引擎研发

被引:0
作者
巩如悦
机构
[1] 西北农林科技大学
关键词
苹果病虫害; 领域本体; 垂直搜索引擎; 信息采集与过滤; Web信息抽取;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
随着互联网的迅速发展,网络信息的急剧膨胀给果农提供丰富病虫害信息资源的同时,又在有效使用方面面临新的挑战。针对现有搜索引擎查准率低、基于关键字的信息检索技术不能满足用户在语义上的需求,本文在领域本体的基础上展开对苹果病虫害垂直搜索引擎的相关研究。本文主要研究内容及结论如下:(1)苹果病虫害本体的构建。针对手工本体构建效率低,对领域专家依赖性太强等问题,采用基于文献的领域本体构建方法构建苹果病虫害本体。首先,本文对领域语料进行中文分词和数据清洗,通过相关性判断得到领域概念。然后,利用关联分析和聚类技术得到领域概念间的关联关系。最后,利用关系数据库对领域本体进行存储。该方法减少了对领域专家的依赖性,提高了领域本体构建的自动性。(2)苹果病虫害垂直搜索引擎的构建。针对苹果病虫害信息检索准确率低的问题,将领域本体引入垂直搜索引擎的构建中。首先,进行信息的采集和过滤。选取高质量的URL作为初始种子,用爬虫爬取相关页面并对页面进行分析,抽取出页面中的链接,并利用正则表达式对链接进行过滤,将过滤后的URL放入URL库;抽取网页正文进行主题相关性判断,将相关性高的网页存储在计算机中,按倒排索引策略动态建立索引。然后,实现信息的扩展查询和相关词的可视化推荐。最后对优化的主题爬虫、信息抽取性能和苹果病虫害垂直搜索引擎进行测试。实验表明,优化的爬虫速度提高了12.7倍。基于包装器的信息抽取的查准率保持在94.6%以上,F-指标性能在87.5%以上。本文研究的搜索引擎返回结果数目适当,相关度比较好,比普通搜索引擎高22%,比“农搜网”高5.2%。(3)原型系统的设计与实现。为了方便对信息检索平台的使用和管理,设计并实现了基于本体的苹果病虫害垂直搜索引擎原型系统,实现了领域本体的构建、网页的动态抓取、动态建立索引、扩展查询和相关词可视化推荐等功能。
引用
收藏
页数:65
共 61 条
[51]
基于网页去重的垂直搜索引擎设计与实现 [D]. 
赵立磊 .
大连理工大学,
2012
[52]
基于Web挖掘技术的化学物质信息获取方法研究 [D]. 
冯硕 .
西北农林科技大学,
2012
[53]
基于关系数据库的本体存储研究与实现 [D]. 
张杰 .
重庆大学,
2012
[54]
基于本体的语义搜索研究与实现 [D]. 
张艳贺 .
重庆大学,
2012
[55]
基于关系数据库的OWL本体的提取与存储研究 [D]. 
翟保荣 .
国防科学技术大学,
2011
[56]
基于本体的异构数据集成系统的研究与实现 [D]. 
杨丽丽 .
西北农林科技大学,
2011
[57]
基于本体的语义垂直搜索引擎研究 [D]. 
周源 .
北京交通大学,
2011
[58]
基于叙词表和文献数据库的农业领域本体构建方法研究 [D]. 
张磊 .
中国农业科学院,
2011
[59]
中文网页自动采集与分类系统设计与实现 [D]. 
于洪波 .
北京邮电大学,
2010
[60]
面向汽车主题的垂直搜索引擎研究与实现 [D]. 
张楠 .
西南交通大学,
2010