基于本体的苹果病虫害垂直搜索引擎研发

被引:0
作者
巩如悦
机构
[1] 西北农林科技大学
关键词
苹果病虫害; 领域本体; 垂直搜索引擎; 信息采集与过滤; Web信息抽取;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
随着互联网的迅速发展,网络信息的急剧膨胀给果农提供丰富病虫害信息资源的同时,又在有效使用方面面临新的挑战。针对现有搜索引擎查准率低、基于关键字的信息检索技术不能满足用户在语义上的需求,本文在领域本体的基础上展开对苹果病虫害垂直搜索引擎的相关研究。本文主要研究内容及结论如下:(1)苹果病虫害本体的构建。针对手工本体构建效率低,对领域专家依赖性太强等问题,采用基于文献的领域本体构建方法构建苹果病虫害本体。首先,本文对领域语料进行中文分词和数据清洗,通过相关性判断得到领域概念。然后,利用关联分析和聚类技术得到领域概念间的关联关系。最后,利用关系数据库对领域本体进行存储。该方法减少了对领域专家的依赖性,提高了领域本体构建的自动性。(2)苹果病虫害垂直搜索引擎的构建。针对苹果病虫害信息检索准确率低的问题,将领域本体引入垂直搜索引擎的构建中。首先,进行信息的采集和过滤。选取高质量的URL作为初始种子,用爬虫爬取相关页面并对页面进行分析,抽取出页面中的链接,并利用正则表达式对链接进行过滤,将过滤后的URL放入URL库;抽取网页正文进行主题相关性判断,将相关性高的网页存储在计算机中,按倒排索引策略动态建立索引。然后,实现信息的扩展查询和相关词的可视化推荐。最后对优化的主题爬虫、信息抽取性能和苹果病虫害垂直搜索引擎进行测试。实验表明,优化的爬虫速度提高了12.7倍。基于包装器的信息抽取的查准率保持在94.6%以上,F-指标性能在87.5%以上。本文研究的搜索引擎返回结果数目适当,相关度比较好,比普通搜索引擎高22%,比“农搜网”高5.2%。(3)原型系统的设计与实现。为了方便对信息检索平台的使用和管理,设计并实现了基于本体的苹果病虫害垂直搜索引擎原型系统,实现了领域本体的构建、网页的动态抓取、动态建立索引、扩展查询和相关词可视化推荐等功能。
引用
收藏
页数:65
共 61 条
[1]
基于本体的中国行政区划地名识别与抽取研究 [D]. 
杜萍 .
兰州大学,
2011
[2]
The use of probabilistic lexicality cues for word segmentation in Chinese reading [J].
Zang, Chuanli ;
Wang, Yongsheng ;
Bai, Xuejun ;
Yan, Guoli ;
Drieghe, Denis ;
Liversedge, Simon P. .
QUARTERLY JOURNAL OF EXPERIMENTAL PSYCHOLOGY, 2016, 69 (03) :548-560
[3]
COMPARATIVE STUDY OF K-MEANS AND K-MEANS++ CLUSTERING ALGORITHMS ON CRIME DOMAIN.[J].Bashar Aubaidan;Masnizah Mohd;Mohammed Albared.Journal of Computer Science.2014, 7
[4]
An ontology-based approach to learnable focused crawling [J].
Zheng, Hai-Tao ;
Kang, Bo-Yeong ;
Kim, Hong-Gee .
INFORMATION SCIENCES, 2008, 178 (23) :4512-4522
[5]
A knowledge engineering approach to knowledge management [J].
Lai, Lien F. .
INFORMATION SCIENCES, 2007, 177 (19) :4072-4094
[6]
Understanding; building and using ontologies.[J].Nicola Guarino.International Journal of Human - Computer Studies.1997, 2
[7]
基于Heritrix与Lucene的地震专业搜索引擎设计 [J].
孙静 ;
李亚龙 ;
万杰 .
地震地磁观测与研究, 2016, 37 (05) :172-178
[8]
基于语境信息的中文分词交叉歧义处理方法 [J].
尹倩 .
重庆工商大学学报(自然科学版), 2016, 33 (05) :20-24
[9]
中文分词模型的领域适应性方法 [J].
韩冬煦 ;
常宝宝 .
计算机学报, 2015, 38 (02) :272-281
[10]
基于改进最大匹配算法的中文分词粗分方法 [J].
周俊 ;
郑中华 ;
张炜 .
计算机工程与应用, 2014, 50 (02) :124-128