垂直搜索引擎主题特征提取及相关度算法研究

被引:0
作者
段一飞
机构
[1] 长安大学
关键词
垂直搜索引擎; 主题特征提取; 相关度; IVSM; V-Page-Rank; 分块主题爬行;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,快速有效地获取需要的相关信息变得越来越困难,综合性的搜索引擎已不能适应用户对信息检索的准确性要求,专业化的、面向主题的垂直搜索引擎正成为研究的热点与发展趋势。 本文重点研究中文Web主题信息获取与检索技术,设计和实现了一个以计算机专业技术文献信息采集为核心的垂直搜索引擎CTLS(Computer Technical LiteratureSearcher)。 论文分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略存在的缺陷。针对中文分词中歧义字段的切分问题,提出一种对中文句子进行分词预处理的方法,在预处理的基础上实现了一种改进的MM算法,使分词系统在机械分词阶段具有比MM算法更好的效果。 针对垂直搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的V-Page-Rank搜索策略,指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效地实现搜索引擎的专业化。在信息检索方面,提出了基于向量空间模型的自适应分类算法IVSM对网页从内容和结构两方面进行相关性过滤。 论文提出了基于网页分块的爬行算法。解决了网页多主题的困难,并有效地去除了网页中的噪音信息,使得网络爬行的启发信息能准确地被收集。提出了一种比较理想的垂直搜索引擎设计方案,并实现了一个面向计算机主题的垂直搜索引擎系统CTLS。研究并设计出了适合专业资源采集的分布式Robot体系结构。 最后总结了面向计算机专业技术主题的垂直搜索引擎系统的研究和开发经验,并指出了系统的应用前景以及下一步研究的方向。
引用
收藏
页数:134
共 39 条
[1]
网络医学资源检索与利用.[M].方平主编;.科学出版社.2003,
[2]
搜索引擎与信息获取技术.[M].徐宝文;张卫丰著;.清华大学出版社.2003,
[3]
网络信息资源的组织.[M].刘嘉著;.北京图书馆出版社.2002,
[4]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
[5]
Internet网络信息检索.[M].储荷婷等著;.清华大学出版社.1999,
[6]
SALSA算法技术剖析 [J].
何晓阳 ;
吴治蓉 ;
连丽红 ;
谢永碧 .
情报杂志, 2004, (07) :26-27
[7]
专业搜索引擎搜索策略综述 [J].
欧阳柳波 ;
李学勇 ;
李国徽 ;
王鑫 .
计算机工程, 2004, (13) :32-33+46
[8]
一种基于非贪婪策略的网络蜘蛛搜索算法 [J].
李学勇 ;
田立军 ;
谭义红 ;
欧阳柳波 ;
李国徽 .
计算技术与自动化, 2004, (02) :35-39
[10]
Web信息检索中主题精选算法的研究与改进 [J].
韩亚洪 ;
许卓明 ;
董逸生 ;
不详 .
计算机工程与应用 , 2004, (17) :174-178