学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
专业搜索引擎的研究与设计
被引:0
作者
:
寿周翔
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学
浙江大学
寿周翔
机构
:
[1]
浙江大学
关键词
:
本体论;
数据挖掘;
搜索引擎;
专业搜索引擎;
网络蜘蛛;
中文分词;
D O I
:
暂无
年度学位
:
2005
学位类型
:
硕士
导师
:
姚敏;
摘要
:
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,因而难以满足专业用户(如某一领域的科技工作人员)对信息的需求。 本文主要的研究工作是针对搜索引擎的一个发展方向——专业搜索引擎,进行理论研究分析和具体设计。在专业搜索引擎的信息采集方面,为获取最优搜索路径,本文采用非贪婪的IpageRank策略指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效的实现搜索引擎的专用化。在信息检索的相关性方面,本文采取的方法是基于网页内容和结构的向量空间模型算法。针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,本文应用本体论通过概念来执行搜索,同时通过使用链接文档及相关的概念来进行过滤及排序。 本文设计的系统还在线提供二种数据挖掘技术,关联规则和聚类,让使用者方便地探索并且浏览搜索出来的文件。 本文的主要工作如下: 1.分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略主要存在的缺陷。 2.针对中文分词中歧义字段的切分问题,着重研究了交集型歧义字段的切分,并提出相应的分类解决方法。 3.针对专业搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的IpageRank搜索策略,并采用改进的VSM向量模型法对网页进行进一步的相关性过滤。 4.针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,我们提出基于本体论的排序算法,利用搜索词的本体语义来确定及排序相关的Web文档,以此来改进在文本检索中出现的同义,岐义及上下文敏感等问题。
引用
收藏
页数:64
共 8 条
[1]
中英文专业搜索引擎中数据采集加工的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
刘峰
;
论文数:
引用数:
h-index:
机构:
王秀坤
;
论文数:
引用数:
h-index:
机构:
杨南海
;
马霖
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机系,大连理工大学计算机系,大连理工大学计算机系,大连理工大学计算机系辽宁大连,辽宁大连,辽宁大连,辽宁大连
马霖
.
计算机应用研究,
2004,
(10)
:155
-157+161
[2]
一种基于非贪婪策略的网络蜘蛛搜索算法
[J].
李学勇
论文数:
0
引用数:
0
h-index:
0
机构:
长沙大学数学与信息科学系,长沙大学数学与信息科学系,长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院湖南长沙 ,湖南长沙 ,湖南长沙 ,湖南长沙 ,武汉
李学勇
;
田立军
论文数:
0
引用数:
0
h-index:
0
机构:
长沙大学数学与信息科学系,长沙大学数学与信息科学系,长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院湖南长沙 ,湖南长沙 ,湖南长沙 ,湖南长沙 ,武汉
田立军
;
论文数:
引用数:
h-index:
机构:
谭义红
;
欧阳柳波
论文数:
0
引用数:
0
h-index:
0
机构:
长沙大学数学与信息科学系,长沙大学数学与信息科学系,长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院湖南长沙 ,湖南长沙 ,湖南长沙 ,湖南长沙 ,武汉
欧阳柳波
;
李国徽
论文数:
0
引用数:
0
h-index:
0
机构:
长沙大学数学与信息科学系,长沙大学数学与信息科学系,长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院湖南长沙 ,湖南长沙 ,湖南长沙 ,湖南长沙 ,武汉
李国徽
.
计算技术与自动化,
2004,
(02)
:35
-39
[3]
基于主题的Web信息采集系统的设计与实现
[J].
李盛韬
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室,中国科学院计算技术研究所软件研究室,中国科学院计算技术研究所软件研究室北京,北京,北京
李盛韬
;
赵章界
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室,中国科学院计算技术研究所软件研究室,中国科学院计算技术研究所软件研究室北京,北京,北京
赵章界
;
论文数:
引用数:
h-index:
机构:
余智华
.
计算机工程,
2003,
(17)
:102
-104
[4]
Web信息采集研究进展
[J].
李盛韬
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所北京,北京,北京,北京
李盛韬
;
余智华
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所北京,北京,北京,北京
余智华
;
程学旗
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所北京,北京,北京,北京
程学旗
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所北京,北京,北京,北京
白硕
.
计算机科学,
2003,
(02)
:151
-157+171
[5]
基于概念空间的文本检索系统
[J].
论文数:
引用数:
h-index:
机构:
郑毅
;
论文数:
引用数:
h-index:
机构:
吴斌
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程与应用,
2002,
(12)
:67
-69+190
[6]
搜索引擎新思维
[J].
论文数:
引用数:
h-index:
机构:
曹玉霞
.
现代图书情报技术,
2000,
(05)
:33
-34+43
[7]
汉语自动分词方法
[J].
论文数:
引用数:
h-index:
机构:
殷建平
.
计算机工程与科学,
1998,
(03)
[8]
汉语自动分词中的神经网络技术研究
[J].
林亚平
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学计算机科学系
林亚平
;
论文数:
引用数:
h-index:
机构:
李彦
;
童调生
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学计算机科学系
童调生
;
尹锋
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学计算机科学系
尹锋
.
湖南大学学报(自然科学版),
1997,
(06)
←
1
→
共 8 条
[1]
中英文专业搜索引擎中数据采集加工的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
刘峰
;
论文数:
引用数:
h-index:
机构:
王秀坤
;
论文数:
引用数:
h-index:
机构:
杨南海
;
马霖
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机系,大连理工大学计算机系,大连理工大学计算机系,大连理工大学计算机系辽宁大连,辽宁大连,辽宁大连,辽宁大连
马霖
.
计算机应用研究,
2004,
(10)
:155
-157+161
[2]
一种基于非贪婪策略的网络蜘蛛搜索算法
[J].
李学勇
论文数:
0
引用数:
0
h-index:
0
机构:
长沙大学数学与信息科学系,长沙大学数学与信息科学系,长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院湖南长沙 ,湖南长沙 ,湖南长沙 ,湖南长沙 ,武汉
李学勇
;
田立军
论文数:
0
引用数:
0
h-index:
0
机构:
长沙大学数学与信息科学系,长沙大学数学与信息科学系,长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院湖南长沙 ,湖南长沙 ,湖南长沙 ,湖南长沙 ,武汉
田立军
;
论文数:
引用数:
h-index:
机构:
谭义红
;
欧阳柳波
论文数:
0
引用数:
0
h-index:
0
机构:
长沙大学数学与信息科学系,长沙大学数学与信息科学系,长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院湖南长沙 ,湖南长沙 ,湖南长沙 ,湖南长沙 ,武汉
欧阳柳波
;
李国徽
论文数:
0
引用数:
0
h-index:
0
机构:
长沙大学数学与信息科学系,长沙大学数学与信息科学系,长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院湖南长沙 ,湖南长沙 ,湖南长沙 ,湖南长沙 ,武汉
李国徽
.
计算技术与自动化,
2004,
(02)
:35
-39
[3]
基于主题的Web信息采集系统的设计与实现
[J].
李盛韬
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室,中国科学院计算技术研究所软件研究室,中国科学院计算技术研究所软件研究室北京,北京,北京
李盛韬
;
赵章界
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室,中国科学院计算技术研究所软件研究室,中国科学院计算技术研究所软件研究室北京,北京,北京
赵章界
;
论文数:
引用数:
h-index:
机构:
余智华
.
计算机工程,
2003,
(17)
:102
-104
[4]
Web信息采集研究进展
[J].
李盛韬
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所北京,北京,北京,北京
李盛韬
;
余智华
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所北京,北京,北京,北京
余智华
;
程学旗
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所北京,北京,北京,北京
程学旗
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所,中国科学院计算机技术研究所北京,北京,北京,北京
白硕
.
计算机科学,
2003,
(02)
:151
-157+171
[5]
基于概念空间的文本检索系统
[J].
论文数:
引用数:
h-index:
机构:
郑毅
;
论文数:
引用数:
h-index:
机构:
吴斌
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程与应用,
2002,
(12)
:67
-69+190
[6]
搜索引擎新思维
[J].
论文数:
引用数:
h-index:
机构:
曹玉霞
.
现代图书情报技术,
2000,
(05)
:33
-34+43
[7]
汉语自动分词方法
[J].
论文数:
引用数:
h-index:
机构:
殷建平
.
计算机工程与科学,
1998,
(03)
[8]
汉语自动分词中的神经网络技术研究
[J].
林亚平
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学计算机科学系
林亚平
;
论文数:
引用数:
h-index:
机构:
李彦
;
童调生
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学计算机科学系
童调生
;
尹锋
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学计算机科学系
尹锋
.
湖南大学学报(自然科学版),
1997,
(06)
←
1
→