基于Nutch的专题网页资源采集服务系统的设计与实现

被引:3
作者
常智荣 [1 ]
马自卫 [2 ]
李高虎 [3 ]
机构
[1] 北京邮电大学计算机学院
[2] 北京邮电大学图书馆
[3] 北京邮电大学资产经营有限公司
关键词
Nutch; 网页资源采集; 中文分词插件; Webservice; 集成服务;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。
引用
收藏
页码:19 / 26
页数:8
相关论文
共 8 条
[1]   数字图书馆主题搜索引擎的设计与实现 [J].
林其东 ;
陈传波 ;
郑乐丹 ;
张一曼 .
计算机应用研究, 2009, 26 (08) :2952-2955
[2]   基于Nutch的Web网站定向采集系统 [J].
徐健 ;
张智雄 .
现代图书情报技术, 2009, (04) :1-6
[3]   聚类搜索引擎发展现状研究 [J].
苍宏宇 ;
谭宗颖 .
图书情报工作, 2009, (02) :125-128
[4]   超链接文本相关度的PageRank算法 [J].
徐家树 ;
邢立新 ;
覃征 .
哈尔滨工业大学学报, 2009, 41 (01) :223-225
[5]  
Lucene+Nutch搜索引擎开发[M]. 人民邮电出版社 , 王学松, 2008
[6]  
Nutch. http://lucene.apache.org/nutch . 2009
[7]  
HTML Parser. http://htmlparser.sourceforge.net . 2009
[8]  
Wget. http://www.gnu.org/soft-ware/wget . 2010