基于Nutch的专题网页资源采集服务系统的设计与实现

被引：3

作者：

常智荣 ^{[1
]}

马自卫 ^{[2
]}

李高虎 ^{[3
]}

机构：

[1] 北京邮电大学计算机学院

[2] 北京邮电大学图书馆

[3] 北京邮电大学资产经营有限公司

来源：

现代图书情报技术 | 2010年 / 03期

关键词：

Nutch; 网页资源采集; 中文分词插件; Webservice; 集成服务;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。

引用

页码：19 / 26

页数：8

共 8 条

[1] 数字图书馆主题搜索引擎的设计与实现 [J].

林其东 ;

陈传波 ;

郑乐丹 ;

张一曼 .

计算机应用研究, 2009, 26 (08) :2952-2955

[2] 基于Nutch的Web网站定向采集系统 [J].

徐健 ;

张智雄 .

现代图书情报技术, 2009, (04) :1-6

[3] 聚类搜索引擎发展现状研究 [J].

苍宏宇 ;

谭宗颖 .

图书情报工作, 2009, (02) :125-128

[4] 超链接文本相关度的PageRank算法 [J].

徐家树 ;

邢立新 ;

覃征 .

哈尔滨工业大学学报, 2009, 41 (01) :223-225

[5]

Lucene+Nutch搜索引擎开发[M]. 人民邮电出版社 , 王学松, 2008

[6]

Nutch. http://lucene.apache.org/nutch . 2009

[7]

HTML Parser. http://htmlparser.sourceforge.net . 2009

[8]

Wget. http://www.gnu.org/soft-ware/wget . 2010

← 1 →