基于语义的主题爬行策略

被引:34
作者
叶育鑫 [1 ,2 ]
欧阳丹彤 [1 ,2 ]
机构
[1] 吉林大学计算机科学与技术学院
[2] 吉林大学符号计算与知识工程教育部重点实验室
基金
国家自然科学基金重大项目;
关键词
本体; 语义Web; 主题爬行; Tableau演算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为使主题爬行能够充分利用资源的语义信息,提出基于语义的主题爬行策略.该策略利用领域本体刻画爬行主题,将本体语义映射到关键词表.通过定义断言集一致性扩展和域值关联推理任务,推演关键词间语义关系.在定义网页主题概念的基础上,结合本体推理方案提出主题概念的语义叠加效应模型.最后,利用主题概念的语义包含关系判定URLs抓取顺序.实验结果表明,该语义主题爬行策略在抓取收获率和爬行效率上优于现有同类方法,该方案有效、可行.
引用
收藏
页码:2075 / 2088
页数:14
相关论文
共 11 条
[1]
本体与规则整合的推理方法研究及设计 [J].
叶育鑫 ;
欧阳丹彤 ;
领吉 ;
张永刚 .
吉林大学学报(工学版) , 2009, (05) :1297-1302
[2]
基于SHOIQ(D)的本体一致性检测 [J].
叶育鑫 ;
欧阳丹彤 ;
刘瑶 ;
孙吉贵 .
计算机工程与科学, 2009, 31 (08) :7-9+56
[3]
A Tableau Decision Procedure for <InlineEquation ID="IEq1"> <EquationSource Format="TEX">$\mathcal{SHOIQ}$</EquationSource> </InlineEquation>[J] Ian Horrocks;Ulrike Sattler Journal of Automated Reasoning 2007,
[4]
An algorithm for suffix stripping[J] M.F. Porter Program: electronic library and information systems 2006,
[5]
Topic-specific crawling on the Web with the measurements of the relevancy context graph[J] Ching-Chi Hsu;Fan Wu Information Systems 2005,
[6]
Machine learning in automated text categorization[J] Fabrizio Sebastiani ACM Computing Surveys (CSUR) 2002,
[7]
Focused crawling: a new approach to topic-specific Web resource discovery[J] Soumen Chakrabarti;Martin van den Berg;Byron Dom Computer Networks 1999,
[8]
Combining Horn rules and description logics in CARIN[J] Alon Y. Levy;Marie-Christine Rousset Artificial Intelligence 1998,
[9]
Formal ontology; conceptual analysis and knowledge representation[J] Nicola Guarino International Journal of Human - Computer Studies 1995,
[10]
金融市场学教程[M] 霍文文主编; 复旦大学出版社 2005,