基于本体语义的定题爬虫

被引:10
作者
郑健珍 [1 ]
林坤辉 [1 ]
周昌乐 [2 ]
康恺 [1 ]
机构
[1] 厦门大学软件学院
[2] 厦门大学信息科学与技术学院
关键词
定题爬虫; 主题过滤; 本体语义; 链接分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.
引用
收藏
页码:90 / 94
页数:5
相关论文
共 2 条
  • [1] 主题爬虫的解决方案
    刘林
    汪涛
    樊孝忠
    [J]. 华南理工大学学报(自然科学版), 2004, (S1) : 137 - 141
  • [2] 定题搜索引擎Robot的设计与算法
    龙宇巍
    王永成
    许欢庆
    [J]. 计算机仿真, 2004, (04) : 69 - 72+76