共 2 条
基于本体语义的定题爬虫
被引:10
作者:
郑健珍
[1
]
林坤辉
[1
]
周昌乐
[2
]
康恺
[1
]
机构:
[1] 厦门大学软件学院
[2] 厦门大学信息科学与技术学院
来源:
关键词:
定题爬虫;
主题过滤;
本体语义;
链接分析;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.
引用
收藏
页码:90 / 94
页数:5
相关论文