共 18 条
一种基于本体语义的灾害主题爬虫策略
被引:4
作者:
马雷雷
[1
,2
]
李宏伟
[1
]
连世伟
[1
]
梁汝鹏
[1
]
陈虎
[3
]
机构:
[1] 信息工程大学地理空间信息学院
[2] 四川省应急测绘与防灾减灾工程技术研究中心
[3] 国防信息学院
来源:
关键词:
主题爬虫;
本体;
语义相似度;
向量空间模型;
相关度计算;
锚文本;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。
引用
收藏
页码:50 / 56
页数:7
相关论文