面向网页文本的地理要素变化检测

被引:15
作者
王曙 [1 ]
吉雷静 [2 ]
张雪英 [2 ]
赵仁亮 [3 ]
陈晓丹 [2 ]
余浩 [4 ]
机构
[1] 英国利兹大学地理学院
[2] 南京师范大学虚拟地理环境教育部重点实验室
[3] 中国国家基础地理信息中心
[4] 南京邮电大学计算机学院
关键词
网页文本; 地理要素变化; 信息抽取; 网页爬虫; 文本解析;
D O I
暂无
中图分类号
TP393.092 []; P207 [测量误差与测量平差];
学科分类号
摘要
地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。
引用
收藏
页码:625 / 634
页数:10
相关论文
共 23 条