统计决策树下的城市地址集中文分词

被引:11
作者
应申 [1 ,2 ,3 ]
李威阳 [1 ]
贺彪 [4 ,2 ,3 ]
王维 [1 ]
万远 [5 ]
机构
[1] 武汉大学资源与环境科学学院
[2] 深圳市数字城市工程研究中心
[3] 国土资源部城市土地资源监测与仿真重点实验室
[4] 深圳大学建筑与城市规划学院
[5] 湖北师范大学城市与环境学院
基金
国家重点研发计划;
关键词
中文地址分词; 决策树; 地址要素; 地址集;
D O I
10.13203/j.whugis20170072
中图分类号
P208 [测绘数据库与信息系统];
学科分类号
070503 ; 081603 ; 0818 ; 081802 ;
摘要
不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。
引用
收藏
页码:302 / 309
页数:8
相关论文
共 11 条
  • [11] CH/Z 9010-2011. 地理信息公共服务平台 地理实体与地名地址数据规范[S]. 2011