一种基于有限状态机的中文地址标准化方法

被引:29
作者
罗明 [1 ,2 ]
黄海量 [1 ,2 ]
机构
[1] 上海财经大学信息管理与工程学院
[2] 上海财经大学上海市金融信息技术研究重点实验室
关键词
中文地址; 地址编码; 地址标准化; 地址分级模型; 地址匹配; 有限状态机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
由于中文的内涵多义性和形式多样性的特点,使中文地址长期以来存在着难以标准化的问题,对进一步开展地址定位、区域网格分析和社情、舆情定位等工作都造成了较大的障碍。针对这个问题提出了基于地址分级模型和有限状态机驱动的新方法,并通过软件开发对这种方法的地址识别率和匹配准确率进行了验证,实验结果显示该方法对中文地址能够达到96%左右的识别率,匹配准确率也达到了85%左右,并且还能实现标准地址库的自动化更新。因此,采取该方法能够有效地解决中文地址标准化困难的问题,具有显著的实用性和研究参考价值。
引用
收藏
页码:3691 / 3695
页数:5
相关论文
共 13 条
[1]
基于分词的地址匹配技术.[A].孙亚夫;陈文斌;.中国地理信息系统协会第四次会员代表大会暨第十一届年会.2007,
[2]
地址树模型的中文地址提取方法 [J].
亢孟军 ;
杜清运 ;
王明军 .
测绘学报, 2015, 44 (01) :99-107
[3]
基于哈希和双数组trie树的多层次地址匹配算法 [J].
徐聪 ;
张丰 ;
杜震洪 ;
张逸然 ;
陈明 ;
刘仁义 .
浙江大学学报(理学版), 2014, 41 (02) :217-222
[4]
Semantic Role Labeling of Chinese Nominal Predicates with Dependency-Driven Constituent Parse Tree Structure [J].
Wang, Hong-Ling ;
Zhou, Guo-Dong .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2013, 28 (06) :1117-1126
[5]
自然语言理解的中文地址匹配算法 [J].
宋子辉 .
遥感学报, 2013, 17 (04) :788-801
[6]
基于有限状态机和Trie数的分级地址模型 [J].
张倩 ;
郭嗣琮 .
计算机应用, 2013, 33 (03) :854-857
[7]
面向全国经济普查需求的专家系统地理编码方法 [J].
于滨 ;
程昌秀 ;
左廷英 .
计算机应用研究, 2010, 27 (08) :2976-2979
[8]
基于分级地名库的中文地理编码 [J].
孙存群 ;
周顺平 ;
杨林 .
计算机应用, 2010, 30 (07) :1953-1955+1958
[9]
地址编码关键技术——地址数据内容规范研究 [J].
佟文会 ;
江洲 ;
李小林 .
标准科学, 2009, (11) :39-42
[10]
基于Hash结构的逆向最大匹配分词算法的改进 [J].
丁振国 ;
张卓 ;
黎靖 .
计算机工程与设计, 2008, (12) :3208-3211+3265