基于统计的中文地址位置语义解析方法研究

被引：8

作者：

谢婷婷 ^{[1
,2
]}

严柯 ^{[1
,2
]}

机构：

[1] 智能机器人湖北省重点实验室

[2] 武汉工程大学计算机科学与工程学院

来源：

软件导刊 | 2017年 / 16卷 / 10期

关键词：

中文分词; 地名地址分词; 互信息; 信息熵;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

为获取中文自然地址描述语句中的位置信息,提出一种不依赖于词典的中文地址分词方法。首先根据地址语料库中字串共现的统计规律统计词频,然后对地名地址串进行正则表达式预处理,再对地址串进行全切分处理。通过互信息和信息熵得到最优粗分结果,通过置信度对粗分结果进行过滤得到最优分词结果。实验结果表明,该方法在不依赖词典的情况下能有效实现对地名地址串的拆分,正确率和召回率分别达到了80.03%和89.28%。

引用

页码：19 / 21

页数：3

共 7 条

[1] 基于分级地名库的中文地理编码
孙存群
周顺平
杨林
[J]. 计算机应用, 2010, 30 (07) : 1953 - 1955+1958
[2] 基于词内部结合度和边界自由度的新词发现
李文坤
张仰森
陈若愚
[J]. 计算机应用研究, 2015, 32 (08) : 2302 - 2304+2342
[3] 中文分词系统的设计与实现[D]. 于光.电子科技大学 2012
[4] 中文分词切分技术研究
徐飞
孙劲光
[J]. 计算机工程与科学, 2008, (05) : 126 - 128
[5] 城市地名地址的编码匹配研究[D]. 唐静.昆明理工大学 2011
[6] 地址要素识别机制的地名地址分词算法
赵阳阳
王亮
仇阿根
[J]. 测绘科学, 2013, 38 (05) : 74 - 76
[7] 自然语言理解的中文地址匹配算法
宋子辉
[J]. 遥感学报, 2013, 17 (04) : 788 - 801

← 1 →