基于统计的中文地址位置语义解析方法研究

被引:8
作者
谢婷婷 [1 ,2 ]
严柯 [1 ,2 ]
机构
[1] 智能机器人湖北省重点实验室
[2] 武汉工程大学计算机科学与工程学院
关键词
中文分词; 地名地址分词; 互信息; 信息熵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为获取中文自然地址描述语句中的位置信息,提出一种不依赖于词典的中文地址分词方法。首先根据地址语料库中字串共现的统计规律统计词频,然后对地名地址串进行正则表达式预处理,再对地址串进行全切分处理。通过互信息和信息熵得到最优粗分结果,通过置信度对粗分结果进行过滤得到最优分词结果。实验结果表明,该方法在不依赖词典的情况下能有效实现对地名地址串的拆分,正确率和召回率分别达到了80.03%和89.28%。
引用
收藏
页码:19 / 21
页数:3
相关论文
共 7 条