地址要素识别机制的地名地址分词算法

被引:25
作者
赵阳阳
王亮
仇阿根
机构
[1] 中国测绘科学研究院
关键词
中文分词; 地名地址分词; 未登录词识别; 分词词典;
D O I
10.16251/j.cnki.1009-2307.2013.05.012
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于整词二分分词词典,采用FMM算法,增加了基于地址要素的识别机制,从而有效地实现了对地名地址串的拆分。识别机制通过判断地址要素的完整性完成对未登录地址名称的处理,解决了分词算法对未登录地址名称的识别问题。测试证明新算法能够有效实现对地名地址串的拆分,从很大程度上解决对未登录地址名称的识别问题。
引用
收藏
页码:74 / 76
页数:3
相关论文
共 9 条
[1]   词典与统计相结合的中文分词算法研究 [J].
李宏波 .
武汉理工大学学报(信息与管理工程版), 2010, 32 (06) :907-909+913
[2]   基于双层哈希表的中文分词算法优化 [J].
习明 ;
王增辉 ;
庄怡 .
软件导刊, 2010, 9 (10) :54-55
[3]   基于分级地名库的中文地理编码 [J].
孙存群 ;
周顺平 ;
杨林 .
计算机应用, 2010, 30 (07) :1953-1955+1958
[4]   地理编码系统中地名地址分词算法研究 [J].
张林曼 ;
吴升 .
测绘科学, 2010, (02) :46-48
[5]   一种改进的基于Hash的中文分词算法研究 [J].
蔡蕊 .
福建电脑, 2010, 26 (02) :69-70
[6]   基于词典的中文分词算法研究 [J].
周程远 ;
朱敏 ;
杨云 .
计算机与数字工程, 2009, 37 (03) :68-71+87
[7]   中文分词算法解析 [J].
张磊 ;
张代远 .
电脑知识与技术, 2009, 5 (01) :192-193
[8]   几种基于词典的中文分词算法评价 [J].
李丹宁 ;
李丹 ;
王保华 ;
马新强 .
贵州科学, 2008, (03) :1-8
[9]   有词典中文分词算法研究 [J].
李跃民 ;
王浩 ;
赵生慧 .
滁州学院学报, 2008, (03) :22-25