一种使用RoBERTa-BiLSTM-CRF的中文地址解析方法

被引:10
作者
张红伟 [1 ]
杜清运 [2 ]
陈张建 [3 ]
张琛 [2 ]
机构
[1] 不详
[2] 武汉大学电子信息学院
[3] 不详
[4] 武汉大学资源与环境科学学院
[5] 浙江省测绘科学技术研究院
[6] 不详
基金
国家重点研发计划;
关键词
地址解析; 中文地址分词; 注意力机制; 长短时记忆网络; RoBERTa; BiLSTM; CRF;
D O I
10.13203/j.whugis20210112
中图分类号
TP391.1 [文字信息处理]; P208 [测绘数据库与信息系统];
学科分类号
070503 ; 081603 ; 0818 ; 081802 ;
摘要
针对当前地址匹配方法严重依赖分词词典、无法有效识别地址中的地址元素及其所属类型的问题,提出了使用深度学习的中文地址解析方法,该方法能够对解析后的地址进行标准化和构成分析以改善地址匹配结果。通过对地址的不同词向量表示及不同序列标注模型的对比评估,结果表明,使用双向门递归单元和双向长短时记忆网络对中文地址解析差别较小,稀疏注意力机制有助于提高地址解析的F1值。所提出的方法在泛化能力测试集上的F1值达到了0.940,在普通测试集上的F1值达到了0.968。
引用
收藏
页码:665 / 672
页数:8
相关论文
共 16 条