面向自由文本的中文地址规范化

被引:12
作者
徐娟 [1 ]
曹晔 [2 ]
张奇 [1 ]
机构
[1] 复旦大学计算机科学技术学院
[2] 清华大学软件学院
关键词
Web 2.0; 中文地址规范化; 层叠条件随机场;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
随着Web 2.0的发展,用户再也不仅仅是网站内容的浏览者,而且也成为网站内容的创造者。通过用户上传分享信息逐渐成为互联网内容的重要活力源泉,例如,维基百科的参与者来自世界各地,谷歌地图搜索提供的修改和商户中心功能,大众点评的商户信息收录服务等。在用户由网上冲浪变为波浪制造者的同时,应考虑到用户上传分享内容的规范性和正确性。特别地,提供生活消费平台的网站,用户上传的商户地址信息的规范化尤显重要。为此针对大众点评网中的自由文本商户地址语料,提出基于层叠条件随机场对中文地址进行规范化的方法。实验结果表明所提出的中文地址规范化方法是有效的,在真实语料的开放测试中F值达到81%。
引用
收藏
页码:22 / 24+93 +93
页数:4
相关论文
共 5 条
[1]
基于条件随机场的网民评论对象识别研究 [J].
林琛 ;
王兰成 .
现代图书情报技术, 2013, (06) :63-67
[2]
中文微博命名实体识别 [J].
邱泉清 ;
苗夺谦 ;
张志飞 .
计算机科学, 2013, 40 (06) :196-198
[3]
基于层叠CRFs的中文句子评价对象抽取 [J].
郑敏洁 ;
雷志城 ;
廖祥文 ;
陈国龙 .
中文信息学报, 2013, (03) :69-76
[4]
基于层叠模型的国防领域命名实体识别研究 [J].
高强 ;
游宏梁 .
现代图书情报技术, 2012, (11) :47-52
[5]
An algorithm that learns what's in a name [J].
Bikel, DM ;
Schwartz, R ;
Weischedel, RM .
MACHINE LEARNING, 1999, 34 (1-3) :211-231