地名识别与匹配的概率统计方法

被引:8
作者
肖计划
机构
[1] 信息工程大学
关键词
地名识别; 文本挖掘; 信息提取; 地名统计模型; 地理语料库;
D O I
暂无
中图分类号
P208 [测绘数据库与信息系统]; P281 [地名学];
学科分类号
070503 ; 081603 ; 0818 ; 081802 ;
摘要
建立了一个试验用地名库和地理语料库,在此基础上构建对地名用字可信度的统计分析模型。通过分析地名在中文文档中的使用习惯和规律,总结出经常与地名一起使用的且具有地名指示含义的辅助字或词,以此为基础建立地名识别辅助词词库和地名识别的规则库。对地名库和地理语料库的用字进行统计分析,通过设定地名用字可信度概率阈值和辅助词指示作用对文本中潜在地名进行初步的筛选形成候选地名;在粗筛选产生的候选地名基础上结合地名识别规则进一步确认,以提高地名识别的准确率。
引用
收藏
页码:408 / 412
页数:5
相关论文
共 8 条
[1]   基于篇章的中文地名识别研究 [J].
唐旭日 ;
陈小荷 ;
许超 ;
李斌 .
中文信息学报, 2010, 24 (02) :24-32
[2]   SVM与规则相结合的中文地名自动识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
中文信息学报, 2006, (05) :51-57
[3]   基于最大熵的汉语人名地名识别方法研究 [J].
钱晶 ;
张杰 ;
张涛 .
小型微型计算机系统, 2006, (09) :1761-1765
[4]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报 , 2006, (02) :87-94
[5]   基于决策树的汉语未登录词识别 [J].
秦文 ;
苑春法 .
中文信息学报, 2004, (01) :14-19
[6]   基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41
[7]  
中文信息抽取原理及应用.[M].程显毅; 朱倩; 王进; 编著.科学出版社.2010,
[8]  
中文命名实体识别的研究.[D].丁卓冶.大连理工大学.2008, 05