基于层叠隐马尔可夫模型的中文命名实体识别

被引:641
作者
俞鸿魁 [1 ]
张华平 [1 ]
刘群 [1 ]
吕学强 [2 ]
施水才 [2 ]
机构
[1] 中国科学院计算技术研究所
[2] 北京信息科技大学中文信息处理研究中心
关键词
命名实体识别; 角色标注; ICTCLAS;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。
引用
收藏
页码:87 / 94
页数:8
相关论文
共 7 条
[1]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[2]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[3]
中文金融新闻中公司名的识别 [J].
王宁 ;
葛瑞芳 ;
苑春法 ;
黄锦辉 ;
李文捷 .
中文信息学报, 2002, (02) :1-6
[4]
基于分解与动态规划策略的汉语未登录词识别 [J].
吕雅娟 ;
赵铁军 ;
杨沐昀 ;
于浩 ;
李生 .
中文信息学报, 2001, (01) :28-33
[5]
基于单字词转移概率的未登录词识别.[A].何燕;.全国第六届计算语言学联合学术会议.2001,
[6]
基于反比概率模型和规则的中文姓名自动辨识系统.[A].季姮;罗振声;.全国第六届计算语言学联合学术会议.2001,
[7]
统计和规则相结合的中文机构名称识别.[A].张艳丽;黄德根;张丽静;杨元生;.全国第六届计算语言学联合学术会议.2001,