基于HMM的京剧机构命名实体识别算法

被引:63
作者
乐娟 [1 ,2 ]
赵玺 [3 ]
机构
[1] 北京理工大学计算机学院
[2] 北京戏曲艺术职业学院
[3] 北京联合大学师范学院
关键词
开放领域; 命名实体识别; 隐马尔科夫模型; Viterbi算法; 规则树;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别算法。利用HMM模型标注文本切分结果的词性消除歧义,通过Viterbi算法计算某种分词结果所对应的可能性最大的词性序列。根据定制的名称识别规则,借助机构前缀词库、后缀词库获得机构名称左右边界,通过自动机算法识别语料中的机构命名实体,并将新词加载到分词词典中。针对京剧领域语料进行开放测试验证,结果表明,该算法的识别正确率可达到99%。
引用
收藏
页码:266 / 271+286 +286
页数:7
相关论文
共 7 条
[1]
基于改进HMM的文本信息抽取模型 [J].
梁吉光 ;
田俊华 ;
姜杰 .
计算机工程, 2011, 37 (20) :178-179+182
[2]
命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[3]
面向短文本的命名实体识别 [J].
王丹 ;
樊兴华 .
计算机应用, 2009, 29 (01) :143-145+171
[4]
中文组织机构名称与简称的识别 [J].
沈嘉懿 ;
李芳 ;
徐飞玉 ;
Hans Uszkoreit .
中文信息学报, 2007, (06) :17-21
[5]
中文金融新闻中公司名的识别 [J].
王宁 ;
葛瑞芳 ;
苑春法 ;
黄锦辉 ;
李文捷 .
中文信息学报, 2002, (02) :1-6
[6]
A Chinese sign language recognition system based on SOFM/SRN/HMM [J].
Gao, W ;
Fang, GL ;
Zhao, DB ;
Chen, YQ .
PATTERN RECOGNITION, 2004, 37 (12) :2389-2402
[7]
京剧剧目辞典.[M].曾白融主编;.中国戏剧出版社.1989,