基于SVM和HMM算法的中文机构名称识别

被引:0
作者
祝继锋
机构
[1] 吉林大学
关键词
自然语言处理; 命名实体识别; 中文机构名称; SVM; HMM;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
命名实体识别(Named Entity Recognition,NER)技术是信息抽取、信息检索、机器翻译、在线快速问答系统等多种自然语言处理(Natural Language Processing,NLP)技术不可缺少的组成部分。中文命名实体识别主要用来在一篇中文自然语言文本中识别中文人名、地名、机构名称、时间的表示、数量的表示、货币值的表示和百分比表示等命名实体。中文机构名称相比于其他中文命名实体,有结构复杂、组成多样等特点,是中文命名实体识别当中一个较为困难的部分。本文主要采用基于机器学习的方法,利用支持向量机(Support Vector Machine,SVM)和隐马尔可夫模型(Hidden Markov Model,HMM),并采用基于规则的方法加以辅助,完成对中文机构名称的识别。根据中文机构名称的构词特点,将中文机构名称分为机构名称后缀词和机构名称前缀词两部分。首先人工将所有机构名称后缀词提取出来,形成一个特征词典;然后判断收录在特征词典中的词出现在文本中时,是否是一个机构名称后缀词,即确定一个机构名称的后界。由此可见,可以将上述过程抽象成一个二分类的问题,而SVM模型在解决二分类问题上有着明显的优势,所以本文使用SVM模型来确定中文机构名称的后界。由于中文机构名称前缀词有结构复杂、组成多样、长短不一等多个特点,所以在识别过程中有较大的难度,但是在已经确定文本中机构名称后缀词的情况下,再识别前缀词恰好符合HMM模型,所以本文提出使用HMM模型来识别中文机构名的各个前缀词,即确定中文机构名称的前界。在确定中文机构名称前界和后界之后,中文机构名称就被正确识别。实验表明,运用SVM模型和HMM模型相结合的方法是有效的,并取得了较好的识别效果。在封闭测试中,精确率、召回率和F值最高能够达到96.29%、88.70%、92.34%;在开放测试中,精确率、召回率和F值最高能够达到90.17%、81.94%、85.61%。
引用
收藏
页数:60
共 17 条
[1]
Boosted Web Named Entity Recognition via Tri-Training [J].
Chou, Chien-Lung ;
Chang, Chia-Hui ;
Huang, Ya-Yun .
ACM TRANSACTIONS ON ASIAN AND LOW-RESOURCE LANGUAGE INFORMATION PROCESSING, 2016, 16 (02)
[2]
Product named entity recognition in Chinese text [J].
Zhao, Jun ;
Liu, Feifan .
LANGUAGE RESOURCES AND EVALUATION, 2008, 42 (02) :197-217
[3]
Chinese named entity recognition using lexicalized HMMs.[J].Guohong Fu;Kang-Kwong Luke.ACM SIGKDD Explorations Newsletter.2005, 1
[4]
基于中文维基的大规模命名实体识别语料自动生成方法(英文) [J].
Jie ZHOU ;
Bi-cheng LI ;
Gang CHEN .
FrontiersofInformationTechnology&ElectronicEngineering, 2015, 16 (11) :940-957
[5]
基于SVM和CRF的双层模型中文机构名识别 [J].
黄德根 ;
李泽中 ;
万如 .
大连理工大学学报, 2010, 50 (05) :782-787
[6]
中文组织机构名称与简称的识别 [J].
沈嘉懿 ;
李芳 ;
徐飞玉 ;
Hans Uszkoreit .
中文信息学报, 2007, (06) :17-21
[7]
基于支持向量机的中文文本中地名识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
大连理工大学学报, 2007, (03) :433-438
[8]
一种基于SVM/RS的中文机构名称自动识别方法 [J].
宇缨 ;
王晓龙 ;
刘秉权 .
电子与信息学报, 2006, (05) :895-900
[9]
基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[10]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91