基于最大熵模型的中文命名实体识别方法研究

被引:0
作者
杨华
机构
[1] 哈尔滨工程大学
关键词
中文命名实体; 最大熵模型; 特征; 命名实体指示词; 语义扩展;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
命名实体识别是信息抽取的子任务,同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它中文自然语言处理技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。 本文利用最大熵模型(Maximum Entropy,ME)进行中文命名实体识别。尝试了在不同特征模板集下,命名实体识别的性能,深入研究了最大熵模型在中文命名实体识别中的特点,发现最大熵模型不能自动组合特征,模型性能很大程度上依赖于特征模板。因此,设计合理的特征模板是基于最大熵模型中文命名实体识别的关键。 汉语中存在大量的隐含语义特征,可以帮助命名实体的识别,而最大熵模型的一个重要优点就是能融合不同粒度和不同层次的特征。针对这一特点,本文通过从语料库中抽取信息的方式,建立了大量的中文命名实体语义知识库。但是,由于语料库的规模有限,并且基于统计的方法普遍存在数据稀疏的问题,导致很多重要的知识不能被挖掘出来。为了解决这一问题,本文首次将语义扩展的思想应用在命名实体识别中,充分发挥了有限语言资源的作用,深度挖掘了有限资源的信息和知识,在不扩大语料库的前提下,挖掘出更丰富的知识,一定程度上缓解了数据稀疏问题。实验证明,相对于扩展前的知识库,利用扩展后的知识库,平均识别召回率提高了1.17%,F值提高了0.41%。特别是结构比较复杂的机构名识别准确率提高了0.24%,召回率提高了1.39%,F值提高了0.86%。
引用
收藏
页数:75
共 13 条
[1]
基于混合统计模型的汉语命名实体识别方法 [J].
张晓艳 ;
王挺 ;
陈火旺 .
计算机工程与科学, 2006, (06) :135-139
[2]
基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[3]
一种统计和词性相结合的命名实体发现方法 [J].
庄明 ;
老松杨 ;
吴玲达 .
计算机应用, 2004, (01) :22-24
[4]
基于最大熵方法的中英文基本名词短语识别 [J].
周雅倩 ;
郭以昆 ;
黄萱菁 ;
吴立德 .
计算机研究与发展, 2003, (03) :440-446
[5]
中文金融新闻中公司名的识别 [J].
王宁 ;
葛瑞芳 ;
苑春法 ;
黄锦辉 ;
李文捷 .
中文信息学报, 2002, (02) :1-6
[6]
基于向量空间模型的有导词义消歧 [J].
鲁松 ;
白硕 ;
黄雄 ;
张健 .
计算机研究与发展, 2001, (06) :662-667
[7]
中文名实体识别:基于词触发对的条件随机域方法.[J].赵健;王晓龙;关毅;徐志明;.高技术通讯.2006, 08
[8]
Chinese word segmentation and named entity recognition: A pragmatic approach [J].
Gao, JF ;
Li, M ;
Wu, A ;
Huang, CN .
COMPUTATIONAL LINGUISTICS, 2005, 31 (04) :531-574
[9]
SVM和最大熵相结合的中文机构名自动识别 [D]. 
杨德来 .
大连理工大学,
2006
[10]
信息抽取中关键技术的研究 [D]. 
张素香 .
北京邮电大学,
2007