基于最大熵模型的汉语词性标注研究

被引:0
作者
张磊
机构
[1] 大连理工大学
关键词
词性标注; 最大熵; 自然语言处理;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
词性标注是为文本中的每个词语标上正确词性的过程。它作为自然语言处理的一项基础性工作,是后续句法分析、组块分析等任务的必要准备。词性标注中出现的错误会在后续处理中被放大,影响后续处理的效果,正确的词性标注对于自然语言处理有着非常重要的意义。本文的目的是在分词的基础上,研究提高汉语词性标注准确率的方法,为后期词法分析和其它自然语言处理任务服务。 最大熵模型是一种使用灵活、精确率高的统计模型。最大熵模型的一般使用方法是利用模型直接获得结果,但是通过实验发现,大约94%的词语的正确标注是最大熵模型给出的最优标注,大约3%的词语的正确标注是最大熵模型给出的次优标注。直接舍弃次优标注,就舍弃了通过最大熵模型获得的一些信息。因此可以通过一些改进手段,把这些信息也加以利用,从而提高标注精度。 本文通过结合使用最大熵模型和隐马尔可夫模型、融合多个最大熵模型的标注结果、结合使用最大熵模型和CRFs构建了三个词性标注器。使用的三种词性标注方法的核心就是同时考虑最大熵模型的最优标注和次优标注。 实验结果表明,通过同时考虑最大熵模型的最优标注和次优标注来改善中文词词性标注方法是有效的:三种词性标注方法相对于只使用最大熵模型,精确率分别提高0.45%、0.32%、1.53%。其中,最大熵模型结合CRFs的标注效果是最理想的。 词性标注是自然语言处理过程中的一个环节,本文的研究成果可以为诸如组块识别、命名实体识别等其它自然语言处理环节服务,也可以作为实现词性标注的具体方法加入实用系统中去。
引用
收藏
页数:56
共 26 条
[21]
基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44
[22]
基于隐Markov模型的汉语词类自动标注的实验研究 [J].
孙茂松 ;
卢红娜 ;
邹嘉彦 .
清华大学学报(自然科学版), 2000, (09) :57-60
[23]
基于统计的汉语词性标注方法的分析与改进 [J].
魏欧 ;
吴健 ;
孙玉芳 ;
sonata.iscas.ac.cn .
软件学报, 2000, (04) :473-480
[24]
基于评价的汉语词性纯概率标注算法 [J].
张民 ;
李生 ;
赵铁军 ;
不详 .
计算机研究与发展 , 1998, (04)
[25]
用于词性标注的一种快速学习算法──对Brill的基于变换算法的一项改进 [J].
周明 ;
吴进 ;
黄昌宁 .
计算机学报, 1998, (04) :357-366
[26]
统计与规则并举的汉语词性自动标注算法 [J].
张民 ;
李生 ;
赵铁军 ;
张艳风 .
软件学报, 1998, (02)