基于最大熵模型的汉语词性标注研究

被引:0
作者
张磊
机构
[1] 大连理工大学
关键词
词性标注; 最大熵; 自然语言处理;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
词性标注是为文本中的每个词语标上正确词性的过程。它作为自然语言处理的一项基础性工作,是后续句法分析、组块分析等任务的必要准备。词性标注中出现的错误会在后续处理中被放大,影响后续处理的效果,正确的词性标注对于自然语言处理有着非常重要的意义。本文的目的是在分词的基础上,研究提高汉语词性标注准确率的方法,为后期词法分析和其它自然语言处理任务服务。 最大熵模型是一种使用灵活、精确率高的统计模型。最大熵模型的一般使用方法是利用模型直接获得结果,但是通过实验发现,大约94%的词语的正确标注是最大熵模型给出的最优标注,大约3%的词语的正确标注是最大熵模型给出的次优标注。直接舍弃次优标注,就舍弃了通过最大熵模型获得的一些信息。因此可以通过一些改进手段,把这些信息也加以利用,从而提高标注精度。 本文通过结合使用最大熵模型和隐马尔可夫模型、融合多个最大熵模型的标注结果、结合使用最大熵模型和CRFs构建了三个词性标注器。使用的三种词性标注方法的核心就是同时考虑最大熵模型的最优标注和次优标注。 实验结果表明,通过同时考虑最大熵模型的最优标注和次优标注来改善中文词词性标注方法是有效的:三种词性标注方法相对于只使用最大熵模型,精确率分别提高0.45%、0.32%、1.53%。其中,最大熵模型结合CRFs的标注效果是最理想的。 词性标注是自然语言处理过程中的一个环节,本文的研究成果可以为诸如组块识别、命名实体识别等其它自然语言处理环节服务,也可以作为实现词性标注的具体方法加入实用系统中去。
引用
收藏
页数:56
共 26 条
[1]
汉语组块识别的研究 [D]. 
罗雪兵 .
大连理工大学,
2007
[2]
基于最大熵的汉语词性标注 [D]. 
孔海霞 .
大连理工大学,
2007
[3]
基于条件随机场的中文分词研究 [D]. 
姜锋 .
大连理工大学,
2006
[4]
应用于词性标注的隐马尔可夫模型参数评估 [D]. 
刘伟强 .
大连理工大学,
2006
[5]
最大熵方法及其在自然语言处理中的应用 [D]. 
周雅倩 .
复旦大学,
2005
[6]
统计自然语言处理基础.[M].(美)ChristopherD.Manning;(德)HinrichSchutze著;苑春法等译;.电子工业出版社.2005,
[7]
计算语言学概论.[M].俞士汶主编;.商务印书馆.2003,
[8]
计算语言学基础.[M].冯志伟著;.商务印书馆.2001,
[9]
基于实例的中文分词-词性标注方法的应用研究 [J].
姜涛 ;
姚天顺 ;
张俐 .
小型微型计算机系统, 2007, (11) :2090-2093
[10]
一种用于词性标注的相关投票融合策略 [J].
郭永辉 ;
吴保民 ;
王炳锡 .
中文信息学报, 2007, (02) :9-13