词性标注是为文本中的每个词语标上正确词性的过程。它作为自然语言处理的一项基础性工作,是后续句法分析、组块分析等任务的必要准备。词性标注中出现的错误会在后续处理中被放大,影响后续处理的效果,正确的词性标注对于自然语言处理有着非常重要的意义。本文的目的是在分词的基础上,研究提高汉语词性标注准确率的方法,为后期词法分析和其它自然语言处理任务服务。
最大熵模型是一种使用灵活、精确率高的统计模型。最大熵模型的一般使用方法是利用模型直接获得结果,但是通过实验发现,大约94%的词语的正确标注是最大熵模型给出的最优标注,大约3%的词语的正确标注是最大熵模型给出的次优标注。直接舍弃次优标注,就舍弃了通过最大熵模型获得的一些信息。因此可以通过一些改进手段,把这些信息也加以利用,从而提高标注精度。
本文通过结合使用最大熵模型和隐马尔可夫模型、融合多个最大熵模型的标注结果、结合使用最大熵模型和CRFs构建了三个词性标注器。使用的三种词性标注方法的核心就是同时考虑最大熵模型的最优标注和次优标注。
实验结果表明,通过同时考虑最大熵模型的最优标注和次优标注来改善中文词词性标注方法是有效的:三种词性标注方法相对于只使用最大熵模型,精确率分别提高0.45%、0.32%、1.53%。其中,最大熵模型结合CRFs的标注效果是最理想的。
词性标注是自然语言处理过程中的一个环节,本文的研究成果可以为诸如组块识别、命名实体识别等其它自然语言处理环节服务,也可以作为实现词性标注的具体方法加入实用系统中去。