语义分析是自然语言理解的根本性问题,也是研究的重大难题。语义角色标注(Semantic Role Labeling,SRL)是语义分析的一种简化形式,因具有定义清晰、评测容易等特点而成为目前的研究热点。目前主流的语义角色标注研究都是基于短语结构句法分析,并取得一定的成功。自动句法分析性能对基于短语结构句法分析的语义角色标注性能起着主导作用,是现阶段语义角色标注的瓶颈。而另一方面,基于依存的句法分析由于其自身的特点日趋成为研究的热点。因此,本文从依存分析出发,实现了基于依存分析的语义角色标注,研究内容主要包括以下几个方面:
首先,探索了谓词的自动识别和谓词词义识别。由于语义角色标注是以谓词为驱动,这使得谓词自动标注是语义角色标注面向实际应用的前提。本文实现了基于机器学习方法的谓词识别和谓词词义识别。实验表明,在CoNLL2008测试集上谓词识别和谓词词义消歧的性能F1值分别达到了89.9%和82.1%,是目前已报告的在相同数据集上取得的最好性能。
其次,研究了基于依存分析的语义角色标注。将语义角色标注分为以下三步实现:剪枝、角色识别和角色分类。重点探索和分析了剪枝策略、特征选择对系统性能的影响。同时,分析了自动依存句法分析和自动谓词标注对语义角色标注性能的影响。使用CoNLL2008的数据集,基于自动依存树和自动谓词标注,取得的语义角色标注性能F1值为80.94%,与CoNLL2008评测的最优性能相当。
最后,首次尝试和探索了基于依存分析的中文语义角色标注。在将英文语义角色标注方法移植于中文时,重点分析了中文的语言特点,探索有利于中文语义角色标注的特征集,取得了较好的性能。作为基于中文语料的初次探索,为以后的研究打下了基础。