句法分析是自然语言处理的重要任务之一。依存句法分析是针对给定的句子序列应用某一依存语法对其进行自动分析的一种方法。相对于短语结构语法而言,依存句法分析提供了对句中语法关系层面的简单描述,具有易于理解、便于转化为语义依存形式的优点,可广泛运用于机器翻译、关系抽取、本体构建等领域。本文结合规则与统计的方法,针对汉语依存句法分析的技术及应用进行了探索,主要包括以下内容:
首先,提出了基于最长介词短语的最长名词短语的识别方法,利用了介词短语作状语时与名词短语产生的相互制约特性来进行最长名词短语识别,并采用了新的标记方式及上文长距离关联词作为特征,从而有利于依存树的构建。
其次,本文提出了一种全新的基于依存方向的多阶段统计依存分析方法。该方法将依存分析过程分解为多个子阶段分别进行,各个阶段是一种序贯的模式,因此更利于针对分析过程中的不同问题采取相应的解决方案,同时,前一阶段分析也为后一阶段提供了一个更加清晰的上下文环境。另外,依存方向的引入,使得该方法与经典的基于图的方法相比,具有更低的搜索空间。
再次,将规则与统计方法相结合,利用两者的优点,对汉语依存分析技术进行研究。统计部分使用基于依存方向的多阶段分析方法,规则方法主要体现在词语搭配表的引入及基于统计方法的规则分析技术。实验结果表明,本文方法具有与主流方法可比的分析精度和较高的分析效率。
最后,针对依存分析结果的应用,对模板抽取方法进行探索。提出了基于分句及分句间关系的模板抽取方法,利用分析结果中依存弧和依存关系信息,自动生成模板,为机器翻译、信息检索提供有效的支持。
本文前三部分工作主要在于汉语依存分析的理论与技术上的探索,并为后一部分提供服务,后一部分主要致力于对依存分析的具体应用进行考查。