面向数据的分析技术(Data-OrientedParsing,DOP)首先由Scha(1990)年提出。该处理技术具体表达了这样的假设:人类对语言的领悟和创造依赖于以往具体的语言经验,而不是依赖于抽象的语法规则。DOP技术框架可以分为:(1)建立包括以往成功分析的语言经验的标注语料库;(2)从语料库中抽取片段单元来构造新语言的分析过程;(3)计算分析过程的概率。DOP模型建立在包含大量语言现象的语料库基础上,把经过标注的语料库看作一个语法(Grammar)。当输入一个新的语言现象时,系统通过对语料库中片段单元的组合运算来组合分析过程。根据所有片段单元的共现频率来评估最有可能性的分析结果。本文详细论述了语料库的标注,片段单元的定义,组合分析和概率计算