汉语组块识别的研究

被引：0

作者：

罗雪兵

机构：

[1] 大连理工大学

关键词：

自然语言处理; 组块分析; 特殊隐马尔可夫模型; 支持向量机; 条件随机域;

D O I：

暂无

年度学位：

2007

学位类型：

硕士

导师：

黄德根;

摘要：

随着自然语言处理中词法分析的日趋成熟，句法分析已经成为当前研究的重点和难点，组块识别的提出是为了降低完全句法分析的复杂性。通过采用“分而治之”的策略将句法分析分为组块识别和组块间关系分析，这样将词级的处理转换为组块级的处理，降低了句法分析的难度。本文的目的就是在词法分析的基础上，完成汉语句子的组块识别，为完全句法分析和其他自然语言处理任务提供基础。论文阐述了组块识别的研究现状及研究意义，给出了本文研究的组块定义及组块分类，研究并实现了基于特殊隐马尔可夫模型(Hidden markov model，HMM)、支持向量机(Support vector machine，SVM)以及条件随机域(Conditional random fields，CRF)的组块识别系统，应用特征扩展和voting组合法改善组块识别结果。文中给出了特殊HMM、SVM、CRF三种统计学习模型的识别效果。通过错误数据分析，发现特殊符号、并列关系以及较粗的词性会导致识别错误，并针对这些问题提出了一个特征扩展方法。在此基础上，给出了一种基于标点符号分割段的voting法结合三种统计模型，进一步改善了组块的识别效果。实验表明，三种基本组块识别模型都取得了较好的结果，其中特殊HMM组块识别结果的F值为86.01％，SVM组块识别结果的F值为90.89％，CRF组块识别结果的F值为91.08％，从实验上验证了三种模型的有效性。在引入特征扩展特征和voting组合法后，组块识别结果的F值提高到91.39％。本文的研究成果可应用于实际翻译系统中，达到简化句子结构、提高机器翻译系统整体性能的目的。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。

引用

页数：66

共 24 条

[1]

基于SVM的组块识别及其错误驱动学习方法 [J].