汉语组块识别的研究

被引:0
作者
罗雪兵
机构
[1] 大连理工大学
关键词
自然语言处理; 组块分析; 特殊隐马尔可夫模型; 支持向量机; 条件随机域;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着自然语言处理中词法分析的日趋成熟,句法分析已经成为当前研究的重点和难点,组块识别的提出是为了降低完全句法分析的复杂性。通过采用“分而治之”的策略将句法分析分为组块识别和组块间关系分析,这样将词级的处理转换为组块级的处理,降低了句法分析的难度。本文的目的就是在词法分析的基础上,完成汉语句子的组块识别,为完全句法分析和其他自然语言处理任务提供基础。 论文阐述了组块识别的研究现状及研究意义,给出了本文研究的组块定义及组块分类,研究并实现了基于特殊隐马尔可夫模型(Hidden markov model,HMM)、支持向量机(Support vector machine,SVM)以及条件随机域(Conditional random fields,CRF)的组块识别系统,应用特征扩展和voting组合法改善组块识别结果。 文中给出了特殊HMM、SVM、CRF三种统计学习模型的识别效果。通过错误数据分析,发现特殊符号、并列关系以及较粗的词性会导致识别错误,并针对这些问题提出了一个特征扩展方法。在此基础上,给出了一种基于标点符号分割段的voting法结合三种统计模型,进一步改善了组块的识别效果。 实验表明,三种基本组块识别模型都取得了较好的结果,其中特殊HMM组块识别结果的F值为86.01%,SVM组块识别结果的F值为90.89%,CRF组块识别结果的F值为91.08%,从实验上验证了三种模型的有效性。在引入特征扩展特征和voting组合法后,组块识别结果的F值提高到91.39%。 本文的研究成果可应用于实际翻译系统中,达到简化句子结构、提高机器翻译系统整体性能的目的。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。
引用
收藏
页数:66
共 24 条
[1]
基于SVM的组块识别及其错误驱动学习方法 [J].
黄德根 ;
王莹莹 .
中文信息学报, 2006, (06) :17-24
[2]
Co-training机器学习方法在中文组块识别中的应用 [J].
刘世岳 ;
李珩 ;
张俐 ;
姚天顺 .
中文信息学报, 2005, (03) :73-79
[3]
基于Stacking算法的组合分类器及其应用于中文组块分析 [J].
李珩 ;
朱靖波 ;
姚天顺 .
计算机研究与发展, 2005, (05) :844-848
[4]
基于神经元网络的汉语组块自动划分 [J].
王荣波 ;
池哲儒 .
计算机工程, 2004, (20) :133-135
[5]
基于SVM的中文组块分析 [J].
李珩 ;
朱靖波 ;
姚天顺 .
中文信息学报, 2004, (02) :1-7
[6]
基于增益的隐马尔科夫模型的文本组块分析 [J].
李珩 ;
杨峰 ;
朱靖波 ;
姚天顺 .
计算机科学, 2004, (02) :152-154+192
[7]
基于最大熵模型的组块分析 [J].
李素建 ;
刘群 ;
杨志峰 .
计算机学报, 2003, (12) :1722-1727
[8]
基于最大熵方法的中英文基本名词短语识别 [J].
周雅倩 ;
郭以昆 ;
黄萱菁 ;
吴立德 .
计算机研究与发展, 2003, (03) :440-446
[9]
北京大学现代汉语语料库基本加工规范(续) [J].
俞士汶 ;
段慧明 ;
朱学锋 ;
孙斌 .
中文信息学报, 2002, (06) :58-64
[10]
汉语基本短语的自动识别 [J].
张昱琪 ;
周强 .
中文信息学报, 2002, (06) :1-8