随着计算机和Internet的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高。汉语句法分析是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。
汉语作为自然语言的一种,具有自然语言所共有的最本质的特征,因此汉语句法分析有必要借鉴和吸收成熟的语言学理论。同时,由于汉语的特殊性,决定了汉语句法分析不可能照搬现成的方法,必须从汉语自身特点出发,以先进的语言学理论为指导,研究和开发适合汉语的句法分析技术。
本文的核心工作可以概括为以下三个方面:
1.对现有的一些句法分析算法和模型进行了比较、综合。在总结前人研究成果的基础上,对传统的汉语句法分析算法加以改进,采用了自底向上与自顶向下相结合的线图分析方法,提高了分析效率,也使得分析结果的准确率有一定的提高。
2.设计了一套常用的汉语句型库作为研究基础,根据实际应用,确定了一套词性标记集和短语标记集,并根据常用的句型,设计了一套基于上下文无关的语法规则库。
3.分析、设计和实现了一个汉语句法分析原型系统,实现了基于最大词长匹配算法的分词模块和基于相对频率训练的统计方法的词性标注模块;实现了基于改进的线图分析算法的句法分析模块。
本文使用北大计算语言研究所制作的PFR人民日报标注语料库作为训练样本,根据本文确定的词性标记集和短语标记集,以及本文设计的一套语法规则库,使用VC++6.0开发工具,实现了一个汉语句法分析原型系统,并进行小规模中文文本试验测试,验证本文改进的分析算法可行有效。