句法分析是自然语言处理中一个很重要的研究内容。对一个语言的分析包括词法分析、句法分析、语义和语用分析几个层面,因此句法分析的好坏直接影响到后继工程的进程。
本论文首先建立了维吾尔语句法树库标注体系,此标注体系包括两个模块:功能语块标记模块和成分标记模块。通过这个标注体系我们对建立了规则库,完成了这些基础工作后,我们分析了国内外正在流行的句法分析方法,从中选择了Chart句法分析方法,一开始采用了自底向上的Chart句法分析方法,但当发现这种方法分析效率比较低,而且容易产生歧义,我们改进了算法,将自底向上和自顶向下的Chart算法结合起来,实现了基于规则的维吾尔语Chart句法分析器。对于该分析器的测试是在新疆大学多语种信息技术自治区重点实验室词性标注语料库(XJU UPOS Corpus)的基础上进行的,测试结果较理想。
在用Chart系统分析的过程中我们发现一些问题,比如:所选取的字典和规则库规模较小,规则库中规则之间常常会发生冲突等。因为我们知道自然语言是存在歧义的,因此产生上述问题也是不可避免的。
今后的工作应该是不断地完善句法树库标注体系,由此提高规则库的准确性,而且应该将规则库的语法规则更加复杂化和完整化,从而提高Chart句法分析体统的效率。