汉语书写时是按句连写,词间无间隙,容易让人在句子的理解上产生偏差,这就给查询信息、机器翻译等工作造成了很大的困难:造成不相关结果的返回、找不到相关文档、翻译不准确等。所以为了解决这些问题就要对句中的词语进行精确的切分。
在对日常交流及其报刊杂志中所出现的各类语言现象进行深入分析研究后,本文对日常生活常见的典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库。以此为基础,利用神经网络的自组织、自学习的能力,达到对不同规则歧义字段的精确切分。在样本的选取上,本文所选样本空间基本囊括了歧义字段的各典型类型。样本训练前,先把字段中所包含的语法规则转换为神经网络能够接受的数据形式,将字段中的单词依词性代码库分别进行编码;在对输出结果所代表的含义进行解释时,从切分的表示方式上,以大量训练所得的输出结点值为依据对切分点进行判断。从而将字、词或抽象语法规则通过代码的表示方式与输入神经元对应,使切分方式与输出神经元相对应,找到了一个输入、输出逻辑概念到输入、输出模式的转换。通过大量数据训练达到了网络对歧义字段中包含的语法规则的学习,进而实现了对词语的准确切分。另外,通过采用给权值修正量加矩量项来修正学习速率的方法,对BP算法进行了改进,提高了收敛速度,使得分词效果得到了明显改善。
在采用三层BP网络进行大量样本训练后,由实验结果得出:算法在歧义字段分词上达到了93.13%的训练精度、92.50%的测试精度,在对未经训练的一般语料样本的处理上,达到了预期的切分效果。该分词方法提供了一种新的输入、输出逻辑概念到输入、输出模式的转换方式,成功地解决了由于字间组合方式无穷多而无法训练的难题,应用于词语切分上,取得了很好的分词效果。