基于神经网络的中文分词算法的研究

被引:0
作者
张晓淼
机构
[1] 大连理工大学
关键词
中文分词; 自然语言理解; 歧义字段; 神经网络; BP网络;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
汉语书写时是按句连写,词间无间隙,容易让人在句子的理解上产生偏差,这就给查询信息、机器翻译等工作造成了很大的困难:造成不相关结果的返回、找不到相关文档、翻译不准确等。所以为了解决这些问题就要对句中的词语进行精确的切分。 在对日常交流及其报刊杂志中所出现的各类语言现象进行深入分析研究后,本文对日常生活常见的典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库。以此为基础,利用神经网络的自组织、自学习的能力,达到对不同规则歧义字段的精确切分。在样本的选取上,本文所选样本空间基本囊括了歧义字段的各典型类型。样本训练前,先把字段中所包含的语法规则转换为神经网络能够接受的数据形式,将字段中的单词依词性代码库分别进行编码;在对输出结果所代表的含义进行解释时,从切分的表示方式上,以大量训练所得的输出结点值为依据对切分点进行判断。从而将字、词或抽象语法规则通过代码的表示方式与输入神经元对应,使切分方式与输出神经元相对应,找到了一个输入、输出逻辑概念到输入、输出模式的转换。通过大量数据训练达到了网络对歧义字段中包含的语法规则的学习,进而实现了对词语的准确切分。另外,通过采用给权值修正量加矩量项来修正学习速率的方法,对BP算法进行了改进,提高了收敛速度,使得分词效果得到了明显改善。 在采用三层BP网络进行大量样本训练后,由实验结果得出:算法在歧义字段分词上达到了93.13%的训练精度、92.50%的测试精度,在对未经训练的一般语料样本的处理上,达到了预期的切分效果。该分词方法提供了一种新的输入、输出逻辑概念到输入、输出模式的转换方式,成功地解决了由于字间组合方式无穷多而无法训练的难题,应用于词语切分上,取得了很好的分词效果。
引用
收藏
页数:67
共 29 条
[1]
基于联想记忆神经网络模型的BP算法 [J].
吴迪 ;
赵鹤鸣 ;
陶智 .
微电子学与计算机, 2005, (05) :151-154+158
[2]
基于面向对象的受限自然语言查询系统的设计与实现 [J].
马晓娜 ;
杨承磊 ;
不详 .
计算机工程与应用 , 2005, (10) :165-168
[3]
潜在语义分析在中文信息处理中的应用 [J].
刘云峰 ;
齐欢 ;
代建民 .
计算机工程与应用, 2005, (03) :91-93
[4]
一种基于语境的中文分词方法研究 [J].
张茂元 ;
卢正鼎 ;
邹春燕 .
小型微型计算机系统, 2005, (01) :129-133
[5]
汉语分词技术综述 [J].
龚汉明 ;
周长胜 .
北京机械工业学院学报, 2004, (03) :52-55+61
[6]
基于上下文相关的最大概率汉语自动分词算法 [J].
金瑜 ;
陆启明 ;
高峰 .
计算机工程, 2004, (16) :146-148
[7]
中文信息检索引擎中的分词与检索技术 [J].
吴栋 ;
滕育平 .
计算机应用, 2004, (07) :128-131
[8]
基于无指导学习策略的无词表条件下的汉语自动分词 [J].
孙茂松 ;
肖明 ;
邹嘉彦 .
计算机学报, 2004, (06) :736-742
[9]
汉语自动分词研究及其在信息检索中的应用 [J].
曹倩 ;
丁艳 ;
王超 ;
潘金贵 .
计算机应用研究, 2004, (05) :71-74+91
[10]
Web中文文本分词技术研究 [J].
马玉春 ;
宋瀚涛 .
计算机应用, 2004, (04) :134-135+155