基于改进BP网络的中文歧义字段分词方法研究

被引：11

作者：

张利 ^{[1
]}

张立勇 ^{[1
]}

张晓淼 ^{[1
]}

耿铁锁 ^{[2
]}

岳宗阁 ^{[3
]}

机构：

[1] 大连理工大学电子与信息工程学院

[2] 大连理工大学国有资产处

[3] 大连理工大学附属医院

来源：

大连理工大学学报 | 2007年 / 01期

关键词：

文本挖掘; 歧义字段; 自然语言处理; 神经网络;

D O I：

暂无

中图分类号：

TP183 [人工神经网络与计算];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.

引用

页码：131 / 135

页数：5

共 5 条

[1] 中文分词在邮件过滤系统中的应用 [J].