基于改进BP网络的中文歧义字段分词方法研究

被引:11
作者
张利 [1 ]
张立勇 [1 ]
张晓淼 [1 ]
耿铁锁 [2 ]
岳宗阁 [3 ]
机构
[1] 大连理工大学电子与信息工程学院
[2] 大连理工大学国有资产处
[3] 大连理工大学附属医院
关键词
文本挖掘; 歧义字段; 自然语言处理; 神经网络;
D O I
暂无
中图分类号
TP183 [人工神经网络与计算];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.
引用
收藏
页码:131 / 135
页数:5
相关论文
共 5 条
[1]   中文分词在邮件过滤系统中的应用 [J].
林珊 ;
宁国宁 ;
赵之霖 .
华南理工大学学报(自然科学版), 2004, (S1) :112-116
[2]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[3]   Web中文文本分词技术研究 [J].
马玉春 ;
宋瀚涛 .
计算机应用, 2004, (04) :134-135+155
[4]   现代汉语分词系统通用接口设计与实现 [J].
娄珽 ;
宋柔 ;
李卫亮 ;
罗智勇 .
中文信息学报, 2001, (05) :1-7
[5]   汉语自动分词研究评述 [J].
孙茂松 ;
邹嘉彦 .
当代语言学, 2001, (01) :22-32+77