一个基于词典与统计的中文分词算法

被引:0
作者
张旭
机构
[1] 电子科技大学
关键词
中文分词; 统计分词; 正向最大匹配算法; 逆向最大匹配算法; 哈希表;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
本文重点介绍了一个基于字符串匹配与基于统计相结合的中文分词方法,解决了一定条件下的人名,地名,数量词等未登录词以及交集型歧义和自然语言的二义性引起的歧义等问题。本文的算法首先对待分词的字符串进行断句(优先在待分词的字符串中识别和切分出标点符号,以这些符号作为断点,可将原来的字符串分解为较小的串再进基于字符串匹配的分词,从而减少匹配的错误率),然后对断句结果运用正向和逆向最大匹配算法依次进行分词处理,再对处理结果进行比较,如果分词结果不同则表明可能存在歧义,就采用基于统计的方法进行歧义处理,从而提高了分词的准确率。 本文设计的算法在两个方面进行了改进,首先是在分词词典方面,将原来单一的词典分为基本词典和特征词词典两个部分。改进了基本分词词典在内存中的存储结构,根据汉语中两字词的数量最多的特点和哈希索引表查找效率高的特点,采用了双字哈希索引结构将词典中的词按前两个字为索引关键字进行存储,同时改进了剩余字串的存储方式,将词剩余字串按词长逆序存放,提高了匹配查找的速度。在匹配过程中结合特征词词典对歧义进行探测和处理,提高了机械分词的准确率,大大提高了对姓名、地名和数量词的正确切分率减少这些词所引起的歧义数量节省了歧义处理时间,提高了分词速度。其次是在统计分词方面的改进,本算法中利用统计方法处理未登录词和歧义。统计方法的最大缺点就是要求字串要在待分析的字符串中出现一次以上,所以基于统计的分词方法的分全率和准确性比较低,针对这一缺点在歧义处理上,我们加入了一些对汉语语言分析所得的规则,来弥补单纯的统计分词方法的不足。本文采取的歧义处理算法是统计与规则相结合的复合歧义处理算法,结合了根据大量语料统计所得的若干规则,以及语言学的一些知识,同时考虑了语言环境在歧义处理上的重要作用。歧义消解结果比较理想,在一定程度上提高了分词的准确性。
引用
收藏
页数:71
共 19 条
[1]
一种基于语境的中文分词方法研究 [J].
张茂元 ;
卢正鼎 ;
邹春燕 .
小型微型计算机系统, 2005, (01) :129-133
[2]
一种规则与统计相结合的汉语分词方法 [J].
赵伟 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
计算机应用研究, 2004, (03) :23-25
[3]
一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[4]
国内中文分词技术研究新进展 [J].
冯书晓 ;
徐新 ;
杨春梅 .
情报杂志, 2002, (11) :29-30
[5]
文本分割算法对中文信息过滤影响研究 [J].
朱寰 ;
阮彤 ;
于庆喜 ;
不详 .
计算机工程与应用 , 2002, (13) :62-65
[6]
模糊聚类算法在汉语文本聚类中的应用 [J].
李家福 ;
陆建江 ;
张亚非 .
计算机工程, 2002, (04) :15-16+33
[7]
一种改进的MM分词算法 [J].
郭辉 ;
苏中义 ;
王文 ;
崔骏 .
微型电脑应用, 2002, (01) :13-15+2
[8]
中文自动校对系统的研究与实现 [J].
吴岩 ;
李秀坤 ;
刘挺 ;
王开铸 .
哈尔滨工业大学学报, 2001, (01) :60-64
[9]
基于字表的中文搜索引擎分词系统的设计与实现 [J].
丁承 ;
邵志清 .
计算机工程, 2001, (02) :191-193
[10]
汉语自动分词词典机制的实验研究 [J].
孙茂松 ;
左正平 ;
黄昌宁 .
中文信息学报, 2000, (01) :1-6