中文自动分词系统的研究与实现

被引:0
作者
周程远
机构
[1] 华东师范大学
关键词
中文分词; 分词词典; 自然语言处理;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
所谓中文分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之间是没有空格的,因而必须采用某种技术将其分开。中文文本自动分词算法从20世纪80年代以来就一直是一个研究热点,由于中文语言的复杂性使之一直处于发展阶段。 近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。目前中文分词算法各有优劣,很难绝对地比出高低,所以,中文分词的算法更多时候需要同实际的应用相结合。到目前为止,中文分词包括三类算法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。这些算法各有优劣,还无法证明哪一种方法更准确,它们都有自己技术上特点和用途上的区别。其中基于理解的分词研究还处于未成熟阶段。 分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。中文分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今中文分词已成为自然语言处理的研究热点与难点。 本文通过对多种中文分词算法进行比较、研究,改进了传统机械分词中的词典结构,提出了基于词库和统计的中文分词算法,从而提高了分词的正确率和效率。该算法将基于统计的无词典分词算法与机械分词方法相结合,改善了机械分词新词识别能力差的问题。由于分词过程主要还是基于机械分词,所以在正确率提高的情况下,仍然能够快速分地分词,随后在本文中所提出算法的基础上,设计开发了一套中文自动分词系统,该系统不仅可以完成对汉语的分词工作,还能比较各种算法的特点,有利于分析和研究。系统中所涉及到的算法也能够很好地为其它应用系统服务。 本论文的主要叙述过程如下: 首先,介绍了中文分词的概念、应用领域以及面临的难题,列举了现在常用的中文分词算法,并进行了简单的比较。 其次,在现有算法基础上,结合了传统机械分词和基于统计方法分词各自的优点,提出了基于词库和统计相结合的中文分词算法。在保证分词速度的同时,也提高了结果的准确率。 再次,在基于词典和统计的中文分词算法的基础上,设计并运用Java Web技术实现了中文分词系统。该系统不仅完成了中文分词工作,还能够比较不同算法之间的分词速度,可以验证本文算法的优越性。 最后,对论文各项工作进行了总结,并展望了需要进一步改进的工作。
引用
收藏
页数:61
共 22 条
[1]
基于词典的中文分词算法研究 [J].
周程远 ;
朱敏 ;
杨云 .
计算机与数字工程, 2009, 37 (03) :68-71+87
[2]
基于反序词典的中文分词技术研究 [J].
罗桂琼 ;
费洪晓 ;
戴弋 .
计算机技术与发展, 2008, (01) :80-83
[3]
一种快速Web中文分词算法的研究 [J].
韩利凯 .
航空计算技术, 2007, (06) :68-69
[4]
具有三级索引词库结构的中文分词方法研究 [J].
肖红 ;
许少华 ;
李欣 .
计算机应用研究, 2006, (08) :49-51
[5]
Web中文文本分词技术研究 [J].
马玉春 ;
宋瀚涛 .
计算机应用, 2004, (04) :134-135+155
[6]
统计与规则结合的一种新词识别方法 [J].
聂颂 ;
何丕廉 ;
孙越恒 .
微型机与应用, 2003, (10) :58-60
[7]
基于中文文本分类的分词方法研究 [J].
湛燕 ;
陈昊 ;
袁方 ;
王熙照 .
计算机工程与应用, 2003, (23) :87-88+91
[8]
一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[9]
基于汉语二字应成词的歧义字段切分方法 [J].
郑德权 ;
于凤 ;
王开涛 ;
赵铁军 .
计算机工程与应用, 2003, (01) :17-18+26
[10]
一种中文文档的非受限无词典抽词方法 [J].
金翔宇 ;
孙正兴 ;
张福炎 .
中文信息学报, 2001, (06) :33-39