中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列的过程。其作为中文信息处理的基础,己经被广泛应用于相关领域。因此,对中文分词的研究具有重要的理论和现实意义。本文将重点研究中文分词的词典机制、歧义消除、切分算法等技术。
鉴于语言的统计规律性,本文的中文分词算法使用词典和统计相结合的方法。在核心词典的组织方面,考虑到词典查找的时间效率、存储的空间效率、汉语词组的统计规律等特点,我们使用双字Hash索引分词词典机制,仅对词组的前两个字符依次建立Hash索引,构成深度为2的Trie树,词组的剩余字串则按序组成词典正文。歧义消除和未登录词识别是中文分词的两大技术难点,本文重点研究交叉型歧义的检测和消除。本文提出一种新的方法来检测交叉型歧义产生的位置,即将所有候选词条表示成二元切分词图,若原子字符的上方和右方同时不为空,则此处存在交叉型歧义。对于交叉型歧义的消除,则使用双字耦合度和t-测试差相结合的方法来判断是否切分。最后,把所有候选词条以及它们之间的相邻共现概率表示成带权有向无环图,来计算图中始末结点间的最短路径来达到最优分词。
实验表明,该中文分词算法在CPU2.0GHz,内存256MB的环境下,切分速度达到35000字/秒,分词准确率达到97.2%,召回率达到93.7%。算法的性能能够满足大部分上层应用的要求。