中文分词关键技术研究

被引:0
作者
曹卫峰
机构
[1] 南京理工大学
关键词
中文分词; 哈希索引; 概率统计; 最短路径算法;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列的过程。其作为中文信息处理的基础,己经被广泛应用于相关领域。因此,对中文分词的研究具有重要的理论和现实意义。本文将重点研究中文分词的词典机制、歧义消除、切分算法等技术。 鉴于语言的统计规律性,本文的中文分词算法使用词典和统计相结合的方法。在核心词典的组织方面,考虑到词典查找的时间效率、存储的空间效率、汉语词组的统计规律等特点,我们使用双字Hash索引分词词典机制,仅对词组的前两个字符依次建立Hash索引,构成深度为2的Trie树,词组的剩余字串则按序组成词典正文。歧义消除和未登录词识别是中文分词的两大技术难点,本文重点研究交叉型歧义的检测和消除。本文提出一种新的方法来检测交叉型歧义产生的位置,即将所有候选词条表示成二元切分词图,若原子字符的上方和右方同时不为空,则此处存在交叉型歧义。对于交叉型歧义的消除,则使用双字耦合度和t-测试差相结合的方法来判断是否切分。最后,把所有候选词条以及它们之间的相邻共现概率表示成带权有向无环图,来计算图中始末结点间的最短路径来达到最优分词。 实验表明,该中文分词算法在CPU2.0GHz,内存256MB的环境下,切分速度达到35000字/秒,分词准确率达到97.2%,召回率达到93.7%。算法的性能能够满足大部分上层应用的要求。
引用
收藏
页数:58
共 28 条
[1]
基于反序词典的中文分词技术研究 [J].
罗桂琼 ;
费洪晓 ;
戴弋 .
计算机技术与发展, 2008, (01) :80-83
[2]
分词索引树的构建 [J].
高文利 ;
李德华 .
语言研究, 2007, (04) :103-105
[3]
基于双字耦合度的中文分词交叉歧义处理方法 [J].
王思力 ;
王斌 .
中文信息学报, 2007, (05) :14-17+30
[4]
一种基于大规模语料的新词识别方法 [J].
贺敏 ;
龚才春 ;
张华平 ;
程学旗 .
计算机工程与应用 , 2007, (21) :157-159
[5]
词频统计中文分词技术的研究 [J].
朱小娟 ;
陈特放 .
仪器仪表用户, 2007, (03) :78-79
[6]
中文分词中歧义切分处理策略 [J].
郑家恒 ;
张剑锋 ;
谭红叶 .
山西大学学报(自然科学版), 2007, (02) :163-167
[7]
中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[8]
多次Hash快速分词算法 [J].
张科 .
计算机工程与设计, 2007, (07) :1716-1718
[9]
汉语分词词典设计 [J].
翟伟斌 ;
周振柳 ;
蒋卓明 ;
许榕生 .
计算机工程与应用 , 2007, (01) :1-2+26
[10]
一种中文分词词典新机制——四字哈希机制 [J].
张培颖 ;
李村合 .
微型电脑应用, 2006, (10) :35-36+55+66