基于Hash结构的逆向最大匹配分词算法的改进

被引:25
作者
丁振国
张卓
黎靖
机构
[1] 西安电子科技大学计算机学院
关键词
中文分词; 哈希结构; 逆向最大匹配算法; 分词词典; 消除歧义;
D O I
10.16208/j.issn1000-7024.2008.12.039
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM)。该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义。实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高。
引用
收藏
页码:3208 / 3211+3265 +3265
页数:5
相关论文
共 8 条
[1]  
数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.1987,
[2]   信息检索用户查询语句的停用词过滤 [J].
熊文新 ;
宋柔 .
计算机工程, 2007, (06) :195-197
[3]   汉语分词词典设计 [J].
翟伟斌 ;
周振柳 ;
蒋卓明 ;
许榕生 .
计算机工程与应用 , 2007, (01) :1-2+26
[4]   一种中文分词词典新机制——四字哈希机制 [J].
张培颖 ;
李村合 .
微型电脑应用, 2006, (10) :35-36+55+66
[5]   基于反序词典的中文逆向最大匹配分词系统设计 [J].
张李义 ;
李亚子 .
现代图书情报技术, 2006, (08) :42-45+30
[6]   一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[7]   全二分最大匹配快速分词算法 [J].
李振星 ;
徐泽平 ;
唐卫清 ;
唐荣锡 .
计算机工程与应用, 2002, (11) :106-109
[8]   一种改进的MM分词算法 [J].
郭辉 ;
苏中义 ;
王文 ;
崔骏 .
微型电脑应用, 2002, (01) :13-15+2