基于词典的中文分词算法研究

被引:21
作者
周程远
朱敏
杨云
机构
[1] 华东师范大学计算中心
关键词
中文分词; 计算机应用; 中文信息处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。
引用
收藏
页码:68 / 71+87 +87
页数:5
相关论文
共 7 条
[1]   基于反序词典的中文分词技术研究 [J].
罗桂琼 ;
费洪晓 ;
戴弋 .
计算机技术与发展, 2008, (01) :80-83
[2]   一种快速Web中文分词算法的研究 [J].
韩利凯 .
航空计算技术, 2007, (06) :68-69
[3]   具有三级索引词库结构的中文分词方法研究 [J].
肖红 ;
许少华 ;
李欣 .
计算机应用研究, 2006, (08) :49-51
[4]   基于中文文本分类的分词方法研究 [J].
湛燕 ;
陈昊 ;
袁方 ;
王熙照 ;
不详 .
计算机工程与应用 , 2003, (23) :87-88+91
[5]   一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[6]  
搜索引擎原理、实践与应用[M]. 电子工业出版社 , 卢亮, 2007
[7]  
计算机自然语言处理[M]. 清华大学出版社 , 王晓龙, 2005