一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究

被引:4
作者
岑咏华 [1 ,2 ]
机构
[1] 南京大学信息管理系
[2] 南京理工大学经济管理学院信息管理系
关键词
哈希词典; 算法; 中文分词;
D O I
10.16353/j.cnki.1000-7490.2009.03.004
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想。最后,论文对所研究技术方案进行了系统实现。系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能。
引用
收藏
页码:110 / 114
页数:5
相关论文
共 6 条
[1]   汉语词典的快速查询算法研究 [J].
李江波 ;
周强 ;
陈祖舜 .
中文信息学报, 2006, (05) :31-39
[2]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[3]   一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[4]   基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[5]   一种改进的快速分词算法 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (04) :418-424
[6]   汉语自动分词词典机制的实验研究 [J].
孙茂松 ;
左正平 ;
黄昌宁 .
中文信息学报, 2000, (01) :1-6