共 6 条
一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究
被引:4
作者:
岑咏华
[1
,2
]
机构:
[1] 南京大学信息管理系
[2] 南京理工大学经济管理学院信息管理系
来源:
关键词:
哈希词典;
算法;
中文分词;
D O I:
10.16353/j.cnki.1000-7490.2009.03.004
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想。最后,论文对所研究技术方案进行了系统实现。系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能。
引用
收藏
页码:110 / 114
页数:5
相关论文