基于N-gram模型的中文分词前k优算法

被引:5
作者
李书豪
陈宇
吕淑宝
张猛治
机构
[1] 东北林业大学信息与计算机工程学院
基金
黑龙江省自然科学基金;
关键词
中文输入法; N-gram模型; k优路径; A*算法;
D O I
暂无
中图分类号
TP391.14 [];
学科分类号
摘要
本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理。针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径。最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路。
引用
收藏
页码:31 / 35
页数:5
相关论文
共 10 条