基于动态规划的最小代价路径汉语自动分词

被引:5
作者
孙晓
黄德根
机构
[1] 大连理工大学计算机科学与工程系
关键词
汉语自动分词; 最长次长匹配; 最小代价路径; 切分歧义消解; 未知词特征词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径,其中有向图中的节点代价对应单词频度,而边代价对应所连接的两个单词的接续频度;运用改进后Dijkstra最小代价路径算法,求出有向图中路径代价最小的切分路径作为切分结果.在切分歧义的处理上采用分步过滤逐步解消的方法,并引入了基于未知词特征词驱动的机制,对未知词进行了前处理,减少了因未知词的出现而导致的切分错误.实验结果表明,该方法有效地提高了汉语分词的精确率和召回率.
引用
收藏
页码:516 / 519
页数:4
相关论文
共 5 条