共 5 条
基于两字词簇的汉语快速自动分词算法
被引:17
作者:
郭祥昊
钟义信
杨丽
机构:
[1] 北京邮电大学人工智能实验室
[2] 北方交通大学
来源:
关键词:
自然语言处理,分词算法,切分歧义;
D O I:
暂无
中图分类号:
G254.0 [文献检索语言(总论)];
学科分类号:
摘要:
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现
引用
收藏
页码:34 / 39
页数:6
相关论文