共 9 条
字典与统计相结合的中文分词方法
被引:42
作者:
翟凤文
赫枫龄
左万利
机构:
[1] 吉林大学软件学院
来源:
关键词:
中文分词;
基于字典的分词;
基于统计的分词;
交集型分词歧义;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%.
引用
收藏
页码:1766 / 1771
页数:6
相关论文