基于优化最大匹配与统计结合的汉语分词方法

被引：36

作者：

刘春辉

金顺福

刘国华

李颖

机构：

[1] 燕山大学信息科学与工程学院

来源：

燕山大学学报 | 2009年 / 33卷 / 02期

关键词：

中文信息处理; 词典; 分词; 优化最大匹配方法;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。

引用

页码：124 / 129

页数：6

共 15 条

[1]

一种改进的高效分词词典机制 [J].