基于最大匹配的中文分词概率算法研究

被引：16

作者：

何国斌

赵晶璐

机构：

[1] 西南大学计算机与信息科学学院

来源：

关键词：

分词词典; 跳跃表; 分词算法; 概率算法;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对消去歧义词也有较好的性能。

引用

页码：173 / 175

页数：3

共 5 条

熊回香 ;

夏立新 .

[2] 全二分快速自动分词算法构建 [J].

张海营 .

[3] 汉语自动分词研究进展 [J].

文庭孝 .

[4] 一种基于提取上下文信息的分词算法 [J].

曾华琳 ;

李堂秋 ;

史晓东 .

[5] 使用最大熵模型进行中文文本分类 [J].

李荣陆 ;

王建会 ;

陈晓云 ;

陶晓鹏 ;

胡运发 .