基于最大匹配的中文分词概率算法研究

被引:16
作者
何国斌
赵晶璐
机构
[1] 西南大学计算机与信息科学学院
关键词
分词词典; 跳跃表; 分词算法; 概率算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对消去歧义词也有较好的性能。
引用
收藏
页码:173 / 175
页数:3
相关论文
共 5 条
[1]   基于词索引的中文全文检索关键技术及其发展方向 [J].
熊回香 ;
夏立新 .
中国图书馆学报, 2007, (04) :45-49
[2]   全二分快速自动分词算法构建 [J].
张海营 .
现代图书情报技术, 2007, (04) :52-55
[3]   汉语自动分词研究进展 [J].
文庭孝 .
图书与情报, 2005, (05) :56-65
[4]   一种基于提取上下文信息的分词算法 [J].
曾华琳 ;
李堂秋 ;
史晓东 .
计算机应用, 2005, (09) :2025-2027
[5]   使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101