一种改进的高效分词词典机制

被引：8

作者：

王东

陈笑蓉

机构：

[1] 贵州大学计算机科学与技术学院

来源：

贵州大学学报(自然科学版) | 2007年 / 04期

关键词：

汉语自动分词; Hash索引算法; 中文信息处理;

D O I：

10.15958/j.cnki.gdxbzrb.2007.04.023

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。

引用

页码：380 / 384+389 +389

页数：6

共 8 条

[1] 一种Hash高速分词算法
李向阳
张亚非
[J]. 解放军理工大学学报(自然科学版), 2004, (02) : 40 - 44
[2] 一种中文分词词典新机制——双字哈希机制
李庆虎
陈玉健
孙家广
[J]. 中文信息学报, 2003, (04) : 13 - 18
[3] 全二分最大匹配快速分词算法
李振星
徐泽平
唐卫清
唐荣锡
[J]. 计算机工程与应用, 2002, (11) : 106 - 109
[4] 基于PATRICIA tree的汉语自动分词词典机制
杨文峰
陈光英
李星
[J]. 中文信息学报, 2001, (03) : 44 - 49
[5] 一种改进的快速分词算法
陈桂林
王永成
韩客松
王刚
[J]. 计算机研究与发展, 2000, (04) : 418 - 424
[6] 汉语自动分词词典机制的实验研究
孙茂松
左正平
黄昌宁
[J]. 中文信息学报, 2000, (01) : 1 - 6
[7] 中文信息处理中的分词问题
黄昌宁
[J]. 语言文字应用, 1997, (01)
[8] 汉语自动分词研究中的苦干理论问题
孙茂松，邹嘉彦
[J]. 语言文字应用, 1995, (04) : 40 - 46

← 1 →