一种改进的快速分词算法

被引:53
作者
陈桂林
王永成
韩客松
王刚
机构
[1] 上海交通大学网络信息中心!上海
关键词
分词; Hash; 二分查找; 近邻匹配; 时间复杂度;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
首先介绍了一种高效的中文电子词表数据结构 ,它支持首字 Hash和标准的二分查找 ,且不限词条长度 ;然后提出了一种改进的快速分词算法 ,在快速查找两字词的基础上 ,利用近邻匹配方法来查找多字词 ,明显提高了分词效率 .理论分析表明 ,该分词算法的时间复杂度为 1.6 6 ,在速度方面 ,优于目前所见的同类算法
引用
收藏
页码:418 / 424
页数:7
相关论文
共 13 条
  • [1] 一种高效的中文电子词表数据结构
    陈桂林
    王永成
    韩客松
    王刚
    [J]. 计算机研究与发展, 2000, (01) : 109 - 116
  • [2] 基于两字词簇的汉语快速自动分词算法
    郭祥昊
    钟义信
    杨丽
    [J]. 情报学报, 1998, (05) : 34 - 39
  • [3] 利用汉字二元语法关系解决汉语自动分词中的交集型歧义
    孙茂松
    黄昌宁
    邹嘉彦
    陆方
    沈达阳
    [J]. 计算机研究与发展, 1997, (05) : 14 - 21
  • [4] 一种改进的MM分词方法的算法设计
    骆正清
    陈增武
    胡上序
    [J]. 中文信息学报, 1996, (03) : 30 - 36
  • [5] 一种汉语分词方法
    吴胜远
    [J]. 计算机研究与发展 , 1996, (04) : 306 - 311
  • [6] 基于神经网络的分词方法
    徐秉铮
    詹剑
    贺前华
    [J]. 中文信息学报, 1993, (02) : 36 - 44
  • [7] 快速书面汉语自动分词系统及其算法设计
    张国煊
    王小华
    周必水
    不详
    [J]. 计算机研究与发展 , 1993, (01) : 61 - 65
  • [8] 多语料库作法之中文姓名辨识
    张俊盛
    陈舜德
    郑萦
    刘显仲
    柯淑津
    [J]. 中文信息学报, 1992, (03) : 7 - 15
  • [9] 汉语计算机自动分词知识
    梁南元
    [J]. 中文信息学报, 1990, (02) : 29 - 33
  • [10] 基于规则的汉语自动分词系统
    姚天顺
    张桂平
    吴映明
    不详
    [J]. 中文信息学报 , 1990, (01) : 37 - 43