基于两字词簇的汉语快速自动分词算法

被引：17

作者：

郭祥昊

钟义信

杨丽

机构：

[1] 北京邮电大学人工智能实验室

[2] 北方交通大学

来源：

情报学报 | 1998年 / 05期

关键词：

自然语言处理,分词算法,切分歧义;

D O I：

暂无

中图分类号：

G254.0 [文献检索语言（总论）];

学科分类号：

摘要：

本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占７５％的统计规律，提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理，也就是把长词的扫描范围限定在词汇量很小的词簇内，从而不仅提高了分词速度，而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外，本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现

引用

页码：34 / 39

页数：6

共 5 条

[1] 汉语词切分标引算法的改进
苏新宁
[J]. 情报学报, 1996, (06) : 26 - 30
[2] 一种改进的MM分词方法的算法设计
骆正清
陈增武
胡上序
[J]. 中文信息学报, 1996, (03) : 30 - 36
[3] 基于知识评价的快速汉语自动分词系统
张民，李生，王海峰，赵铁军，王铁志
[J]. 情报学报, 1996, (02) : 95 - 105
[4] 基于规则的汉语自动分词系统
姚天顺
张桂平
吴映明
不详
[J]. 中文信息学报 , 1990, (01) : 37 - 43
[5] 最少分词问题及其解法
王晓龙
王开铸
李仲荣
白小华
[J]. 科学通报, 1989, (13) : 1030 - 1032

← 1 →