基于改进最大匹配算法的中文分词粗分方法

被引：85

作者：

周俊 ^{[1
,2
]}

郑中华 ^{[3
]}

张炜 ^{[2
]}

机构：

[1] 华中科技大学模具技术国家重点实验室

[2] 安徽博约信息科技有限责任公司

[3] 中国人民大学教育学院

来源：

计算机工程与应用 | 2014年 / 50卷 / 02期

关键词：

中文分词; 最大匹配; 广义词; 诱导词集;

D O I：

暂无

中图分类号：

TP391.12 [];

学科分类号：

摘要：

中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。

引用

页码：124 / 128

页数：5

共 5 条

[1]

回溯正向匹配中文分词算法 [J].