汉语分词中一种逐词匹配算法的研究

被引:5
作者
邓曙光
曾朝晖
机构
[1] 湖南城市学院
[2] 湖南城市学院 湖南益阳
[3] 湖南益阳
关键词
汉语分词; 歧义词; 伪歧义字段; 逐词匹配算法;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
提出了一种改进的逐词匹配算法.该算法通过对非歧义字段切分,对人名地名进行判别,以及对伪歧义字段进行处理,使交集型歧义字段切分正确率有了大幅度提高.在5万汉字语料开放测试中,交集型歧义字段切分正确率可达98%以上.
引用
收藏
页码:76 / 78
页数:3
相关论文
共 5 条
[1]  
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[2]  
语言工程.[M].陈力为;袁琦主编;.清华大学出版社.1997,
[3]   交集型歧义字段切分方法研究 [J].
闫引堂 ;
周晓强 .
情报学报, 2000, (06) :637-643
[4]   汉语语言的无词典分词模型系统 [J].
韩客松 ;
王永成 ;
陈桂林 .
计算机应用研究, 1999, (10) :8-9
[5]   高频最大交集型歧义切分字段在汉语自动分词中的作用 [J].
孙茂松 ;
左正平 ;
邹嘉彦 .
中文信息学报, 1999, (01) :28-35