提高汉语自动分词精度的多步处理策略

被引:22
作者
赵铁军
吕雅娟
于浩
杨沐昀
刘芳
机构
[1] 哈尔滨工业大学计算机科学与技术学院!哈尔滨
关键词
汉语自动分词; 歧义; 多步处理;
D O I
暂无
中图分类号
TP391.12 [];
学科分类号
081203 ; 0835 ;
摘要
:汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达 98%以上
引用
收藏
页码:13 / 18
页数:6
相关论文
共 4 条
[1]   基于分解与动态规划策略的汉语未登录词识别 [J].
吕雅娟 ;
赵铁军 ;
杨沐昀 ;
于浩 ;
李生 .
中文信息学报, 2001, (01) :28-33
[2]   高频最大交集型歧义切分字段在汉语自动分词中的作用 [J].
孙茂松 ;
左正平 ;
邹嘉彦 .
中文信息学报, 1999, (01) :28-35
[3]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[4]  
姓氏人名用字分析统计[M]. 语文出版社 , 中国社会科学院语言文字应用研究所汉字整理研究室编, 1991