从ACL-SIGHAN国际分词竞赛看已知词和未登录词识别的平衡问题

被引:4
作者
陈丽江
机构
[1] 南京师范大学文学院江苏南京
关键词
分词竞赛; 已知词; 未登录词; 平衡性; 适应性;
D O I
暂无
中图分类号
H08 [应用语言学];
学科分类号
050110 [应用语言学];
摘要
中文分词一直是大规模语料库加工的基础,它需要能够正确识别出语料中的已知词和未登录词,而各种基于规则和统计的方法在识别已知词和未登录词时各有优劣。本文试分别从已知词和未登录词识别两个方面,对ACL-SIGHAN第一届国际中文分词竞赛中各参赛系统进行比较,指出中文分词既需要提高已知词识别的准确率,还要能够较好地预测语料中出现的未登录词,并处理好它们之间的平衡关系。
引用
收藏
页码:184 / 188
页数:5
相关论文
empty
未找到相关数据