谈谈汉语分词语料库的一致性问题

被引:20
作者
孙茂松
机构
[1] 清华大学计算机科学与技术系智能技术与系统国家重点实验室
基金
中国国家自然科学基金;
关键词
语料库; 语库; 分词; 语法词;
D O I
10.16499/j.cnki.1003-5397.1999.02.017
中图分类号
H085,H085 [];
学科分类号
050211 ;
摘要
经过分词处理的大型汉语语料库是进行语言学和计算语言学研究的重要资源。一致性是衡量分词语料库质量的重要标准之一。本文列举了导致分词语料库出现不一致的主要结构类型,讨论了“语法词”与“心理词”的区别,指出分词语料库以切成“心理词”为宜。“心理词”的模糊性决定了严格意义的完全一致对分词语料库是不可能实现的,我们所追求的目标应调整为受控条件下的一致性。
引用
收藏
页码:90 / 93
页数:4
相关论文
empty
未找到相关数据