学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
谈谈汉语分词语料库的一致性问题
被引:20
作者
:
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室
孙茂松
机构
:
[1]
清华大学计算机科学与技术系智能技术与系统国家重点实验室
来源
:
语言文字应用
|
1999年
/ 02期
基金
:
中国国家自然科学基金;
关键词
:
语料库;
语库;
分词;
语法词;
D O I
:
10.16499/j.cnki.1003-5397.1999.02.017
中图分类号
:
H085,H085 [];
学科分类号
:
050211 ;
摘要
:
经过分词处理的大型汉语语料库是进行语言学和计算语言学研究的重要资源。一致性是衡量分词语料库质量的重要标准之一。本文列举了导致分词语料库出现不一致的主要结构类型,讨论了“语法词”与“心理词”的区别,指出分词语料库以切成“心理词”为宜。“心理词”的模糊性决定了严格意义的完全一致对分词语料库是不可能实现的,我们所追求的目标应调整为受控条件下的一致性。
引用
收藏
页码:90 / 93
页数:4
相关论文
未找到相关数据
未找到相关数据