大规模汉语标注语料库的制作与使用

被引:19
作者
段慧明
松井久仁於
徐国伟
胡国昕
俞士汶
机构
[1] 北京大学计算语言学研究所!
[2] 富士通研究所
[3] 富士通研究开发中心
关键词
标注语料库; 词切分; 中文; 词性标注;
D O I
10.16499/j.cnki.1003-5397.2000.02.013
中图分类号
H087 [数理语言学];
学科分类号
摘要
随着自然语言处理研究的深入开展 ,大规模语料库的作用越来越重要。自从70年代美国制作了著名的BrownCorpus以来 ,世界上已制作了各种语料库。富士通研究开发中心和北京大学计算语言学研究所合作 ,以人民日报语料为对象 ,制作大规模汉语标注语料库 ,这个语料库是世界上规模最大的标注语料库之一。
引用
收藏
页码:72 / 77
页数:6
相关论文
共 2 条
[1]  
现代汉语语法信息词典详解[M]. 清华大学出版社 , 俞士汶等著, 1998
[2]  
现代汉语语料库加工中的切词与词性标注处理. 周强,段慧明. 中国计算机报 . 1994