大规模现代汉语标注语料库的加工规范

被引:31
作者
俞士汶
朱学锋
段慧明
机构
[1] 北京大学计算语言学研究所!北京
关键词
现代汉语标注语料库; 词语切分; 词性标注; 现代汉语语法信息词典; 加工规范;
D O I
暂无
中图分类号
TP391 [信息处理(信息加工)];
学科分类号
摘要
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。
引用
收藏
页码:58 / 64
页数:7
相关论文
共 5 条
[1]   大规模汉语标注语料库的制作与使用 [J].
段慧明 ;
松井久仁於 ;
徐国伟 ;
胡国昕 ;
俞士汶 .
语言文字应用, 2000, (02) :72-77
[2]   现代汉语五万词语归类的实践 [J].
朱学锋 ;
俞士汶 ;
王惠 .
语言文字应用, 1997, (04) :89-95
[3]  
现代汉语语法信息词典详解[M]. 清华大学出版社 , 俞士汶等著, 1998
[4]  
语法答问[M]. 商务印书馆 , 朱德熙[著], 1985
[5]  
汉语的构词法[M]. 科学出版社 , 陆志韦等著, 1964