北京大学现代汉语语料库基本加工规范

被引:124
作者
俞士汶
段慧明
朱学锋
孙斌
机构
[1] 北京大学计算机系
[2] 北京大学计算机系 北京大学计算语言学研究所 北京
[3] 北京大学计算语言学研究所 北京
关键词
现代汉语; 语料库; 词语切分; 词性标注; 规范;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
引用
收藏
页码:49 / 64
页数:16
相关论文
empty
未找到相关数据