藏语语料库词语分类体系及标记集研究

被引:18
作者
才让加
机构
[1] 青海师范大学藏文信息处理与机器翻译省级重点实验室
关键词
计算机应用; 中文信息处理; 语料库; 藏语词语; 分类体系; 标记集;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。
引用
收藏
页码:107 / 112
页数:6
相关论文
共 5 条
[1]   北京大学现代汉语语料库基本加工规范 [J].
俞士汶 ;
段慧明 ;
朱学锋 ;
孙斌 .
中文信息学报, 2002, (05) :49-64
[2]   利用遗传算法实现词类标记集的优化 [J].
孙宏林 ;
陆勤 ;
俞士汶 .
中文信息学报, 2001, (01) :19-27
[3]   汉语短语标注标记集的确定 [J].
周强,俞士汶 .
中文信息学报, 1996, (04) :1-11
[4]  
现代汉语语法信息词典详解.[M].俞士汶等著;.清华大学出版社.1998,
[5]  
汉语计算语言学.[M].吴蔚天;罗建林著;.电子工业出版社.1994,