学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
藏语语料库词语分类体系及标记集研究
被引:18
作者
:
论文数:
引用数:
h-index:
机构:
才让加
机构
:
[1]
青海师范大学藏文信息处理与机器翻译省级重点实验室
来源
:
中文信息学报
|
2009年
/ 23卷
/ 04期
关键词
:
计算机应用;
中文信息处理;
语料库;
藏语词语;
分类体系;
标记集;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。
引用
收藏
页码:107 / 112
页数:6
相关论文
共 5 条
[1]
北京大学现代汉语语料库基本加工规范
[J].
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
俞士汶
;
段慧明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
段慧明
;
朱学锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
朱学锋
;
孙斌
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
孙斌
.
中文信息学报,
2002,
(05)
:49
-64
[2]
利用遗传算法实现词类标记集的优化
[J].
孙宏林
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所!北京北京语言文化大学语言信息处理研究所北京
孙宏林
;
陆勤
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所!北京北京语言文化大学语言信息处理研究所北京
陆勤
;
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所!北京北京语言文化大学语言信息处理研究所北京
俞士汶
.
中文信息学报,
2001,
(01)
:19
-27
[3]
汉语短语标注标记集的确定
[J].
周强,俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
周强,俞士汶
.
中文信息学报,
1996,
(04)
:1
-11
[4]
现代汉语语法信息词典详解.[M].俞士汶等著;.清华大学出版社.1998,
[5]
汉语计算语言学.[M].吴蔚天;罗建林著;.电子工业出版社.1994,
←
1
→
共 5 条
[1]
北京大学现代汉语语料库基本加工规范
[J].
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
俞士汶
;
段慧明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
段慧明
;
朱学锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
朱学锋
;
孙斌
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
孙斌
.
中文信息学报,
2002,
(05)
:49
-64
[2]
利用遗传算法实现词类标记集的优化
[J].
孙宏林
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所!北京北京语言文化大学语言信息处理研究所北京
孙宏林
;
陆勤
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所!北京北京语言文化大学语言信息处理研究所北京
陆勤
;
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所!北京北京语言文化大学语言信息处理研究所北京
俞士汶
.
中文信息学报,
2001,
(01)
:19
-27
[3]
汉语短语标注标记集的确定
[J].
周强,俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
周强,俞士汶
.
中文信息学报,
1996,
(04)
:1
-11
[4]
现代汉语语法信息词典详解.[M].俞士汶等著;.清华大学出版社.1998,
[5]
汉语计算语言学.[M].吴蔚天;罗建林著;.电子工业出版社.1994,
←
1
→