学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
SegT:一个实用的藏文分词系统
被引:27
作者
:
论文数:
引用数:
h-index:
机构:
刘汇丹
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
诺明花
[
1
,
2
]
赵维纳
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学
青海师范大学
中国科学院软件研究所
赵维纳
[
3
,
4
]
论文数:
引用数:
h-index:
机构:
吴健
[
1
]
论文数:
引用数:
h-index:
机构:
贺也平
[
1
]
机构
:
[1]
中国科学院软件研究所
[2]
中国科学院研究生院
[3]
北京语言大学
[4]
青海师范大学
来源
:
中文信息学报
|
2012年
/ 26卷
/ 01期
关键词
:
藏文分词;
格助词;
临界词识别;
词频统计;
藏文信息处理;
中文信息处理;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
引用
收藏
页码:97 / 103
页数:7
相关论文
共 7 条
[1]
藏文自动分词系统中紧缩词的识别
[J].
论文数:
引用数:
h-index:
机构:
才智杰
.
中文信息学报,
2009,
(01)
:35
-37+43
[2]
信息处理用藏文自动分词研究
[J].
祁坤钰
论文数:
0
引用数:
0
h-index:
0
机构:
西北民族大学中国民族信息技术研究院
祁坤钰
.
西北民族大学学报(哲学社会科学版),
2006,
(04)
:92
-97
[3]
藏文信息处理技术的研究现状与展望
[J].
陈玉忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院计算语言学研究所
陈玉忠
;
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院计算语言学研究所
俞士汶
.
中国藏学,
2003,
(04)
:97
-107
[4]
现代藏语组块分词的方法与过程
[J].
江荻
论文数:
0
引用数:
0
h-index:
0
机构:
中国社会科学院民族学与人类学研究所北京
江荻
.
民族语文,
2003,
(04)
:30
-39
[5]
藏文自动分词系统的设计与实现
[J].
陈玉忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
陈玉忠
;
李保利
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
李保利
;
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
俞士汶
.
中文信息学报,
2003,
(03)
:15
-20+65
[6]
基于格助词和接续特征的藏文自动分词方案
[J].
陈玉忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
陈玉忠
;
李保利
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
李保利
;
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
俞士汶
;
兰措吉
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
兰措吉
.
语言文字应用,
2003,
(01)
:75
-82
[7]
藏语文本信息处理的历程与进展[A]. 江荻.中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C]. 2006
←
1
→
共 7 条
[1]
藏文自动分词系统中紧缩词的识别
[J].
论文数:
引用数:
h-index:
机构:
才智杰
.
中文信息学报,
2009,
(01)
:35
-37+43
[2]
信息处理用藏文自动分词研究
[J].
祁坤钰
论文数:
0
引用数:
0
h-index:
0
机构:
西北民族大学中国民族信息技术研究院
祁坤钰
.
西北民族大学学报(哲学社会科学版),
2006,
(04)
:92
-97
[3]
藏文信息处理技术的研究现状与展望
[J].
陈玉忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院计算语言学研究所
陈玉忠
;
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院计算语言学研究所
俞士汶
.
中国藏学,
2003,
(04)
:97
-107
[4]
现代藏语组块分词的方法与过程
[J].
江荻
论文数:
0
引用数:
0
h-index:
0
机构:
中国社会科学院民族学与人类学研究所北京
江荻
.
民族语文,
2003,
(04)
:30
-39
[5]
藏文自动分词系统的设计与实现
[J].
陈玉忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
陈玉忠
;
李保利
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
李保利
;
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
俞士汶
.
中文信息学报,
2003,
(03)
:15
-20+65
[6]
基于格助词和接续特征的藏文自动分词方案
[J].
陈玉忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
陈玉忠
;
李保利
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
李保利
;
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
俞士汶
;
兰措吉
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
兰措吉
.
语言文字应用,
2003,
(01)
:75
-82
[7]
藏语文本信息处理的历程与进展[A]. 江荻.中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C]. 2006
←
1
→