SegT:一个实用的藏文分词系统

被引:27
作者
刘汇丹 [1 ,2 ]
诺明花 [1 ,2 ]
赵维纳 [3 ,4 ]
吴健 [1 ]
贺也平 [1 ]
机构
[1] 中国科学院软件研究所
[2] 中国科学院研究生院
[3] 北京语言大学
[4] 青海师范大学
关键词
藏文分词; 格助词; 临界词识别; 词频统计; 藏文信息处理; 中文信息处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
引用
收藏
页码:97 / 103
页数:7
相关论文
共 7 条
[1]   藏文自动分词系统中紧缩词的识别 [J].
才智杰 .
中文信息学报, 2009, (01) :35-37+43
[2]   信息处理用藏文自动分词研究 [J].
祁坤钰 .
西北民族大学学报(哲学社会科学版), 2006, (04) :92-97
[3]   藏文信息处理技术的研究现状与展望 [J].
陈玉忠 ;
俞士汶 .
中国藏学, 2003, (04) :97-107
[4]   现代藏语组块分词的方法与过程 [J].
江荻 .
民族语文, 2003, (04) :30-39
[5]   藏文自动分词系统的设计与实现 [J].
陈玉忠 ;
李保利 ;
俞士汶 .
中文信息学报, 2003, (03) :15-20+65
[6]   基于格助词和接续特征的藏文自动分词方案 [J].
陈玉忠 ;
李保利 ;
俞士汶 ;
兰措吉 .
语言文字应用, 2003, (01) :75-82
[7]  
藏语文本信息处理的历程与进展[A]. 江荻.中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C]. 2006