基于链式条件随机场的中文分词改进方法

被引:9
作者
徐浩煜 [1 ,2 ,3 ]
任智慧 [1 ,3 ]
施俊 [3 ]
周晗 [1 ]
机构
[1] 中国科学院上海高等研究院航空通讯技术联合实验室
[2] 中国科学院大学
[3] 上海大学通信与信息工程学院
关键词
中文分词; 词位标注; 条件随机场; 特征模板;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。
引用
收藏
页码:211 / 213+233 +233
页数:4
相关论文
共 16 条
[1]   基于CRFs边缘概率的中文分词 [J].
罗彦彦 ;
黄德根 .
中文信息学报, 2009, 23 (05) :3-8
[2]   词位标注汉语分词中特征模板定量研究 [J].
于江德 ;
王希杰 ;
樊孝忠 .
计算机工程与设计, 2012, 33 (03) :1239-1244
[3]  
The research on the automatic term extraction in the domain of information science and technology. Sui Z F,Chen Y R,Hu J F,et al. Proceedings of the 5th East Asia Forum of the Terminology . 2002
[4]  
Word Segmentation in Sentence Analysis. Andi Wu,Zixin Jiang. 1998 International Conference on Chinese Information Processing . 1998
[5]  
SIGHAN. http://www.sighan.org . 2005
[6]   基于有效子串标注的中文分词 [J].
赵海 ;
揭春雨 .
中文信息学报, 2007, (05) :8-13
[7]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[8]  
The Second International Chinese Word Segmentation Bakeoff. T. Emerson. Proceedings of The Fourth Sighan Workshop on Chinese Language Processing . 2005
[9]  
A Conditional Random Field Word Segmenter for Sighan Bakeoff 2005. Huihsin Tseng,,Pichuan Chang,,Galen Andrew,,Daniel Jurafsky,,Christopher Manning. Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing . 2005
[10]  
An improved Chinese word segmenta-tion system with conditional random. Zhao Hai,Huang Chang-ning. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing . 2006