词位标注汉语分词中特征模板定量研究

被引:4
作者
于江德 [1 ]
王希杰 [1 ]
樊孝忠 [2 ]
机构
[1] 安阳师范学院计算机与信息工程学院
[2] 北京理工大学计算机科学技术学院
基金
高等学校博士学科点专项科研基金;
关键词
汉语分词; 词位标注; 特征模板; 定量分析; 条件随机场;
D O I
10.16208/j.issn1000-7024.2012.03.058
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于字的词位标注的方法能极大地提高汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,词位标注汉语分词中特征模板的设定至关重要,为了更加准确地设定特征模板,从多个角度进行了定量分析,并在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,得到如下结论:同等条件下,训练出的模型大小与扩展出的特征数成正比;不同的单字特征模板在同一语料中扩展出的特征数基本相同,单字特征模板对分词性能的贡献要比双字特征模板小得多;增加B特征模板之后,训练时间大大增加,模型大小基本不变,对分词性能都是正增长。
引用
收藏
页码:1239 / 1244
页数:6
相关论文
共 14 条
[1]  
An Improved Chinese Word Segmentation System with Conditional Random Fied. Hai Zhao,Changning Huang,Mu Li. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing . 2006
[2]  
The third international Chinese language processingbakeoff:word segmentation and named entity recognition. Levow G. Proceedings of the Fifth SIGHAN Workshop on ChineseLanguage Processing . 2006
[3]  
A cascadedlinear model for joint Chinese word segmentation and part-of-speechtagging. JIANG Wenbin,HUANG Liang,LIU Qun,et al. Proceedings of the 46th Annual Meeting of the Asso-ciation for Computational Linguistics . 2008
[4]  
Unsupervised segmentation helps su-pervised learning of Character tagging for word segmentationand named entity recognition. ZHAO Hai,Chunyu Kit. Proceedings of the SixSIGHAN Workshop on Chinese Language Processing . 2008
[5]   汉语自动分词和词性标注评测 [J].
杨尔弘 ;
方莹 ;
刘冬明 ;
乔羽 .
中文信息学报, 2006, (01) :44-49+97
[6]   基于多知识源的中文词法分析系统 [J].
姜维 ;
王晓龙 ;
关毅 ;
赵健 .
计算机学报, 2007, (01) :137-145
[7]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[8]   基于有效子串标注的中文分词 [J].
赵海 ;
揭春雨 .
中文信息学报, 2007, (05) :8-13
[9]   一种基于字词联合解码的中文分词方法 [J].
宋彦 ;
蔡东风 ;
张桂平 ;
赵海 .
软件学报, 2009, 20 (09) :2366-2375
[10]   基于CRFs边缘概率的中文分词 [J].
罗彦彦 ;
黄德根 .
中文信息学报, 2009, 23 (05) :3-8