基于M3N的中文分词与命名实体识别一体化

被引:5
作者
乔维
孙茂松
机构
[1] 清华大学计算机科学与技术系清华信息科学与技术国家实验室
关键词
最大间隔Markov网络; 中文分词; 命名实体识别; 特征模版; 机器学习;
D O I
10.16511/j.cnki.qhdxxb.2010.05.028
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%2.0%。在SIGHAN2005分词数据集和SIGHAN2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%5.5%和5.7%7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。
引用
收藏
页码:758 / 762+767 +767
页数:6
相关论文
共 4 条
[1]   基于混合模型的中文命名实体抽取系统 [J].
王睿 ;
张洁 ;
张由仪 ;
于禛 ;
姚天昉 .
清华大学学报(自然科学版), 2005, (S1) :1908-1914
[2]  
Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach[J] . Jianfeng Gao,Mu Li,Chang-Ning Huang,Andi Wu.Computational Linguistics . 2005 (4)
[3]   SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[4]  
Chinese Word Segmentation as Character Tagging .2 Nianwen Xue. Computational Linguistics and Chinese Language Processing . 2003