基于条件随机场模型的汉语功能块自动标注

被引:7
作者
李国臣 [1 ]
王瑞波 [1 ]
李济洪 [2 ]
机构
[1] 山西大学计算机与信息技术学院
[2] 山西大学计算中心
关键词
汉语基本块; 汉语功能块; 条件随机场模型; 句法分析; 序列标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.
引用
收藏
页码:336 / 343
页数:8
相关论文
共 2 条
[1]   汉语基本块描述体系 [J].
周强 .
中文信息学报, 2007, (03) :21-27
[2]  
基于规则的汉语基本块自动分析器. 周强. 第七届中文信息处理国际会议论文集 . 2007