低频词的中文词性标注研究

被引:3
作者
仲其智
姚建民
机构
[1] 苏州大学计算机科学与技术学院
关键词
最大熵模型; 低频词; 篇章词性标注; 句法分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
利用最大熵模型深入探讨了中文词性标注问题。针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,低频词特征的添加能大幅度地提高低频词在测试集的标注准确率,在宾州树库2.0上的实验显示,其准确率从82.93提高到了87.54。在传统的基于句子的词性标注基础上,提出了基于篇章的词性标注,取得了不错的结果。最后,分析了词性标注结果对句法分析性能的影响,在宾州树库2.0上的实验显示,低频词特征和基于篇章的策略使得整个的词性标注准确率和句法分析F1值分别提高了0.60和0.97,说明了词性标注中低频词处理的重要性。
引用
收藏
页码:182 / 185
页数:4
相关论文
共 1 条
[1]   统计与规则并举的汉语词性自动标注算法 [J].
张民 ;
李生 ;
赵铁军 ;
张艳风 .
软件学报, 1998, (02) :55-59