基于SVMTool的中文词性标注

被引:17
作者
王丽杰
车万翔
刘挺
机构
[1] 哈尔滨工业大学计算机学院信息检索研究室
关键词
计算机应用; 中文信息处理; 词性标注; SVMTool; 未登录词; 偏旁部首;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,该文加入了中文字、词的特征,包括构成汉字的部首特征和词重叠特征,并从理论上分析了这两个特征的可行性,实验显示加入这些特征后,未登录词标注的准确率提升了1.16%,平均错误率下降了7.40%。
引用
收藏
页码:16 / 21
页数:6
相关论文
共 7 条
  • [1] 一种用于词性标注的相关投票融合策略
    郭永辉
    吴保民
    王炳锡
    [J]. 中文信息学报, 2007, (02) : 9 - 13
  • [2] 基于条件随机场(CRFs)的中文词性标注方法
    洪铭材
    张阔
    唐杰
    李涓子
    [J]. 计算机科学, 2006, (10) : 148 - 151+155
  • [3] 基于完全二阶隐马尔可夫模型的汉语词性标注
    梁以敏
    黄德根
    [J]. 计算机工程, 2005, (10) : 177 - 179
  • [4] 词性标注对信息检索系统性能的影响
    苏祺
    昝红英
    胡景贺
    项锟
    [J]. 中文信息学报, 2005, (02) : 58 - 65
  • [5] 词性标注中生词处理算法研究
    张孝飞
    陈肇雄
    黄河燕
    蔡智
    [J]. 中文信息学报, 2003, (05) : 1 - 5
  • [6] 统计与规则并举的汉语词性自动标注算法
    张民
    李生
    赵铁军
    张艳风
    [J]. 软件学报, 1998, (02) : 55 - 59
  • [7] SVMTool:A general pos tagger generator based on support vector machines .2 Jesus Gimenez,Luis Marquez. Proceedings of the 4th LREC Conference . 2004