统计和规则相结合的汉语最长名词短语自动识别

被引:14
作者
代翠
周俏丽
蔡东风
杨洁
机构
[1] 沈阳航空工业学院知识工程中心
关键词
计算机应用; 中文信息处理; 条件随机场; 最长名词短语; 基于规则的后处理;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法:通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。
引用
收藏
页码:110 / 115
页数:6
相关论文
共 4 条
  • [1] 基于条件随机域的复杂最长名词短语识别
    冯冲
    陈肇雄
    黄河燕
    张亮
    王江伟
    [J]. 小型微型计算机系统, 2006, (06) : 1134 - 1139
  • [2] 浅层句法分析方法概述
    孙宏林
    俞士汶
    [J]. 当代语言学, 2000, (02) : 74 - 83+124
  • [3] 汉语最长名词短语的自动识别
    周强
    孙茂松
    黄昌宁
    [J]. 软件学报, 2000, (02) : 195 - 201
  • [4] 陆俭明自选集[M]. 河南教育出版社 , 陆俭明著, 1993