统计和规则相结合的汉语最长名词短语自动识别

被引：14

作者：

代翠

周俏丽

蔡东风

杨洁

机构：

[1] 沈阳航空工业学院知识工程中心

来源：

中文信息学报 | 2008年 / 22卷 / 06期

关键词：

计算机应用; 中文信息处理; 条件随机场; 最长名词短语; 基于规则的后处理;

D O I：

暂无

中图分类号：

TP391.43 [];

学科分类号：

摘要：

在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法:通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。

引用

页码：110 / 115

页数：6