汉语语料词性标注自动校对方法的研究

被引：12

作者：

钱揖丽

郑家恒

机构：

[1] 山西大学计算机科学系

[2] 山西大学计算机科学系山西太原

[3] 山西太原

来源：

中文信息学报 | 2004年 / 02期

关键词：

计算机应用; 中文信息处理; 兼类词; 汉语词性标注; 自动校对; 粗糙集;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

兼类词的词类排歧是汉语语料词性标注中的难点问题 ,它严重影响语料的词性标注质量。针对这一难点问题 ,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息 ,自动生成兼类词词性校对规则 ,并应用获取的规则实现对机器初始标注语料的自动校对 ,从而提高语料中兼类词的词性标注质量。分别对 5 0万汉语语料做封闭测试和开放测试 ,结果显示 ,校对后语料的兼类词词性标注正确率分别可提高 11 32 %和 5 97%。

引用

页码：30 / 35

页数：6