基于语言模型验证的词义消歧语料获取

被引:4
作者
郭宇航
车万翔
刘挺
机构
[1] 哈尔滨工业大学计算机科学与技术学院信息检索研究室
关键词
计算机应用; 中文信息处理; 词义消歧; 语言模型; 噪声过滤;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用。有人提出了利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用目标词替换这些单义的同义词并不合适,从而带来噪声。为此,笔者使用语言模型过滤这些噪声,达到净化训练数据,提高系统性能的目的。笔者在Senseval-3国际评测中文采样词词义消歧数据集上进行了实验,结果表明经过语言模型过滤的词义消歧系统性能明显高于未经过滤的系统。
引用
收藏
页码:38 / 42
页数:5
相关论文
共 2 条
[1]   Word translation disambiguation using bilingual bootstrapping [J].
Li, H ;
Li, C .
COMPUTATIONAL LINGUISTICS, 2004, 30 (01) :1-22
[2]  
Optimizing feature set for chinese word sense disambiguation .2 Zheng-Yu Niu,Dong-Hong Ji,Chew-Lim Tan. Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text . 2004