多分类器集成的汉语词义消歧研究

被引:14
作者
吴云芳 [1 ]
王淼 [2 ]
金澎 [1 ]
俞士汶 [1 ]
机构
[1] 北京大学信息科学技术学院
[2] 北京大学软件与微电子学院
关键词
词义消歧; 多分类器集成; 均值; 最大值;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投票、概率加权和单分类器融合,其中乘法规则、均值、最大值3种集成方法还未曾应用于词义消歧.选取支持向量机模型、朴素贝叶斯和决策树作为3个单分类器.在两个不同的数据集上进行了实验,其一是选自现代汉语语义标注语料库的18个多义词,其二是国际语义评测SemEval-2007的中英文对译选择词消歧任务.实验结果显示,首次在词义消歧中引入应用的3种集成方法乘法、均值、最大值有良好的性能表现,3种方法的消歧准确率均高于最佳单分类器SVM,而且优于其他6种集成方法.
引用
收藏
页码:1354 / 1361
页数:8
相关论文
共 3 条
[1]   基于多分类器决策的词义消歧方法 [J].
全昌勤 ;
何婷婷 ;
姬东鸿 ;
余绍文 .
计算机研究与发展, 2006, (05) :933-939
[2]   The interaction of knowledge sources in word sense disambiguation [J].
Stevenson, M ;
Wilks, Y .
COMPUTATIONAL LINGUISTICS, 2001, 27 (03) :321-349
[3]  
Framework and Results for English SENSEVAL[J] . A. Kilgarriff,J. Rosenzweig.Computers and the Humanities . 2000 (1)