基于知网义原词向量表示的无监督词义消歧方法

被引:15
作者
唐共波 [1 ,2 ]
于东 [1 ,2 ]
荀恩东 [1 ,2 ]
机构
[1] 北京语言大学大数据与语言教育研究所
[2] 北京语言大学信息科学学院
关键词
词向量; 《知网》; 词义消歧; 无监督方法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。
引用
收藏
页码:23 / 29
页数:7
相关论文
共 4 条
[1]   基于Word Embedding语义相似度的字母缩略术语消歧 [J].
于东 ;
荀恩东 .
中文信息学报, 2014, (05) :51-59
[2]   基于义原关系的多策略汉语词义消歧方法 [J].
车超 ;
金博 ;
滕弘飞 ;
屈福政 .
大连理工大学学报, 2010, 50 (04) :603-608
[3]   一种基于知网的中文词义消歧算法 [J].
张明宝 ;
马静 .
计算机技术与发展, 2009, 19 (02) :9-11+15
[4]   基于义原同现频率的汉语词义排歧方法 [J].
杨尔弘 ;
张国清 ;
张永奎 .
计算机研究与发展, 2001, (07) :833-838