基于Word Embedding语义相似度的字母缩略术语消歧

被引:5
作者
于东 [1 ,2 ]
荀恩东 [1 ,2 ]
机构
[1] 北京语言大学汉语国际教育技术研发中心
[2] 北京语言大学信息科学学院
关键词
字母缩略术语; 术语消歧; Word Embedding; 语义相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧。方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据。利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系。在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能。该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权。针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%。
引用
收藏
页码:51 / 59
页数:9
相关论文
共 6 条
[1]   基于多步聚类的汉语命名实体识别和歧义消解 [J].
李广一 ;
王厚峰 .
中文信息学报 , 2013, (05) :29-34+42
[2]   基于查询扩展的人名消歧 [J].
杨欣欣 ;
李培峰 ;
朱巧明 .
计算机应用, 2012, 32 (09) :2488-2490+2507
[3]   基于特征选择和最大熵模型的汉语词义消歧 [J].
何径舟 ;
王厚峰 .
软件学报, 2010, 21 (06) :1287-1295
[4]   无监督词义消歧研究 [J].
王瑞琴 ;
孔繁胜 .
软件学报, 2009, 20 (08) :2138-2152
[5]   基于向量空间模型中义项词语的无导词义消歧 [J].
鲁松 ;
白硕 ;
黄雄 .
软件学报, 2002, (06) :1082-1089
[6]  
Efficient Estimation of Word Representations in Vector Space .2 Mikolov T,Chen K,Corrado G,et al. Proceedings of Workshop at ICLR . 2013