学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于Word Embedding语义相似度的字母缩略术语消歧
被引:5
作者
:
论文数:
引用数:
h-index:
机构:
于东
[
1
,
2
]
荀恩东
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学汉语国际教育技术研发中心
北京语言大学信息科学学院
北京语言大学汉语国际教育技术研发中心
荀恩东
[
1
,
2
]
机构
:
[1]
北京语言大学汉语国际教育技术研发中心
[2]
北京语言大学信息科学学院
来源
:
中文信息学报
|
2014年
/ 05期
关键词
:
字母缩略术语;
术语消歧;
Word Embedding;
语义相似度;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧。方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据。利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系。在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能。该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权。针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%。
引用
收藏
页码:51 / 59
页数:9
相关论文
共 6 条
[1]
基于多步聚类的汉语命名实体识别和歧义消解
[J].
李广一
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
李广一
;
王厚峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学教育部重点实验室
不详
王厚峰
.
中文信息学报 ,
2013,
(05)
:29
-34+42
[2]
基于查询扩展的人名消歧
[J].
论文数:
引用数:
h-index:
机构:
杨欣欣
;
李培峰
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
苏州大学计算机科学与技术学院
李培峰
;
论文数:
引用数:
h-index:
机构:
朱巧明
.
计算机应用,
2012,
32
(09)
:2488
-2490+2507
[3]
基于特征选择和最大熵模型的汉语词义消歧
[J].
论文数:
引用数:
h-index:
机构:
何径舟
;
王厚峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院计算语言学研究所
北京大学计算语言学教育部重点实验室
北京大学信息科学技术学院计算语言学研究所
王厚峰
.
软件学报,
2010,
21
(06)
:1287
-1295
[4]
无监督词义消歧研究
[J].
王瑞琴
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学人工智能研究所
温州大学物理与电子信息工程学院
浙江大学人工智能研究所
王瑞琴
;
论文数:
引用数:
h-index:
机构:
孔繁胜
.
软件学报,
2009,
20
(08)
:2138
-2152
[5]
基于向量空间模型中义项词语的无导词义消歧
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
白硕
;
黄雄
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
黄雄
.
软件学报,
2002,
(06)
:1082
-1089
[6]
Efficient Estimation of Word Representations in Vector Space .2 Mikolov T,Chen K,Corrado G,et al. Proceedings of Workshop at ICLR . 2013
←
1
→
共 6 条
[1]
基于多步聚类的汉语命名实体识别和歧义消解
[J].
李广一
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
李广一
;
王厚峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学教育部重点实验室
不详
王厚峰
.
中文信息学报 ,
2013,
(05)
:29
-34+42
[2]
基于查询扩展的人名消歧
[J].
论文数:
引用数:
h-index:
机构:
杨欣欣
;
李培峰
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
苏州大学计算机科学与技术学院
李培峰
;
论文数:
引用数:
h-index:
机构:
朱巧明
.
计算机应用,
2012,
32
(09)
:2488
-2490+2507
[3]
基于特征选择和最大熵模型的汉语词义消歧
[J].
论文数:
引用数:
h-index:
机构:
何径舟
;
王厚峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院计算语言学研究所
北京大学计算语言学教育部重点实验室
北京大学信息科学技术学院计算语言学研究所
王厚峰
.
软件学报,
2010,
21
(06)
:1287
-1295
[4]
无监督词义消歧研究
[J].
王瑞琴
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学人工智能研究所
温州大学物理与电子信息工程学院
浙江大学人工智能研究所
王瑞琴
;
论文数:
引用数:
h-index:
机构:
孔繁胜
.
软件学报,
2009,
20
(08)
:2138
-2152
[5]
基于向量空间模型中义项词语的无导词义消歧
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
白硕
;
黄雄
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
黄雄
.
软件学报,
2002,
(06)
:1082
-1089
[6]
Efficient Estimation of Word Representations in Vector Space .2 Mikolov T,Chen K,Corrado G,et al. Proceedings of Workshop at ICLR . 2013
←
1
→