学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于大规模语料库的汉语词义相似度计算方法
被引:24
作者
:
石静
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
北京大学计算语言学研究所
石静
[
1
]
吴云芳
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
北京大学计算语言学研究所
吴云芳
[
1
]
论文数:
引用数:
h-index:
机构:
邱立坤
[
2
]
论文数:
引用数:
h-index:
机构:
吕学强
[
3
]
机构
:
[1]
北京大学计算语言学研究所
[2]
鲁东大学文学院
[3]
北京信息科技大学网络文化与数字传播北京市重点实验室
来源
:
中文信息学报
|
2013年
/ 01期
关键词
:
词义相似度;
上下文特征;
权值选择;
依存关系;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。
引用
收藏
页码:1 / 6+80 +80
页数:7
相关论文
共 4 条
[1]
基于语义树的中文词语相似度计算与分析
论文数:
引用数:
h-index:
机构:
张亮
论文数:
引用数:
h-index:
机构:
尹存燕
陈家骏
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机软件新技术国家重点实验室
南京大学计算机软件新技术国家重点实验室
陈家骏
[J].
中文信息学报,
2010,
(06)
: 23
-
30
[2]
基于《知网》的词语相似度算法研究
论文数:
引用数:
h-index:
机构:
刘青磊
论文数:
引用数:
h-index:
机构:
顾小丰
[J].
中文信息学报,
2010,
(06)
: 31
-
36
[3]
Bootstrapping Distributional Feature Vector Quality
论文数:
引用数:
h-index:
机构:
Zhitomirsky-Geffet, Maayan
论文数:
引用数:
h-index:
机构:
Dagan, Ido
[J].
COMPUTATIONAL LINGUISTICS,
2009,
35
(03)
: 435
-
461
[4]
Dependency-based construction of semantic space models
Pado, Sebastian
论文数:
0
引用数:
0
h-index:
0
机构:
Computat Linguist, D-66041 Saarbrucken, Germany
Pado, Sebastian
Lapata, Mirella
论文数:
0
引用数:
0
h-index:
0
机构:
Computat Linguist, D-66041 Saarbrucken, Germany
Lapata, Mirella
[J].
COMPUTATIONAL LINGUISTICS,
2007,
33
(02)
: 161
-
199
←
1
→
共 4 条
[1]
基于语义树的中文词语相似度计算与分析
论文数:
引用数:
h-index:
机构:
张亮
论文数:
引用数:
h-index:
机构:
尹存燕
陈家骏
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机软件新技术国家重点实验室
南京大学计算机软件新技术国家重点实验室
陈家骏
[J].
中文信息学报,
2010,
(06)
: 23
-
30
[2]
基于《知网》的词语相似度算法研究
论文数:
引用数:
h-index:
机构:
刘青磊
论文数:
引用数:
h-index:
机构:
顾小丰
[J].
中文信息学报,
2010,
(06)
: 31
-
36
[3]
Bootstrapping Distributional Feature Vector Quality
论文数:
引用数:
h-index:
机构:
Zhitomirsky-Geffet, Maayan
论文数:
引用数:
h-index:
机构:
Dagan, Ido
[J].
COMPUTATIONAL LINGUISTICS,
2009,
35
(03)
: 435
-
461
[4]
Dependency-based construction of semantic space models
Pado, Sebastian
论文数:
0
引用数:
0
h-index:
0
机构:
Computat Linguist, D-66041 Saarbrucken, Germany
Pado, Sebastian
Lapata, Mirella
论文数:
0
引用数:
0
h-index:
0
机构:
Computat Linguist, D-66041 Saarbrucken, Germany
Lapata, Mirella
[J].
COMPUTATIONAL LINGUISTICS,
2007,
33
(02)
: 161
-
199
←
1
→