基于大规模语料库的汉语词义相似度计算方法

被引：24

作者：

石静 ^{[1
]}

吴云芳 ^{[1
]}

邱立坤 ^{[2
]}

吕学强 ^{[3
]}

机构：

[1] 北京大学计算语言学研究所

[2] 鲁东大学文学院

[3] 北京信息科技大学网络文化与数字传播北京市重点实验室

来源：

中文信息学报 | 2013年 / 01期

关键词：

词义相似度; 上下文特征; 权值选择; 依存关系;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。

引用

页码：1 / 6+80 +80

页数：7

共 4 条

[1] 基于语义树的中文词语相似度计算与分析
张亮
尹存燕
陈家骏
[J]. 中文信息学报, 2010, (06) : 23 - 30
[2] 基于《知网》的词语相似度算法研究
刘青磊
顾小丰
[J]. 中文信息学报, 2010, (06) : 31 - 36
[3] Bootstrapping Distributional Feature Vector Quality
Zhitomirsky-Geffet, Maayan
Dagan, Ido
[J]. COMPUTATIONAL LINGUISTICS, 2009, 35 (03) : 435 - 461
[4] Dependency-based construction of semantic space models
Pado, Sebastian
Lapata, Mirella
[J]. COMPUTATIONAL LINGUISTICS, 2007, 33 (02) : 161 - 199

← 1 →