基于Corpus库的词语相似度计算方法

被引:17
作者
章志凌
虞立群
陈奕秋
罗海飞
邵晓敏
机构
[1] 上海交通大学软件学院
关键词
Corpus; 词语相似度; 信息检索;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
构建了一个语义关联库,称为Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,并通过阅读大量的预料数据来训练其相关数据。详细介绍了Corpus库的训练方法,并对训练过程中出现的大量关系提出了裁剪方案。在此基础上,通过构建词语的上下文关系向量提出了一种词语相似度算法。实验证明这是一种有效的对词语相似度进行计算的方法。
引用
收藏
页码:638 / 640+644 +644
页数:4
相关论文
共 4 条
[1]   基于Hopfield神经网络的概念检索技术 [J].
盛秋艳 ;
何文广 .
情报科学, 2004, (03) :346-348
[2]   基于向量空间的中文概念检索技术研究 [J].
罗威 .
情报理论与实践, 2003, (03) :226-229
[3]   唐宋诗中词汇语义相似度的统计分析及应用 [J].
胡俊峰 ;
俞士汶 .
中文信息学报, 2002, (04) :39-44
[4]  
基于WordNet的英语词语相似度计算[A]. 颜伟,荀恩东.第二届全国学生计算语言学研讨会论文集[C]. 2004