基于朴素贝叶斯模型的单词语义相似度度量

被引:26
作者
王俊华 [1 ,2 ,3 ]
左万利 [1 ,2 ]
闫昭 [1 ,2 ]
机构
[1] 吉林大学计算机科学与技术学院
[2] 符号计算与知识工程教育部重点实验室(吉林大学)
[3] 长春工业大学计算机科学与工程学院
关键词
单词语义相似度; 语义相似度; 分段线性插值; 朴素贝叶斯模型; WordNet;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体WordNet获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝叶斯推理实现信息融合获得后验概率,并在此基础上量化单词语义相似度.主要贡献是定义了单词对距离和深度,并将朴素贝叶斯模型用于单词语义相似度度量.在基准数据集R&G(65)上,对比算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,样本Pearson相关度达到0.912,比当前最优方法高出0.4%,比经典算法高出7%13%;Spearman相关度达到0.873,比经典算法高出10%20%;且算法的运行效率和经典算法相当.实验结果显示将朴素贝叶斯模型和知识库相结合解决单词语义相似度问题是合理有效的.
引用
收藏
页码:1499 / 1509
页数:11
相关论文
共 7 条
[1]
基于框架语义分析的汉语句子相似度计算 [J].
李茹 ;
王智强 ;
李双红 ;
梁吉业 ;
Collin Baker .
计算机研究与发展, 2013, (08) :1728-1736
[2]
Ontology-based semantic similarity: A new feature-based approach [J].
Sanchez, David ;
Batet, Montserrat ;
Isern, David ;
Valls, Aida .
EXPERT SYSTEMS WITH APPLICATIONS, 2012, 39 (09) :7718-7728
[3]
Concept vector for semantic similarity and relatedness based on WordNet structure.[J].Hongzhe Liu;Hong Bao;De Xu.The Journal of Systems & Software.2011, 2
[4]
Ontology-based information content computation.[J].David Sánchez;Montserrat Batet;David Isern.Knowledge-Based Systems.2010, 2
[5]
A semantic similarity metric combining features and intrinsic information content [J].
Pirro, Giuseppe .
DATA & KNOWLEDGE ENGINEERING, 2009, 68 (11) :1289-1308
[6]
Similarity-Based Models of Word Cooccurrence Probabilities.[J].Ido Dagan;Lillian Lee;Fernando C. N. Pereira.Machine Learning.1999, 1
[7]
CONTEXTUAL CORRELATES OF SYNONYMY [J].
RUBENSTEIN, H ;
GOODENOUGH, JB .
COMMUNICATIONS OF THE ACM, 1965, 8 (10) :627-+