一种基于EMD的文档语义相似性度量

被引:4
作者
王晓东 [1 ]
郭雷 [2 ]
方俊 [2 ]
董淑福 [1 ]
机构
[1] 空军工程大学电讯工程学院
[2] 西北工业大学自动化学院
关键词
信息检索; EMD(Earth Mover’s Distance); 度量; 文档相似性; 匹配; 语义距离;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对基于EMD(Earth Mover's Distance)的文档语义相似性算法不满足度量公理因而难以在信息检索与数据挖掘中推广应用的问题,该文提出了一种新的基于EMD的文档语义相似性度量——..MdssEMD(Metric for document semantic similarity based EMD)。首先在分析EMD及现有改进方法缺陷的基础上,给出了文档宽度、虚拟项的概念;随后通过增加虚拟项来对齐文档矢量的总权值,使所有度量公理得到满足;最后,为提高该度量的适应能力及处理速度,还实现了虚拟项相似距离的弹性设计并对EMD算法进行了简化。该方法把EMD扩展到度量空间中来,很大程度上提高了EMD的索引能力与精度,初步实验表明,MdssEMD的整体性能优于原EMD及现有其它类似方法。
引用
收藏
页码:2156 / 2161
页数:6
相关论文
共 3 条
[1]   XDist——一个柔性语义距离函数 [J].
梁敏 ;
郭新涛 ;
阮备军 ;
朱扬勇 .
计算机研究与发展, 2004, (10) :1728-1736
[2]  
Prasanna Ganesan,Hector Garcia-Molina,Jennifer Widom.Exploiting hierarchical domain structure to compute similarity[J].ACM Transactions on Information Systems (TOIS),2003
[3]   The Earth Mover's Distance as a Metric for Image Retrieval [J].
Yossi Rubner ;
Carlo Tomasi ;
Leonidas J. Guibas .
International Journal of Computer Vision, 2000, 40 :99-121