基于汉明距离的文本相似度计算

被引:51
作者
张焕炯
王国胜
钟义信
机构
[1] 北京邮电大学信息工程学院
关键词
文本分类; 信息检索; 汉明距离;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。
引用
收藏
页码:21 / 22
页数:2
相关论文
共 1 条
[1]   基于属性论的文本相似度计算 [J].
潘谦红 ;
王炬 ;
史忠植 .
计算机学报, 1999, (06) :651-655