基于信息论方法的分类数据相似性度量

被引:9
作者
郑碧如
吴广潮
机构
[1] 华南理工大学数学学院
关键词
相似性; 分类数据; 信息论; 条件概率;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色。常用的距离度量方法主要适用于数值数据,针对分类数据,本文提出一种数据驱动的相似性度量方法。该方法利用属性值与类标签的信息,将属性值的类条件概率结合信息论来度量分类数据的相似性。为了与已提出的相似性度量方法作比较,把各度量方法与k最近邻算法结合,对多个分类数据集进行分类,通过十折交叉验证比较结果的错误率。实验表明该度量结合k最近邻方法使分类具有较低的错误率。
引用
收藏
页码:30 / 34
页数:5
相关论文
共 9 条
[1]
An association-based dissimilarity measure for categorical data [J].
Le, SQ ;
Ho, TB .
PATTERN RECOGNITION LETTERS, 2005, 26 (16) :2549-2557
[2]
Dissimilarity learning for nominal data [J].
Cheng, V ;
Li, CH ;
Kwok, JT ;
Li, CK .
PATTERN RECOGNITION, 2004, 37 (07) :1471-1477
[3]
Toward memory-based reasoning.[J].Craig Stanfill;David Waltz.Communications of the ACM.1986, 12
[4]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
[5]
On a method for character weighting a similarity coefficient; employing the concept of information.[J].T. P. Burnaby.Journal of the International Association for Mathematical Geology.1970, 1
[6]
基于语义相似度的数据服务分类方法 [J].
陈彦萍 ;
杨威 ;
唐成务 ;
夏虹 ;
王忠民 .
信息技术, 2017, (12) :93-96+101
[7]
基于Hellinger距离的混合数据集中分类变量相似度分析 [J].
赵亮 ;
刘建辉 ;
王星 .
计算机科学, 2016, 43 (06) :280-282+307
[8]
基于相似度的微博社交网络的社区发现方法 [J].
孙怡帆 ;
李赛 .
计算机研究与发展, 2014, (12) :2797-2807
[9]
混合概念格在案例相似性度量中的应用 [J].
鞠可一 ;
周德群 ;
吴君民 .
控制与决策, 2010, (07) :987-992