基于信息论方法的分类数据相似性度量

被引：9

作者：

郑碧如

吴广潮

机构：

[1] 华南理工大学数学学院

来源：

计算机与现代化 | 2018年 / 05期

关键词：

相似性; 分类数据; 信息论; 条件概率;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

140502 [人工智能];

摘要：

两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色。常用的距离度量方法主要适用于数值数据,针对分类数据,本文提出一种数据驱动的相似性度量方法。该方法利用属性值与类标签的信息,将属性值的类条件概率结合信息论来度量分类数据的相似性。为了与已提出的相似性度量方法作比较,把各度量方法与k最近邻算法结合,对多个分类数据集进行分类,通过十折交叉验证比较结果的错误率。实验表明该度量结合k最近邻方法使分类具有较低的错误率。

引用

页码：30 / 34

页数：5

共 9 条

[1]

An association-based dissimilarity measure for categorical data [J].

Le, SQ ;

Ho, TB .

PATTERN RECOGNITION LETTERS, 2005, 26 (16) :2549-2557

[2]

Dissimilarity learning for nominal data [J].

Cheng, V ;

Li, CH ;

Kwok, JT ;

Li, CK .

PATTERN RECOGNITION, 2004, 37 (07) :1471-1477

[3]

Toward memory-based reasoning.[J].Craig Stanfill;David Waltz.Communications of the ACM.1986, 12

[4]

Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1

[5]

On a method for character weighting a similarity coefficient; employing the concept of information.[J].T. P. Burnaby.Journal of the International Association for Mathematical Geology.1970, 1

[6]

基于语义相似度的数据服务分类方法 [J].