聚类/分类理论研究及其在文本挖掘中的应用

被引：0

作者：

卜东波

机构：

[1] 中国科学院研究生院（计算技术研究所）

关键词：

聚类/分类; 信息粒度; 势场; 拓扑结构; 聚类谱系图; 描述复杂性; 最小描述长度; 规则+例外; 主特征向量; 隐含概念;

D O I：

暂无

年度学位：

2000

学位类型：

博士

导师：

李国杰; 白硕;

摘要：

如何让Internet更好地为人类服务，是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望，而另一方面却是Internet上信息的纷繁芜杂，在这两者之间架设一座桥梁的确是一个巨大的挑战。基于人工智能的信息内容的自动聚类、分类和文摘，以及深层次的“知识检索”为迎接这个挑战提供了新的支撑技术。本文的目标就是在信息检索的背景下，从理论、算法和应用三个层次来讨论聚类和分类技术。本文首先全面分析了聚类和分类算法的关键技术，总结了在统计、机器学习和模式识别等领域的聚类／分类算法。本文随后从理论的层面来剖析聚类/分类算法。我们发现聚类过程实际上是在样本集上定义一种特定的等价关系，一个逐渐加细的等价关系序列和聚类谱系图是相对应的，不同的等价标准就导致了不同粒度的聚类结果。从信息粒度的角度看待聚类和分类，就能更清楚地看出它们之间的相通之处—聚类是在一个统一、均匀的粒度下进行计算，而分类是在非均匀粒度下进行计算。由此出发，还可以定义一种衡量特征空间与分类先验知识之间协调程度的定量度量，并发展了一种崭新的、基于粒度的分类算法，实验结果表明这种分类算法有很好的泛化能力。从拟物的角度出发，我们提出了一种针对实数变量样本的聚类算法。选定了特征空间之后，实际上就是把和领域相关的样本集转化成特征空间中的一群点。把这些点想象成物理世界中一群质点，它们除了坐标不同之外，其他方面没有任何的不同。这样，在由各质点形成的引力场中，从等势面的包含关系导

引用

页数：109

共 17 条

[1]

ROUGH SETS [J].

PAWLAK, Z .

INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05) :341-356

[2]

Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms..Jon. M. Kleinber;..1998,

[3]

Clustering Algorithms..E. Rasmussen;.Prentice Hall PTR.1992,

[4]

关于统计学习理论与支持向量机 [J].

张学工 .

自动化学报, 2000, (01)

[5]

一种求解合取范式可满足性问题的数学物理方法.[J].李未;黄文奇.中国科学(A辑数学物理学天文学技术科学).1994, 11

[6]

统计学习理论的本质.[M].(美)VladimirN.Vapnik著;张学工译;.清华大学出版社.2000,

[7]

描述复杂性.[M].李明;[荷]P.M.B.威塔涅(PaulVitanyi)著;.科学出版社.1998,

[8]

实用统计学.[M].胡健颖;冯泰编著;.北京大学出版社.1996,

[9]

神经网络的应用与实现.[M].焦李成编著.西安电子科技大学出版社.1993,

[10]

人工智能原理.[M].石纯一等编著;.清华大学出版社.1993,

← 1 2 →