本文主要研究高维数据的本征维数估计问题。本征维数估计方法研究是高维数据处理领域的重要研究方向,准确的寻求本征维数可以帮助人们认识数据的本征结构,对于数据的降维以及其它的后续处理都具有重要的指导意义。本文的主要研究内容有以下两个方面:
1、分析总结本征维数估计研究领域的现有方法体系。
在认真学习和理解各个时期的一些代表性的方法基础上,提出了对现有的估计方法进行分类的标准,即将本征维数估计方法分为特征值方法和几何方法两类。对每一类方法中的典型方法进行细致的对比和总结,归纳出该类方法的根本特征和发展规律。特别深入地研究了若干最新的本征维数估计方法,如极大似然估计方法、包数方法和k-近邻图方法的基本原理和相关理论进展。
2、提出新的本征维数估计方法
在全面了解LLE降维和Laplacian Eigenmap降维的理论细节的基础上,分析了此两种降维方法在降维结果上的相似性。结合LLE应用于本征维数估计的经验,发现了Laplacian Eigenmap用于本征维数估计的可行性,进而通过构造合适的损失函数,提出了新的估计方法——基于Laplacian Eigenmap的本征维数估计方法。通过对实际数据的计算并将所得结果与基于LLE的估计方法、全局PCA方法所得结果进行对比,验证了新方法的可行性和有效性。在具体计算中,还发现了权重参数对新方法的估计结果有着重大的影响,并据此为合适选择该参数给出了初步建议。