基于BoW模型的图像分类方法研究

被引：0

作者：

王莹

机构：

[1] 哈尔滨工程大学

关键词：

图像分类; BoW模型; SIFT描述子; k-means聚类; ROI提取;

D O I：

暂无

年度学位：

2012

学位类型：

硕士

导师：

赵春晖;

摘要：

图像分类是图像分析与理解的基本问题之一。近年来，随着网络技术的飞速发展，越来越多的数字图像开始充斥人们的生活，如何对这些海量的图像信息进行快速、准确的分类，提取有用信息，就逐渐成为研究的热点之一。Bag of words (BoW)模型最初应用于文档分类领域并因其简单而有效的优点得到了广泛的应用，计算机视觉领域的研究者们尝试将同样的思想应用到图像处理和识别领域，建立了由文本处理技术向图像处理领域的过渡。本文将BoW模型应用于图像分类领域，并在研究该技术的基础上，针对模型中存在的一些缺陷进行了改进：首先，在研究了图像特征提取方法的基础上，针对传统的尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)描述子所存在的兴趣点有限、计算复杂度高以及在BoW模型中应用的局限性等问题，提出了一种改进的适用于BoW模型的多尺度DF-SIFT(Dense Fast SIFT)描述子。该描述子采用密集抽取的方法对图像进行均匀像素间隔的兴趣点计算，且对每个特征进行多尺度描述，能够更加充分的利用图像信息，且保证了特征的尺度不变性。此外，与传统的SIFT描述子不同，DF-SIFT描述子利用矩形窗代替高斯窗对图像进行平滑，对特征进行统一尺度分配，避免了定位兴趣点的复杂计算过程，提高了计算的效率。通过实验对DF-SIFT描述子进行了最优参数选取，使其在保证效率的同时提高了分类的正确率。其次，在分析了视觉词典构造方法的基础上，提出了一种基于稳定初值分布的聚类方法来对视觉词典进行构造，并且应用三角形不等式对计算进行了简化。该算法有效的解决了传统k-means聚类方法过度依赖初始中心选取的问题，避免了局部最优给分类性能带来的影响，减少了收敛的迭代次数，提高了计算效率。此外，基于此视觉词典构造方法，本文还提出了一种基于权值分布的视觉词典直方图表示方法，该方法根据图像特征与视觉单词的距离不同，即对视觉单词的贡献不同，为其分配不同的权值，将这些权值求和作为图像的基于视觉单词库的直方图表示。结果表明，本文提出方法有效地提高了分类的性能，最后在此基础上分析了视觉词典库大小对分类结果的影响。最后，提出了一种基于兴趣区域(Region of Interest, ROI)提取与金字塔匹配原理相结合的BoW模型优化方法，该方法首先对训练图像进行ROI提取，然后对其进行视觉单词的计算，由此生成的视觉单词库更具有代表性，更能精确地描述图像类的特征，且能在一定程度上抵抗位置信息变化以及背景无用信息带来的影响。应用金字塔匹配原理对图像进行表示，能够初步应用图像中区域的空间信息，使匹配精度更高。实验研究了不同的金字塔划分方法对分类结果的影响，验证了应用ROI提取与金字塔匹配原理相结合相比较于传统的BoW模型的优越性。文章最后整合全文，形成一个完整的优化模型进行实验，并与现有的相关方法进行了比较，结果表明，本文方法的分类结果要优于现有的其他同类方法。文章最后对本文方法的优劣性进行了详细分析。

引用

页数：73

共 13 条

[1]

图像分类任务的关键技术研究 [D].