随着互联网的发展及普及,它在给人们带来前所未有的信息便利的同时,互联网中的不良信息也给人们的生活带来了巨大的负面影响,尤其给青少年的身心健康带来了严重的伤害。为了阻止这些不良信息进一步的扩散,目前很多学者从事该领域的研究。而针对当前网络中不良信息的表现形式,我们对网络过滤技术的研究已不能仅仅局限于采用网址封锁和敏感关键词匹配技术,必须考虑结合图像过滤技术来防止不良信息的扩散。因此,本文重点研究了前人所提出的基于内容的敏感图像过滤器中所采用的相关关键技术,并在此基础上构造实现了一个有效的基于肤色检测的敏感图像过滤器。本文的主要研究工作内容如下:
(1)建立图像库。本文所涉及的图像由测试图像库和手工标注的标注掩码图像库组成。其中包含了不同肤色、不同人体数目以及不同人体姿态的各种类型的图像,为论文后续的研究提供了实验依据。
(2)对目前常用的三种肤色检测模型算法即色度空间模型算法、高斯混合模型算法和统计直方图模型算法进行了研究与分析,并对三种模型进行了比较。针对统计直方图模型在肤色检测中存在的不足,本文在其基础上进行了改进。实验结果显示,改进后的肤色检测方法在正检率和误检率方面要明显优于传统的统计直方图模型。
(3)在肤色特征提取及分类部分,本文对基于掩码图像的特征提取进行了研究和分析,这里本文共提取了十二个特征,通过在标准掩码图像库上对这些特征进行统计分析,本文初步选取了在敏感图像和正常图像这两类图像中特征值比较明显的八个特征,然后将这些特征输入到C4.5分类器中进行训练。根据训练结果,本文最终选择五个最佳的分类特征向量,并将它们输入到分类器中对图像进行分类。同时又考虑到现实生活中的一部分描述人体面貌的脸部特写图片,本文又加入了人脸面积百分比这个特征。这里涉及到了人脸的检测,本文采用的是AdaBoost和Cascade相结合的方法。实验结果表明,该方法不但具有较好的人脸检测效果,其速度也得到了很大的提高,满足了本系统的需求。
(4)最后,本文对前人的研究成果进行分析总结,结合检测精度与实时性要求,构造了一个基于肤色检测的敏感图像过滤体系框架。其中,肤色检测是该过滤体系的核心,然后结合肤色掩码图像中提取的特征向量,将其输入到分类器中进行分类,从而实现敏感图像的过滤。
实验结果表明,本文所构造的敏感图像过滤器能够有效地对正常类图像和敏感类图像进行分类过滤,在5205幅测试图像库上的总体正检率达到92.34%。其中,敏感类图像的正检率为85.74%,正常类图像的正检率为93.24%。
虽然在检测精度上有所提高,但本过滤系统还有待于进一步改进和完善。例如,本文引入了Gabor函数对皮肤进行了进一步的纹理检测,虽然在检测精度上有了一定的提高,但却影响了整个系统的检测速度。还有,本文对某些图像中存在的皮肤区域高光和阴影问题考虑的不够全面,也是造成某些图像中肤色误检的主要原因之一。另外,本文只是在肤色掩码图像上对其进行特征提取,没有考虑人体特殊敏感部位和其他方面的特征,这些都是需要后续研究进行改进和完善的地方。