Histograms of Oriented Gradients for Human Detection¶
概述和介绍:¶
- HOG技术在对之前的基于边缘和斜率的识别器的改进后,识别效果明显提升。
- HOG与那些技术最主要的不同之处在于:其使用了密度更高的空间单元,即局部重叠对比归一化。
方法综述:¶
- 基本思想是:局部物品外表和形状通常可以被局部光强梯度或者边缘信息来表现。实际中则是将图像分割成一个一个小单元来识别。
- SIFT技术的运用是HOG技术走向成熟的关键一步,其主要贡献在于:它能够找到图形中的不动点,这样方便了图形的识别。
- SIFT/HOG技术的优势在于:
- 能够捕捉最为特色的局部信息和斜率信息。
- 在局部几何变换和光度变换中,有非常容易控制的不变性
- 较为粗糙的空间采样,精确方向采样和较强的局部光度归一化是较为有效的方法,主要原因在于它可以允许手脚的运动并同时保持一个向上的方向性。
数据库及方法论:¶
- 通过两种不同的数据库来测量识别能力: 一为MIT行人数据,其人物主要姿势为站立式,且只有正面和背面, 二为INRIA,其拥有更大的数据量和更全面的情况,即人物的各个面。
*
设备和表现:¶
- 主要的比较对象是:HOG技术,R-HOG,C-HOG和线性或中心SVM技术。比较平台有三个:Generalized Haar Wavelets, PCA-SIFT, 和 Sharp Contexts。
- Gamma/Coluor Normalization:
在greyscale,RGB,LAB三个色彩空间中,我们得到的实验结果并不强烈,可能是由于随后的识别器归一化也能够得到相同的结果。与有色空间相比,灰度空间得到的识别错误率更低,但平方根和LOG相比,前者更好。
- 斜率计算:
- 实验发现:最简单的结构是最有效的,此外,运用较大的MASKS同样会影响结果。在二维情况中,如果x和y没有一个共同的原点,则会导致结果不理想。
- 对于彩色图片,我们通过计算相互独立的色泽通道的斜率,并且选择其中最符合图像的斜率(最正常的)作为其斜率向量。
- Spatial/Orientation Binning
- 通过VOTE来体现不同像素的斜率幅度,无论怎样形式的幅度,都能够反映其在像素这一边的倾斜程度。
- 精确的orientation coding对于良好的表现起到了非常重要的结果(大于9之后效果不明显),但spatial binning 可以较为粗糙。通常我们运用的是unsign的信息,一方面sign之后会导致结果下降,另一方面,人物的外形,颜色非常复杂,sign难易表现。
- Normalization and Descriptor Blocks:
- 有效的局部对比归一化对良好的PERFORMANCE有至关重要的作用。其主要的原理是由一组CELL组成SPATIAL BLOCKS,并各自独立的进行归一化。
- 最终的向量由各自独立的模块中的单元组成。实际中每个单元经过重叠可以含有多个信息,因此在组成向量时更为精确。
- 实验中对两种几何模块进行测试:1 R-HOG 2 C-HOG
- R-HOG:
- 主要用在空间形式的高密度强度的coding。
- 在模块边界处,处理方式略有不同,需要通过Gaussian spatial window来downweight。
- C-HOG:
- 与其他C-HOG不同的是,每一个空间单元包含了一组gradient-weighted单元,并非一个。
- C-HOG的设计有4个参量:the number of angular and radial bins(前者需要4个,后者需要2个), the radius of the central bin in pixels and the expansion factor for subsequent radii.
- 两种归一化:block normalization schemes & centre-surround normalization.
- block normalization schemes:比较未归一化的向量和归一化的向量后发现,L1-norm与其他的方式有明显的区别,其对结果的影响很大。此外小量常数的选取对结果有一定影响,不过当结果范围较大时,其影响可以忽略。
- centre-surround normalization:运用单个空间内和其周围的能量来归一化的效果非常不好,原因是这样就不再有重叠的模块,所以每个单元再最后识别器中只能被编译一次。最主要的单元肯定是包含了人物轮廓的单元,