Histograms of Oriented Gradients for Human Detection¶

概述和介绍：¶

HOG技术在对之前的基于边缘和斜率的识别器的改进后，识别效果明显提升。
HOG与那些技术最主要的不同之处在于：其使用了密度更高的空间单元，即局部重叠对比归一化。

方法综述：¶

基本思想是：局部物品外表和形状通常可以被局部光强梯度或者边缘信息来表现。实际中则是将图像分割成一个一个小单元来识别。
SIFT技术的运用是HOG技术走向成熟的关键一步，其主要贡献在于：它能够找到图形中的不动点，这样方便了图形的识别。
SIFT/HOG技术的优势在于：

能够捕捉最为特色的局部信息和斜率信息。
在局部几何变换和光度变换中，有非常容易控制的不变性
较为粗糙的空间采样，精确方向采样和较强的局部光度归一化是较为有效的方法，主要原因在于它可以允许手脚的运动并同时保持一个向上的方向性。

数据库及方法论：¶

通过两种不同的数据库来测量识别能力：一为MIT行人数据，其人物主要姿势为站立式，且只有正面和背面，二为INRIA，其拥有更大的数据量和更全面的情况，即人物的各个面。 *

设备和表现：¶

主要的比较对象是：HOG技术，R-HOG,C-HOG和线性或中心SVM技术。比较平台有三个：Generalized Haar Wavelets， PCA-SIFT，和 Sharp Contexts。

Gamma/Coluor Normalization：
在greyscale，RGB，LAB三个色彩空间中，我们得到的实验结果并不强烈，可能是由于随后的识别器归一化也能够得到相同的结果。与有色空间相比，灰度空间得到的识别错误率更低，但平方根和LOG相比，前者更好。

斜率计算：

实验发现：最简单的结构是最有效的，此外，运用较大的MASKS同样会影响结果。在二维情况中，如果x和y没有一个共同的原点，则会导致结果不理想。
对于彩色图片，我们通过计算相互独立的色泽通道的斜率，并且选择其中最符合图像的斜率（最正常的）作为其斜率向量。

Spatial/Orientation Binning

通过VOTE来体现不同像素的斜率幅度，无论怎样形式的幅度，都能够反映其在像素这一边的倾斜程度。
精确的orientation coding对于良好的表现起到了非常重要的结果（大于9之后效果不明显），但spatial binning 可以较为粗糙。通常我们运用的是unsign的信息，一方面sign之后会导致结果下降，另一方面，人物的外形，颜色非常复杂，sign难易表现。

Normalization and Descriptor Blocks:

有效的局部对比归一化对良好的PERFORMANCE有至关重要的作用。其主要的原理是由一组CELL组成SPATIAL BLOCKS，并各自独立的进行归一化。
最终的向量由各自独立的模块中的单元组成。实际中每个单元经过重叠可以含有多个信息，因此在组成向量时更为精确。
实验中对两种几何模块进行测试：1 R-HOG 2 C-HOG

R-HOG：

主要用在空间形式的高密度强度的coding。
在模块边界处，处理方式略有不同，需要通过Gaussian spatial window来downweight。

C-HOG：

与其他C-HOG不同的是，每一个空间单元包含了一组gradient-weighted单元，并非一个。
C-HOG的设计有4个参量：the number of angular and radial bins(前者需要4个，后者需要2个), the radius of the central bin in pixels and the expansion factor for subsequent radii.

两种归一化：block normalization schemes & centre-surround normalization.

block normalization schemes：比较未归一化的向量和归一化的向量后发现，L1-norm与其他的方式有明显的区别，其对结果的影响很大。此外小量常数的选取对结果有一定影响，不过当结果范围较大时，其影响可以忽略。
centre-surround normalization：运用单个空间内和其周围的能量来归一化的效果非常不好，原因是这样就不再有重叠的模块，所以每个单元再最后识别器中只能被编译一次。最主要的单元肯定是包含了人物轮廓的单元，

HOG-ORIGINAL.jpg 查看 (42.7 KB) 潘宇腾, 2011-09-07 21:44