Project

General

Profile

图像识别

相关资料

  • 图像是深度学习最早尝试的应用领域。早在1989年,Yann LeCun (现纽约大学教授) 和他的同事们就发表了卷积神经网络(Convolution Neural Networks, 简称CNN)的工作。CNN是一种带有卷积结构的深度神经网络,通常至少有两个非线性可训练的卷积层,两个非线性的固定卷积层(又叫Pooling Laye)和一个全连接层,一共至少5个隐含层。CNN的结构受到著名的Hubel-Wiesel生物视觉模型的启发,尤其是模拟视觉皮层V1和V2层中Simple Cell和Complex Cell的行为。在很长时间里,CNN虽然在小规模的问题上,如手写数字,取得过当时世界最好结果,但一直没有取得巨大成功。这主要原因是,CNN在大规模图像上效果不好,比如像素很多的自然图片内容理解,所以没有得到计算机视觉领域的足够重视。这个情况一直持续到2012年10月,Geoffrey Hinton和他的两个学生在著名的ImageNet问题上用更深的CNN取得世界最好结果,使得图像识别大踏步前进。在Hinton的模型里,输入就是图像的像素,没有用到任何的人工特征。
    这个惊人的结果为什么在之前没有发生? 原因当然包括算法的提升,比如dropout等防止过拟合技术,但最重要的是,GPU带来的计算能力提升和更多的训练数据。百度在2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别等问题,并推出相应的桌面和移动搜索产品,2013年,深度学习模型被成功应用于一般图片的识别和理解。从百度的经验来看,深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率。可以很有把握地说,从现在开始,深度学习将取代“人工特征+机器学习”的方法而逐渐成为主流图像识别方法。
  • 深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。

解决疑问:

  • CNN(卷积神经网络)其实是已经很早提出来的理论,也得到了在字母识别数字识别上的好的运用,letnet-5。
  • DNN(深度神经网络)可近似为深度卷积神经网络(CNNs),将卷积神经网络的深度大大加深。
  • ANN(人工神经网络)又被称为浅层神经网络(shallow neural network,也可能使用了CNN的方法。

总结

  • 当下研究的热门是运用卷积神经网络的方法设计更深层次更复杂的结构用于机器学习。Hinton在12年能使错误率大大降低的关键不仅仅是增加了卷积神经网络的深度,也在于改进了卷积神经网络的训练方式(ReLU+Dropout)。
  • 所以我怀疑06年hinton发表的文章 A fast learning algorithm for deep belief nets 主要是提供了训练深度卷积神经网络的方式,也就是能使其达到收敛。之前的人都只是在浅层神经网络运用了卷积的方法。