自2012年以(yǐ)来,随着欣顿(Hinton)、乐昆 (LeCun)和吴恩达(Andrew Ng)对深度学习(xí)的(de)研究,使其(qí)在机器学习(xí)方面(miàn)的应用取(qǔ)得了显(xiǎn)著成(chéng)就,深度学习(xí)成为计算机科学的一个新兴领域。谷歌、脸谱、百度(dù)、腾讯等互联网公司纷纷投入巨资研究(jiū)深度学习,并兴起了基于深度学习(xí)的创业(yè)大潮(cháo)。然而,对深(shēn)度学习原理的困惑。对其应用的质疑也一直存在。在(zài)ImageNet目标检测中,人脸识别率已(yǐ)达99.5%,甚至超越(yuè)人眼的识别准确率,在此情况下,深度(dù)学(xué)习何以为继?又(yòu)该如(rú)何(hé)提升(shēng)?深度学习是处于热(rè)潮的初始?还(hái)是强弩之末?是(shì)一直所向披靡?还是很(hěn)快走(zǒu)向终点?作为(wéi)沉寂了20余年的神经网络领域,深度(dù)学习到底还能走多远?
神经网络(luò)与人(rén)脑(nǎo)的区别:
目前,深度学习在(zài)几个主要领域都获得了突(tū)破(pò):在语音(yīn)识(shí)别领域,深(shēn)度学习(xí)用深层(céng)模型替(tì)换(huàn)声学模(mó)型中的混(hún)合高斯模型,错(cuò)误率降低了(le)30%;在图像识(shí)别领域(yù),通过构造(zào)深(shēn)度卷积神经网络,将Top5错误率(lǜ)由26%降低至15%,又通过加大加深网(wǎng)络结构,进一步(bù)降低到(dào)11%;在自然语言处理领域,深度学习与(yǔ)其他方法水平相当,但免去了(le)繁(fán)琐的特征提(tí)取步骤。深(shēn)度学(xué)习是最接近(jìn)人类大(dà)脑的智能(néng)学习方法。
然而,与(yǔ)人脑相比,深(shēn)度学习目前在处(chù)理问题(tí)的能力上(shàng)还有不小的差距。当(dāng)前的深层网络在结(jié)构、功能、机(jī)制上都与人脑有较(jiào)大(dà)差距。从(cóng)结构上看,人脑(nǎo)有1000亿左右的神经元,这些神经元形成(chéng)了(le)1000到(dào)1万层的连(lián)接。而目前的深层网络通常(cháng)只有几百万个神经元,层数不超(chāo)过10,因此深层网络(luò)的规模远小(xiǎo)于人脑(nǎo)。另外,人脑是(shì)高(gāo)度结构化的,每一个部分(fèn)执行一个特定的功能,而且不同部分之间会协作,但深层网(wǎng)络在高度结(jié)构化方面目前还没有太多考虑。从功能上看,人脑善于处理(lǐ)各(gè)种问题,能(néng)够完成复杂任务。而当前深层网络的功能单一,基本是用(yòng)处理识别(bié)与分类问题(tí),没有综合处理问题的能力。从机制(zhì)上看,人脑(nǎo)的(de)数据存储与处理机制更为(wéi)复杂。人脑中的数据以知(zhī)识的形式组织起来,存(cún)储与应用密切相联,而当前计算机的数据存储方(fāng)式远远没有做(zuò)到(dào)这一点。人(rén)的感知器官并非感知(zhī)器,而是依靠大(dà)量的反馈搜寻有用的信息(xī)。另外人脑具有知识反馈机制,在深层网络中并未得到(dào)体现。而研究者的研究对(duì)象从一个函数变成了一(yī)个过程,难度骤(zhòu)然增大。
人脑的学习(xí)能力(lì)是通过先天进(jìn)化和后天学习(xí)得到的。先天进化(huà)可以理解为物种在长时间学习(xí)大量知识后(hòu)演变得(dé)到的(de)结(jié)果,后天学习包括对新接触知识(shí)的总结(jié)与(yǔ)演(yǎn)绎。而深度学习的网络结(jié)构是由人来设计的,网络参(cān)数是从训练(liàn)数据集(jí)中学习(xí)得到的。就数据(jù)量而言,人脑在先天进化与后天学习中所接触的(de)数据量远大于深层网络。
深度学(xué)习的局(jú)限性:
随着大数据的出现和大规模(mó)计算能力的提升,深度学(xué)习已然成为非(fēi)常(cháng)活(huó)跃的计算机(jī)研究领域。然而,在不断的研(yán)究中,深度学习的局限性也日益突显。
缺乏理论支持,对于深(shēn)度学习架构,存(cún)在(zài)一系列的疑问:卷积神经网(wǎng)络为什么是一个好(hǎo)的架(jià)构?深度学习的结(jié)构需(xū)要多少隐层?在一个大的卷积网络中到底需(xū)要多少有效的参数?虽然深度学习在很多(duō)实际应用中(zhōng)取得了突出的成效,但(dàn)这些(xiē)问题一直困扰着深度学习的研究(jiū)人员(yuán)。深度学习方法常常(cháng)被视为黑盒,大多数的结论都由经验而非理(lǐ)论来确认。不论是为了构建更好的深度(dù)学习(xí)系统,还是为了提供更好的解释(shì),深度学(xué)习都需要更(gèng)完(wán)善的理论支撑。
缺(quē)乏(fá)短时记忆能力(lì),人类(lèi)大脑有惊人的记忆功能,不仅能够识别个体案例,也能分析(xī)输入信息之(zhī)间的整体逻辑序列。这些信(xìn)息序列包(bāo)含有大量的内(nèi)容,信息彼此间有(yǒu)着复杂的时间关联性。例如在(zài)自(zì)然语言理解(jiě)的许多任务(如问答系统)中需要一种方法来临时存储分(fèn)隔(gé)的片段,正确解(jiě)释视频中的事(shì)件,并能(néng)够回答有关问题,需要记住视频中发生(shēng)事件的抽象表示(shì)。而包括(kuò)递归神经(jīng)网络(luò)在内的深度学(xué)习系统(tǒng),却不能很好(hǎo)地存储(chǔ)多个时(shí)间序列上(shàng)的记忆。近年来,研究人员(yuán)提出了(le)在神经网络中增加独立的记忆模块,如(rú)长短时记忆(Long Short-Term Memory,LSTM)、记(jì)忆网络(memory networks)、神经图(tú)灵机(jī)(neural Turing machines)和Stack增强递归神(shén)经网络(luò)(stack-augmented recurrent neural network),虽然有一定的成果,但仍需(xū)扩(kuò)展更(gèng)多新思(sī)路。
缺乏执行无监(jiān)督学(xué)习的(de)能力,无监督学习在(zài)人类和(hé)动(dòng)物(wù)的学(xué)习中占据主导地位,我们通过(guò)观察能够发现世界的内在结构,而不是被告知每一(yī)个客观(guān)事物的名称(chēng)。虽然无监(jiān)督学习(xí)可以帮助(zhù)特定的深度网络进行“预(yù)训练(liàn)”,但(dàn)最终能(néng)够应用于实践的绝大部分深度学习方法都是纯粹的有监(jiān)督学习(xí)。因为无(wú)标记(jì)数(shù)据远远多(duō)于标记数据,因此无监督学(xué)习具有巨大的研究潜力。找(zhǎo)到合适(shì)的无监督学习算法,对深度学(xué)习的发(fā)展至关重要。

深度学(xué)习未来的发展方向:
深度学习(xí)在人(rén)脸(liǎn)识别、目标检(jiǎn)测等(děng)领域都(dōu)取得了很大进展,识别(bié)准确(què)率甚至超过人类(lèi),但(dàn)这并不代表(biǎo)深(shēn)度学习(xí)的发展已走到尽头。以(yǐ)下几个方(fāng)面的研究对深度学习的继(jì)续发展具有重大意(yì)义。
1. 开发深度学(xué)习(xí)的演绎能力:人类在学习的过程中,除了对已有知识的归(guī)纳总结,还伴(bàn)随(suí)对知识的(de)演绎推理(lǐ),如(rú)对(duì)定理(lǐ)进行推论等。当前(qián)的深度学习(xí)还停留在对数据的归纳上。如果深层网络对数据的归纳能力达到饱和,提升其(qí)演绎推(tuī)理能力将是深度学习(xí)继续发展的(de)突(tū)破口。
2. 提(tí)升综合处理问题的能力:当(dāng)前的(de)深度学习主要(yào)用于处理单一问题,但一套模(mó)型(xíng)往往不能通用于多(duō)个(gè)问(wèn)题(tí),如人脸识别、语音识(shí)别等。但人脑可以实现这一功(gōng)能,比(bǐ)如视觉皮层可以辅助听觉等。因此,提升(shēng)深层网络综(zōng)合处理问题的能(néng)力对于人工智(zhì)能的实现具有重要意义。
3. 减少对硬件的依赖:随着(zhe)GPU及高性能并行计算的发展,硬件设(shè)备的数(shù)据处理能力得到巨大提升。但(dàn)过度依赖硬件会(huì)造成(chéng)深度学(xué)习偏离人的思维,而(ér)陷入计算机思维。与计算机(jī)相(xiàng)比,人脑的计算速(sù)度极慢,但功耗极低,且能够(gòu)完成(chéng)复杂的任(rèn)务。学(xué)习(xí)人脑,使用相对弱的硬件来实现强大的功能,是使深度学习向人工智能发展的关键。
综上所(suǒ)述,深度学(xué)习通过建立类(lèi)似(sì)于人(rén)脑的分层模型(xíng)结构,对输入数(shù)据逐层提取从(cóng)底层到高层的(de)特征,从而建立从底层信(xìn)号到高层语义的(de)映(yìng)射关系。但在规模(mó)、功能、机制、设计(jì)等方面,当前(qián)深度学习所采用的深层网络与人脑存(cún)在很大差异。虽然深度学习(xí)在很多方面取得了巨大成(chéng)功,但仍存在一些缺陷。当前的深度学习框(kuàng)架缺乏理论(lùn)支撑,不能很好地存储时间(jiān)序列上的(de)记忆,缺少对(duì)无标记数据的学习能力。这些(xiē)缺陷限制了深(shēn)度学习的进一步发展。深(shēn)度(dù)学(xué)习作为计算机科学的新(xīn)兴领(lǐng)域(yù),还有很长的(de)路要走。深度学(xué)习掀起了机器(qì)学习的新浪潮,在语音图像(xiàng)的(de)智能识(shí)别(bié)与理(lǐ)解等方面取得了很大进展(zhǎn)。但深度学习还面临(lín)着一系列难题,在对知识的演(yǎn)绎能力、对问题的综(zōng)合处理能力等方(fāng)面还(hái)有很大的(de)提升空间(jiān),在深层网(wǎng)络的设计规则上(shàng)也需要(yào)进一步探索(suǒ)。