一(yī)条狗,即(jí)使是之前从未见(jiàn)过(guò)的品种(zhǒng)、颜色,我们也能一眼认出(chū)它(tā)。
对(duì)周遭任何变化(huà)的感(gǎn)知(zhī)是人类与生俱来的能力。
但是人工智能(néng)系统就不一样(yàng)了(le),即使级别(bié)SOTA,能完成(chéng)无数人类完成不了(le)的任务,但也有很多对人类(lèi)来说(shuō)轻而易举的(de)事情,它却(què)搞不(bú)定(dìng),比(bǐ)如,让金毛换个角度:正面、侧面、前面、后面,人(rén)工智能可能会识别地很挣扎。
深度学习模型擅长(zhǎng)解释像素和标签之间的统计模式,但却很难(nán)通过(guò)许多潜(qián)在的自然变化正确识别对象(xiàng)。
那是扫雪机在路上扫雪吗?还是一辆校(xiào)车侧翻了?
上图是(shì)根据M.A. Alcorn等人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘制,显示了一个深度(dù)神经(jīng)网络将(jiāng)一辆公共(gòng)汽车错误地(dì)分类为扫雪车。
人(rén)类(lèi)可以瞬间(jiān)知道,但是颜(yán)色、大小(xiǎo)和(hé)透(tòu)视等因素(sù)使情况复杂化,增加了人(rén)工智能模型(xíng)的预测难(nán)度。
Facebook AI一直在探索如何更好地捕捉自然变(biàn)化,在这方面,传统(tǒng)解决方案有很(hěn)大局限性,即所谓的解纠缠(disentanglement)。我们最近还提出了等(děng)变化(huà)移位算子(equivariant shift operator)的概念,这是一种(zhǒng)替(tì)代解的概念(niàn)证(zhèng)明(míng),可以帮助(zhù)模型理解通过模拟最常见的变换,物体可能会(huì)发生怎样的变化。
目前(qián),Facebook AI在这方面(miàn)的工作主要是理论性的(de),但是对于(yú)深度(dù)学习模型(xíng),特别是(shì)计算机视觉潜力巨(jù)大(dà): 增加了(le)可解释性和准确性(xìng),即(jí)使在(zài)小数据集上训练也有更好(hǎo)的性能(néng),并提(tí)高了泛化(huà)能力。Facebook AI希望这(zhè)些(xiē)贡献能够使计算机视觉(jiào)向前推进一步,更好(hǎo)地理(lǐ)解视(shì)觉世界的复杂性。
现行方法的局限
目(mù)前的解(jiě)纠(jiū)缠方法试图通过将(jiāng)模(mó)型中的每个因子编(biān)码到模(mó)型内(nèi)部(bù)表示的一个单独的子空间中,来学习模型中对象(xiàng)的基本变换。
例如,解纠缠可能将狗图像的数据集编(biān)码为姿(zī)态(tài)、颜(yán)色和品种子空(kōng)间。
这种方(fāng)法在识别刚(gāng)性数据集(jí)的(de)变化因素方面很有优(yōu)势(shì),比如一个(gè)单(dān)一(yī)的 MNIST 数字(zì)或者一个单(dān)一的对象,比(bǐ)如一把椅子,但是我们已经发现,在多个分类中,解纠缠的表现(xiàn)很差。
想象一下多个旋转(zhuǎn)的(de)形状,比如三角形和正方形(xíng)。解纠缠模(mó)型试(shì)图将物(wù)体的形状和方向这两个变化因素分离成两个变化因(yīn)素。
下图说明了传(chuán)统的(de)解纠缠是无法在多个形(xíng)状(zhuàng)的数据集中孤立旋转的。我(wǒ)们期(qī)望(wàng)高亮显示的形(xíng)状会旋转,但是由于解纠缠失败,形状仍然是(shì)固定的。
解纠缠还带来了拓扑缺陷,这是一系列众(zhòng)多变换中(zhōng)的另一(yī)个问题。拓扑缺(quē)陷违背连续性——深度学习模(mó)型的本质属性。如果没(méi)有连续性,深度学(xué)习模型可能很难(nán)有(yǒu)效地学(xué)习数据中的模式。
想象一下正三角(jiǎo)形的旋转。旋转120度的正三角形与原(yuán)来的三角形无法区分(fèn),导(dǎo)致在方向(xiàng)空间中有相同的表示。然(rán)而,通过(guò)在三角形的一个角(jiǎo)上加一个无穷小的点,表示(shì)变得可辨别,违反了连续性。附近(jìn)的图像映射到相距较远的图(tú)像。Facebook AI的研究还表明,拓扑缺(quē)陷出现在(zài)非对称形状和许多其他常见的(de)变换中。
利用等变化算子揭(jiē)示变化因子
有一个数学(xué)分支「群论」可以教我们应用等变(biàn)化算子的很多知(zhī)识(shí)。它表(biǎo)明,一个直观(guān)的方式来理解变化(huà)因素是(shì)将(jiāng)他们模拟为一组(zǔ)转换。例如,一(yī)个三角形的旋转有一个组的结(jié)构: 90度旋(xuán)转和30度旋转结合起来产生(shēng)120度旋转(zhuǎn)。
Facebook AI利用这些(xiē)想法(fǎ)来识别(bié)传统解(jiě)纠缠的缺点(diǎn),并(bìng)确定如何训练等变化算子来解纠缠(chán)。我们提出了一(yī)个等变化算(suàn)子,称为移位算子。这是(shì)一(yī)个(gè)矩(jǔ)阵(zhèn),其块体模(mó)仿了常见变换的组结构--旋转、平移(yí)和重缩放。然后在原始图像和它们的转换上训练一个人工智能模型。
这样就会发现,即(jí)使在包含多个类的数据集(jí)中(zhōng),移(yí)位算(suàn)子也能(néng)成(chéng)功地(dì)学习变换--这正是传(chuán)统解纠缠经常失败(bài)的条件。