蹒跚学步的孩(hái)童,学(xué)会了(le)跌倒后如何站起来,慢慢感受平衡(héng),最终学会用双腿走路(lù),这个过(guò)程很大程度上(shàng)是通过反(fǎn)复试验学会的。但是,波士顿动力公司(sī)的Spot和Atlas等机器人并不是这样的(de),他们被(bèi)精心编码处理特定的任(rèn)务,结果(guǒ)可能会(huì)非常好,但是在软件编程没有设计到情况下,机(jī)器人可能就会无所适从。据国(guó)外媒(méi)体1月6日(rì)消息,来自(zì)中国浙江大学(xué)和英国爱丁堡大学的一(yī)个(gè)联合研究小组称,他(tā)们开发出了更好的方式来解(jiě)决这样的问(wèn)题。
在(zài)最近发表在《科(kē)学机器人》杂志(zhì)上的一篇论(lùn)文中,联(lián)合研究小(xiǎo)组详(xiáng)细介绍了一种人工智能强化(huà)方法(fǎ),他们用这种方法让自己的机器狗“绝影”学会如何走路和自主从(cóng)跌(diē)倒中恢复过来(lái)。该团队表示(shì),他们首先在模拟环境中(zhōng)通过软件训练虚拟机器(qì)人。这(zhè)个(gè)软件由八名经过培(péi)训以掌握特定技能(néng)的(de)AI“专家(jiā)”组成,例如,一个“专家(jiā)”训练机(jī)器(qì)人流利的(de)行走,而另一(yī)个训(xùn)练机器人(rén)如何保持平衡。每次虚拟机器人成(chéng)功(gōng)完(wán)成一项任务时,团(tuán)队都(dōu)会以虚拟积分奖励它。这个过(guò)程听起来(lái)与Google最近用来(lái)训练MuZero算法的方(fāng)法相同。
当八种专项(xiàng)技能培训完成后,研究团(tuán)队开发(fā)了一个额外的神经网络,有些类似于(yú)运(yùn)动队伍中的总教练管理,它将管理其(qí)他八种专项技(jì)能,在特定的情况下,还会根据(jù)需要(yào)对(duì)一(yī)种或者多种技(jì)能进行优先排序。最(zuì)后,研究团队会将(jiāng)软件移植到(dào)原型(xíng)机器人上进行实际(jì)测(cè)试(shì)。
他们研(yán)究(jiū)的目标是创造更加(jiā)智能化的机器人(rén),这种机(jī)器人能够在行进中更加灵(líng)活地根据(jù)实际情况自适应选择(zé)技能,以便于处理(lǐ)未经(jīng)训(xùn)练过的任务内容。目前,该团队(duì)面临的挑战之一是如何减(jiǎn)少(shǎo)模拟(nǐ)机器人训练(liàn)所需要的计算力,这样研究才更(gèng)具有实用性价值。