蹒跚(shān)学(xué)步的孩童,学(xué)会(huì)了跌倒后如何站起来(lái),慢慢感受平衡,最终(zhōng)学会用双腿走路(lù),这个过程很大程度上是通过反(fǎn)复试验学会的(de)。但(dàn)是,波士顿(dùn)动(dòng)力公司的Spot和Atlas等机器人并不(bú)是这样的(de),他(tā)们被精心编码处(chù)理特定(dìng)的任务,结果(guǒ)可能(néng)会非常(cháng)好(hǎo),但是(shì)在软件编(biān)程(chéng)没有设(shè)计到情况下,机(jī)器人可能(néng)就会无(wú)所适从。据(jù)国外媒体1月6日消息,来(lái)自中国浙江(jiāng)大(dà)学和英国爱丁堡大学的(de)一个联合研究小组称,他们开发(fā)出了更好(hǎo)的方式(shì)来解决这样的问题(tí)。
在最近发表在《科学机器人(rén)》杂志上的一篇(piān)论文中(zhōng),联合研究小组详细介绍了一种人工(gōng)智能强化方(fāng)法,他们用这种方法让自(zì)己的机器狗(gǒu)“绝(jué)影”学会如何走路和自主从跌倒中恢复过来。该团队表示(shì),他们首先在模拟环(huán)境中通过软件训练虚拟机器人(rén)。这个软件由八名经过培(péi)训以掌(zhǎng)握特定技能的AI“专家(jiā)”组成,例(lì)如,一个“专(zhuān)家”训练机器人(rén)流(liú)利的行走,而另一(yī)个训练机器人如何保持平衡。每(měi)次虚拟机器(qì)人(rén)成功完成一(yī)项任务时(shí),团队都会以虚(xū)拟积(jī)分奖励它。这个过程听起来与(yǔ)Google最(zuì)近用来训(xùn)练MuZero算(suàn)法(fǎ)的(de)方法相同。
当八种专项技(jì)能培训(xùn)完(wán)成后,研究团队开发了一个额(é)外的神经(jīng)网络(luò),有些类似于运动(dòng)队伍中的总教练管理,它(tā)将管理其他八种专项技能,在(zài)特(tè)定的情况下,还会(huì)根据(jù)需(xū)要对一种或者多种(zhǒng)技(jì)能进行优(yōu)先排(pái)序(xù)。最后,研究团队会(huì)将(jiāng)软件移植到原型(xíng)机(jī)器人上进行实际(jì)测试。
他们研究的目标(biāo)是创(chuàng)造更加(jiā)智能化的机器人,这种机器(qì)人(rén)能够在行进中更加灵活地根据实际情况自适应选择技能,以(yǐ)便于处理未经训(xùn)练过(guò)的任(rèn)务内容。目前,该团队面临的挑战之一(yī)是(shì)如何减少模拟机器人训练所需要的计算力,这(zhè)样研究才更具有实用性价值。