中国航空(kōng)报讯(xùn):在从工厂(chǎng)到手术室的多种工作场(chǎng)所里,不同大小和形(xíng)状的机器人(rén)变得越来越多。许多机器人都是通过机器学习的方(fāng)法,在(zài)反复试验和不断(duàn)犯(fàn)错中习(xí)得新(xīn)技能的。最近,有一种新方法(fǎ)可以帮助这些技能在不同形状的机器(qì)人之间进(jìn)行迁移(yí),以免每次(cì)都要从(cóng)头开(kāi)始学(xué)习任务。在去年夏天举办的国际机(jī)器学习大会(ICML)上,美国卡(kǎ)内基梅隆大学的计算(suàn)机科学家刘星昱展示(shì)了这种新方法,他是这(zhè)项(xiàng)研究的第一作(zuò)者。“从实际应(yīng)用(yòng)的角(jiǎo)度来说,这项研究非常重要(yào),”他说,“对于基础研究而言,我认(rèn)为这也(yě)是一(yī)个(gè)值得研究的前(qián)沿问题。”
假设你有一个末端类似于人手的机械臂。你已经训练它的5个指(zhǐ)头学会拿起一把锤子(zǐ),以及将钉子钉入(rù)木板。但现(xiàn)在,你希望一种“二指夹爪(zhǎo)”也能完成同样(yàng)的(de)任(rèn)务。为此,科学家创造(zào)出了(le)一(yī)连串的虚拟机器人来模拟两(liǎng)种机械臂(bì)之(zhī)间的形态:它会从最初类似于人手的(de)结构缓(huǎn)慢地转变(biàn)成(chéng)一种(zhǒng)新的形状。每一个中(zhōng)间机器人都会通过(guò)练(liàn)习指定的任(rèn)务(wù),以此调整(zhěng)对应的人工神经网络(luò)(一种计算模型),直到达到阈值成功率。紧(jǐn)接着(zhe),这个系(xì)统的控制器代码就会被传递给这条(tiáo)“链”上(shàng)的下一个中间机器(qì)人。
为(wéi)了(le)完成(chéng)从(cóng)虚拟机(jī)器人到目标机器人的转变,研究(jiū)团队创(chuàng)建(jiàn)出(chū)了(le)一种(zhǒng)共享式树(shù)状运动链(kinematic tree)。其中(zhōng),一组代表肢体部分的节点被一些(xiē)代表关节的(de)链接器(link)连接了起来。为了将锤击(jī)技能(néng)迁移到二指夹爪,这支团队(duì)将原本结构(gòu)中代表三个(gè)指头的节点的大小和权重都调整为零(líng)。对于每一个中间机器人(rén)来说(shuō),相应指头的大小和权重(chóng)就会逐渐变小。
与(yǔ)此同时,控(kòng)制它们的(de)神经(jīng)网(wǎng)络也必(bì)须学会作出调整。此外,研究(jiū)人员还调(diào)整了训练方法,以便使中间(jiān)机器人之间的变化不会太大也不会太小。
这(zhè)个由卡内基梅隆大(dà)学设计(jì)的系统(tǒng)叫作REvolveR(RobotEvolve Robot)。它的表现(xiàn)优于(yú)机(jī)器学习的基本方(fāng)法,比如从头开始训练(liàn)目标(biāo)机(jī)器人的方法。在(zài)锤击任务(wù)和其他训练任(rèn)务(包括移动一(yī)个(gè)球和打(dǎ)开一扇门)中,为了使机器人夹(jiá)爪达到90%的成功(gōng)率,此前最好的替(tì)代性训练(liàn)方法需要比REvolveR多执行29%~108%的试验次(cì)数,尽(jìn)管这些替(tì)代性方法在训练过程中提供了更多的信息(xī)反馈。接下来,研究人员还使用其他类型的虚拟机器人测试他(tā)们(men)的训练方法(fǎ)。例如,利用这种方法为一个(gè)蜘蛛状机器人(rén)添加新的腿(tuǐ)部结构(gòu),并让它重新学会(huì)爬(pá)行。
维(wéi)塔(tǎ)利·库林(未(wèi)参与这项研(yán)究)是(shì)英(yīng)国牛津(jīn)大学(xué)的计算机科学(xué)家(jiā),主(zhǔ)要研(yán)究机器人和机器学习,他表示(shì):“我认为这是一种非常巧妙的方法(fǎ)。”尽管(guǎn)通过将艰巨的挑战分解成一(yī)系列小的部分,从(cóng)而使AI能够在不同的任务之间实现技(jì)能迁移的方法并不新鲜,“但在一个机器(qì)人与另(lìng)一个机器人之间进行内插,以此实现技能迁移,这(zhè)是我(wǒ)以前从(cóng)未想(xiǎng)到的。”